Sidor i cache. Hur man söker information i Googles webbcache (Instruktioner). Försöker ladda ner sidfilen direkt från servern

18.08.2015 09:03

Ordet cache kan höras ganska ofta inom olika områden av IT, men idag kommer vi att ta itu med webbplatsens cache.

Termen i sig innebär att sökmotorer sparar kopior av sidor från ett visst antal, vanligtvis från robotens senaste besök på webbplatsen. Du kan hitta och använda en kopia (cache) av sidan när som helst för dina behov.

Det är ganska bra att sökmotorer sparar sidor på sina servrar ett tag och ger oss en chans att dra nytta av detta. Mycket resurser och pengar tilldelas för att lagra cachade sidor, men de betalar för deras hjälp, eftersom vi fortfarande behöver gå till deras sökmotorer.

Varför behöver du en cache (kopior) av sidor?

Det finns olika situationer när man arbetar med webbplatser.

Som alltid har du mycket arbete, men lite tid och inte tillräckligt med uppmärksamhet för allt. Det finns tillfällen då arbete pågår på webbplatsen, anta att en designändring eller mindre redigeringar av mallen eller texten. Och vid ett tillfälle inser du att du gjorde ett misstag någonstans och texten försvann eller en del av webbplatsens design försvann. Nåväl, detta händer och alla har nog hanterat detta.

För tillfället har du inga säkerhetskopior, inte värdskapet heller, och du kommer inte ihåg hur allt såg ut från början. I det här fallet kan en kopia av sidan, som finns i cachen för både Yandex och Google, hjälpa till, se hur den var ursprungligen och korrigera den.

Eller andra fallet, Du har ändrat texten lite för att öka sidans relevans och vill se om sidan där du gjorde ändringarna har uppdaterats eller inte. Du kan kontrollera med en sida som finns i cachen för att göra detta, leta efter den här sidan och titta på resultatet.

Det finns också en situation när sidan inte är tillgänglig, av en eller annan anledning, och du måste gå till den. I det här fallet kan en kopia av sidan hjälpa, som kan hittas på följande sätt.

Generellt tycker jag att det har blivit tydligt att det är nödvändigt och användbart att använda en sidcache.

Hur man hittar en sida från Google och Yandex cache.

Låt oss först titta på hur man söker i Googles sökmotor.

Metod nr 1. Du går till sökmotorsidan och anger adressen till sidan du vill hitta och se en kopia av. Jag tar vår sida som ett exempel:

loleknbolek.com

Vi skriver in namnet på sidan eller sajten i sökfältet, trycker på "Enter" och ser sökresultaten, där sidan du letade efter visas. Vi tittar på utdraget och det finns en URL (adress) till höger om den med en liten nedåtpil, klicka på den så ser vi objektet "Sparad kopia". Klicka på den så flyttas vi till en kopia av sidan från ett visst datum.

Metod nr 2. Metoden kan kallas halvautomatisk, eftersom du måste kopiera adressen nedan och ersätta domänen på din webbplats istället för site.ru. Som ett resultat kommer du att få samma kopia av sidan.

http://webcache.googleusercontent.com/search?q=cache:site.ru

Metod nr 3. Du kan se cachen med hjälp av webbläsarplugins eller onlinetjänster. Jag använder RDS bar för dessa ändamål.

Här kan du se när roboten senast besökte resursen, och följaktligen kommer en kopia av sidan att vara för detta datum.

Låt oss nu titta på hur man söker efter en cache i Yandex sökmotor.

Metod nr 1. Metoden är densamma som för Google-systemet. Vi går till sökmotorsidan och anger adressen till sidan du vill hitta och se en kopia. Jag tar vår webbplats som exempel igen och skriver ner den:

url:loleknbolek.com

Vi skriver in namnet på sidan eller sajten i sökfältet, trycker på "Enter" och ser sökresultaten, där sidan du letade efter visas. Vi tittar på utdraget och det finns en URL (adress) till höger om den med en liten nedåtpil, klicka på den så ser vi objektet "Sparad kopia". Klicka på den så kommer vi att överföras till en kopia av sidan från ett visst datum.

Metod nr 2. Vi använder ytterligare webbläsarplugin. Läs lite ovan, allt är detsamma som för Google.

Om en sida inte finns i sökmotorindexet är det stor sannolikhet att den inte finns i cachen. Om sidan tidigare fanns i indexet kan den bevaras i den.

Hur man rensar cachen i Yandex och Google.

Det kan vara nödvändigt att ta bort en sida från Yandex eller Googles cache eller till och med dölja en sida som tidigare indexerats och cachelagrats från nyfikna ögon. För att göra detta måste du vänta tills sökmotorn själv kasserar den här sidan naturligt.

Du kan förhindra att sidan indexeras i Robots.txt-filen eller använda taggen:

Var bara försiktig med taggen, lägg den inte i den allmänna mallen för webbplatsen eftersom den kommer att förbjuda cachning av hela webbplatsen. För dessa ändamål är det bäst att använda ytterligare plugins.

Tjänster och knep som du kan hitta ALLT med.

Varför behövs detta: Läste du kort artikeln på morgonen och bestämde dig för att titta närmare på kvällen, men den finns inte på hemsidan? För några år sedan besökte du en användbar webbplats, idag kom du ihåg den, men det finns inget kvar på samma domän? Detta har hänt var och en av oss. Men det finns en väg ut.

Allt som går på Internet lagras där för alltid. Om viss information läggs ut på Internet under minst ett par dagar, är sannolikheten stor att den har blivit det kollektiva sinnets egendom. Och du kommer att kunna nå henne.

Låt oss prata om enkla och allmänt tillgängliga sätt att hitta webbplatser och sidor som har raderats av någon anledning.

1. Google cache som kommer ihåg allt

Google lagrar specifikt texten på alla webbsidor så att andra kan se dem om webbplatsen inte är tillgänglig. För att se versionen av sidan från Googles cache, skriv i adressfältet:

http://webcache.googleusercontent.com/search?q=cache:http://www.site/

Var http://www.site/ måste ersättas med adressen till webbplatsen du letar efter.

2. Webbarkiv, som innehåller hela Internets historia

6. Archive.is, för din egen cache

Om du behöver spara någon webbsida kan du göra detta på archive.is utan registrering och SMS. Det finns också en global sökning efter alla versioner av sidor som någonsin sparats av användare av tjänsten.

7. Cacher för andra sökmotorer, man vet aldrig

Om Google, Baidu och Yandex inte lyckades spara något vettigt, men det verkligen behövs en kopia av sidan, så går vi till seacrhenginelist.com, går igenom sökmotorerna och hoppas på det bästa (så att någon bot besöker sidan vid rätt tillfälle).

8. Webbläsarens cache när allt annat misslyckas

Du kan inte se hela sidan på det här sättet, men bilder och skript från vissa webbplatser lagras på din dator under en viss tid. De kan användas för att söka information. Om du till exempel använder en bild från instruktionerna kan du hitta en liknande på en annan webbplats. Kort om tillvägagångssättet för att visa cachefiler i olika webbläsare:

Safari

Letar efter filer i en mapp ~/Bibliotek/Cache/Safari.

Google Chrome

I adressfältet skriver vi chrome://cache

Opera

I adressfältet skriver vi opera://cache

Mozilla Firefox

Skriv i adressfältet about:cache och hitta sökvägen till katalogen med cachefilerna på den.

9. Försöker ladda ner sidfilen direkt från servern

Vi går till whoishostingthis.com och tar reda på adressen till servern där sajten är eller var belägen:

Efter det, öppna terminalen och använd kommandot ringla försöker ladda ner den önskade sidan:

Vad ska man göra om inget alls hjälper

Om ingen av metoderna gav resultat, och du desperat behöver hitta den raderade sidan, återstår bara att kontakta webbplatsägaren och skaka ut den värdefulla informationen från honom. Först kan du ta dig igenom kontakterna som är kopplade till webbplatsen på emailhunter.com:

Och om att samla information om människor, läs artiklarna och.

Även en sida som har försvunnit från Internet kan ha en kopia sparad i söktjänstens cache.

Hur man visar Google cache

Först och främst använder du menyn "Cachad":

Dessutom kan du använda en speciell adress:

Http://webcache.googleusercontent.com/search?q= cache:url_pages_without_"http://"

Följande fråga returnerar en cachad version av StackOverflow.com-hemsidan:

Http://webcache.googleusercontent.com/search?q= cache:stackoverflow.com

Som ett resultat får vi en "ögonblicksbild" av sidan tagen av Google på ett specifikt datum. Varningstext som följande placeras ovanför sidans innehåll:

Det här är Googles cache på http://stackoverflow.com/. Det är en ögonblicksbild av sidan som den såg ut den 28 april 2016 11:33:38 GMT. Den aktuella sidan kan ha ändrats under tiden.

Om du vill se textversionen av sidan, det vill säga sidan utan bilder, flash-animationer etc., lägg till &strip=1 i slutet av begäran. I vårt exempel får vi följande:

Webcache.googleusercontent.com/search?q= cache:stackoverflow.com& strip = 1

Du kan också använda tjänsterna cachedview.com eller www.cachedpages.com. Generellt sett ger de förutom Googles cachesökningar även tillgång till andra webbarkiveringstjänster, men som regel fungerar bara Google tillförlitligt.

Yandex cache

I Yandex kan en cachad version av en sida erhållas genom att använda menyn "Sparad kopia" i sökresultaten.

Webbarkiv

Söktjänstcacher har en gemensam begränsning: du kan bara se den senast sparade versionen av sidan och inte historiken över sidändringar. Webarkivet Internet Archive Wayback Machine fyller denna lucka. Detta är det äldsta webbarkivet, som bevarar kopior av webbplatser som går tillbaka till 1996. Den gör detta automatiskt, med vissa intervall, vilket gör att du kan se historiken för sidändringar.

Internet Archive Wayback Machine stöder flera API:er, framför allt JSON API, som tillåter utvecklare att skapa applikationer som hämtar data från detta arkiv.

Tjänster och knep som du kan hitta ALLT med.

Varför behövs detta: Läste du kort artikeln på morgonen och bestämde dig för att titta närmare på kvällen, men den finns inte på hemsidan? För några år sedan besökte du en användbar webbplats, idag kom du ihåg den, men det finns inget kvar på samma domän? Detta har hänt var och en av oss. Men det finns en väg ut.

Allt som går på Internet lagras där för alltid. Om viss information läggs ut på Internet under minst ett par dagar, är sannolikheten stor att den har blivit det kollektiva sinnets egendom. Och du kommer att kunna nå henne.

Låt oss prata om enkla och allmänt tillgängliga sätt att hitta webbplatser och sidor som har raderats av någon anledning.

1. Google cache som kommer ihåg allt

Google lagrar specifikt texten på alla webbsidor så att andra kan se dem om webbplatsen inte är tillgänglig. För att se versionen av sidan från Googles cache, skriv i adressfältet:

http://webcache.googleusercontent.com/search?q=cache:http://www.iphones.ru/

Var http://www.iphones.ru/ måste ersättas med adressen till webbplatsen du letar efter.

2. Webbarkiv, som innehåller hela Internets historia

6. Archive.is, för din egen cache

Om du behöver spara någon webbsida kan du göra detta på archive.is utan registrering och SMS. Det finns också en global sökning efter alla versioner av sidor som någonsin sparats av användare av tjänsten. Det finns till och med flera sparade kopior av iPhones.ru.

7. Cacher för andra sökmotorer, man vet aldrig

Om Google, Baidu och Yandex inte lyckades spara något vettigt, men det verkligen behövs en kopia av sidan, så går vi till seacrhenginelist.com, går igenom sökmotorerna och hoppas på det bästa (så att någon bot besöker sidan vid rätt tillfälle).

8. Webbläsarens cache när allt annat misslyckas

Du kan inte se hela sidan på det här sättet, men bilder och skript från vissa webbplatser lagras på din dator under en viss tid. De kan användas för att söka information. Om du till exempel använder en bild från instruktionerna kan du hitta en liknande på en annan webbplats. Kort om tillvägagångssättet för att visa cachefiler i olika webbläsare:

Safari

Letar efter filer i en mapp ~/Bibliotek/Cache/Safari.

Google Chrome

I adressfältet skriver vi chrome://cache

Opera

I adressfältet skriver vi opera://cache

Mozilla Firefox

Skriv i adressfältet about:cache och hitta sökvägen till katalogen med cachefilerna på den.

Vad ska man göra om inget alls hjälper

Om ingen av metoderna gav resultat, och du desperat behöver hitta den raderade sidan, återstår bara att kontakta webbplatsägaren och skaka ut den värdefulla informationen från honom. Till att börja med kan du ta dig igenom kontakterna som är kopplade till sajten på

Kanske har sidan blockerats på grund av ett brott mot lagen, eller så svarar den här sidan helt enkelt inte på begäran ännu. Oavsett orsaken behöver du ibland ta lite information från en webbplats som nyligen slutade fungera eller som hackades och förlorade allt innehåll. I de flesta fall kan turen vända ansiktet mot dig. Kan du se en cachad version av den här webbplatsen på Google?

Cachade webbplatser: vad är det?

För att snabbt hitta alla dessa webbplatser lagrar Google och andra sökmotorer interna kopior av dessa webbplatser på servrar. Dessa sparade filer kallas en cache, och Google låter dig se dem om en sådan kopia finns. Tidigare var den här processen väldigt tydlig - du var bara tvungen att klicka på länken under sökresultatet. Saker och ting är lite mer komplicerade nu, men du behöver inte oroa dig eftersom cachade webbplatser fortfarande finns.

Vi tittar på webbplatsens cache i Google:

1. Försök hitta något. I det här fallet kommer vi att söka efter nyckeln "cache" och anta att Wikipedia gick ner någon gång under århundradet.

2. Håll musen över sökresultatet, men klicka inte.
3. Du kommer att se en högerpil till höger om resultatet. Klicka på den här pilen.
4. Nu kan du se webbplatsens miniatyrbild. Du kommer också att se en Cachad länk överst på miniatyrbilden. Du kan klicka på denna länk.

På så sätt kommer du att omdirigeras till den cachade versionen av webbplatsen. Och den här versionen kommer inte nödvändigtvis att innehålla de senaste uppgifterna. Detta är helt enkelt en kopia av webbplatsen i det tillstånd där Google-boten senast genomsökte den, och den här sidan är faktiskt lagrad på en Google-server, och därför kommer länken att starta från webcache.googleusercontent.com, inte Wikipedia.org. Google kommer också att berätta hur ny kopian är.

Ibland händer det att sidor saknar bilder eller bakgrunder. Du kan klicka på länken högst upp på sidan och se en textversion av webbplatsen du läser just nu. Ibland hjälper detta dig att hitta den information du behöver. Du kan också klicka på en länk som tar dig till den aktuella sidan om du någonsin behöver jämföra de två versionerna.

Om du behöver hitta en specifik term kan du använda kortkommandot Ctrl+F och helt enkelt söka efter det med din webbläsare.

Webbplatser som inte är cachade

De flesta webbplatser har cachade kopior, men det finns undantag. Webbplatsägare kan använda robots.txt-filen för att be sökmotorn att inte indexera webbplatsen eller ta bort cachen. Ibland händer detta när ägaren vill ta bort webbplatsen helt och inte vill att dess innehåll ska visas någonstans. Det finns trots allt ganska många sajter med "svart" innehåll eller innehåll som inte nödvändigtvis behöver indexeras (privata forum, kreditkortsinformation eller sajter med betald tillgång till innehåll).

Du kan se hur din webbplats har förändrats med hjälp av ett verktyg från Google som heter WebArchive, men det här verktygets funktionalitet kan också blockeras av robots.txt.