Страницы в кэше. Как искать информацию в веб-кэше Google (Инструкция). Пробуем скачать файл страницы напрямую с сервера

18.08.2015 09:03

Слово кэш можно услышать довольно часто в разных сферах ИТ, сегодня же мы будем разбираться с кэшем страниц сайта .

Сам термин означает сохранение поисковыми системами копий страниц от определенного числа, как правило от последнего посещения роботом сайта. Вы можете в любой момент найти и использовать копию (кэш) страницы для своих потребностей.

Это довольно-таки хорошо, что поисковики сохраняют на некоторое время страницы на своих серверах и дают нам шанс воспользоваться этим. На хранение кэшированных страниц выделяется много ресурсов и денег, но свою помощь они окупают, так как нам все равно необходимо заходить на их поисковые системы.

Для чего нужен кэш (копии) страниц.

Бывают разные ситуации при работе с сайтами.

Как всегда работы у Вас много, а времени мало и внимательности на все не хватает. Бывают случаи, когда ведутся работы с сайтом, предположим изменение дизайна или мелкие правки по шаблону, тексту. И в один момент понимаете, что где-то допустили ошибку и пропал текст или исчезла часть дизайна сайта. Ну бывает такое и каждый наверное с таким имел дело.

На данный момент, бэкапов у Вас нету, у хостинга тоже и не помните как выглядело все изначально. В этом случае помочь сможет копия страницы, которую можно найти в кэше как Яндекса, так и в Гугла, посмотреть как было изначально и поправить.

Или второй случай , Вы изменили немного текст, для того, что бы повысить релевантность страницы и хотите посмотреть обновилась страница на которой внесли изменения или нет. Проверить можно с помощью страницы, которая находится в кэше, для этого ищем данную страницу и смотрим на результат.

Также бывает ситуация, когда сайт не доступен, по той или иной причине, а вам необходимо на него зайти. В этом случае может помочь копия страницы которую можно найти ниже перечисленными способами.

В общем я думаю, стало ясно, что пользоваться кэшем страниц нужно и полезно.

Как найти страницу из кэша Гугла и Яндекса.

Для начала давайте рассмотрим как искать в поисковой системе Google.

Способ №1. Вы заходите на страницу поисковой системы и прописываете адрес страницы которую хотите найти и посмотреть копию. Я возьму для примера наш сайт:

loleknbolek.com

Прописываем название страницы, сайта в поисковую строку, нажимаем “Enter” и видим поисковую выдачу , где отображается страница которую вы искали. Смотрим на сниппет и там де УРЛ (адрес) с права от него есть не большая стрелочка вниз, нажимаем на нее и у нас появляется пункт “Сохранённая копия”. Нажимаем на него и нас перекинет на копию страницу от определенного числа.

Способ №2. Способ можно назвать полуавтоматическим, так как необходимо скопировать адрес, что находится ниже и вместо site.ru подставить домен своего сайта. В результате Вы получите туже самую копию страницы.

http://webcache.googleusercontent.com/search?q=cache:site.ru

Способ №3. Можно просматривать кэш с помощью плагинов для браузеров или онлайн сервисов. Я использую для этих целей RDS bar .

Здесь можно посмотреть когда последний раз заходил робот на ресурс, соответственно и копия страницы будет за это число.

Теперь рассмотрим как искать кэш в поисковой системе Яндекс.

Способ №1. Способ такой же как и для системы Google. Заходим на страницу поисковой системы и прописываете адрес страницы которую хотите найти и посмотреть копию. Снова возьму для примера наш сайт и пропишу:

url:loleknbolek.com

Прописываем название страницы, сайта в поисковую строку, нажимаем “Enter” и видим поисковую выдачу, где отображается страница которую вы искали. Смотрим на сниппет и там де УРЛ (адрес) с права от него есть не большая стрелочка вниз, нажимаем на нее и у нас появляется пункт “Сохранённая копия”. Нажимаем на него и нас перекинет на копию страницу от определенного числа.

Способ №2. Используем дополнительные плагины для браузеров. Читайте немного выше всё так же как и для Google.

Если страница не находится в индексе поисковой системы, то большая вероятность того, что ее нету и в кэше. Если страница была ранее в индексе, то возможно она сохранилась в нем.

Как очистить кэш в Яндексе и Гугле.

Бывает необходимо убрать страницу из кэша Яндекса или Гугла или вообще скрыть страницу которая ранее индексировалась и кешировалась от посторонних глаз. Для этого необходимо дождаться пока поисковая система сама выкинет данную страницу естественным путем.

Можно запретить индексировать страницу в файле Robots.txt или использовать тег:

Только смотрите аккуратно с тегом, не поставьте его в общий шаблон сайта ибо будет запрет на кэширование всего сайта. Для этих целей лучше всего используйте дополнительные плагины.

Сервисы и трюки, с которыми найдётся ВСЁ.

Зачем это нужно: с утра мельком прочитали статью, решили вечером ознакомиться внимательнее, а ее на сайте нет? Несколько лет назад ходили на полезный сайт, сегодня вспомнили, а на этом же домене ничего не осталось? Это бывало с каждым из нас. Но есть выход.

Всё, что попадает в интернет, сохраняется там навсегда. Если какая-то информация размещена в интернете хотя бы пару дней, велика вероятность, что она перешла в собственность коллективного разума. И вы сможете до неё достучаться.

Поговорим о простых и общедоступных способах найти сайты и страницы, которые по каким-то причинам были удалены.

1. Кэш Google, который всё помнит

Google специально сохраняет тексты всех веб-страниц, чтобы люди могли их просмотреть в случае недоступности сайта. Для просмотра версии страницы из кэша Google надо в адресной строке набрать:

http://webcache.googleusercontent.com/search?q=cache:http://www.сайт/

Где http://www.сайт/ надо заменить на адрес искомого сайта.

2. Web-archive, в котором вся история интернета

6. Archive.is, для собственного кэша

Если вам нужно сохранить какую-то веб-страницу, то это можно сделать на archive.is без регистрации и смс. Еще там есть глобальный поиск по всем версиям страниц, когда-либо сохраненных пользователями сервиса..

7. Кэши других поисковиков, мало ли

Если Google, Baidu и Yandeх не успели сохранить ничего толкового, но копия страницы очень нужна, то идем на seacrhenginelist.com , перебираем поисковики и надеемся на лучшее (чтобы какой-нибудь бот посетил сайт в нужное время).

8. Кэш браузера, когда ничего не помогает

Страницу целиком таким образом не посмотришь, но картинки и скрипты с некоторых сайтов определенное время хранятся на вашем компьютере. Их можно использовать для поиска информации. К примеру, по картинке из инструкции можно найти аналогичную на другом сайте. Кратко о подходе к просмотру файлов кэша в разных браузерах:

Safari

Ищем файлы в папке ~/Library/Caches/Safari .

Google Chrome

В адресной строке набираем chrome://cache

Opera

В адресной строке набираем opera://cache

Mozilla Firefox

Набираем в адресной строке about:cache и находим на ней путь к каталогу с файлами кеша.

9. Пробуем скачать файл страницы напрямую с сервера

Идем на whoishostingthis.com и узнаем адрес сервера, на котором располагается или располагался сайт:

После этого открываем терминал и с помощью команды curl пытаемся скачать нужную страницу:

Что делать, если вообще ничего не помогло

Если ни один из способов не дал результатов, а найти удаленную страницу вам позарез как надо, то остается только выйти на владельца сайта и вытрясти из него заветную инфу. Для начала можно пробить контакты, связанные с сайтом на emailhunter.com :

А о сборе информации про людей читайте в статьях и .

Даже у исчезнувшей из сети страницы может оказаться копия, сохранённая в кеше поискового сервиса.

Как посмотреть кеш Google

В первую очередь, с помощью меню "Cached":

Кроме того, можно воспользоваться специальным адресом:

Http://webcache.googleusercontent.com/search?q= cache:url_страницы_без_"http://"

Следующий запрос возвращает кешированную версию главной страницы StackOverflow.com:

Http://webcache.googleusercontent.com/search?q= cache:stackoverflow.com

В результате получим "снимок" страницы, сделанный Google на определённую дату. Над содержимым страницы помещается предупреждающий текст, вроде следующего:

This is Google" s cache of http://stackoverflow.com/. It is a snapshot of the page as it appeared on 28 Apr 2016 11 :33:38 GMT. The current page could have changed in the meantime.

Если вы хотите посмотреть текстовую версию страницы, то есть страницу без изображений, флеш-анимации и т.п., то в конце запроса добавьте &strip=1 . В нашем примере получится следующее:

Webcache.googleusercontent.com/search?q= cache:stackoverflow.com& strip = 1

Можно также воспользоваться сервисами cachedview.com или www.cachedpages.com . Вообще говоря, кроме поиска по кешу Google они дают доступ и к другим сервисам веб-архивирования, но, как правило, устойчиво работает только Google.

Кэш Яндекс

В Яндексе кэшированную версию страницы можно получить, воспользовавшись меню "Сохранённая копия" в результатах поисковой выдачи.

Веб-архив

У кешей поисковых сервисов есть одно общее ограничение: посмотреть можно лишь самую последнюю по времени из сохранённых версий страницы, а вовсе не историю изменений страницы. Этот пробел восполняет веб-архив The Internet Archive Wayback Machine . Это старейший веб-архив, сохраняющий копии сайтов, начиная с 1996 года. Делает он это в автоматическом режиме, в определённые промежутки времени, что позволяет просмотреть историю изменений страницы.

Internet Archive Wayback Machine поддерживает несколько API, в частности JSON API, что позволяет разработчикам создавать приложения, извлекающие данные из этого архива.

Сервисы и трюки, с которыми найдётся ВСЁ.

Зачем это нужно: с утра мельком прочитали статью, решили вечером ознакомиться внимательнее, а ее на сайте нет? Несколько лет назад ходили на полезный сайт, сегодня вспомнили, а на этом же домене ничего не осталось? Это бывало с каждым из нас. Но есть выход.

Всё, что попадает в интернет, сохраняется там навсегда. Если какая-то информация размещена в интернете хотя бы пару дней, велика вероятность, что она перешла в собственность коллективного разума. И вы сможете до неё достучаться.

Поговорим о простых и общедоступных способах найти сайты и страницы, которые по каким-то причинам были удалены.

1. Кэш Google, который всё помнит

Google специально сохраняет тексты всех веб-страниц, чтобы люди могли их просмотреть в случае недоступности сайта. Для просмотра версии страницы из кеша Google надо в адресной строке набрать:

http://webcache.googleusercontent.com/search?q=cache:http://www.iphones.ru/

Где http://www.iphones.ru/ надо заменить на адрес искомого сайта.

2. Web-archive, в котором вся история интернета

6. Archive.is, для собственного кэша

Если вам нужно сохранить какую-то веб-страницу, то это можно сделать на archive.is без регистрации и смс. Еще там есть глобальный поиск по всем версиям страниц, когда-либо сохраненных пользователями сервиса. Там есть даже несколько сохраненных копий iPhones.ru.

7. Кэши других поисковиков, мало ли

Если Google, Baidu и Yandeх не успели сохранить ничего толкового, но копия страницы очень нужна, то идем на seacrhenginelist.com , перебираем поисковики и надеемся на лучшее (чтобы какой-нибудь бот посетил сайт в нужное время).

8. Кэш браузера, когда ничего не помогает

Страницу целиком таким образом не посмотришь, но картинки и скрипты с некоторых сайтов определенное время хранятся на вашем компьютере. Их можно использовать для поиска информации. К примеру, по картинке из инструкции можно найти аналогичную на другом сайте. Кратко о подходе к просмотру файлов кэша в разных браузерах:

Safari

Ищем файлы в папке ~/Library/Caches/Safari .

Google Chrome

В адресной строке набираем chrome://cache

Opera

В адресной строке набираем opera://cache

Mozilla Firefox

Набираем в адресной строке about:cache и находим на ней путь к каталогу с файлами кеша.

Что делать, если вообще ничего не помогло

Если ни один из способов не дал результатов, а найти удаленную страницу вам позарез как надо, то остается только выйти на владельца сайта и вытрясти из него заветную инфу. Для начала можно пробить контакты, связанные с сайтом на

Возможно, сайт был подвергнут блокировке из-за нарушения закона, а может этот сайт просто пока что не отвечает на запрос. Как бы ни была причина, иногда вам нужно взять какую информацию с сайта, который совсем недавно перестал работать или был взломан и лишился всего контента. В большинстве случаев удача может повернуться к вам лицом. Вы можете просмотреть кэшированную версию этого сайта в Google?

Кэшированные сайты: что это?

Для того чтобы быстро отыскать все эти сайты, Google и другие поисковые системы сохраняют внутреннюю копии этих сайтов на серверах. Эти сохраненные файлы и называются кэшем, и Google позволяет их просматривать, если такая копия существует. Раньше этот процесс был очень понятен – вам просто нужно было нажать ссылку, представленную под результатом, выданном в поиске. Сейчас все немного сложнее, но вам не стоит беспокоиться, так как кэшированные сайты по-прежнему существуют.

Смотрим кэш сайта в Гугл :

1. Попробуйте найти что-нибудь. В данном случае, мы будем искать по ключу «кеширование», и предположим, что в коем-то веке Wikipedia ушла в даун.

2. Наведите курсор мыши на результат поиска, но не кликайте.
3. Вы увидите, что рядом справа от результата появится стрелка вправо. Кликните по этой стрелке.
4. Теперь вы можете видеть миниатюру сайта. Вы также увидите ссылку Cached сверху от миниатюры. Можете кликать по этой ссылке.

Таким образом, вы будете перенаправлены к кэшированной версии сайта. И эта версия не обязательно будет содержать актуальные данные. Это просто копия сайта в том состоянии, в котором бот Google последний раз его сканировал, и на самом деле эта страница хранится на сервере Google, и поэтому ссылка будет начинаться с webcache.googleusercontent.com, а не с Wikipedia.org. Google также расскажет вам о том, насколько свежая эта копия.

Иногда бывает так, что на страницах отсутствуют изображения или фоны. Вы можете кликнуть по ссылке в верхней части страницы и увидеть текстовую версию сайта, который вы на данный момент читаете. Иногда это помогает найти необходимую вам информацию. Вы также можете кликнуть по ссылке, которая приведет вас к актуальной странице, если вам вдруг нужно будет сравнить две эти версии.

Если вам нужно найти определенный термин, вы можете воспользоваться сочетанием клавиш Ctrl+F, и просто отыскать его при помощи вашего браузера.

Сайты, которые не кэшируются

У большинства сайтов есть кэшированные копии, но бывают и исключения. Владельцы сайтов могут использовать файл robots.txt для того, чтобы попросить поисковую систему не индексировать сайт, либо удалять кэш. Иногда такое бывает, когда владелец хочет полностью удалить сайт, и не хочет, чтобы где-то появлялся его контент. Ведь существует довольно много сайтов с «черным» контентом или контентом, который не обязательно должен индексироваться (приватные форумы, информация о кредитных картах или сайты с платным доступом к контенту).

Вы можете проследить за тем, как изменялся сайт, воспользовавшись инструментом от Google под названием WebArchive , но функционал этого инструмента также может быть запрещен файлом robots.txt.