Почему поисковые системы заходят на старые страницы сайта

Андрей Буйлов

Автор статьи
Андрей Буйлов

Подробнее об авторе

В статье разберемся, почему и каким образом поисковые системы заходят на старые страницы и является это проблемой или нет. Подписчик спрашивает: «Если в логах хостера вижу, что Яндекс ищет страницы, которых на сайте давно нет. Значит ли это, что Яндекс перебирает адреса из своей внутренней базы ранее сохраненных URL или он приходит по реальным внешним ссылкам?»

Почему поисковая система заходит на удаленные страницы

Может быть и так, и так. Чаще всего поисковая система проверяет старые страницы, которые были довольно ценными для поиска. И даже после того, как они стали выдавить 404 ответ сервера, поисковик, во-первых, их не сразу удаляет, и они могут неделями и даже месяцами там висеть и как-то ранжироваться, как-то собирать трафик, а если не ранжироваться, то просто оставаться в индексе. А во-вторых, после того, как эти страницы все же вылетают из индекса, то поисковики все равно на них какое-то время заходят. И обычно довольно долгое время, могут многие месяцы, иногда даже больше года заходить, просто все реже и реже, и проверить, а вдруг страница ожила.

Это, как правило, относится к документам, которые:

  • имеют или имели много внутренних ссылок, то есть стояли достаточно высоко внутри иерархии сайта, попадали в меню и т. д;
  • имеют внешнием какие-то ссылки, с других сайтов. Особенно, если ссылки сильные или их много;
  • или имели много поискового трафика и внутрисайтового. 

  • Грубо говоря, по совокупности этих элементов страницы являются ценными для пользователя, а соответственно и для поиска. И он старается максимально долго на такие заглядывать даже после их удаления.

    Если же это просто рядовые страницы — ничем не примечательные, — то, как правило, они довольно быстро перестанут ранжироваться и вылетят из индекса, но все равно поисковик будет на них заходить. Просто не так часто, не так много, не так долго, но будет проверять, а вдруг эта страница поменяла свой статус.

    Как можно исправить ситуацию и нужно ли это делать

    В общем это не проблема, что Яндекс, Google, другие поисковики заходят на такие страницы. Если вы боитесь, что заметная часть вашего краулингового бюджета (то есть лимита на переобход вашего сайта) уйдет на вот эти уже давно умершие страницы, либо беспокоитесь из-за нагрузок на сервер — возможно, он у вас слабый и падает от этой истории. То тогда можете попробовать намекнуть поисковой системе, что пора бы уже прекратить ходить на такие страницы. Для этого можно, например, выставить побольше маркеров, что она не восстановится. То есть не только 404 ответ сервера, но и в заголовке страницы сделать robots noindex, в HTTP-заголовке noindex. Наверное, можете чуть ли не запоролить эту страницу, к примеру через Apache это можно делать, но это уже совсем не нужная мера. А вот те два варианта выше можно использовать.

    Или можно вместо 404 выдавать 410 — иногда это помогает как раз «стукнуть по рука» поисковику, чтобы перестал ходить на эту страницу. Но не всегда срабатывает. Это вроде как тоже директива, но по факту рекомендация, как и всё, что мы указываем в robots.txt. В половине случаев после всех вышеперечисленных мер поиск все равно будет на эти страницы заходить, но, как правило, несколько меньше и реже.

    В остальном это ничем вам не грозит — ходит и ходит. Если это не съедает значительную часть вашего краулоингового бюджета, не убивает ваш сервер, то можно игнорировать, что мы в большинстве случаев и делаем.



    Остались вопросы? Задавайте! Мы обязательно ответим.
    Последние статьи