Как массово удалить дубли страниц из индекса?

Андрей Буйлов

Автор статьи
Андрей Буйлов

Подробнее об авторе

Как организовать и автоматизировать перенос контента при переезде на новую CMS?


Нет никакой секретной технологии: просто просите программиста, и он переносит контент. Весь секрет — нужен будет нормальный штатный или фрилансер программист.

В зависимости от CMS функционал экспорта и импорта может быть чуть лучше или хуже, но в целом всё равно нужен технический специалист, который будет всё это делать.

Как массово удалять страницы-дубли из индекса?


Каким образом можно массово удалять дубли страниц из индекса, а также нужно ли это делать и будут ли проблемы? Давайте разберемся.

Допустим, у вас есть дубли страниц, Яндекс их заметил, и в панели Вебмастера видно, что страницы вылетели со статусом «дубль». Что тут можно сделать?

Во-первых, составить список таких страниц:

  • просканировать сайт любым краулером (Screaming Frog SEO Spider, Netpeak Spider и т.д.);
  • выявить, какие страницы друг друга дублируют;
  • выбрать из них основную;
  • остальные каким-либо образом закрыть от поисковых систем.

Как можно закрыть:

1. Через robots.txt, через директиву disallow в нём. Единственное, для этого способа у вас должен быть некоторый общий признак в адресах этих страниц. Например, все дубли — это страницы для печати. Раньше модно было ставить кнопку «распечатать эту страницу», и её адрес был вида «адрес/print». Вы берёте такие и саму маску урла делаете в disallow.

Тогда все подобные страницы разом переходят в разряд не рекомендованных к сканированию, а в случае Яндекса — и к индексации. Они начинают вылетать из индекса Яндекса, и пусть не всегда вылетают, но в основном перестают учитываться Google — в индексе остаются, но не ранжируются. Это не самый, наверное, лучший вариант, потому что запрет через robots не мешает Гуглу держать страницы в индексе, и негативный эффект дублей остаётся. Для Яндекса — нормальный способ, для этого поисковика robots, как правило, способствует вылету страниц из индекса.

2. Через метатег "robots" content="noindex" в блоке <head> веб-страницы. Такая страница и в Яндексе, и в Google не будет сканироваться и индексироваться. Вероятность того, что оба поисковика на этот способ будут адекватно реагировать, выше, чем с первым вариантом — хотя и не 100%, но близко к тому.

3. Через HTTP-заголовок, где тоже делается noindex. Этот метод, по опыту, лучше всего учитывается поисковыми системами, и вероятность того, что страницы вылетят из индекса, при его использовании выше.

Как ускорить процесс удаления из индекса


Не так уж много способов. Как правило:

  • через переобход: в Яндексе через панель Вебмастера, в Гугле через Google Search Console;
  • либо теми же способами, которыми делаются действия на индексацию, можно пустить и на переиндексацию — но, как правило, это не очень эффективно.

То есть на индексацию эти способы работают неплохо, а на переучёт страниц — не очень. Поэтому самый нормальный способ — через панель Вебмастера. Всё равно после первых добавлений остальные страницы со временем тоже выбросит из индекса.

Однако прямо таких замечательных способов по-быстрому все эти страницы удалить, к сожалению, нет. Но поисковикам можете об этом сказать, к тому же обычно не очень много времени занимает процесс.



Остались вопросы? Задавайте! Мы обязательно ответим.
Последние статьи