Уфа
Как массово удалить дубли страниц из индекса?
Как организовать и автоматизировать перенос контента при переезде на новую CMS?
Нет никакой секретной технологии: просто просите программиста, и он переносит контент. Весь секрет — нужен будет нормальный штатный или фрилансер программист.
В зависимости от CMS функционал экспорта и импорта может быть чуть лучше или хуже, но в целом всё равно нужен технический специалист, который будет всё это делать.
Как массово удалять страницы-дубли из индекса?
Каким образом можно массово удалять дубли страниц из индекса, а также нужно ли это делать и будут ли проблемы? Давайте разберемся.
Допустим, у вас есть дубли страниц, Яндекс их заметил, и в панели Вебмастера видно, что страницы вылетели со статусом «дубль». Что тут можно сделать?
Во-первых, составить список таких страниц:
- просканировать сайт любым краулером (Screaming Frog SEO Spider, Netpeak Spider и т.д.);
- выявить, какие страницы друг друга дублируют;
- выбрать из них основную;
- остальные каким-либо образом закрыть от поисковых систем.
Как можно закрыть:
1. Через robots.txt, через директиву disallow в нём. Единственное, для этого способа у вас должен быть некоторый общий признак в адресах этих страниц. Например, все дубли — это страницы для печати. Раньше модно было ставить кнопку «распечатать эту страницу», и её адрес был вида «адрес/print». Вы берёте такие и саму маску урла делаете в disallow.
Тогда все подобные страницы разом переходят в разряд не рекомендованных к сканированию, а в случае Яндекса — и к индексации. Они начинают вылетать из индекса Яндекса, и пусть не всегда вылетают, но в основном перестают учитываться Google — в индексе остаются, но не ранжируются. Это не самый, наверное, лучший вариант, потому что запрет через robots не мешает Гуглу держать страницы в индексе, и негативный эффект дублей остаётся. Для Яндекса — нормальный способ, для этого поисковика robots, как правило, способствует вылету страниц из индекса.
2. Через метатег "robots" content="noindex" в блоке <head> веб-страницы. Такая страница и в Яндексе, и в Google не будет сканироваться и индексироваться. Вероятность того, что оба поисковика на этот способ будут адекватно реагировать, выше, чем с первым вариантом — хотя и не 100%, но близко к тому.
3. Через HTTP-заголовок, где тоже делается noindex. Этот метод, по опыту, лучше всего учитывается поисковыми системами, и вероятность того, что страницы вылетят из индекса, при его использовании выше.
Как ускорить процесс удаления из индекса
Не так уж много способов. Как правило:
- через переобход: в Яндексе через панель Вебмастера, в Гугле через Google Search Console;
- либо теми же способами, которыми делаются действия на индексацию, можно пустить и на переиндексацию — но, как правило, это не очень эффективно.
То есть на индексацию эти способы работают неплохо, а на переучёт страниц — не очень. Поэтому самый нормальный способ — через панель Вебмастера. Всё равно после первых добавлений остальные страницы со временем тоже выбросит из индекса.
Однако прямо таких замечательных способов по-быстрому все эти страницы удалить, к сожалению, нет. Но поисковикам можете об этом сказать, к тому же обычно не очень много времени занимает процесс.