Как поисковик выбирает лучшую страницу среди тех, где ответ одного качества?

Андрей Буйлов

Автор статьи
Андрей Буйлов

Подробнее об авторе

В статье поговорим о том, как поисковая система поступит, если есть две страницы с одинакового качества ответами на запрос. Подписчик спрашивает: «Как ПС определяет качество ответа? Если есть запрос и если есть 2 сайта с разными ответами и они оба правильные?»

Как поисковая система выбирает лучший ответ

На самом деле это очень сложный вопрос, настолько сложный, что даже сотрудники часто не знают, почему именно этот результат выбрала их поисковая система как лучший, а вот этот был несколько хуже, а вот этот совсем плохой. Потому что отрабатывают алгоритмы машинного обучения и, в общем, выбор происходит, можно сказать, в таком сильно «автоматическом режиме». Сейчас большую часть вкладов в определение, какая страница какого сайта лучше, решается поисковой системой благодаря машинному обучению.

У каждой поисковой системы своя формула определения релевантности, где много всего намешано, и сейчас это уже не просто написано человеком, а, как уже сказал, большую часть вклада добавляет машинное обучение. По крайней мере в Яндексе уже большую часть вклада, а в Google сложно сказать какую, но тоже большую. И качество ответа определяется сначала этим алгоритмом.

Из тех факторов, о которых мы знаем, что они имеют большое влияние, можно назвать текстовую релевантность, то есть и там, и там есть вхождение запросов. Для начала должны быть просто где-то вхождения. Дальше смотрится в какие зоны, сколько раз и как это соотносится с контентом страницы, с другими документами в интернете и так далее. Иными словами, многое учитывается с точки зрения ключей в текстах. И это сейчас не так просто, не так линейно, как это было раньше, когда можно было посчитать тошноту, плотность еще что-то и наделать нужное количество вхождений. Сейчас всё сложнее, но и это тоже используется.

Используются также факторы конкретного документа, конкретной страницы, используется группа факторов всего домена целиком. И уже после того, как рассчитана релевантность, могут быть применены постфильтры — группа фильтров, которые снижают релевантность конкретных страниц, если там что-то произошло. То есть какие-то звезды сошлись и какая-то часть алгоритма решила, что документ не должен быть в ТОПе, даже если релевантность высокая. И много-много всего — как хостовых факторов, так и документных, запросных.

В общем, многое предварительно просчитывается, а после этого расчета, после всех отработок просто фильтров, постфильтров и так далее какие-то документы встают на первое, второе, третье место. И дальше вступают в игру поведенческие факторы.

Влияние «правильности» ответа и поведенческих факторов

Поисковая система смотрит на то, как ведет себя пользователь: на какой документ чаще кликает, на какой реже, на какой заходит и возвращается обратно на выдачу, на каком остался, не вернулся на выдачу и не стал задавть уточняющее запросы в этой же поисковой системе. И здесь уже смотрит тот документ, который больше понравился пользователю. Например, страница была на пятом месте и поднимается на первое, а те, что показали чуть худшие поведенческие даже при изначальной релевантности, при том, что изначально по соответствию запросу были сильнее, они снижаются.

И здесь то, насколько ответ на запрос правильный, фактор, в общем-то, вторичный. То есть поисковая система не знает, какой ответ правильный. Она предполагает, какой может быть наиболее лучшим по совокупности факторов — текстовых, ссылочных, коммерческих и так далее, по срабатыванию фильтров и прочее — а потом проверяет эту свою гипотезу через поведение пользователей.

Конечно, здесь мы оставляем за скобками истории с манипуляциями и теми, и другими группами факторов. Иными словами, в общем случае, когда нет злоупотреблений со стороны владельцев сайтов, со стороны сеошников, это всё работает примерно так.

То есть правильность результата поисковая система определить не может, но она может посмотреть насколько соответствует страница совокупности разных факторов, как они сыграли в данном случае, а потом как пользователь на всё это отреагировал. И если всё подтвердилось, то результаты остаются примерно такими, если не подтвердилось, то те результаты, которые набрали лучшее поведение, начинают занимать лучшие позиции. И в общем, насколько этот результат и ответ правильный, здесь играет вторичную роль. То есть если результат будет совсем некорректный, то пользователь на него будет реагировать плохо и такой ответ будет уходить вниз. Таким образом, история с правильностью (а точнее полезностью) для пользователя определяется с помощью этих двух больших ступеней.



Остались вопросы? Задавайте! Мы обязательно ответим.
Последние статьи