Системы ранжирования на основе алгоритмов: просмотр, индексирование и ранжирование
Практикам по оптимизации полезно знать, как работают просмотр,
индексирование и ранжирование, поскольку это помогает определить,
какие действия необходимо предпринять для достижения своих целей.
В этом посте в основном описываются способы работы Google.
Поисковые движки имеют несколько основных целей и функций. В их число
входят следующие:
-
просмотр и индексирование миллиардов документов
(страниц и файлов), доступных в Интернете;
-
ответы на запросы пользователей (с выдачей списков
релевантных страниц).
Просмотр и индексирование
Представьте себе, что Интернет — это сеть станций в подземке большого города. Каждая
станция — уникальный документ (обычно web-страница, но иногда это
файл формата PDF, JPEG или другого формата). Поисковому движку нужен способ
"проползти" по всему городу и найти по дороге все станции, поэтому он использует
самый лучший из имеющихся маршрутов: ссылки между web-страницами
(см. рисунок ниже).
На рисунке такие станции, как Embankment,
Picadilly Circus и Moorgate,
являются страницами, а соединяющие их линии
представляют ссылки с этих страниц на другие страницы
Интернета. Как только Google (нарисован внизу) доберется
до Embankment, он увидит ссылки на Charing Cross,
Westminster и Temple и сможет получить доступ к любой из этих страниц.
Структура ссылок сети Интернета связывает между собой все страницы,
которые были сделаны
публичными в результате установления ссылок на них. При помощи ссылок
автоматизированные
роботы поисковых движков, называемые "пауками" (именно поэтому они
изображены в таком
виде), могут добраться до многих
миллиардов взаимосвязанных документов.
Когда поисковые движки находят эти страницы, их следующая задача состоит в
том, чтобы сделать анализ кода этих страниц и сохранить элементы этих страниц
в огромных массивах жестких дисков (чтобы при необходимости их можно было
извлечь для ответа на запрос). Чтобы справиться с этой монументальной задачей по
хранению миллиардов страниц (к которым можно получить доступ в доли секунды), поисковые движки создают огромные центры обработки данных.
Одна из ключевых концепций создания поискового движка — это решить, откуда начать поиск по сети. Несмотря на то, что теоретически начать можно из многих
мест, в идеале следует начинать с доверенного набора web-сайтов. Фактором оценки доверия к вашему сайту можно считать расстояние (в количестве кликов) между
вашим сайтом и наиболее доверенными сайтами.
Извлечение и рейтинги
В большинстве случаев поиск ответов начинается так, как показано на рис. ниже.
Следующий шаг этого поиска начинается тогда, когда поисковый движок возвращает список релевантных страниц Интернета (в том порядке, который должен с
наибольшей вероятностью удовлетворить пользователя). Этот процесс требует от
поискового движка "перелопачивания" имеющихся у него миллиардов документов
и выполнения двух задач:
-
возвращения только тех результатов, которые относятся к запросу пользователя;
-
ранжирования результатов по их важности (с учетом доверия и авторитета данного сайта). Именно на релевантность и важность должен влиять процесс поисковой оптимизации.
Релевантность — это степень, в которой содержимое возвращенного в результате поиска документа совпадает с намерением и терминами запроса пользователя.
Релевантность документа увеличивается, если термины или фраза запроса пользователя встречаются в нем несколько раз и содержатся в заголовке страницы или в
заголовках документа (или если ссылки на эту страницу ведут с релевантных страниц и используют релевантный якорный текст).
Релевантность можно считать первым шагом к "участию в игре". Если вы не релевантны запросу, то движок поиска не рассматривает вас на предмет включения в
результаты поиска по данному запросу.
Важность (или популярность) — это относительная важность, измеряемая по
цитированию (когда одна работа ссылается на другую, как это часто бывает в научных и деловых документах) данного документа (соответствующего запросу пользователя). Популярность данного документа увеличивается с каждым новым ссылающимся на него документом. В научном мире эта концепция известна под названием "анализ цитирования".
Представьте себе, что важность — это способ определения той конкретной
страницы (из группы одинаково релевантных страниц), которая будет показана
первой (второй, третьей и т. д.) в результатах поиска. Важными составляющими
этого процесса являются относительный авторитет сайта и то доверие, которое
движок поиска имеет к нему. Конечно, процесс оценки несколько сложнее и не все
страницы одинаково релевантны. В конечном итоге, порядок ранжирования определяется комбинацией релевантности и важности.
Популярность и релевантность определяются не вручную (для этого потребовалось бы привлечь все население Земли). Движки создают математические уравнения (алгоритмы), которые "отделяют зерна от плевел", а затем ранжируют зерна по
качеству. Эти алгоритмы состоят из сотен компонентов. В области поискового маркетинга они часто называются факторами ранжирования или алгоритмическими
критериями ранжирования.