Системы ранжирования на основе алгоритмов: просмотр, индексирование и ранжирование

Практикам по оптимизации полезно знать, как работают просмотр, индексирование и ранжирование, поскольку это помогает определить, какие действия необходимо предпринять для достижения своих целей. В этом посте в основном описываются способы работы Google.

Поисковые движки имеют несколько основных целей и функций. В их число входят следующие:

  • просмотр и индексирование миллиардов документов (страниц и файлов), доступных в Интернете;
  • ответы на запросы пользователей (с выдачей списков релевантных страниц).

Просмотр и индексирование

Представьте себе, что Интернет — это сеть станций в подземке большого города. Каждая станция — уникальный документ (обычно web-страница, но иногда это файл формата PDF, JPEG или другого формата). Поисковому движку нужен способ "проползти" по всему городу и найти по дороге все станции, поэтому он использует самый лучший из имеющихся маршрутов: ссылки между web-страницами (см. рисунок ниже).

blog

На рисунке такие станции, как Embankment, Picadilly Circus и Moorgate, являются страницами, а соединяющие их линии представляют ссылки с этих страниц на другие страницы Интернета. Как только Google (нарисован внизу) доберется до Embankment, он увидит ссылки на Charing Cross, Westminster и Temple и сможет получить доступ к любой из этих страниц.

Структура ссылок сети Интернета связывает между собой все страницы, которые были сделаны публичными в результате установления ссылок на них. При помощи ссылок автоматизированные роботы поисковых движков, называемые "пауками" (именно поэтому они изображены в таком виде), могут добраться до многих миллиардов взаимосвязанных документов.

Когда поисковые движки находят эти страницы, их следующая задача состоит в том, чтобы сделать анализ кода этих страниц и сохранить элементы этих страниц в огромных массивах жестких дисков (чтобы при необходимости их можно было извлечь для ответа на запрос). Чтобы справиться с этой монументальной задачей по хранению миллиардов страниц (к которым можно получить доступ в доли секунды), поисковые движки создают огромные центры обработки данных.

Одна из ключевых концепций создания поискового движка — это решить, откуда начать поиск по сети. Несмотря на то, что теоретически начать можно из многих мест, в идеале следует начинать с доверенного набора web-сайтов. Фактором оценки доверия к вашему сайту можно считать расстояние (в количестве кликов) между вашим сайтом и наиболее доверенными сайтами.

Извлечение и рейтинги

В большинстве случаев поиск ответов начинается так, как показано на рис. ниже.

blog

Следующий шаг этого поиска начинается тогда, когда поисковый движок возвращает список релевантных страниц Интернета (в том порядке, который должен с наибольшей вероятностью удовлетворить пользователя). Этот процесс требует от поискового движка "перелопачивания" имеющихся у него миллиардов документов и выполнения двух задач:

  • возвращения только тех результатов, которые относятся к запросу пользователя;
  • ранжирования результатов по их важности (с учетом доверия и авторитета данного сайта). Именно на релевантность и важность должен влиять процесс поисковой оптимизации.

Релевантность — это степень, в которой содержимое возвращенного в результате поиска документа совпадает с намерением и терминами запроса пользователя. Релевантность документа увеличивается, если термины или фраза запроса пользователя встречаются в нем несколько раз и содержатся в заголовке страницы или в заголовках документа (или если ссылки на эту страницу ведут с релевантных страниц и используют релевантный якорный текст).

Релевантность можно считать первым шагом к "участию в игре". Если вы не релевантны запросу, то движок поиска не рассматривает вас на предмет включения в результаты поиска по данному запросу.

Важность (или популярность) — это относительная важность, измеряемая по цитированию (когда одна работа ссылается на другую, как это часто бывает в научных и деловых документах) данного документа (соответствующего запросу пользователя). Популярность данного документа увеличивается с каждым новым ссылающимся на него документом. В научном мире эта концепция известна под названием "анализ цитирования".

Представьте себе, что важность — это способ определения той конкретной страницы (из группы одинаково релевантных страниц), которая будет показана первой (второй, третьей и т. д.) в результатах поиска. Важными составляющими этого процесса являются относительный авторитет сайта и то доверие, которое движок поиска имеет к нему. Конечно, процесс оценки несколько сложнее и не все страницы одинаково релевантны. В конечном итоге, порядок ранжирования определяется комбинацией релевантности и важности.

Популярность и релевантность определяются не вручную (для этого потребовалось бы привлечь все население Земли). Движки создают математические уравнения (алгоритмы), которые "отделяют зерна от плевел", а затем ранжируют зерна по качеству. Эти алгоритмы состоят из сотен компонентов. В области поискового маркетинга они часто называются факторами ранжирования или алгоритмическими критериями ранжирования.

Тег : SEO

Категория :

SEO