Основные факторы, влияющие на релевантность

Сергей Людкевич предлагает нас свой взгляд на особенности ссылочного ранжирования

12 февраля 2004 года
351

Примерный алгоритм определения релевантности документа запросу

Довольно часто, особенно от людей, недавно занявшихся поисковой оптимизацией, приходится слышать просьбу раскрыть "волшебную формулу", с помощью которой можно добиться хороших позиций в поисковых системах. Как частный случай можно привести также вопрос о плотности ключевых слов на странице (с точностью до сотых долей процента), необходимый для попадания на первые строчки выдачи. Сразу же хочу предупредить вас: таких формул и магических цифр нет.

Не правы и те, кто считает алгоритмы поисковых систем абсолютно недоступными "простым смертным". Да, действительно, эти алгоритмы никогда не будут раскрыты во всех тонкостях, потому как слишком много желающих делать "идеальные" странички и занимать первые места в поисковиках, зачастую ухудшая тем самым качество поиска, т. е. выдаваемой пользователю информации.

Однако основные принципы работы алгоритмов ранжирования документов все же известны, и прежде чем начать рассказывать о каждом из факторов, оказывающем влияние на релевантность документов запросам, мне хотелось бы ознакомить вас с обобщенной формулой, аппроксимирующей формулы ранжирования, используемые четверкой наиболее популярных в Рунете поисковых машин (Яндекс, Рамблер, Апорт и Google). Повторяю, что это не есть конкретная формула, используемая в поисковых машинах, это лишь сильно укрупненная формула, приближенно описывающая процесс определения релевантности документа запросу. Вот она:

Rа(x)=(mTа(x)+pLа(x)) F(PRa),

где

  • Rа(x) - итоговое соответствие документа а запросу x
  • Tа(x) - релевантность текста (кода) документа а запросу x,
  • Lа(x) - релевантность текста ссылок с других документов на документ а запросу x,
  • PRа - показатель авторитетности страницы а, константа относительно х,
  • F(PRа) - монотонно неубывающая функция, причем F(0)=1, можно допустить, что F(PRа) = (1+qPRа),
  • m, p, q - некие коэффициенты.

Конечно же, эта формула дает очень общее представление об алгоритмах ранжирования документов в результатах поиска и даже может вызвать недоуменный вопрос - "почему же, если все поисковики пользуются подобным алгоритмом, результаты в них зачастую сильно различаются?" Как говорится, "дело в деталях". Любой из этих показателей является функцией от других, которые могут учитываться или нет поисковой системой, причем каждый из этих показателей имеет свой "вес", а точнее коэффициент, различный для каждого конкретного поисковика. Также влияние могут оказывать собственные ресурсы поисковых систем, прежде всего их каталоги.

Обо всем этом мы и будем говорить далее, а сейчас хочу обратить внимание лишь на то, что итоговое положение сайта в результатах поиска зависит от трех основных составляющих:

  1. Релевантность кода страницы запросу Tа(x);
  2. Релевантность запросу ссылок на страницу с других страниц (или ссылочное ранжирование) Lа(x);
  3. Показатель авторитетности страницы PRа - коэффициент, не зависящий от поискового запроса и оказывающий влияние на эффект от обеих предыдущих составляющих.

Вот с этого "показателя авторитетности" мы и начнем более подробно рассматривать факторы, влияющие на релевантность документов запросам.

Факторы, не зависящие от запроса (статические)

Если выразиться точнее - фактор, который в общем случае имеет название показатель авторитетности или ранг документа. В нашей формуле он обозначается как PRа. В рассматриваемых поисковых машинах он именуется по-разному, однако все они при его расчете используют алгоритмы, учитывающие гиперссылки между документами. Эти алгоритмы являются, по сути, модификациями алгоритма PageRank, придуманного в свое время двумя американскими аспирантами Сергеем Брином и Ларри Пейджем, основавшими в последствии поисковую машину Google.

PageRank в Google

С ростом объема информации в Интернете вообще и информации, индексируемой поисковыми системами в частности, перед разработчиками поисковиков встала серьезная проблема - количество одинаково релевантных запросу документов было велико, и корректно ранжировать их в результатах поиска становилось все сложнее. К тому же алгоритмы ранжирования, разработанные для контролируемых коллекций документов, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать структуру расположения ключевых слов из текста хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать "важность" или "авторитетность" ресурсов, предоставляющих ее. Как это сделать? Лучше всего на основе данных о популярности страницы у пользователей, например посещаемости. Но тогда потребуется устанавливать какой-либо счетчик на каждую страницу. Такой вариант для глобального поиска не подходит. Тогда в качестве критерия была выбрана теоретическая посещаемость страницы.

Была разработана модель, эмулирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ будет зависит от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот ссылающийся документ. Эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRank):

Формула Page Rank

где

  • PRа - PageRank рассматриваемой страницы,
  • d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),
  • PRi - PageRank i-й страницы, ссылающейся на страницу а,
  • Ci - общее число ссылок на i-й странице.

Одним из распространенных заблуждений является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя известные значения PageRank для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRank какого-либо документа надо составить систему N линейных уравнений данного вида для каждого из документов из поисковой базы, где N - количество документов в поисковой базе. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромное количество документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разрежена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин.

Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком.

ВИЦ в Яндексе

В Яндексе аналогичная PageRank величина, обозначающая количественное представление "авторитетности" страницы и называемая "взвешенный индекс цитирования" - ВИЦ, была введена весной 2001 года. Как говорили сами представители Яндекса, ВИЦ высчитывается на основе классического алгоритма PageRank "с точностью до деталей реализации".

До осени 2002 года ВИЦ можно было посмотреть с помощью Яндекс-Бара, специальной панели инструментов. В нем отражался ВИЦ главной страницы с точностью до сотых. Теперь в этом индикаторе отображается значение тИЦ, совсем другого показателя, использующегося для ранжирования ресурсов в каталоге Яндекса, и узнать значение ВИЦ не представляется возможным.

ИЦ в Апорте

Апорт в 1999 году первым из отечественных поисковых систем стал использовать для ранжирования документов модификацию классического алгоритма PageRank. Показатель авторитетности документа имеет название "Индекс Цитирования" - ИЦ (также представители Апорта называют его в своих документах как Page Rank, так и взвешенный индекс цитирования). Самым кардинальным отличием от классического PageRank в Апорте является то, что при расчете ИЦ документа им учитывается всего одна, "лучшая", ссылка со всех страниц домена второго уровня. "Лучшей" считается та ссылка, которая передает наибольший вес документу.

Индексом цитирования сайта (он же Site Rank), использующегося для ранжирования сайтов в каталоге Апорта, считается наибольший индекс цитирования из всех страниц сайта. Значение ИЦ можно узнать только для сайтов, зарегистрированных в каталоге, в соответствующей ему категории.

Коэффициент популярности в Рамблере

С осени 2002 года поисковая машина стала рассчитывать для каждого документа коэффициент популярности. Вот что сказано на сайте Рамблера об этом коэффициенте: "Данный коэффициент, как и алгоритм PageRank, основан на учете гиперссылок между страницами сети, однако наша реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что "классические" ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети - web-мастеров. Действительно, если большому количеству web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым".

Однако, судя по всему, в последнее время данные о посещаемости документов, полученные от счетчика Top100, оказывают все меньшее влияние на коэффициент популярности, так как счетчик не в состоянии противостоять массовым накруткам, практикуемым владельцами некоторых сайтов. Соответственно, все большее значение приобретает составляющая, вычисляемая на основе учета гиперссылок между страницами сети.

Необходимо заметить, что некоторые документы и даже целые сайты в поисковых машинах могут по той или иной причине исключаться из процесса расчета ранга документа, на который они ссылаются. Так, например, в Яндексе для этих целей существует так называемый "непот-фильтр", который накладывается на ресурсы, находящиеся на бесплатных хостингах, но не описанные в Яндекс-каталоге, ресурсы со свободным размещением ссылок (например, гостевые книги, доски объявлений), сайты, размещающие на своих страницах ссылки, невидимые пользователю и т. п.

Резюмируя, можно сделать вывод, что для повышения ранга страницы необходимо работать над тем, чтобы как можно большее количество документов сети ссылалось на него. Делать это можно различными способами: с помощью обмена ссылками с другими сайтами, регистраций в каталогах и различных тематических ресурсах и т.д. Идеальный способ - сделать свой сайт настолько уникальным и интересным, чтобы владельцы других ресурсов сами считали необходимым поставить ссылку на него. Не следует также забывать, что при расчете ранга документа учитываются как внешние, так и внутренние ссылки. Поэтому грамотная перелинковка документов внутри сайта позволяет повысить ранг самых важных из них с точки зрения содержащейся информации. Наиболее важные в этом смысле документы обязательно должны иметь ссылку с главной страницы сайта, которая, как правило, имеет максимальный ранг среди всех страниц сайта вследствие того, что на нее указывает большинство внешних ссылок на сайт.

утилита Semonitor и поисковая оптимизация

Данная статья рассказывает о том, как эффективно использовать программу Semonitor в процессе поисковой оптимизации. Вкратце, Semonitor - это программа, осуществляющая мониторинг позиций вашего сайта в Яндексе, Рамблере, Апорте, Google и еще десятке других поисковых систем.

Действительно, оптимизация оптимизацией, но нужно ведь еще и наблюдать за ее итогами. Можно, конечно, вручную просматривать выдачу поисковых систем по ключевым запросам, но такой вариант подойдет только в том случае, если ваш сайт уже находится в первой десятке результатов. А если вы только в начале пути? Тогда такой процесс может стать крайне утомительным, если не сказать - невозможным. Вот тут-то нам на помощь и приходит Semonitor.

Пока вы читаете эту статью, я рекомендую вам скачать и установить бесплатную демо-версию Semonitor. Сайт программы находится по адресу: www.semonitor.com/RUS/, а скачать ее можно здесь: www.semonitor.com/semonitor-rus.exe

Semonitor - это достаточно мощная программа, имеющая множество разнообразных функций и возможностей, что приводит к некоторой неоднозначности интерфейса. Большинство пользователей никогда не заглядывают в помощь (я и сам такой), поэтому часть полезного функционала оказывается невостребованной при первом знакомстве с программой. Данная статья должна послужить своеобразным вводным курсом, с помощью которого вы сможете быстро и без лишних усилий освоить Semonitor и добавить в свой арсенал оптимизатора еще одну полезную программу.

Начали!

Итак мы запустили программу и перед нами открылась вкладка "Проект", которая содержит множество галочек, кнопок и переключателей, которые так и норовят ввести нас в заблждение. Начнем с того, что зададим список ключевых фраз и адрес сайта (можно нескольких), который мы хотим проверить.

Под этими списками находятся управляющие элементы, которые позволяют задавать различные параметры поиска. Про их использование можно прочитать в справке к программе и здесь я не буду подробно на них останавливаться, скажу лишь, что для первого раза ничего в них менять не нужно, по умолчанию заданы наиболее оптимальные значения.

Теперь займемся выбором поисковых систем, которые нас интересуют. Semonitor поддерживает около 20 различных поисковиков, однако, как говорится, "не все йогурты одинаково полезны". У вас есть версия сайта на немецком или французском? Нет? Ну, тогда и поисковые системы из Франции и Германии вам не нужны. То же касается и многих международных поисковых машин. По умолчанию выбран только один поисковик - Google. Автор справедливо предположил, что он будет интересен всем. Итак, в группе "Поисковые системы" поставим галки еще и перед Яндексом, Рамблером и Апортом, так как эти поисковики наиболее интересны для российского оптимизатора. На остальные группы ("Google DataCenters" и "Google (международные сайты)") внимания пока не обращаем. На этом наша работа c проектом завершена и можно перейти к самому интересному - проверке позиций. Нажимаем кнопку "Начать поиск" и...

Поиск

...нас автоматически перебрасывает на следующую закладку, которая называется "Общая статистика". В области "Прогресс" весело бежит ползунок, отмечая, сколько еще осталось до завершения поиска, и показываются запросы, которые обрабатываются в данный момент. Ниже находится таблица, в которой, по завершении поиска, и будут представлены все позиции, которые удерживает наш сайт по заданным запросам. Заметим, что весь процесс займет всего лишь несколько минут, тогда как на ручную проверку ушло бы гораздо больше времени.

Иной раз бывает удобно не только знать свои позиции, но и видеть список сайтов-конкурентов. Для этого переходим на закладку "Список URL" (переключатель находится в самом низу, под таблицей). Здесь можно просмотреть все адреса, которые попали в выдачу поисковой системы, при этом страницы нашего сайта будут выделены жирным шрифтом. Если вы хотите проверить Semonitor на правдивость результатов, то нажмите на кнопку "Открыть страницу поиска" - ваш браузер отобразит первую страницу с результатами поиска по выбранной фразе.

Сохранение результатов

Ну как, убедились, что Semonitor вас не обманул? Тогда самое время вернуться на закладку "Таблица" и задуматься над сохранением полученных результатов.

Действительно, нам интересно знать не только текущие позиции, но и то, какими они были раньше. Для того, чтобы можно было использовать эти результаты в будущем, нажмите кнопку "Сохранить" (изображение дискетки в панели инструментов).

Результаты сохраненного поиска можно применить двумя путями. Во-первых, посмотрите содержимое выпадающего списка, который находится рядом с кнопкой "Сохранить". В нем будут содержаться даты проведенных поисков. Выбор любой даты позволит увидеть состояние дел на эту дату. Второй (и более удобный) вариант заключается в том, чтобы перейти в раздел "Отчеты"->"История позиций". Выбрав какую-либо фразу из представленных в списке, можно увидеть, как изменялись позиции вашего сайта по данной фразе.

Помимо основных своих задач, описанных выше, Semonitor умеет делать еще многое другое. Коротко пробежимся по этим возможностям.

  • Индексация сайта. Часто бывает важно знать, какие страницы вашего сайта были проиндексированы поисковыми системами. Это несложно сделать и вручную, если знать синтаксис запроса, однако, зачем беспокоиться об этом, если Semonitor может автоматически предоставить вам эту информацию.
  • Описания Google. Как известно, очень важным моментом в поисковой оптимизации является то описание, которое формирует поисковая система для вашего сайта. Описание должно быть привлекательным и интересным для потенциального посетителя. Добиться хорошего описания можно только опытным путем. Semontor ведет историю тех описаний, которые выдает Google для вашего сайта. Чтобы увидеть эти данные обратитесь к разделу "Отчеты"->"История описаний" (если текст описаний оказался нечитабельным, то щелкните по нему правой кнопкой и выберите правильную кодировку - для Google это UTF-8). В настоящее время поддерживается только Google, однако, в будущих версиях эта возможность поиявится и для Яндекса.

История и планы

Semonitor присутствует на российском рынке с начала 2003 года и приобрел за это время немало сторонников. В октябре 2003 вышла вторая версия продукта. Программа были полностью переписана, значительно увеличена функциональность, но… присутствовала поддержка только международных поисковых систем, что сделало вышедшую версию малоинтересной для российских оптимизаторов, и большинство пользователей предпочли остаться на старом варианте. В версии 2.1 (январь 2004) была добавлена поддержка национальных поисковых систем, что вновь вернуло интерес к программе со стороны российских специалистов. По прогнозам, в ближайшее время все пользователи старой версии перейдут на новый пакет (тем более, что для зарегистрированных пользователей обновление бесплатно). В ближайших планах развития программы заявлена более тесная интеграция с российскими поисковыми системами.

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз