TrustRank и PhraseRank - два вектора хорошего ранжирования

Аарон Уолл (Aaron Wall) выделяет общие идеи, на которых основан алгоритм TrustRank

24 февраля 2007 года
329

ДВА ВЕКТОРА ОБЕСПЕЧЕНИЯ ХОРОШЕГО РАНЖИРОВАНИЯ - ТЕКСТЫ И ССЫЛКИ

Резко возросшее в 2006 году количество поискового спама заставляет разработчиков поисковых машин искать более изощренные решения для автоматического определения качественных страниц и их ранжирования.

Google столкнулся с этой проблемой чуть раньше, поэтому успел разработать два алгоритма, обход которых с целью спама - или учет с целью оптимизации - (нужное подчеркнуть) представляется уже далеко не простой задачей.

Это идеи TrustRank и PhraseRank. В какой стадии внедрения находится каждый из алгоритмов, сказать сложно, Гугл, как и остальные поисковые системы, не стремится полностью выложить все свои секреты веб-мастерам. Но картина нашего "алгоритмического будущего" рисуется уже более отчетливо. Очевидно, что работы в этом направлении будут идти, если уже не идут полным ходом, и в Яндексе.

Ниже, в другой статье, мы публикуем перевод патента Google, где рассказано о новом методе индексирования, где индексироваться будут не только слова, но и словосочетания. При этом учитываться будут не все содержащиеся в документе (веб-странице) термины, а только значимые.

Вопрос на заметку. Как определить, какие слова и словосочетания веб-страницы поисковая система сочтет значимыми?..

Для выделения терминов используется ассоциативная информация об их совместной встречаемости. Значимыми считаются только те термины, у которых имеются достаточно сильные ассоциативные связи с другими терминами. По этой причине в процессе отбора значимых терминов строятся ассоциативные отношения между ними, т.е. фактически формируется ассоциативный словарь из слов и словосочетаний.

Вопрос на заметку. На основании какого корпуса текстов поисковая система будет формировать ассоциативный словарь из слов и словосочетаний?..

С помощью ассоциативного словаря может быть обнаружен и спам - вернее, та его разновидность, при которой страница составляется из многих терминов (например, названий товаров), относящихся к определенной тематике. Все эти термины совместно встречаются в разных сочетаниях, но не все сразу. Обнаружение спама выполняется следующим образом. Из страницы выделяются термины (слова и словосочетания). Если достаточно много этих терминов связано ассоциативными отношениями со многими другими терминами страницы, то страница считается спамом. Для нормальной страницы число ассоциативных отношений между ее терминами намного меньше, чем для спамной страницы. На данном предположении и основывается обнаружение спама.

Вопрос на заметку. Проще говоря, будут автоматически отфильтрованы "речитативные" страницы, с текстами, похожими на заклинания, типа "если вы хотите поменять свою кухонную мебель и мебель в гостиной, то наша кухонная мебель - идеальное решение, а гостиная мебель - совершенно идеальное; кухня - понятие неотделимое от кухонной мебели, а красивая гостиная мебель украсит вашу гостиную комнату точно так же, как наша кухонная мебель украсит вашу кухню... От чтения таких "творений SEO-копирайтеров" в больших количествах в голове остается сплошное "го... го... го... хня... хню... хней..."

Еще один вид спама обнаруживается неявно - подозрительные страницы получают пониженный вес при ранжировании. Достигается это следующим образом. При вычислении веса найденной страницы используется метод под названием PhraseRank. В рамках этого метода высокий вес может получить только та страница...

TrustRank - стратегия получения ссылок

Введение. Статья предназначена для линк-менеджеров, SEO-специалистов и вебмастеров, занимающихся накоплением ссылок на собственные сайты или сайты клиентов. В отличие от известной в Рунете теоретической работы Золтана Гьенги (Zoltan Gyongyi), Гектора Гарсиа-Молина (Hector Garcia-Molina), Яна Педерсена (Jan Pedersen) "Борьба со спамом при помощи алгоритма Trustrank" ("Combating Web Spam with TrustRank") здесь освещаются практические следствия применения алгоритма TrustRank.

К лету 2005 года на поиск в Google оптимизаторы стали оказывать значительное влияние. Один из основных критериев ранжирования тогда был PageRank, который накручивался обменом ссылками и покупкой ссылок на других сайтах. К концу года Google подготовил и начал проводить апдейт своих алгоритмов ранжирования, в том числе появился и алгоритм TrustRank.

Основная идея сводится к следующему - уменьшить влияние PageRank на результаты поиска и начать учитывать качество ссылок. Под качеством ссылки подразумевается качество ссылающегося документа.

Аарон Уолл (Aaron Wall) выделяет следующие общие идеи, на которых основан алгоритм TrustRank:

  • Хорошие документы редко ссылаются на плохие. Плохие документы часто ссылаются на хорошие, пытаясь улучшить свои позиции.
  • Забота, с которой люди добавляют ссылки на свой документ, часто обратно пропорциональна числу ссылок в документе.
  • Доверие уменьшается от сайта к сайту.

Влияние PageRank на ранжирование было уменьшено, и он стал не более чем "пузомеркой". Причем искусственной. Аарон Уолл пишет буквально следующее: "Если Вы имеете несколько тысяч долларов и несколько месяцев времени, не трудно изготовить искусственный PageRank 7".

Таким образом, на ранжирование в Google стало оказывать большое влияние качество ссылок. Энди Хаганс (Andy Hagans) указал две крайности, между которыми находится весь спектр качества ссылок:

  • ссылки из "источников, которым доверяют", типа DMOZ (сайты на доменах gov, edu и т.д.);
  • ссылки с низкокачественных сайтов, которые могут быть объединены сети.

Понятно, что ссылки первого типа увеличивают TrustRank сайта и благотворно влияют на его ранжирование в поиске, а вторые не только не помогают, но и могут мешать продвижению сайта в поиске.

Для оценки отрицательного влияния ссылок с низким качеством Аарон Уолл предложил понятие AntiTrustRank. По А. Уоллу AntiTrustRank показывает насколько много ссылок имеет сайт от сайтов, которые Google может заподозрить в поисковом спаме. Для сайта компании AntiTrustRank передается следующим образом:

  • входящие ссылки на каталог сайтов - обычно ссылки с сайтов, имеющих низкое доверие (trust);
  • каталог сайтов ссылается на большое количество сайтов, имеющих ограниченное доверие (trust) (непропорционально большой процент), и Ваш сайт будет среди множества сайтов, на которые ссылается каталог;
  • слишком большое количество подобных связей могут передать AntiTrustRank (отрицательный TrustRank) сайту вашей компании.

Следующая иллюстрация показывает, описанную выше ситуацию. Красные кресты означают, что этих ссылок нет. (Ссылка абсолютная, схема будет видна, если, находясь онлайн, открыть письмо в браузере)

165-2.jpg

Теперь перейдем к практике.

Энди Хаганс сформулировал общие принципы получения ссылок. Во-первых, ссылки с каталогов, указанные в "Руководстве для веб-мастеров" - DMOZ и Yahoo Directory! Во-вторых, каталоги с заведомо высоким уровнем доверия (trust) - JoeAnt, Gimpsy, GoGuides, Uncover the Net. Главный принцип внесения сайта в каталог - смотрите насколько хорошо он модерируется. Каталог старается, чтобы в нем были ссылки только на качественные документы или он собирает все подряд в одну кучу, стараясь заработать денег на включении сайта, откручивая рекламу какой-либо PPC, или накручивает себе PR на обмене ссылками?

Внимательный читатель здесь должен обратить внимание на то, что, используя эффект AntiTrustRank, можно вести борьбу с конкурентами. Да, это возможно. У оптимизаторов даже появился термин "тяжелая ссылка", появление которой может привести к понижению позиций сайта в поисковой выдаче. Энди Хаганс, предлагая способ накопления ссылок для новых сайтов, похоже, решил и эту проблему.

Основная проблема всех новых сайтов в Google - "песочница", и с введением алгоритма TrustRank эта проблема только усугубилась. Э. Хаганс советует вначале собрать определенного рода ссылки на сайт с сайтов, которые уже получили некоторое доверие (trust). Во-первых, это каталоги (Business.com, Dir.yahoo.com, sbd.bcentral.com), которым Google точно доверяет, во-вторых, ссылки с сайтов входящих в ТОП200 по высококонкурентным запросам. Если сайт находится в ТОП200 по высоконкурентному запросу, значит, у него есть некоторая доля доверия со стороны Google. Далее возможны варианты развития ссылочной базы сайта - синдицирование статей, социальные сети, качественные обмены ссылками. Даже если некоторые ссылающиеся сайты потеряют доверие (trust), то есть займутся поисковым спамом, на Ваш сайт это уже не окажет влияния, так как у него уже будет выращен "спинной хребет" ссылок.

Виктор Беломестных,
SEO buster - оптимизация и продвижение сайтов.

P.S. Если вы думаете, что в Рунете это не работает, то вы глубоко заблуждаетесь. Все описанные в статье технологии применяются в моей работе.

РЕЗЮМЕ

Информационная поисковая система использует словосочетания для индексации, извлечения, организации и описания документов. Словосочетания идентифицируются таким образом, что позволяют предсказывать появление других словосочетаний в документах. Документы индексируются в соответствии с теми фразами, которые они в себе содержат. Спам документ идентифицируется, основываясь на количестве связанных фраз в документе.

ПУНКТЫ ПАТЕНТНОЙ ФОРМУЛЫ

  1. Метод обнаружения спам документов в информационной поисковой системе с использованием компьютера, метод включает в себя: поддерживание списка фраз, каждая фраза ассоциируется со списком родственных фраз; определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз; определение для документа и хотя бы для одной фразы в документе действительное количество родственных фраз присутствующих в документе; определение документа как спам документа путем сравнения действительного количества родственных фраз присутствующих в документе с ожидаемым количеством родственных фраз.
  2. Метод, описанный в пункте 1, где определение ожидаемого количества родственных фраз присутствующих в документе для любой фразы из списка фраз далее состоит из: прохождения по дереву поиска индекса документов; определение набора фраз в документе из списка фраз, для каждой фразы в документе, для каждого документа, а также определения количества родственных фраз в документе; определение ожидаемого количества родственных фраз, как среднего числа определенного количества родственных фраз во всех пройденных документах.
  3. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз в документе значительно превышает ожидаемое количество родственных фраз для хотя бы одной фразы.
  4. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное количество родственных фраз присутствующих в документе, хотя бы для одной фразы, превышает ожидаемое количество родственных фраз или, по крайней мере, число кратное стандартному отклонению от ожидаемого количества родственных фраз.
  5. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа, если действительное число родственных фраз в документе хотя бы для одной фразы превышает ожидаемое число родственных фраз или, по крайней мере, число кратное ожидаемому числу родственных фраз.
  6. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, для каждой минимальной множественности фраз в документе, действительное число родственных фраз в документе значительно превышает ожидаемое число родственных фраз.
  7. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения документа, как спам документа где, действительное число родственных фраз представленных в документе, по крайней мере, для одной фразы превышает предопределенный максимум ожидаемого числа родственных фраз.
  8. Метод, описанный в пункте 1, где определение документа как спам документа, далее состоит из: определения для документа набора наиболее значимых фраз представленных в документе; определение действительного числа родственных фраз представленных в документе для каждой из наиболее значимых родственных фраз; определение документа как спам документа по отношению к значимой фразе, если действительное число родственных фраз значительно превышает ожидаемое число родственных фраз.
  9. Метод, описанный в пункте 1, далее состоит из: добавления документа в список спам документов, в зависимости от того был ли он определен как спам документ.
  10. Метод, описанный в пункте 9, далее состоит из: получения поискового запроса, предоставление набора документов релевантных поисковому запросу, каждый документ обладает определенным значением по релевантности; определение, был ли документ идентифицирован как спам документ, для каждого документа в наборе документов; понижение значения релевантности документа, если документ был идентифицирован как спам документ; организация набора документов в зависимости от их значений релевантности.
  11. Метод, описанный в пункте 8, далее состоит из: добавления документа к списку спам документов ассоциированных с наиболее значимой фразой; добавление документа к списку спам документов ассоциированных с родственной фразой, для каждой из родственных фраз наиболее значимой фразы.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

[0003] Системы информационного поиска, которые также называют поисковыми машинами, на сегодняшний день являются неотъемлемой частью при поиске информации в таком многообразном, постоянно растущем информационном пространстве, как Интернет. В общем, работу поисковой машины можно описать следующим образом: поисковая машина создает индекс, который соотносит документы (или "страницы") с отдельными словами, встречающимися в каждом документе. Документ предоставляется пользователю в ответ на запрос, содержащий определенное число поисковых запросов, как правило, приблизительно такое же число поисковых запросов содержится и в документе, который предоставляется. Предоставленные документы впоследствии ранжируются в соответствии с другими статистическими данными, такими как, частота поискового запроса в документе, доменное имя, анализ ссылок и т. д. Предоставленные документы затем отображаются пользователю, обычно, в том порядке, в котором они были ранжированы, и без какой либо последующей группировки или иерархии. В некоторых случаях, часть текста из документа предоставляется вместе со ссылкой на документ, для того чтобы дать представление о документе.

[0004] Прямое "булево" совпадение поисковых запросов имеет хорошо известные ограничения, и не обнаруживает документы, которые не имеют в себе поисковых запросов, но имеют родственные слова. Например, в типичной "булевой" системе, поиск "Australian Shepherds" не выдаст документы о других пастушьих собаках, таких как Border Collies, название которых не является прямым совпадением с поисковым запросом. Кроме того, такая система, выдаст большое количество документов со словами Australia и "shepherds" и поднимет их высоко при ранжировании (но они не будут иметь никакого отношения к пастушьим собакам).

[0005] Проблема в том, что традиционные системы индексируют документы, основываясь на отдельных словах, а не на концептах. Концепты часто выражаются во фразах, таких как, "Australian Shepherd," "President of the United States," и "Sundance Film Festival". В лучшем случае, прежние системы будут индексировать документы относительно заранее предопределенного и очень ограниченного набора "известных" фраз, которые обычно отбираются оператором-человеком. Индексации фраз, как правило, не происходит, из-за нехватки вычислительных мощностей и памяти для идентификации всех возможных фраз из скажем трех, четырех или пяти и больше слов. Например, если допустить, что любые пять слов могут сформировать фразу, а в большом корпусе содержится приблизительно 200,000 слов, то получится примерно 3.2Х10 в 26 возможных фраз, очевидно гораздо больше, чем любая система может хранить и обрабатывать. Еще одной проблемой является то, что в лексиконе постоянно появляются новые фразы и исчезают старые, и это происходит гораздо чаще, чем появляются новые слова. Такие области как технологии, искусство, мировые события, право - являются активными генераторами новых фраз. Употребление других фраз постепенно уменьшается.

[0006] Еще одной проблемой, с которой сталкиваются существующие системы поиска информации - это появление спам документов. Некоторые из спам документов являются документами, которые не несут никакого смысла, а всего лишь являются коллекцией популярных слов и фраз, зачастую они встречаются в количествах сотен и тысяч; такие страницы называются "страницами забитыми ключевыми словами". Другие спам страницы включают слова и фразы, на которые ориентируются рекламодатели. Такие типы документов, создаются с целью попадания в выдачу поисковиков для отображения рекламы. Однако, для пользователя, который ищет определенную информацию, такие документы не представляют ценности и являются только тратой времени.

[0007] Соответственно, существует необходимость в системе поиска информации и методологии, которая бы позволяла полноценно идентифицировать фразы в корпусах больших размеров и индексировать документы полагаясь на фразы. В дополнение, существует необходимость в системе поиска информации для идентификации спам документов и отфильтровывания таких документов из результатов выдачи.

РЕЗЮМЕ ИЗОБРЕТЕНИЯ

[0008] Система поиска информации и методология использует фразы для индексации, поиска, ранжирования и описания документов в коллекции документов. Система настроена таким образом, что идентифицирует фразы, которые наиболее часто встречаются в коллекции документов и маркирует их как "полноценные" или "хорошие" фразы. Таким образом, возможно, идентифицировать фразы, состоящие из четырех, пяти или более слов. Это решает проблему необходимости в идентификации всех возможных фраз, которые мы получаем в результате перестановок всех имеющихся слов.

[0009] Система далее настроена таким образом, что идентифицирует фразы, которые родственны друг другу, основываясь на возможности предсказания присутствия других фраз в документе. Если быть более точными, то показатель прогноза это отношение между действительным показателем встречаемости двух фраз и ожидаемым показателем встречаемости двух фраз. Прирост информации, отношение между действительным процентом встречаемости и ожидаемым - это один из способов вычисления этого показателя прогноза. Две фразы являются родственными, когда показатель прогноза превышает порог. В этом случае, вторая фраза имеет значительный информационный прирост относительно первой фразы. Семантически, родственными фразами будут те, которые обычно используются для описания той или иной темы, как например, "President of the United States" и "White House." Для определенной фразы, родственные фразы могут быть расположены в определенном порядке, в соответствии со степенью их релевантности или значимости, основываясь соответственно на их показателях прогноза.

[0010] Система поиска информации настроена таким образом, чтобы идентифицировать спам документ, основываясь на чрезмерном количестве родственных фраз наличествующих в документе.

[0011] Настоящее изобретение имеет последующие варианты осуществления изобретения в областях: архитектуры программного обеспечения, компьютерных программ, методов используемых компьютерными программами, компьютерно сгенерированными интерфейсами и презентациями.

[0012] Последующий материал, является описанием всего лишь нескольких основных черт из системы поиска информации и методологии, которые основываются на фразах. Те, кто обладают знаниями в области систем информационного поиска, оценят гибкость и широкие возможности системы работающей основываясь на фразах для индексации, аннотации, поиска и ранжирования при анализе и обработке документов...

Вам будет интересно

Следите за нашими новостями

Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз