Связаться с нами

Здравствуйте, мы принимаем звонки по будням, 10:00—19:00

Центральный офис в Москве
офис в Санкт-Петербурге

Технологии в основе алгоритма ранжирования Google

Мы представляем данные о количестве поискового спама в Рунете (данные от руководителя отдела веб-поиска Яндекса Александра Садовского), а также позиция компании Google по вопросу о поисковом спаме и платным ссылкам.

23 января 2009 года
487
Эта статья была опубликована в официальном блоге Google. Её автор - Амит Сингал, который в Google занимается поисковым ранжированием. Перевел статью специально для нашей рассылки Андрей Захаревский, при участии компании AdLabs. Вы тоже можете прислать нам статью или сделать перевод, и тогда все подписчики рассылки узнают о вас и вашей компании.

В предыдущей статье я объяснил идеологию, лежащую в основе ранжирования Google. В рамках обсуждения качества поиска я хотел бы несколько подробнее рассказать о технологиях, стоящих за нашим ранжированием. В основе нашей системы ранжирования лежит академическая теория информационного поиска (IR, Information Retrieval), которая развивается учеными уже почти пятьдесят лет. Теория информационного поиска оперирует статистическими данными о контрастности и частотности употребления того или иного слова (см. статью "Обзор современных подходов к информационному поиску"). Теория информационного поиска предоставила нам прочный фундамент, на котором мы и смогли построить гигантскую систему, используя гиперссылки, структуру страниц, а также многие другие инновационные методы.

Смысл поиска за последнее десятилетие сместился с требования "дайте мне то, что я сказал" к "дайте мне то, что мне нужно". Уровень ожиданий пользователя существенно возрос. Мы много работаем над тем, чтобы предугадать и выполнить желания каждого пользователя, и для этого нам нужно лучше понимать и страницы, и запросы, и самих пользователей. За последнее десятилетие мы достигли абсолютно нового уровня в развитии технологий, отвечающих за эти три компонента поискового процесса.

Запросы в Google принято обозначать квадратными скобками [],(см., "Как составлять запросы", автор Мэтт Каттс). В данной статье я буду использовать квадратные скобки для этих же целей. (cтраницы и выдача результатов поиска часто изменяются, поэтому со временем некоторые приведенные здесь примеры могут срабатывать не так, как описано.)

Понимаем страницы

За последние годы мы серьезно вложились в развитие нашей системы обхода и индексирования сайтов. В результате у нас есть очень объемный и актуальный индекс; кроме того, нам удалось улучшить его и по другим параметрам. Одна из ключевых технологий, разработанных нами для лучшего понимания страниц, - это умение выявлять связи страниц с важными понятиями, даже если они отсутствуют на странице. Например, теперь мы умеем находить официальный сайт лондонской Галереи Искусств Спровиери по запросу, сделанному на итальянском языке [galleria sprovieri londra] ("галерея Спровиери в Лондоне"), хотя на главной странице сайта нет ни одного упоминания таких слов, как "London", "Londra", и т. д. Когда американские пользователи ищут [cool tech pc vancouver, wa] / [кул тех ПК, ванкувер, вайоминг], мы находим для них искомый сайт www.cooltechpc.com, несмотря на то, что нигде на странице не указывается, что сайт действительно расположен в Ванкувере. Среди других наших инноваций -умение отличать более важные слова на странице от менее важных и оценка актуальности информации.

Понимаем запросы

Исключительно важно суметь понять, что именно ищут наши пользователи (не ограничиваясь конкретными словами из поискового запроса). Нам удалось внедрить несколько важных и полезных нововведений, включающих лучшую в своем классе систему подсказок правильного написания, продвинутую систему распознавания синонимов, а также очень мощную систему понятийного анализа.

Большинство пользователей так или иначе сталкивались с нашей системой подсказок правильного написания. Она способна понять, что человек, сделавший запрос [kofee annan] / [коффи аннан], на самом деле хочет найти информацию, касающуюся Кофи Аннана, и делает подсказку вида "Возможно, вы имели в виду kofi annan? (Did you mean: kofi annan? ). То же самое с орфографически неверными поисковыми запросами вида [kofi beans] / [зерна кофи], когда на самом деле пользователь ищет информацию о зернах кофе. Умение качественно выдавать такого рода подсказки на разных языках - нелегкая задача, но мы справляемся с ней.

Синонимы - это основа нашей работы над пониманием поисковых запросов, и это одна из самых сложных задач, которую приходится решать Гуглу. Казалось бы, синонимы - это так просто и естественно; но для автоматических систем обработки языка они представляют собой все еще не решенную задачу. Как пользователь я не слишком долго думаю, какие именно слова следовало бы употребить в запросе. Иногда я даже не знаю, какие слова - правильные. Вот тут-то и появляется необходимость в нашей системе синонимизации. Она способна хитроумно модифицировать поисковые запросы: так, в запросе вида [Dr Zhivago] (Доктор Живаго) ей понятно, что аббревиатура "Dr" означает "Doctor", а в запросе вида [Rodeo Dr] (ул. Родео Драйв) под "Dr" имеется в виду "Drive" (дорога, улица). Пользователь, набравший [back bumper repair] (починить бампер сзади) получает результаты о починке заднего бампера автомобиля. По запросу [Ramstein ab] мы находим авиабазу Ramstein Air Base, а по запросу [b&b ab] - мотель в канадской провинции Альберта (Bed and Breakfasts, Alberta, Canada). Данная система понимания и трансформации поисковых запросов была внедрена и уже работает более чем на ста различных языках планеты, и я действительно очень этим горжусь.

Следующая технология, используемая в нашей системе ранжирования, - идентификация понятий. Вычленение важных понятий в запросе позволяет нам предоставлять пользователю гораздо более релевантную выдачу. К примеру, наш алгоритм умеет понимать, что при запросе [new york times square church] пользователю нужна информация о знаменитой церкви на Таймс-Сквер в Нью-Йорке, а не статьи из газеты Нью-Йорк Таймс про квадратную церковь. Но мы не ограничиваемся только идентификаций понятий: мы идем еще дальше и усиливаем запрос правильными понятиями, например, тому, кто ищет [PC and its impact on people] (ПК и его влияние на человека), на самом деле нужна информация о влиянии компьютеров на общество, а тому, кто ищет [rainforest instructional activities for vocabulary] (тропические леса упражнения на лексику), нужно найти планы уроков о тропических лесах. В наши алгоритмы анализа поисковых запросов встроено множество подобных действительно эффективных технологий, и, повторюсь, они работают практически на всех языках, которые мы поддерживаем.

Понимаем пользователей

Мы работаем над пониманием намерений пользователей для того, чтобы показывать им именно ту информацию, которую они хотят увидеть, а не только то, что они написали в поисковом запросе. В основе этой работы лежит наша система локализации, а также продвинутая система персонализации. Кроме этого, в процедуру интерпретации пользовательских запросов было внедрено

( Полная версия статьи опубликована в "РВ" - расширенном выпуске
нашей рассылки, см. Архив
)

Информация о подписке на РВ находится здесь - http://www.optimization.ru/subscribe/money.html

Советуем прочесть

Степан Овчинниковопубликовал на "Хабрахабре" собственное исследование рынка поисковой оптимизации.

Сергей Кошкин, генеральный директор компании SmartSeo, дал интервью изданию Seonews.ru.

Кроме того, на Seonews начался сбор вопросов пользователей в рамках прямой линии с Анной Артамоновой, директору по PR и маркетингу компании Mail.ru.

В комментариях ЖЖ Артемия Лебедева оказался программист Google. Он ответил на вопросы других комментаторов блога.

В русском блоге Google появилась информация о сбоях в работе почтовой службы Gmail, которые происходили 24 февраля. Дело в том, что вчера утром в одном из наших европейских центров обработки данных проводились плановые профилактические работы. Обычно в таком случае обслуживание аккаунтов просто переносится в другой центр, и сбоев не происходит. Однако в этот раз побочные эффекты кода, который 'привязывает' данные к географическому положению их владельца, спровоцировали перегрузку другого европейского центра обработки данных, что, в свою очередь, привело к эффекту домино, - сообщают сотрудники Google.

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Соглашение на обработку персональных данных

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года Вы подтверждаете свое согласие на сбор, хранение и обработку компанией «Ашманов и партнеры» персональных данных, указанных путем заполнения веб-форм на сайте ashmanov.com и его поддоменов *.ashmanov.com.

Компания «Ашманов и партнеры» гарантирует конфиденциальность получаемой информации. Обработка персональных данных осуществляется в целях эффективного исполнения заказов, договоров и иных обязательств, принятых компанией «Ашманов и партнеры» в качестве обязательных к исполнению.

В случае необходимости предоставления Ваших персональных данных правообладателю, дистрибьютору или реселлеру программного обеспечения в целях регистрации программного обеспечения на Ваше имя, Вы даёте согласие на передачу Ваших персональных данных. Компания «Ашманов и партнеры» гарантирует, что правообладатель, дистрибьютор или реселлер программного обеспечения осуществляет защиту персональных данных на условиях, аналогичных изложенным в Соглашении на обработку персональных данных.

Настоящее согласие распространяется на следующие Ваши персональные данные: фамилия, имя и отчество, адрес электронной почты, контактный телефон, платёжные реквизиты.

Персональные данные хранятся и обрабатываются до завершения всех необходимых процедур либо до ликвидации Компании. Вы можете в любой момент отозвать настоящее согласие, направив письменное уведомление на адрес: 121357, Москва, ул. Верейская, д.29, стр. 134, Бизнес-центр «Верейская плаза 3», офис «Ашманов и партнеры» с пометкой «Отзыв согласия на обработку персональных данных». Вы также можете отказаться от получения электронных сообщений, используя ссылку «Отписаться», расположенную в конце каждого письма.

Вы гарантируете, что представленная информация является полной, точной и достоверной, а также что при представлении информации не нарушаются действующее законодательство Российской Федерации, законные права и интересы третьих лиц. Вся предоставленная информация заполнена Вами в отношении себя лично.

Настоящее согласие действует в течение всего периода хранения персональных данных, если иное не предусмотрено законодательством Российской Федерации.