Связаться с нами

Здравствуйте, мы принимаем звонки по будням, 10:00—19:00

Центральный офис в Москве
офис в Санкт-Петербурге

Таксономия сетевого поиска

Сегодня мы публикуем перевод классической работы Андрея Бродера "Таксономия сетевого поиска"

27 января 2007 года
483

ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА

Андрей Бродер
IBM Research, broder@us.ibm.com
(Большая часть представленной здесь работы была проделана в то время,
когда автор работал на корпорацию AltaVista)

РЕЗЮМЕ

Классический ИП (информационный поиск) основывается на потребностях пользователей, ищущих информацию, это так называемая "необходимость в информации". Но в сетевом поиске необходимость зачастую возникает не в информации, а в навигации (дайте мне адрес нужного мне сайта) или транзакции (предоставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). Мы исследуем эту таксономию сетевого поиска и обсудим, насколько развились поисковики, для того чтобы удовлетворять специфичные для сети нужды пользователей.

ВСТУПЛЕНИЕ

Центральный догмат классической теории информационного поиска заключается в том, что пользователь руководствуется необходимостью в получении информации. Schneiderman, Byrd и Croft [SDC97] определяют необходимость в информации как "ощущение необходимости информации, которое заставляет действовать как система по поиску информации". Но намерение, которое стоит за сетевым поиском, часто не является информационным - оно может быть навигационным (дайте мне адрес нужного мне сайта) или транзакционным (доставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). На самом деле, как мы покажем ниже, информационные запросы составляют менее 50% сетевых запросов.

Основной целью данной работы является - показать эту разницу, а также представить и проанализировать таксономию сетевого поиска. Вторая цель - показать, как поисковики справляются с запросами, специфичными для сети.

Последующие материалы этой работы организованы следующим образом: в разделе 2 мы обсуждаем классическую модель информационного поиска. Раздел 3 представляет таксономию сетевого поиска. Раздел 4 представляет некоторую собранную нами статистику через опросы на AltaVista и анализ лог-файлов. Там же - о том, какие из типов поисков предпочтительней для пользователей. В разделе 5, анализируется развитие поисковиков в свете этой таксономии; в разделе 6 обсуждаются некоторые схожие работы. И, наконец, раздел 7 посвящен определенным выводам и указывает на последующие направления исследований.

КЛАССИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА

Мы начнем с классической модели, используемой во многих учебниках, посвященных теории поиска информации, например, в работе van Rejsbergen [R79]. Более подробно она обсуждается в [BK94].

По существу дела, пользователь, руководствуясь необходимостью в информации, составляет запрос на некоем языке запросов. Запрос отправляется в систему, которая производит отбор среди коллекции документов (корпус), чтобы отобрать те из них, которые соответствуют запросу в соответствии с определенными правилами соответствия. Возможно использование процесса дополнительной доработки запроса для того, чтобы отправить его снова или произвести поиск по предоставленным документам.

(Рисунок 1. Классическая модель информационного поиска - все рисунки имеют абсолютные адреса, поэтому видны при раскрытии письма рассылки в браузере, онлайн)

161-1.jpg

Будет полезно детализировать эту схему, так как в контексте Сети факторы взаимодействия человека и компьютера, а также когнитивные аспекты играют значительную роль.

(Рисунок 2. Классическая модель ИП, адаптированная под сеть)

161-2.jpg

Таким образом, мы признаем, что необходимость в информации связанна с некоторым заданием. Эта нужда вербализируется (обычно ментально, а не вслух) и переводится в запрос, который ставится поисковой машине. Этот процесс получения запроса из необходимости в информации широко обсуждался многими: Holscher and Strube [HS00] указывают, что опытные пользователи сети и новички по разному формулируют запросы, Navarro-Pietro et al. [NSR99] вывели когнитивную модель сетевого поиска, Muramatu and Pratt [MR01] исследовали ментальную модель пользователей поисковиков. См. также [CDT99]. Однако, все эти труды разделяют ту точку зрения, что пользователи мотивированы необходимостью в информации.

ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА

В контексте сети "необходимость, которая стоит за запросом" часто не информационного характера. Мы классифицируем сетевые запросы, исходя из намерений пользователя, на три класса:

  1. Навигационный запрос.
    Намерением является попадание на определенный сайт.
  2. Информационный запрос.
    Намерением является получение некоторой информации, которая, допустим, присутствует на одной или нескольких веб-страницах.
  3. Транзакционный запрос.
    Намерением является осуществление некоторых действий возможных с помощью Сети.

Прежде чем мы приступим к детальному обсуждению всех этих типов, мы должны заявить, что это намерение /вряд ли/ можно вывести из запроса со стопроцентной вероятностью. Примеры, приведенные ниже, могут иметь альтернативное толкование.

Навигационные запросы. Целью таких запросов является достижение пользователем определенного сайта, который пользователь имеет в виду, либо потому что он был на нем ранее, либо потому, что допускает его существование. Некоторыми примерами служат:

  • Greenhoud Bus. Возможная цель - www.greenhoud.com
  • compaq. Возможная цель - www.compaq.com
  • national car rental. Возможная цель - www.nationalcar.com
  • american airlines home. Возможная цель - www.aa.com
  • Don Knuth. Возможная цель - www-cs-faculty.stanfird.edu/`knuth/

Такой тип поиска в классическом ИП иногда называют поиск "известного объекта", но он чаще используется при оценке различных систем. На TREC-2001 (конференция по информационному поиску) обсуждалось "задание по нахождению домашней страницы", основанное на 145 запросах. Такие типы запросов являются по существу навигационными запросами.

Навигационные запросы имеют, как правило, один верный результат. Например, по запросу haaretz (название израильской газеты) целью является что-то из нижеперечисленного:

  • www.haaretz.co.il (версия на иврите)
  • www2.haaretz.co.il/breaking-news/ (англоязычная версия в Израиле)
  • www.haaretzdaily.com (американское зеркало англоязычной версии)

Результаты в виде подборки, в которой цель находится в одном клике, принимаются, но менее желательны. Продолжая наш пример, по запросу haaretz - список израильских газет может быть принят в качестве ответа на запрос.

Информационные запросы. Целью таких запросов является нахождение информации, которая предполагается, имеется в сети в статической форме. Никакого последующего взаимодействия, кроме чтения не предвидится. Под статической формой мы подразумеваем, что нужный документ не формируется сервером в ответ на запрос пользователя. Это несколько размытое определение, так как третье поколение поисковых машин вполне способно вести на динамические страницы.

В любом случае, информационные запросы ближе к классическому ИП и потому нуждаются в меньшем внимании в этой работе. Отличие сети в том, что многие информационные вопросы очень широки, например, cars или San Francisco, в то время как другие - узкие, например, normocytic anemia, Scoville heat units. Интересно отметить, что практически в 15 процентах желаемой целью является хорошая подборка ссылок по теме, а не хороший документ. См. также результаты опроса ниже.

Транзакционные запросы. Целью таких запросов является попадание на сайт, где можно будет произвести последующее действие. Это действие определяет транзакцию, формирующую такие запросы. Основными категориями таких запросов являются: покупки, нахождение веб-сервисов, закачка файлов различных типов (изображений, песен), доступ к определенным базам данных (например, Желтые страницы), нахождение серверов (для игр) и т.д.

Результаты таких запросов очень тяжело оценить в рамках классической теории ИП. Бинарный подход - это, возможно, все, чем мы располагаем в этом случае: или подходит, или - нет. Однако большинство внешних факторов важных для пользователя (цена, скорость предоставления услуги, качество изображения и т. д.), как правило, остаются вне внимания поисковиков.

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Соглашение на обработку персональных данных

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года Вы подтверждаете свое согласие на сбор, хранение и обработку компанией «Ашманов и партнеры» персональных данных, указанных путем заполнения веб-форм на сайте ashmanov.com и его поддоменов *.ashmanov.com.

Компания «Ашманов и партнеры» гарантирует конфиденциальность получаемой информации. Обработка персональных данных осуществляется в целях эффективного исполнения заказов, договоров и иных обязательств, принятых компанией «Ашманов и партнеры» в качестве обязательных к исполнению.

В случае необходимости предоставления Ваших персональных данных правообладателю, дистрибьютору или реселлеру программного обеспечения в целях регистрации программного обеспечения на Ваше имя, Вы даёте согласие на передачу Ваших персональных данных. Компания «Ашманов и партнеры» гарантирует, что правообладатель, дистрибьютор или реселлер программного обеспечения осуществляет защиту персональных данных на условиях, аналогичных изложенным в Соглашении на обработку персональных данных.

Настоящее согласие распространяется на следующие Ваши персональные данные: фамилия, имя и отчество, адрес электронной почты, контактный телефон, платёжные реквизиты.

Персональные данные хранятся и обрабатываются до завершения всех необходимых процедур либо до ликвидации Компании. Вы можете в любой момент отозвать настоящее согласие, направив письменное уведомление на адрес: 121357, Москва, ул. Верейская, д.29, стр. 134, Бизнес-центр «Верейская плаза 3», офис «Ашманов и партнеры» с пометкой «Отзыв согласия на обработку персональных данных». Вы также можете отказаться от получения электронных сообщений, используя ссылку «Отписаться», расположенную в конце каждого письма.

Вы гарантируете, что представленная информация является полной, точной и достоверной, а также что при представлении информации не нарушаются действующее законодательство Российской Федерации, законные права и интересы третьих лиц. Вся предоставленная информация заполнена Вами в отношении себя лично.

Настоящее согласие действует в течение всего периода хранения персональных данных, если иное не предусмотрено законодательством Российской Федерации.