Продвигаем бизнес в Интернете с 2001 года

Таксономия сетевого поиска

Сегодня мы публикуем перевод классической работы Андрея Бродера "Таксономия сетевого поиска"

Последнее обновление: 09 октября 2018 года
4263

ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА

Андрей Бродер
IBM Research, broder@us.ibm.com
(Большая часть представленной здесь работы была проделана в то время,
когда автор работал на корпорацию AltaVista)

РЕЗЮМЕ

Классический ИП (информационный поиск) основывается на потребностях пользователей, ищущих информацию, это так называемая "необходимость в информации". Но в сетевом поиске необходимость зачастую возникает не в информации, а в навигации (дайте мне адрес нужного мне сайта) или транзакции (предоставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). Мы исследуем эту таксономию сетевого поиска и обсудим, насколько развились поисковики, для того чтобы удовлетворять специфичные для сети нужды пользователей.

ВСТУПЛЕНИЕ

Центральный догмат классической теории информационного поиска заключается в том, что пользователь руководствуется необходимостью в получении информации. Schneiderman, Byrd и Croft [SDC97] определяют необходимость в информации как "ощущение необходимости информации, которое заставляет действовать как система по поиску информации". Но намерение, которое стоит за сетевым поиском, часто не является информационным - оно может быть навигационным (дайте мне адрес нужного мне сайта) или транзакционным (доставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). На самом деле, как мы покажем ниже, информационные запросы составляют менее 50% сетевых запросов.

Основной целью данной работы является - показать эту разницу, а также представить и проанализировать таксономию сетевого поиска. Вторая цель - показать, как поисковики справляются с запросами, специфичными для сети.

Последующие материалы этой работы организованы следующим образом: в разделе 2 мы обсуждаем классическую модель информационного поиска. Раздел 3 представляет таксономию сетевого поиска. Раздел 4 представляет некоторую собранную нами статистику через опросы на AltaVista и анализ лог-файлов. Там же - о том, какие из типов поисков предпочтительней для пользователей. В разделе 5, анализируется развитие поисковиков в свете этой таксономии; в разделе 6 обсуждаются некоторые схожие работы. И, наконец, раздел 7 посвящен определенным выводам и указывает на последующие направления исследований.

КЛАССИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА

Мы начнем с классической модели, используемой во многих учебниках, посвященных теории поиска информации, например, в работе van Rejsbergen [R79]. Более подробно она обсуждается в [BK94].

По существу дела, пользователь, руководствуясь необходимостью в информации, составляет запрос на некоем языке запросов. Запрос отправляется в систему, которая производит отбор среди коллекции документов (корпус), чтобы отобрать те из них, которые соответствуют запросу в соответствии с определенными правилами соответствия. Возможно использование процесса дополнительной доработки запроса для того, чтобы отправить его снова или произвести поиск по предоставленным документам.

(Рисунок 1. Классическая модель информационного поиска - все рисунки имеют абсолютные адреса, поэтому видны при раскрытии письма рассылки в браузере, онлайн)

161-1.jpg

Будет полезно детализировать эту схему, так как в контексте Сети факторы взаимодействия человека и компьютера, а также когнитивные аспекты играют значительную роль.

(Рисунок 2. Классическая модель ИП, адаптированная под сеть)

161-2.jpg

Таким образом, мы признаем, что необходимость в информации связанна с некоторым заданием. Эта нужда вербализируется (обычно ментально, а не вслух) и переводится в запрос, который ставится поисковой машине. Этот процесс получения запроса из необходимости в информации широко обсуждался многими: Holscher and Strube [HS00] указывают, что опытные пользователи сети и новички по разному формулируют запросы, Navarro-Pietro et al. [NSR99] вывели когнитивную модель сетевого поиска, Muramatu and Pratt [MR01] исследовали ментальную модель пользователей поисковиков. См. также [CDT99]. Однако, все эти труды разделяют ту точку зрения, что пользователи мотивированы необходимостью в информации.

ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА

В контексте сети "необходимость, которая стоит за запросом" часто не информационного характера. Мы классифицируем сетевые запросы, исходя из намерений пользователя, на три класса:

  1. Навигационный запрос.
    Намерением является попадание на определенный сайт.
  2. Информационный запрос.
    Намерением является получение некоторой информации, которая, допустим, присутствует на одной или нескольких веб-страницах.
  3. Транзакционный запрос.
    Намерением является осуществление некоторых действий возможных с помощью Сети.

Прежде чем мы приступим к детальному обсуждению всех этих типов, мы должны заявить, что это намерение /вряд ли/ можно вывести из запроса со стопроцентной вероятностью. Примеры, приведенные ниже, могут иметь альтернативное толкование.

Навигационные запросы. Целью таких запросов является достижение пользователем определенного сайта, который пользователь имеет в виду, либо потому что он был на нем ранее, либо потому, что допускает его существование. Некоторыми примерами служат:

  • Greenhoud Bus. Возможная цель - www.greenhoud.com
  • compaq. Возможная цель - www.compaq.com
  • national car rental. Возможная цель - www.nationalcar.com
  • american airlines home. Возможная цель - www.aa.com
  • Don Knuth. Возможная цель - www-cs-faculty.stanfird.edu/`knuth/

Такой тип поиска в классическом ИП иногда называют поиск "известного объекта", но он чаще используется при оценке различных систем. На TREC-2001 (конференция по информационному поиску) обсуждалось "задание по нахождению домашней страницы", основанное на 145 запросах. Такие типы запросов являются по существу навигационными запросами.

Навигационные запросы имеют, как правило, один верный результат. Например, по запросу haaretz (название израильской газеты) целью является что-то из нижеперечисленного:

  • www.haaretz.co.il (версия на иврите)
  • www2.haaretz.co.il/breaking-news/ (англоязычная версия в Израиле)
  • www.haaretzdaily.com (американское зеркало англоязычной версии)

Результаты в виде подборки, в которой цель находится в одном клике, принимаются, но менее желательны. Продолжая наш пример, по запросу haaretz - список израильских газет может быть принят в качестве ответа на запрос.

Информационные запросы. Целью таких запросов является нахождение информации, которая предполагается, имеется в сети в статической форме. Никакого последующего взаимодействия, кроме чтения не предвидится. Под статической формой мы подразумеваем, что нужный документ не формируется сервером в ответ на запрос пользователя. Это несколько размытое определение, так как третье поколение поисковых машин вполне способно вести на динамические страницы.

В любом случае, информационные запросы ближе к классическому ИП и потому нуждаются в меньшем внимании в этой работе. Отличие сети в том, что многие информационные вопросы очень широки, например, cars или San Francisco, в то время как другие - узкие, например, normocytic anemia, Scoville heat units. Интересно отметить, что практически в 15 процентах желаемой целью является хорошая подборка ссылок по теме, а не хороший документ. См. также результаты опроса ниже.

Транзакционные запросы. Целью таких запросов является попадание на сайт, где можно будет произвести последующее действие. Это действие определяет транзакцию, формирующую такие запросы. Основными категориями таких запросов являются: покупки, нахождение веб-сервисов, закачка файлов различных типов (изображений, песен), доступ к определенным базам данных (например, Желтые страницы), нахождение серверов (для игр) и т.д.

Результаты таких запросов очень тяжело оценить в рамках классической теории ИП. Бинарный подход - это, возможно, все, чем мы располагаем в этом случае: или подходит, или - нет. Однако большинство внешних факторов важных для пользователя (цена, скорость предоставления услуги, качество изображения и т. д.), как правило, остаются вне внимания поисковиков.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз