Илья Сегалович: Проблемы в использовании поисковых систем интернета как лингвистического ресурса

В рамках семинара 'Информационные технологии в исследованиях российских филологов' Илья Сегалович читал доклад 'Проблемы в использовании поисковых систем интернета как лингвистического ресурса'.

25 сентября 2006 года
414

По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

Для самих поисковых систем веб-корпус тоже необходим - для измерения качества индекса и для сравнения с другими поисковиками.

Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово - 20-30.

Считать сайты - дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику - у сайта есть один владелец.

Лучше всего считать страницы, в этом случае все более ясно: страница - единица информации в индекс поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект 'экономного' поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.

По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу On the Instability of Web Search Engines (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.

Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.

Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date='200609' возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не 'склеивать' результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на xml.yandex.ru).

В конце своего доклада Илья Сегалович подвел итог:
  1. Нельзя верить большим числам статистики поисковиков
  2. Проводить исследования статистики в короткий промежуток времени и желательно ночью, когда нагрузка на сервера минимальна
  3. Если сравниваются западные поисковики с Рунетом, то нужно учитывать разницу во времени
  4. У API, которые предлагают некоторые поисковики, наблюдаются проблемы с тем, что выдается старая версия индекса и нет гарантий, что это тоже самое, что сейчас в основной поисковой выдаче
  5. Интерпретация языка запросов и морфологии у разных поисковых систем разная
  6. Поведение поисковиков меняется со временем

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз