Связаться с нами

Здравствуйте, мы принимаем звонки по будням, 10:00—19:00

Центральный офис в Москве
офис в Санкт-Петербурге

Илья Сегалович: Проблемы в использовании поисковых систем интернета как лингвистического ресурса

В рамках семинара 'Информационные технологии в исследованиях российских филологов' Илья Сегалович читал доклад 'Проблемы в использовании поисковых систем интернета как лингвистического ресурса'.

25 сентября 2006 года
703

По словам Ильи Сегаловича, веб-корпус является бесценным источником данных для лингвистов. На его основе можно строить и проверять различные модели, извлекать знания и статистические данные, проводить сравнительные изучения (например, различия языка в регионах).

Для самих поисковых систем веб-корпус тоже необходим - для измерения качества индекса и для сравнения с другими поисковиками.

Что можно считать? Можно считать словоупотребления, сайты или страницы. Илья Сегалович поделился такими цифрами: средний размер документа в базе Янедкса 600-700 слов, а среднее самое частотное слово - 20-30.

Считать сайты - дело не благодарное. Поисковики не заточены для лингвистов. У некоторых поисковиков наблюдается иллюзия того, что в выдаче мы не получим несколько найденных позиций с одного и того же сайта. Примеров, когда на второй и далее страницах результатов поиска встречаются найденные документы с сайта, который мы уже видели на первой странице, множество. К тому же у поисковиков нет согласия, что же считать сайтом. А для лингвистов удобнее применять к сайтам основную характеристику - у сайта есть один владелец.

Лучше всего считать страницы, в этом случае все более ясно: страница - единица информации в индекс поисковика. Но и здесь есть проблемы. Почти все поисковики часто сознательно не выдают часть результатов: в частности, не показывают похожие друг на друга результаты или не показывают заведомо малорелевантные результаты. Такой эффект 'экономного' поиска называют эшелонированием. С этим эффектом также можно связать необычные перепады в статистике поиска очень частотных слов, которые наблюдались в некоторых поисковых системах.

По поводу нестабильности результатов выдачи поисковиков Илья Сегалович рекомендовал прочитать работу On the Instability of Web Search Engines (Erik Selberg Oren Etzioni), в которой есть результаты эксперимента по сравнению выдачи 9 поисковых машин утром и вечером: результаты отличались от 19,84% до 30,77%. Всем лингвистам Илья посоветовал не верить слишком большим числам и проводить изучение статистики результатов ночью и не делать больших перерывов (больше двух недель) между несколькими измерениями.

Кроме того, важно знать язык запросов поисковых машин, который несколько отличается в каждой реализации. А также знать параметры, которые отключают фильтрацию документов по одинаковым сниппетам. Для Google это параметр filter=0, для Яндекса rd=0, для Рамблера noglue=1, для Yahoo dups=1.

Также Илья Сегалович рассказал про два оператора Яндекса. Оператор языка запросов date позволяет искать в Яндекс.Новостях или в Поиске по блогам с ограничением по дате, например, запрос date='200609' возвращает в результате все новости сентября 2006 года. Параметр, позволяющий не 'склеивать' результаты в сайты pag=u (это аналог типа группировки flat в XML-поиске на xml.yandex.ru).

В конце своего доклада Илья Сегалович подвел итог:
  1. Нельзя верить большим числам статистики поисковиков
  2. Проводить исследования статистики в короткий промежуток времени и желательно ночью, когда нагрузка на сервера минимальна
  3. Если сравниваются западные поисковики с Рунетом, то нужно учитывать разницу во времени
  4. У API, которые предлагают некоторые поисковики, наблюдаются проблемы с тем, что выдается старая версия индекса и нет гарантий, что это тоже самое, что сейчас в основной поисковой выдаче
  5. Интерпретация языка запросов и морфологии у разных поисковых систем разная
  6. Поведение поисковиков меняется со временем

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Соглашение на обработку персональных данных

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года Вы подтверждаете свое согласие на сбор, хранение и обработку компанией «Ашманов и партнеры» персональных данных, указанных путем заполнения веб-форм на сайте ashmanov.com и его поддоменов *.ashmanov.com.

Компания «Ашманов и партнеры» гарантирует конфиденциальность получаемой информации. Обработка персональных данных осуществляется в целях эффективного исполнения заказов, договоров и иных обязательств, принятых компанией «Ашманов и партнеры» в качестве обязательных к исполнению.

В случае необходимости предоставления Ваших персональных данных правообладателю, дистрибьютору или реселлеру программного обеспечения в целях регистрации программного обеспечения на Ваше имя, Вы даёте согласие на передачу Ваших персональных данных. Компания «Ашманов и партнеры» гарантирует, что правообладатель, дистрибьютор или реселлер программного обеспечения осуществляет защиту персональных данных на условиях, аналогичных изложенным в Соглашении на обработку персональных данных.

Настоящее согласие распространяется на следующие Ваши персональные данные: фамилия, имя и отчество, адрес электронной почты, контактный телефон, платёжные реквизиты.

Персональные данные хранятся и обрабатываются до завершения всех необходимых процедур либо до ликвидации Компании. Вы можете в любой момент отозвать настоящее согласие, направив письменное уведомление на адрес: 121357, Москва, ул. Верейская, д.29, стр. 134, Бизнес-центр «Верейская плаза 3», офис «Ашманов и партнеры» с пометкой «Отзыв согласия на обработку персональных данных». Вы также можете отказаться от получения электронных сообщений, используя ссылку «Отписаться», расположенную в конце каждого письма.

Вы гарантируете, что представленная информация является полной, точной и достоверной, а также что при представлении информации не нарушаются действующее законодательство Российской Федерации, законные права и интересы третьих лиц. Вся предоставленная информация заполнена Вами в отношении себя лично.

Настоящее согласие действует в течение всего периода хранения персональных данных, если иное не предусмотрено законодательством Российской Федерации.