Советы экспертов - рекомендации новичку

Собственно, без знания деталей, мелочей и оттенков при позиционировании в поисковых системах по конкурентным запросам не обойтись. Но детали - это уже высшая математика. И как высшая математика не может обойтись без арифметики, так и хорошее позиционирование не может обойтись без основ оптимизации.

08 января 2004 года
360

Поисковых систем написан не один десяток. Они существовали ещё до появления всемирной паутины, претерпели немалые изменения алгоритмов поиска в первые годы своей онлайн-жизни, нет причин полагать, что они не будут изменяться в будущем, и невозможно поручиться, что в момент написания данной статьи в какой-либо из поисковых систем не зреют грандиозные изменения. Так можно ли говорить о каких-то общих принципах безотносительно поисковой системы или даже поискового алгоритма? Определённо - да. Ученые ещё со времён Галилея (а некоторые небезосновательно считают, что ещё Леонардо да Винчи предвосхитил "резолютивный метод" Галилея) имеют в своём распоряжении целый арсенал методов и приёмов, позволяющих не только изучать сложные объекты, процессы и явления, но и предсказывать их эволюцию.

Одним из таких методов является моделирование. В нашем случае выбор модели очевиден: т.к. любая поисковая система является инструментом, облегчающая человеку поиск, то алгоритм поиска текста по базе поисковой системы аналогичен [подобен, изоморфен, по качеству должен стремиться в идеале к] поиску текста человеком в библиотеке. Неявно будем предполагать, что ищутся только тексты, а не какие-либо объекты. Памятуя об изречении, вынесенном в эпиграф, будем отдавать себе отчёт в том, что поведение сферической модели лошади в вакууме несколько отличается от поведения беговой лошади на ипподроме.

Итак, сформулируем постановку задачи: какими свойствами должен обладать текст, чтобы человек, ищущий некоторый материал в библиотеке нашёл именно этот, а не какой-либо другой текст. При решении ее мы будем опираться исключительно на собственный опыт поиска текстов в библиотеке.

Как вы думаете, с чего стоит начинать? Некоторые оптимизаторы любят поспорить на тему важности тех или иных параметров, влияющих на ранжирование, упуская из виду гораздо более важный фактор, кажущийся самоочевидным. Мой школьный учитель математики, раздавая контрольную, тихонько напевал себе под нос песенку "С чего начинается Родина?". Все в классе знали: Родина начинается с ОДЗ, т.е. с области допустимых значений. Какое условие должно выполнятся, независимо от того, какой именно человек ищет какой бы то ни было текст, в выбранной наугад библиотеке?

Правильно, этот текст должен присутствовать в этой библиотеке. Отсюда:

Совет 1.

Убедитесь, что открытая часть оптимизируемого сайта полностью доступна поисковым системам.

Вам кажется этот совет банальным? Однако есть факты, позволяющие утверждать, что это далеко не так. В 2000-м году было проведено исследование, в результате которого было установлено, что поисковыми системами проиндексирована лишь малая толика документов, находящаяся на "поверхности" web. Большая же часть (до 500 млрд.) документов остаётся недоступной поисковикам, т.е. в глубине сети (deep web), несмотря на свою доступность для любого посетителя. Даже если предположить, что 3 года назад исследователи ошиблись в своих оценках раз в десять (пусть и с учетом роста web за это время), очевидно, что и сегодня ситуация не улучшилась кардинальным образом: каждый из лидеров поисковых систем по числу проиндексированных документов Google и AllTheWeb (FAST) "знает" не более 5 млрд. страниц, т.е. не более 10% от общедоступного контента.

Кстати, одним из самых популярных вопросов новичков форума searchengines.ru является вопрос: "почему поисковик Х не индексирует вообще или индексирует крайне малое количество страниц моего сайта".

Причин, по которым сайты остаются в deep web, несколько, остановимся на самых важных из них.

Недоступность документов по ссылкам.

Роботы поисковых систем могут узнать о существовании того или иного документа только при наличии ссылки на него, или же если веб-мастер добавит страницу вручную при помощи формы на сайте поисковой системы. Поскольку поисковики оперируют миллионами документов, а ведущие - миллиардами, они вынуждены экономить вычислительные ресурсы буквально на всём. Поэтому большинство из современных web-технологий им не доступно. Например, некоторые поисковики разбирают JavaScript, в поисках ссылок в нём, но в настоящий момент ни один из поисковиков эти скрипты не выполняет. Поэтому большая часть сайтов с, например, динамическим меню может оказаться недоступна поисковикам. Если форма с выбором раздела сайта или отдельной страницы содержит лишь параметры скрипта, но не содержит прямых ссылок на эти страницы/разделы, то они попадут в Deep Web.

Очень распространены ошибки при написании URL. Яндексу, например, известно более 33.5 тысяч ссылок на localhost! А сколько ссылок было потеряно при смене домена!.. Впрочем, такие документы будут недоступны не только поисковикам, но и обычным посетителям.

Эта проблема часто возникает при использовании абсолютных ссылок вместо относительных. Ссылкой на localhost иногда пользуются при разработке сайта, когда и клиент (браузер), и сервер (localhost) находятся на одном компьютере. А потом, выкладывая новый сайт в Сеть, просто забывают проверить систему ссылок и... поисковая система безуспешно пытается найти и проиндексировать страницы, которые давно уже "переехали" на другой, реальный адрес.

Динамически генерируемые url.

Самая распространенная преграда индексации динамических (построенных на технологиях Perl, PHP, JSP, ASP и т.п.) сайтов - наличие динамически меняющейся части URL. Обычно для идентификации посетителей, которые отключают в браузерах поддержку Cookies, используются идентификаторы сессий в URL, но в некоторых случаях идентификаторы передаются всем посетителям подряд. В любом случае, робот поисковой системы Cookie не обрабатывает, а с учётом того, что с момента извлечения ссылок поисковой системой из уже проиндексированного документа, до момента визита робота по этим ссылкам проходит значительное время, идентификаторы, как правило, успевают устареть и меняются на новые - в итоге поисковик обречен ходить по замкнутому кругу, и просто не успевает проиндексировать все страницы сайта.

Проверить доступность страниц для роботов поисковых систем можно при помощи т.н. оффлайн-браузеров (программ, которые создают локальные зеркала сайтов), не поддерживающих или позволяющих отключать поддержку JavaScript и др. современные технологии вроде flash, например при при помощи wget

Ошибки в настройках сервера.

Очень часто при настройке собственного обработчика ошибок роботу возвращаются 30Х-е коды ответов сервера вместо 40Х при отсутствии документа на сервере. Для некоторых роботов камнем преткновения становится код ответа сервера, отличный от 200 или 404 при обращении к файлу /robots.txt. Часто сам этот файл содержит ошибки, в результате которых роботу запрещается индексировать целые разделы документов. Нередко от робота поисковика ожидают такой же функциональности, как и от браузера, в результате робот получает ответ сервера 406 Not Acceptable.

Правильность robots.txt можно проверить при помощи скрипта http://kako.yandex.ru/cgi-bin/test-robots

Продолжим составлять ОДЗ.

Так же как отсутствие книги (сайта) в библиотеке (в базе поисковика) не может сказаться положительным образом на ранжировании документа в результатах поиска, так и отсутствие текста по искомой теме в книге не сделает её фаворитом поиска. Поскольку поисковые системы ещё только учатся делать обобщения, строить семантические связи (т.е. подбирать синонимы, различать омонимы) и т.д. и т.п., то два запроса выглядящие идентичными для человека вполне могут оказаться абсолютно разными для поисковика, поэтому нельзя не дать следующий совет.

Совет 2.

Подбирайте точные ключевые слова

Чтобы не "растекаться мысию по древу", приведу несколько типичных ситуаций:

Предлагается оптимизировать промо-сайт нового энергетического напитка Х по различным запросам, в том числе и запросу "коктейли". На вопрос оптимизатора, почему именно коктейли, заказчик даёт ответ: мол, на дискотеках, из нашего напитка коктейли делать будут. Желание клиента - закон, вот только поисковики не осведомлены настолько в ночной жизни современной молодёжи. А на сайте коктейли ни словом не упоминаются.

Агентство недвижимости, занимающееся только жилыми помещениями в частном секторе, желает, чтобы сайт агентства находился по запросу "недвижимость". Всё хорошо, кроме того, что на сайте слово "недвижимость" исчезло даже из заголовка титульной страницы, и абсолютно непонятно, сколько людей, желающих снять или сдать квартиры или даже комнаты, назовут их "недвижимостью"? Вопросы на засыпку: человек, набравший в поисковике "сниму однокомнатную квартиру", хочет снять жилплощадь или же ищет тех, кто снимает? Слово "агенство" встречается в различных поисковых запросах почти также часто, как и "агентство". Стоит ли пренебрегать неправильным написанием?


Для получения статистики встречаемости поисковых запросов, воспользуйтесь сервисами Яндекса - http://direct.yandex.ru/ (доступен только после регистрации) и Рамблера - http://banners.park.rambler.ru/cgi-bin/wmb.pl

Вы можете возразить, что общие вопросы задаются более часто, поэтому отдача от этих слов будет выше. Но(!), даже если не учитывать, что по популярным односложным запросам завоевать первые места гораздо сложнее, то практика показывает, что посетители по таким запросам проявляют гораздо меньшую активность на оптимизируемом сайте, чем по точным запросам. Более подробно этот эффект будет рассмотрен при ознакомлении с особенностями контекстной рекламы.

Кроме того, меньшую посещаемость по точным запросам можно компенсировать большим количеством этих запросов. Благо это не так уж и сложно сделать. В 2000-м году Андрей Иванов сделал программу "Штучка", которая автоматически, каждые 30 секунд снимала 20 запросов "Прямого Эфира" Яндекса. Таким образом была создана база поисковых запросов объемом около двух миллионов обращений. Из этой базы "Штучка" могла делать выборки запросов по произвольно выбранным ключевым словам и фразам, примерно так, как сейчас это делают открытые сервисы статистики Яндекс-Директа и Рамблера.

Иванов стал изучать спрос на разные темы, писать об этом статьи и иллюстрировать их списками запросов. Сайт, куда выкладывались статьи и списки, без всяких усилий по оптимизации быстро набрал посещаемость до 5000 хостов в день. Поисковые системы хорошо ищут цитаты, а литературный язык сайтов довольно сильно отличается от реального языка запросов, поэтому списки запросов оказались фактически единственными страницами, обеспечивавшими результат по цитате (совпадению фразы), что и вызвало резкий взлет посещаемости.

В настоящее время идея получила развитие, и существует несколько разновидностей скриптов, позволяющие получать до 50 000 человек в день с поисковых систем (с Google, в основном). Посетители, правда, абсолютно не целевые, и многие поисковики вполне успешно научились противостоять подобным скриптам. Сайты выкидывают из поиска (банят) с формулировкой "автоматически сгенерированный контент". Эта, и подобные ей технологии будут ещё не раз упоминаться в данной рассылке, а пока - совет 3.

Совет 3.

Не применяйте досконально неизученных вами приёмов и технологий на оптимизируемом сайте - результаты могут быть необратимы.

Вернемся, однако, к нашей модели.

Предположим, что мы нашли в библиотеке брошюру с тезисами докладов конференции на интересующую нас тему. Какую из публикаций мы предпочтём? Представим себя листающими такую брошюру. Сначала смотрим оглавление. Так, название не подходит, пропускаем. Ага, название обнадёживающее, посмотрим подробнее. Из краткого обзора становится понятным, что не то. Возвращаемся к оглавлению. Вот, по названию, точно то, что искали, посмотрим, посмотрим... Так, краткого обзора нет, в первом абзаце какие-то общие слова, пробежимся по следующим абзацам: вот, курсивом выделены слова, которые в точности совпадают с искомым. Вероятнее всего, это та публикация, которая нам будет интересна.

Вы, наверное, ожидаете перечисления HTML тэгов, которые придают вес документам при поиске по тем или иным словам? Напрасно, т.к. мы ведём речь обо всех поисковиках вместе, а не каком-то конкретном в частности. А то, что русскому хорошо, то немцу - смерть. Поэтому, ограничимся такой формулировкой:

Совет 4.

Не пренебрегайте структурно-смысловым оформлением текста каждого документа таким образом, чтобы после изучения атрибутов документа и первых его абзацев было очевидно как посетителям, так и поисковым машинам, о чём идёт речь в этом документе.

С посетителями всё, вроде бы, понятно, а вот о понятии первых абзацев для поисковых систем стоит поговорить отдельно. Как говорилось выше, поисковые системы экономят свои вычислительные ресурсы буквально на всём. Поэтому они не занимаются размещением текста по странице так, как это делают браузеры, а обрабатывают текст по мере поступления.

Чтобы составить представление о том, как выглядит документ глазами робота, достаточно в браузере открыть HTML код документа. Или воспользоваться скриптом симулятора поисковой системы. http://www.delorie.com/web/ses.cgi. А очередной совет будет таким:

Совет 5

Не замусоривайте HTML код, особенно в начале документа, скриптами и излишними тегами.

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз