Продвигаем бизнес в Интернете с 2001 года

Об индексировании поисковыми машинами сайтов на фреймах

Константин Ломков объяснил особенности работы поисковых систем с фреймами

Последнее обновление: 21 ноября 2019 года
5795

Введение

Информацию о том, каким образом происходит индексирование тех или иных частей сайта, и как они будут представлены в результатах поиска, можно получать разными способами. Из инструкции по использованию данным поисковиком, из информации, оставляемой разработчиками поисковой машины в интервью, на форумах, семинарах. Можно прислушиваться к мнению других веб-мастеров. Однако наиболее достоверную информацию можно получить, самостоятельно проведя опыт, особенно если характер информации не количественный, а качественный.

В данном случае автор заинтересовался вопросом, как относятся поисковые машины к сайтам с фреймами. Хорошо известно, что все современные поисковые машины индексируют такие сайты и хранят в базе каждый фрейм как отдельный документ. С этим связаны известные неудобства, когда посетитель приходит с поисковой машины и находит отдельный документ с основным содержанием, открывает его, но не видит всей фреймовой структуры, в которой обычно находится навигация. Известны способы сглаживания этого неудобства с помощью javascript более или менее успешные в зависимости от сложности фреймовой структуры.

Проблема усугубляется тем, что сам документ с фреймовой структурой (<frameset>) как правило, никакого полезного содержания не имеет, кроме заголовка, а только указание на документы, из которых брать содержимое этих самых фреймов. Если бы поисковые системы ранжировали сам фреймсет выше, чем составляющие его документы, проблема бы отпала, т.к. посетитель сразу открыл бы всю структуру, как если бы зашел через начало сайта по ссылкам.

Стандартом HTML 3.2 и выше предусмотрен тег <noframes>, предлагающий броузеру, не поддерживающему фреймы альтернативное содержание. Ведь робот поисковой машины можно считать именно таким - простым текстовым броузером, не поддерживающим фреймы. Т.е. он может их посмотреть по очереди. В некоторых случаях вебмастера пишут в тег <noframes> обидные надписи, например "ваш броузер не поддерживает фреймы, поставьте себе что-нибудь поновее". Но более полезно в этом теге разместить краткое содержание страницы и навигацию.

Главная задача этой статьи - выяснить, как поисковые машины относятся к содержимому между тегами <noframes>...</noframes>, а заодно и тегу <iframe>. Для этого можно поискать в поисковых машинах характерные фразы, которые в таких случаях обычно пишут, например: "ваш броузер не поддерживает фреймы".

Простое наблюдение

Яндекс

На 11 сентября 2003 г. Яндекс выдал 12 ссылок (сгруппированных по сайтам) со строгим соответствием запросу "ваш броузер не поддерживает фреймы":

  1. http://www.greenworld.org.ru/rus/periodik/index.htm - 1К - 18.01.2003
  2. http://future.quarta.ru/mmcinfo/index2.html - 2К - 02.04.2002
  3. http://www.alien.ru/~svv/ - 956байт - 16.12.2000
  4. http://info.dinau.com.ua:8083/main-frameset.html - 1К - 28.12.2000
  5. http://www.risp.ru/~kolgiss/ - 1К - 31.08.1999
  6. http://eshops.by.ru/ - 1К - 10.08.2002
  7. http://ac.cs.nstu.ru/~gun/abitura/ - 2К - 22.03.1999
  8. http://design.dev.ru/portfolio.html - 2К - 24.07.2003
  9. http://nonsmoke.chat.ru/ - 910байт - 27.03.2001
  10. http://elsi.ufanet.ru/database.htm - 8К - 21.06.1999
  11. http://ib.yaroslavl.ru/ - 1К - 30.04.2002
  12. http://www.angelfire.com/al/va/images/main.html - 3К (без даты, прим. автора)

Впрочем, на первом сайте найдено 17 страниц, а на остальных - по 1 странице. Бросается в глаза, что 5 ссылок имеют возраст 2.5 - 4 года. Посмотрим, что в коде страниц:

  • Ссылка № 1 - после закрытия тегов </frameset> и пустого <NOFRAMES> </NOFRAMES> идет тег BODY с искомой фразой:
    <BODY><B><H6>Извините, Ваш броузер не поддерживает фреймы!</H6></B></BODY>
    Итак, это не <noframes>.
  • Ссылка № 2 - аналогично, текст есть в теге <body> после структуры <frameset>... </frameset>. Тег <noframes> - отсутствует.
  • Ссылка № 3 - точно то же самое.
  • Ссылка № 4 - наконец-то!....</frameset> <noframes>Ваш броузер не поддерживает фреймы. Установите новую версию....</noframes>. Однако, обратите внимание, что дата документа - 28.12.2000.
  • Ссылка № 5 - еще раз в точку.
    <frameset framespacing="2" frame rows="120,">
    <frame............>
    <frame............>
    <noframes>
    <body............>
    Ваш броузер не поддерживает фреймы!
    </body>
    </noframes>
    </frameset>
    Здесь часть в теге <noframes> идет перед закрытием тега </frameset>. И снова документ не отличается свежестью - 31.08.1999
  • Ссылка № 6 - фраза для броузеров, не понимающих "плавающие" фреймы - <iframe> :
    <IFRAME SRC='http://automobile.km.ru/eshops.php3' width=780 height=2000 frameborder=0 align=middle><H2>К сожалению Ваш броузер не поддерживает фреймы.</H2></IFRAME>. Возраст ссылки - 1 год.
  • Ссылка № 7 - сервер не ответил :(.
  • Ссылка № 8 - страница с хитрым JavaScript, определяет разрешение экрана и перекидывает на другую. Выкачал ее с помощью программы fetch и посмотрел. Внутри фреймов вообще нет, искомая надпись просто внутри <body>.
  • Ссылка № 9 - Результат положительный, аналогично ссылке №4. Но дата - 27.03.2001.
    <frameset cols="212," frame>
    <frame src="com.htm" name="left" noresize>
    <frame src="main.htm" name="right">
    </frameset>
    <noframes>
    <body....>Ваш броузер не поддерживает фреймы, жмите <a href="main.htm">сюда</a></body>
    </noframes>
  • Ссылка № 10 - Результат положительный, аналогично ссылке №5. Но дата - 21.06.1999
    <frameset cols="60%,,0" frameborder=no border=0 framespacing=0>
    <frame src=tree.htm name=treeFrame marginheight=0 marginwidth=0>
    <frame src=info.htm name=info marginheight=0 marginwidth=0>
    <frame src=menu.htm name=menu marginheight=0 marginwidth=0 scrolling=no>
    <noframes>
    <body><h2 align=center>Извините, но Ваш броузер не поддерживает фреймы</h2></body>
    </noframes>
  • Ссылка № 11 - В этом HTML документе полная путаница. Вложенный фреймсет засунули в <head>, тег <noframes> открывается в <head>, а закрывается уже в <body>! Там же лежит искомая фраза, в конце концов фреймсет закрывается еще раз. Вывод делать не будем.
    <HEAD>
    <TITLE>Каждому бухгалтеру по ИНФО-БУХГАЛТЕРу</TITLE>
    <FRAMESET rows="69, " FRAME FRAMESPACING="0">
    <FRAME src="menu.html" frame scrolling="no" margin margin noresize target="main">
    <FRAMESET cols="153,">
    <FRAME src="left.html" name="contents" target="main"
    scrolling="auto" margin margin
    resize>
    <FRAME name="main" src="news.shtml" target="_top">
    </FRAMESET>
    </FRAMESET>
    <NOFRAMES>
    </HEAD>
    <BODY>
    <B><FONT SIZE=-1>К сожалению ваш броузер
    не поддерживает фреймы (Используйти IE или NN версий 3 и выше)</FONT></B>
    <p><a href="help.html">Посмотреть карту сайта</a></p>
    </BODY>
    </NOFRAMES>
    </FRAMESET>
  • Ссылка № 12 - код страницы тоже не без ошибок, в теге <noframes> не хватает буквы:
    </FRAMESET>
    <noframe>Ваш броузер не поддерживает фреймов.

Итак, подведем итог: из 12 ссылок 9 годятся для анализа. Из них искомый текст найден внутри корректно поставленного тега <noframes> в ссылках № 4,5,9 и 10. Дата последнего изменения этих документов, известная Яндексу находится в диапазоне от июня 1999 г. до марта 2001 г. В документе №6 за август 2002 г. фраза найдена в теге <iframe>. В остальных случаях фраза найдена в теге <body>, стоящем после закрытия тега <frameset>.

Рамблер

Итак, делаем запрос: "ваш броузер не поддерживает фреймы"

  • Ссылка № 1 - 07.07.2003 | 25 Kb | http://www.fx-consalt.ru/ - альтернативное содержание в <iframe>.
    <iframe src="....." frame >К сожалению, ваш броузер не поддерживает плавающие фреймы. Страница отображается неправильно!!!</iframe>
  • Ссылка № 2 - 25.12.2002 | 27 Kb | http://inforg.ru/ - тоже обычный документ с тегом <iframe>.
  • Ссылка № 3 - 07.07.2003 | 12 Kb | http://funnys.virtualave.net/stishki.html - тоже <iframe>.
  • Ссылка № 4 - 07.07.2003 | 6 Kb | http://gondola.zamok.net/ - аналогично.
  • Ссылка № 5 - 11.06.2003 | 10 Kb | http://bluesystem.by.ru/main.html - тоже.
  • Ссылки № 6-8 - тоже <iframe>.
  • Ссылка № 9 - статья про фреймы на citforum.ru :).
  • Ссылки № 10-12 и 14-15 - <iframe>, на странице №13 фраза присутствует в тексте страницы.

Видно, что содержимое тега <iframe> индексируется. Но поскольку из 15 страниц, нужная фраза ни разу не встретилась в теге <noframes>, можно предположить, что его содержимое не индексируется. Если кто-то в этом еще сомневается - пусть проверит еще пару страниц выдачи Рамблера ;).

Апорт

В случае с Апортом пришлось урезать искомую фразу до "ваш броузер поддерживает фреймы", выкинув частичку "не". Иначе, Апорт не находит ни одного документа.

  • В ссылках №1-4 не вполне корректный HTML-код,
  • Ссылка №5 - http://www.snegiri.ru/ - видим после закрытия </frameset> идет <noframes><body>...с искомым текстом
  • Ссылка №8 - http://nw.wnet.ru/nwa/rus/ (проверено 15.08.2003) - Страница с обычными фреймами, текст найден внутри <noframes><body>...</body></noframes>.
  • Ссылка №9 - http://norma.kiev.ua/description.php?firm=votchala, (проверено 31.07.2003). Тоже есть текст внутри <noframes>

По запросу "поддерживает плавающие фреймы" легко убедиться, что Апорт индексирует текст внутри тега <iframe>.

Итак, можно сделать вывод, что Апорт индексирует текст в теге <noframes> и использует его в поиске.

Собственно сам эксперимент

Чтобы закрепить выводы и проверить, какова ситуация для свежепроиндексированных (или свежепереиндексированных) сайтов, можно спланировать отдельный эксперимент. Для этого был сделан мини-сайт
seo-test.videoconferencing.ru со следующей структурой:

index.htm - ссылается на главный фреймсет опыта: frameset.htm и на plain.htm. frameset.htm открывает узкий верхний фрейм top.htm и нижний фрейм bottom.htm. В теге <noframes> документа frameset.htm написано:
"Ваш броузер супер-стар и ничего не знает о фреймах. Не волнуйтесь, мы позаботились и о таких дремучих юзерах, как вы. Вы тоже узнаете, что самое мокрое место на Земле - Черрапунджи в Индии, там выпадает в 10 раз больше дождей, чем в деревне Гадюкино."

Внутри нижнего фрейма bottom.htm встроен плавающий фрейм, с содержимым из файла iframe.htm и альтернативным текстом: "Ваш броузер супер-стар и ничего не знает о фреймах. Не волнуйтесь, мы позаботились и о таких дремучих юзерах, как вы. Вы тоже узнаете, что самое мокрое место на Земле - Черрапунджи в Индии, там выпадает в 10 раз больше дождей, чем в деревне Гадюкино. Альтернативное содержимое Iframe Полечудес - 321 мм осадков".

Посмотрим, как это проиндексировали Яндекс, Рамблер и Апорт.

Яндекс

С помощью "Расширенного поиска" ищем слово Черрапунджи на сайте seo-test.videoconferencing.ru:
Увы, выдается всего 2 документа: top.htm и plain.htm. По запросу "супер стар" - найден только plain.htm, документ frameset.htm тоже не найден. Однако, frameset.htm есть в базе и находится по слову из заголовка документа - "фреймсет". Таким образом, Яндекс не кладет в свою базу куски текста из тега <noframes>, по крайней мере для вновь проиндексированных документов. Не ищет он и по альтернативному содержимому тега <iframe>: в результатах поиска нет документа bottom.htm, только iframe.htm. Однако, как было показано выше, в его базе есть старые документы, датированные до марта 2001 г. с проиндексированным содержимым <noframes>. С другой стороны, страница /frame_and_body.htm , нарушающая стандарты и содержащая после <ftameset>....</ftameset> еще и <body>...</body> без всяких <noframes>..... находится по такому запросу.

Получается, что до 2001 г. включительно Яндекс использовал текст в <noframes>, но в какой-то момент - перестал. Таким кардинальным образом Яндекс решил проблему с вебмастерами, спамящими в теге <noframes>.

Рамблер

Непонятная ситуация. При поиске по сайту, выдаются 4 документа. Однако, если поискать любое слово на сайте - выдается 0 документов (уже 13 сентября). Или надо подождать, или тут не обошлось без В.Шабанова, взявшего сайт на карандаш :).

Апорт

Здесь, похоже все в порядке. По запросу, содержащемуся в теге <noframes> "броузер супер-стар узнаете гадюкино" страница frameset.htm выдается, искомые слова красным выделяются.

Google

Тоже смотрит в <noframes>: запрос "фреймсет броузер узнаете Гадюкино" выдает страницу frameset.htm сразу.

Altavista

Сайт пока не попал в ее индекс.

Цитаты по теме

Wolf - 14-05-2001, форум searchengines.ru:
"Тег <NOFRAMES> индексят все наши поисковики из "большой тройки", ну и многие импортные - Google, AV, Lycos - точно. Excite, похоже, нет."

Форум Яндекса, некто Андрей [29.05.03 17:50]:
Re: Фреймы "Уважаемые господа! Кто бы что бы не говорил, а Яндекс с новым алгоритмом (последнего года) фреймы не индексирует. Точнее, он их индексирует, но придает столь малый вес, что сайт, построенный на фреймах, в любом запросе "улетит" вниз. Из практического опыта - хочешь попасть на первые 20 страниц - забудь о фреймах."

Выводам настоящей статьи это не противоречит, действительно ситуация в Яндексе поменялась.

Дневник событий

  • 22 августа 2003 г. - выложил страницы на seo-test.videoconferencing.ru
  • 23 августа, 10:45 - засабмиттил в Яндекс, Рамблер и Апорт - головную страницу брали программы: Yandex/1.03.003 (compatible; Win16; D), Aport Registration Robot, v.2.0. Также пихнул ее в Альтависту и Fast.
  • 24 августа
    • 00:02 - StackRambler взял robots.txt, через 1.5 минуты - /, еще через 2 минуты - frameset.htm и plain.htm.
    • 00:10 - пришло письмо из Апорта, что "заявка на регистрацию принята к рассмотрению". "Решение об индексации сайта в поисковой системе принимается на основе автоматического анализа его содержания и популярности (цитируемости)".
    • 01:41 - индексатор Яндекса взял /robots.txt, затем frameset.htm, top.htm, bottom.htm, iframe.htm.
    • 02:12 - робот Рамблера взял top.htm и bottom.htm.
    • Поставил ссылку на странице http://house-plants.0catch.com, (вне зоны действия русских поисковиков), специально для Гугла. Чтобы Гугл побыстрее узнал об этой странице, поставил на нее пару ссылок со страниц в зоне.ru с PR=5/10.
  • 25 августа - сайт посещен хостом shabanov.rambler.stack.net. Очевидно, мой эксперимент попал на карандаш разработчикам. Теперь непонятно, будет ли эксперимент чист для Рамблера.
  • 26 августа - Сайт появился в базе Яндекса.
  • 29 августа - поиск по сайту в Рамблере показал все страницы. Однако поиск по их содержимому ничего не дает.
  • 30 августа - по сайту прошел робот Гугла - crawler11.googlebot.com.
  • 1 сентября - еще раз пришел робот Яндекса "Yandex/1.01.001 (compatible; Win16; I)"
  • 4 сентября - / еще раз взял Googlebot.
  • 7 сентября - Googlebot взял /plain.htm.
  • 9 сентября - Альтависта взяла /.
  • 10 сентября - Яндекс взял /plain.htm (индексатор).
    зашел Апорт и взял / (2 раза), /frameset.htm, /plain.htm, /bottom.htm и /top.htm.
  • 11 сентября - Альтависта взяла тоже все кроме /iframe.htm. Список взятых документов виден в Апорте.
  • 12 сентября - Апорт находит документы по их тексту.
  • 13 сентября - добавлена страница frame_and_body.htm, засабмитил в Яндекс и Рамблер.
  • 16 сентября - свежая страница попала в Яндекс.

Disclaimer

Автор не отвечает за любые последствия, к которым может привести неправильное использование приведенных результатов, например, исключение каких-либо сайтов из поисковых индексов. Не гарантируется, что приведенные адреса будут работать на момент прочтения статьи и иметь то же содержание. Не гарантируется и то, что поисковые машины за это время не изменили свои алгоритмы. С другой стороны, автор приложит все имеющиеся возможности, чтобы сделанный сайт seo-test.videoconferencing.ru просуществовал подольше и подписчики рассылки могли по прошествии времени проверить сделанные выводы снова.

Благодарности

Автор благодарит поисковые системы Яндекс, Рамблер, Апорт и Google за предоставленные результаты поиска, процитированных участников форумов searchengines.ru и forum.yandex.ru, а также Евгения Трофименко за идею.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз