Продвигаем бизнес в Интернете с 2001 года

Основные директивы Robots.txt

Особенности некоторых директив robots.txt, которые помогут в индексировании и продвижении сайта.

Последнее обновление: 02 октября 2019 года
6756

Эффективная оптимизация сайта неизбежно включает в себя создание и правильную настройку файла robots.txt. Создать этот файл можно в обычном «блокноте», а для того, чтобы он начал использоваться, его нужно поместить в корневую папку сайта (туда же, где расположен файл index.php). Этот файл содержит в себе перечень инструкций, или директив, которыми будут пользоваться поисковые роботы. Это не значит, что в случае отсутствия файла роботс они не станут индексировать ваш сайт – это значит, что при наличии такого файла они будут делать это гораздо более эффективно и быстро.

Это важно по многим причинам. Во-первых, задав роботам определенные правила взаимодействия с вашим порталом, вы уменьшите нагрузку на свой сервер, создаваемую из-за их работы. Во-вторых, вы сможете задать перечень файлов, страниц и разделов, к которым роботы не будут обращаться в принципе. И, наконец, в-третьих, вы сможете оптимизировать индексацию страниц вашего сайта.

Основные директивы файла robots.txt

Существует несколько основных директив, которые должен содержать файл роботс, и от которых непосредственно зависит, каким образом поисковые системы и роботы будут взаимодействовать с вашим сайтом:

  • User-agent. Эта директива говорит о том, инструкции для каких роботов будут следовать за ней. Это может быть робот Mail.Ru, StackRambler, Bingbot, любой из многочисленных роботов Яндекса(YandexBot, YandexDirect, YandexMetrika, YandexImages, YandexNews и так далее), любой из многочисленных роботов Google (Googlebot, Mediapartners, AdsBot-Google, Googlebot-Image, GoogleBot-Video и так далее). Юзер агент – ключевая директива, без которой все, что следует дальше, не будет иметь какого-либо смысла.

  • Disallow. Главное назначение этой директивы заключается в том, чтобы закрыть определенные файлы, страницы или даже разделы сайта от индексирования поисковыми роботами. Это самая востребованная директива, только из-за возможности пользоваться которой многие вебмастера в принципе заводят файл robots.txt. При указании адресов файлов, страниц, групп страниц и разделов, которые не должны индексироваться, можно использовать дополнительные символы. Так, «*» предполагает любое количество символов (включая нулевое) и по умолчанию подразумевается в конце каждой строки. А знак «$» говорит о том, что предшествующий символ был последним.

  • Allow. Это гораздо менее популярная директива, которая формально разрешает роботу заниматься индексацией того или иного раздела. Не востребована она потому, что поисковики в принципе имеют свойство индексировать все данные интернет-ресурса, которые теоретически могут быть полезны пользователям (за исключением тех, что прописаны под директивой Disallow).

  • Host. Такая директива позволяет задать адрес главного зеркала сайта. Отличие, как правило, заключается в наличии или отсутствии трех букв «w». Если ваш портал еще не индексировался поисковыми системами, то вы можете сами задать его зеркало. В противном случае введите адрес своего сайта, например, в Яндексе. И если в первом результате выдачи не будет «www», то это будет означать, что в главном зеркале эти три буквы есть, и наоборот. Обратите внимание на то, что эту директиву поддерживают только роботы Mail.Ru и Яндекса, а вводить ее необходимо исключительно однократно.

  • Sitemap. Эта директива должна подсказывать роботам путь к одноименному XML-файлу, в котором содержится карта индексируемых страниц, информация о датах их изменения и приоритете при просмотре и индексации.

  • Crawl-delay. С помощью такой директивы можно назначить временной интервал между теми моментами, когда поисковый робот заканчивает скачивание предыдущей страницы сайта и начинает загрузку следующей. Измеряется этот временной интервал в секундах. Директива Crawl delay применяется для того, чтобы сократить нагрузку на сайт со стороны поисковых роботов и избежать неполадок в работе сервера. Не рекомендуется сразу начинать с больших значений (например, с Crawl-delay 2), лучше вводить задержки продолжительностью в десятые доли секунды и, при необходимости, постепенно их удлинять. При этом более продолжительные временные интервалы можно использовать для менее важных роботов (Yahoo, Bing, Mail.Ru), а для Яндекса лучше делать их минимальными. Роботы Google игнорируют эту директиву.

  • Clean param. Это директива, способная существенно рационализировать прохождение поискового робота по сайту. С помощью Clean param вы можете описать динамические составляющие URL, не оказывающие никакого влияния на содержимое страницы. Это идентификаторы пользователей, сессий, индивидуальные префиксы и другие части подобного плана. Указание их в Clean param даст поисковому роботу понять, что он уже загружал этот материал (только с другими динамическими элементами, не меняющими содержание), и скачивать его повторно он не будет. Это очень полезная директива, которая, тем не менее, используется владельцами сайтов не так часто, как стоило бы. Поэтому если вы хотите сделать взаимодействие своего портала с роботами как можно более эффективным – не забудьте указать в файле роботс Clean param.

Какие бы директивы вы ни прописывали, будь то Crawl-Delay, Clean param, Disallow или что-либо еще, крайне желательно снабжать их комментариями (под символом «#», текст после которого робот не читает). В противном случае даже вы сами через полгода можете не вспомнить, почему, например, закрыли от индексации ту или иную страницу, а уж если за дело возьмется другой человек – то ему и подавно будет сложно в этом разобраться. Тем временем, спустя какое-то время в файле, вполне возможно, понадобится что-то изменить, поэтому лучше бы сохранить возможность беспроблемно в нем ориентироваться.

Ключевые правила настройки файла robots.txt

Необязательно самостоятельно создавать файл robots.txt: Яндекс, Google и другие поисковые системы смогут довольно эффективно использовать на вашем сайте своих роботов, даже если вы скачаете шаблонный вариант этого файла. Однако если вы хотите, чтобы их работа была наиболее оптимизированной, быстрой и результативной, стоит все же позаботиться о самостоятельной настройке файла роботс. При этом стоит учесть следующие ключевые правила:

  • Все страницы, связанные с администрированием сайта, личными кабинетами, процедурами регистрации-авторизации, оформлением заказов, а также технические дубли страниц и служебные разделы должны быть закрыты от индексирования. Это касается всех поисковых систем, будь то User-agent Yandex bot, или, например, User-agent Mail.Ru.

  • Имеет смысл также закрыть от индексации json- и ajax-скрипты, папку cgi, страницы с параметрами сессий и UTM-меток, сортировки, фильтров, сравнения.

  • Чтобы убедиться, что вы сделали подходящие настройки robots.txt, можно воспользоваться соответствующими инструментами систем Яндекс и Google.

  • Спустя полмесяца после добавления новых страниц на сайт и включения их в директиву Disallow имеет смысл проверить через поисковые системы, не были ли они проиндексированы. Если да – то потребуется пересмотреть и откорректировать настройки.

Файл robots.txt дает возможность оптимизировать работу сайта с поисковыми роботами, которая доступна даже при отсутствии глубоких узкоспециализированных знаний. Главное – правильно настроить этот файл и периодически проверять, корректно ли он считывается роботами Google, Яндекса и других поисковых систем. 

Теги: SEO

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз