Связаться с нами

Здравствуйте, мы принимаем звонки по будням, 10:00—19:00

Центральный офис в Москве
офис в Санкт-Петербурге

Crawl-delay, Clean-param и другие директивы файла robots.txt

Особенности некоторых директив robots.txt, которые помогут в индексировании и продвижении сайта.

11 июля 2017 года
217

Эффективная оптимизация сайта неизбежно включает в себя создание и правильную настройку файла robots.txt. Создать этот файл можно в обычном «блокноте», а для того, чтобы он начал использоваться, его нужно поместить в корневую папку сайта (туда же, где расположен файл index.php). Этот файл содержит в себе перечень инструкций, или директив, которыми будут пользоваться поисковые роботы. Это не значит, что в случае отсутствия файла роботс они не станут индексировать ваш сайт – это значит, что при наличии такого файла они будут делать это гораздо более эффективно и быстро.

Это важно по многим причинам. Во-первых, задав роботам определенные правила взаимодействия с вашим порталом, вы уменьшите нагрузку на свой сервер, создаваемую из-за их работы. Во-вторых, вы сможете задать перечень файлов, страниц и разделов, к которым роботы не будут обращаться в принципе. И, наконец, в-третьих, вы сможете оптимизировать индексацию страниц вашего сайта.

Основные директивы файла robots.txt

Существует несколько основных директив, которые должен содержать файл роботс, и от которых непосредственно зависит, каким образом поисковые системы и роботы будут взаимодействовать с вашим сайтом:

  • User-agent. Эта директива говорит о том, инструкции для каких роботов будут следовать за ней. Это может быть робот Mail.Ru, StackRambler, Bingbot, любой из многочисленных роботов Яндекса(YandexBot, YandexDirect, YandexMetrika, YandexImages, YandexNews и так далее), любой из многочисленных роботов Google (Googlebot, Mediapartners, AdsBot-Google, Googlebot-Image, GoogleBot-Video и так далее). Юзер агент – ключевая директива, без которой все, что следует дальше, не будет иметь какого-либо смысла.

  • Disallow. Главное назначение этой директивы заключается в том, чтобы закрыть определенные файлы, страницы или даже разделы сайта от индексирования поисковыми роботами. Это самая востребованная директива, только из-за возможности пользоваться которой многие вебмастера в принципе заводят файл robots.txt. При указании адресов файлов, страниц, групп страниц и разделов, которые не должны индексироваться, можно использовать дополнительные символы. Так, «*» предполагает любое количество символов (включая нулевое) и по умолчанию подразумевается в конце каждой строки. А знак «$» говорит о том, что предшествующий символ был последним.

  • Allow. Это гораздо менее популярная директива, которая формально разрешает роботу заниматься индексацией того или иного раздела. Не востребована она потому, что поисковики в принципе имеют свойство индексировать все данные интернет-ресурса, которые теоретически могут быть полезны пользователям (за исключением тех, что прописаны под директивой Disallow).

  • Host. Такая директива позволяет задать адрес главного зеркала сайта. Отличие, как правило, заключается в наличии или отсутствии трех букв «w». Если ваш портал еще не индексировался поисковыми системами, то вы можете сами задать его зеркало. В противном случае введите адрес своего сайта, например, в Яндексе. И если в первом результате выдачи не будет «www», то это будет означать, что в главном зеркале эти три буквы есть, и наоборот. Обратите внимание на то, что эту директиву поддерживают только роботы Mail.Ru и Яндекса, а вводить ее необходимо исключительно однократно.

  • Sitemap. Эта директива должна подсказывать роботам путь к одноименному XML-файлу, в котором содержится карта индексируемых страниц, информация о датах их изменения и приоритете при просмотре и индексации.

  • Crawl-delay. С помощью такой директивы можно назначить временной интервал между теми моментами, когда поисковый робот заканчивает скачивание предыдущей страницы сайта и начинает загрузку следующей. Измеряется этот временной интервал в секундах. Директива Crawl delay применяется для того, чтобы сократить нагрузку на сайт со стороны поисковых роботов и избежать неполадок в работе сервера. Не рекомендуется сразу начинать с больших значений (например, с Crawl-delay 2), лучше вводить задержки продолжительностью в десятые доли секунды и, при необходимости, постепенно их удлинять. При этом более продолжительные временные интервалы можно использовать для менее важных роботов (Yahoo, Bing, Mail.Ru), а для Яндекса лучше делать их минимальными. Роботы Google игнорируют эту директиву.

  • Clean param. Это директива, способная существенно рационализировать прохождение поискового робота по сайту. С помощью Clean param вы можете описать динамические составляющие URL, не оказывающие никакого влияния на содержимое страницы. Это идентификаторы пользователей, сессий, индивидуальные префиксы и другие части подобного плана. Указание их в Clean param даст поисковому роботу понять, что он уже загружал этот материал (только с другими динамическими элементами, не меняющими содержание), и скачивать его повторно он не будет. Это очень полезная директива, которая, тем не менее, используется владельцами сайтов не так часто, как стоило бы. Поэтому если вы хотите сделать взаимодействие своего портала с роботами как можно более эффективным – не забудьте указать в файле роботс Clean param.

Какие бы директивы вы ни прописывали, будь то Crawl-Delay, Clean param, Disallow или что-либо еще, крайне желательно снабжать их комментариями (под символом «#», текст после которого робот не читает). В противном случае даже вы сами через полгода можете не вспомнить, почему, например, закрыли от индексации ту или иную страницу, а уж если за дело возьмется другой человек – то ему и подавно будет сложно в этом разобраться. Тем временем, спустя какое-то время в файле, вполне возможно, понадобится что-то изменить, поэтому лучше бы сохранить возможность беспроблемно в нем ориентироваться.

Ключевые правила настройки файла robots.txt

Необязательно самостоятельно создавать файл robots.txt: Яндекс, Google и другие поисковые системы смогут довольно эффективно использовать на вашем сайте своих роботов, даже если вы скачаете шаблонный вариант этого файла. Однако если вы хотите, чтобы их работа была наиболее оптимизированной, быстрой и результативной, стоит все же позаботиться о самостоятельной настройке файла роботс. При этом стоит учесть следующие ключевые правила:

  • Все страницы, связанные с администрированием сайта, личными кабинетами, процедурами регистрации-авторизации, оформлением заказов, а также технические дубли страниц и служебные разделы должны быть закрыты от индексирования. Это касается всех поисковых систем, будь то User-agent Yandex bot, или, например, User-agent Mail.Ru.

  • Имеет смысл также закрыть от индексации json- и ajax-скрипты, папку cgi, страницы с параметрами сессий и UTM-меток, сортировки, фильтров, сравнения.

  • Чтобы убедиться, что вы сделали подходящие настройки robots.txt, можно воспользоваться соответствующими инструментами систем Яндекс и Google.

  • Спустя полмесяца после добавления новых страниц на сайт и включения их в директиву Disallow имеет смысл проверить через поисковые системы, не были ли они проиндексированы. Если да – то потребуется пересмотреть и откорректировать настройки.

Файл robots.txt дает возможность оптимизировать работу сайта с поисковыми роботами, которая доступна даже при отсутствии глубоких узкоспециализированных знаний. Главное – правильно настроить этот файл и периодически проверять, корректно ли он считывается роботами Google, Яндекса и других поисковых систем. 

SEO

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Соглашение на обработку персональных данных

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года Вы подтверждаете свое согласие на сбор, хранение и обработку компанией «Ашманов и партнеры» персональных данных, указанных путем заполнения веб-форм на сайте ashmanov.com и его поддоменов *.ashmanov.com.

Компания «Ашманов и партнеры» гарантирует конфиденциальность получаемой информации. Обработка персональных данных осуществляется в целях эффективного исполнения заказов, договоров и иных обязательств, принятых компанией «Ашманов и партнеры» в качестве обязательных к исполнению.

В случае необходимости предоставления Ваших персональных данных правообладателю, дистрибьютору или реселлеру программного обеспечения в целях регистрации программного обеспечения на Ваше имя, Вы даёте согласие на передачу Ваших персональных данных. Компания «Ашманов и партнеры» гарантирует, что правообладатель, дистрибьютор или реселлер программного обеспечения осуществляет защиту персональных данных на условиях, аналогичных изложенным в Соглашении на обработку персональных данных.

Настоящее согласие распространяется на следующие Ваши персональные данные: фамилия, имя и отчество, адрес электронной почты, контактный телефон, платёжные реквизиты.

Персональные данные хранятся и обрабатываются до завершения всех необходимых процедур либо до ликвидации Компании. Вы можете в любой момент отозвать настоящее согласие, направив письменное уведомление на адрес: 121357, Москва, ул. Верейская, д.29, стр. 134, Бизнес-центр «Верейская плаза 3», офис «Ашманов и партнеры» с пометкой «Отзыв согласия на обработку персональных данных». Вы также можете отказаться от получения электронных сообщений, используя ссылку «Отписаться», расположенную в конце каждого письма.

Вы гарантируете, что представленная информация является полной, точной и достоверной, а также что при представлении информации не нарушаются действующее законодательство Российской Федерации, законные права и интересы третьих лиц. Вся предоставленная информация заполнена Вами в отношении себя лично.

Настоящее согласие действует в течение всего периода хранения персональных данных, если иное не предусмотрено законодательством Российской Федерации.