Robots.txt как создать и правильно настроить

Продолжая использование веб-сайта, вы даете согласие на обработку файлов cookie

Время прочтения: 6 минут

О чем статья?

Зачем нужен robots.txt?
Основные директивы файла robots.txt
Как создать robots.txt?
Как проверить файл?

Кому будет полезна статья?

Веб-разработчикам.
Техническим специалистам.
Оптимизаторам.
Администраторам и владельцам сайтов.

Поисковые роботы или веб-краулеры постоянно индексируют страницы сайтов, собирают информацию и заносят ее в базы данных поисковых систем. Первый файл, с которого начинается проверка, — это robots.txt. Именно в нем содержится вся необходимая и важная для краулеров информация. В статье мы расскажем, как создать, настроить и проверить robots.txt с помощью доступных инструментов Яндекс и Google.

Зачем нужен robots.txt?

Файл robots.txt — служебный файл, который содержит информацию о том, какие страницы сайта доступны для сканирования поисковыми роботами, а какие им посещать нельзя. Он не является обязательным элементом, но от его наличия зависит скорость индексации страниц и позиции ресурса в поисковой выдаче.

С помощью robots.txt вы можете задать уровень доступа краулеров к сайту и его разделам: полностью запретить индексацию или ограничить сканирование отдельных папок, страниц, файлов, а также закрыть ресурс для роботов, которые не относятся к основным поисковым системам.

Таким образом, создание и правильная настройка robots.txt помогут ускорить процесс индексации сайта, снизить нагрузку на сервер, положительно отразятся на ранжировании сайта в поисковой выдаче.

Мнение эксперта

Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:

«Некоторым сайтам файл robots.txt не нужен совсем или может ограничиваться малым набором директив. Например, при одностраничной структуре ресурса-лендинга зачастую файл robots.txt не требуется — поисковые системы проиндексируют одну страницу, лишние служебные файлы с малой вероятностью будут добавлены в индекс. Небольшое количество правил в robots.txt также можно наблюдать и у больших сайтов с простой структурой, например, у информационных ресурсов. Так, например, один из крупнейших зарубежных блогов по SEO https://backlinko.com/ имеет в robots.txt только две простые директивы:
User-agent: *
Disallow: /tag/
Disallow: /wp-admin/».

Доставляем экспертный контент

Отправляем полезные статьи, советы наших специалистов, приглашаем
на отраслевые мероприятия.
Подпишитесь, чтобы первыми узнавать об эффективных методах продвижения
вашего бизнеса!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных
и соглашаюсь c политикой конфиденциальности

Основные директивы файла robots.txt

Чтобы поисковые роботы могли корректно прочитать robots.txt, он должен быть составлен по определенным правилам. Структура служебного файла содержит следующие директивы:

User-agent. Директива User-agent определяет уровень открытости сайта для поисковых роботов. Здесь вы можете открыть доступ всем поисковикам или разрешить сканирование только определенным краулерам. Для неограниченного доступа достаточно поставить символ «*», для конкретных роботов нужно добавить отдельные директивы.
Пример:
User-agent: * — сайт доступен для индексации всем краулерам
User-agent: Yandex — доступ открыт только для роботов Яндекса
User-agent: Googlebot — доступ открыт только для роботов Google
Disallow. Директива Disallow определяет, какие страницы сайта необходимо закрыть для индексации. Как правило, для сканирования закрывают весь служебный контент, но при желании вы можете скрыть и любые другие разделы проекта. Подробнее о том, каким страницам и сайтам не нужно индексирование, вы можете прочитать в статье: «Как закрыть сайт от индексации в robots.txt». Обратите внимание, что даже если на сайте нет страниц, которые вы хотите закрыть, директиву все равно нужно прописать, но без указания значения. В противном случае поисковые роботы могут некорректно прочитать файл robots.txt.
Пример 1:
User-agent: * — правила, размещенные ниже, действуют для всех краулеров
Disallow: /wp-admin — служебная папка со всеми вложениями закрыта для индексации
Пример 2:
User-agent: Yandex — правила, размещенные ниже, действуют для роботов Яндекса
Disallow: / — все разделы сайта доступны для индексации
Allow. Директива Allow определяет, какие разделы сайта доступны для сканирования поисковыми роботами. Поскольку все, что не запрещено директивой Disallow, индексируется автоматически, здесь достаточно прописать только исключения из правил. Указывать все доступные краулерам разделы сайта не нужно.
Пример 1:
User-agent: * — правила, размещенные ниже, действуют для всех краулеров
Disallow: / — сайт полностью закрыт для всех поисковых роботов
Allow: /catalog — раздел «Каталог» открыт для всех краулеров
Пример 2:
User-agent: * — правила, размещенные ниже, действуют для всех краулеров
Disallow: / — сайт полностью закрыт для всех поисковых роботов
User-agent: Googlebot — правила, размещенные ниже, действуют для роботов Google
Allow: / — сайт полностью открыт для роботов Google
Sitemap. Директива Sitemap — это карта сайта, которая представляет собой полную ссылку на файл в формате .xml и содержит перечень всех доступных для сканирования страниц, а также время и частоту их обновления.
Пример:

Запрет индексации

Как создать robots.txt?

Служебный файл robots.txt можно создать в текстовом редакторе Notepad++ или другой аналогичной программе. Весь текст внутри файла должен быть записан латиницей, русские названия можно перевести с помощью любого Punycode-конвертера. Для кодировки файла выбирайте стандарты ASCII или UTF-8.

Чтобы robots.txt корректно индексировался поисковыми роботами, при создании файла следуйте данным ниже рекомендациям:

Объединяйте директивы в группы. Чтобы избежать путаницы и сократить время индексации, сгруппируйте директивы блоками для каждого поискового робота и разделите блоки пустой строкой. Так, краулеру не придется сканировать весь файл в поисках нужной инструкции, робот быстро найдет предназначенную для него строку User-agent и, следуя директивам, проверит указанные разделы сайта.
Учитывайте регистр. Прописывайте имя файла строчными буквами. Если Яндекс информирует, что для его поисковых роботов регистр не имеет значения, то Google рекомендует соблюдать регистр.
Не указывайте несколько папок в одной директиве. Не объединяйте в одной директиве Disallow несколько папок/файлов. Создавайте отдельную директиву на каждый раздел и файл. Это позволит избежать ошибок при проверке и ускорит процесс индексации.
Работайте с разными уровнями. В robots.txt вы можете задавать настройки на трех уровнях: сайта, страницы, папки. Используйте эту возможность, если хотите закрыть часть материалов для поисковиков.
Удаляйте неактуальные директивы. Некоторые директивы robots.txt устарели и игнорируются краулерами. Удалите их, чтобы не засорять файл. На данный момент устаревшими являются директивы Host (зеркало сайта), Crawl-Delay (пауза между обращением поисковых роботов), Clean-param (ограничение дублирующего контента).
Проверьте соответствие sitemap.xml и robots.txt. Файлы sitemap.xml и robots.txt дополняют друг друга. Проверьте, чтобы информация в них совпадала, и sitemap был включен в одноименную директиву.

После создания robots.txt, обратите внимание, чтобы его размер не превышал 32 КБ. При большом объеме файла, он не будет восприниматься поисковыми роботами Яндекс.

Разместите robots.txt в корневой директории сайта рядом с основным файлом index.html. Для этого используйте FTP доступ. Если сайт сделан на CMS, то с файлом можно работать через административную панель.

Сравни условия с текущим подрядчиком по контекстной рекламе

Если вас не устраивают результаты работы или условия сотрудничества с текущим подрядчиком, напишите нам — мы подготовим для вас коммерческое предложение или проведем аудит контекстной рекламы. Сравните стоимость услуг, оцените прогноз и выберите подрядчика с лучшими условиями.

Как проверить файл?

Удостовериться в том, что файл составлен корректно, можно с помощью инструментов Яндекс.Вебмастер и Google Robots Testing Tool. Поскольку каждая система проверяет robots.txt, основываясь только на собственных критериях, проверку необходимо выполнить в обоих сервисах.

Ошибки robots.txt

Проверка robots.txt в Яндекс.Вебмастер

При первом запуске Яндекс.Вебмастер необходимо создать личный кабинет, добавить сайт и подтвердить свои права на него. После этого вы получите доступ к инструментам сервиса. Для проверки файла нужно зайти в раздел «Инструменты» подраздел «Анализ robots.txt» и запустить тестирование. Если в ходе проверки сервис обнаружит ошибки, он покажет, какие строки требуют корректировки, и что нужно исправить.

Мнение эксперта

Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:

«В пункте "Анализ robots.txt" вы также можете "протестировать" написание директив и их влияние на статус индексации. Если Вы сомневаетесь в правильности написания директив, то укажите в поле "Разрешены ли URL?" нужные Вам URL, после чего Вебмастер покажет вам статус индексации этих адресов при указанном robots.txt.».

Проверка robots.txt в Google Robots Testing Tool

Проверять robots.txt в Google можно в административной панели Search Console. Просто перейдите на страницу проверки, и система автоматически протестирует файл. Если на странице вы увидите неактуальную версию robots.txt, нажмите кнопку «Отправить» и действуйте согласно инструкциям поисковой системы. Если Google найдет ошибки, вы можете исправить их в сервисе проверки. Однако учтите, что система не сохраняет правки автоматически. Чтобы исправления не пропали, их нужно внести вручную на хостинге или в административной панели CMS и сохранить.

Выводы

Файл robots.txt — это служебный документ, который создается для корректной индексации сайта поисковыми роботами. Он не является обязательным элементом, но от его наличия зависит скорость индексации страниц и позиции ресурса в поисковой выдаче.
Файл создается в Notepad++ или любом другом текстовом редакторе. Структура robots.txt содержит директивы: User-agent, Disallow, Allow и Sitemap. Чтобы поисковые роботы могли корректно прочитать robots.txt, они должны быть прописаны правильно.
Заполнять файл следует по правилам, начиная с кода User-agent. Директивы необходимо объединять в группы, отделяя блоки пустой строкой. С помощью директив Disallow и Allow можно запрещать и разрешать индексацию страниц, папок и отдельных файлов.
Размер robots.txt не должен превышать 32 КБ. Размещать файл необходимо в корневой директории сайта рядом с основным файлом index.html.
Проверить robots.txt на наличие ошибок можно с помощью инструментов Яндекс.Вебмастер и Google Robots Testing Tools.

Статья

Как проиндексировать сайт в Google и повысить его позиции в поиске

#SEO, #Google

Статья

Продвижение сайта по низкочастотным запросам

#SEO, #Google, #Яндекс

Исследование

Факторы ранжирования — 2019. Финансы

#SEO, #Яндекс, #Google

Статью подготовили:

Прокопьева Ольга. Работает копирайтером, в свободное время пишет прозу и стихи. Ближайшие профессиональные цели - дописать роман и издать книгу.

Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры».

Ольга Прокопьева

Редактор блога

Специализируется в области коммерции и маркетинга. Опыт работы в копирайтинге — более 7 лет. В портфолио — более 5000 статей по тематикам: маркетинг, инвестиции, банковское дело, строительство, медицина и другим.

Теги: SEO, Яндекс, Google

Вам будет интересно

Поисковые подсказки в Яндекс

#SEO, #Яндекс

Что такое IndexNow и как его использовать? Исследование с примерами

#SEO, #Optimization, #Яндекс

Как проверить и настроить индексацию сайта в Яндексе

#SEO, #Яндекс

Поисковые системы: список лучших

#SEO, #Google, #Яндекс

Яндекс обновил алгоритмы: как улучшить ранжирование сайта?

#SEO, #бизнес-ориентированное продвижение, #Яндекс

Какие сайты лидировали в поиске Яндекса и Google в 2023 году ― большой ежегодный разбор

#аналитика, #Яндекс, #Google

Перезагрузите SEO-продвижение бесплатно! Выявим точки роста вашего бизнеса

Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Получить аудит

Проверка файла robots.txt

Зачем нужен robots.txt?

Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:

Основные директивы файла robots.txt

Как создать robots.txt?

Как проверить файл?

Проверка robots.txt в Яндекс.Вебмастер

Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:

Проверка robots.txt в Google Robots Testing Tool

Выводы