Продолжая использование веб-сайта, вы даете согласие на обработку файлов cookie
Кейсы Блог

Как закрыть сайт от индексации в robots.txt

Опубликовано: 18.04.2018

57 858

6 мин

Поделиться

Рассказываем, как закрыть сайт или отдельные его разделы и страницы от индексации, и какие ошибки допускают разработчики при записи файла robots.txt.


Кому будет полезна статья?

  • Веб-разработчикам.
  • Контент-редакторам.
  • Оптимизаторам.
  • Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

Инфографика индексация сайта

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразится на его рейтинге и затруднит SEO-продвижение.


Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

Анастасия Курдюкова
«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».



Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

Инфографика индексация сайта

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта

Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц

Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

  1. Поисковым роботам доступны все разделы, кроме каталога:
    User-agent: *
    Disallow: /catalog
  2. Поисковым роботам доступны все страницы, кроме контактов:
    User-agent: *
    Disallow: /contact.html
  3. Поисковым роботам закрыт весь сайт, кроме одного раздела:
    User-agent: *
    Disallow: /
    Allow: /catalog
  4. Поисковым роботам закрыт весь раздел, кроме одного подраздела:
    User-agent: *
    Disallow: /product
    Allow: /product/auto
    1. Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

      Как скрыть от индексации ссылки?

      Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

      • в html-коде страницы указать мета тег robots с директивой nofollow;
      • вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.

      Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.


Какие ошибки встречаются при записи файла robots.txt?

Если robots.txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:

  1. Неверные (перепутанные) значения директив.
    Неправильно:
    User-agent: /
    Disallow: Yandex
    Правильно:
    User-agent: Yandex
    Disallow: /
  2. Указание нескольких URL в одной директиве.
    Неправильно:
    Disallow: /admin/ /tags/ /images/
    Правильно:
    Disallow: /admin/
    Disallow: /tags/
    Disallow: /images/
  3. Пустое значение User-agent.
    Неправильно:
    User-agent:
    Disallow: /
    Правильно:
    User-agent: *
    Disallow: /
  4. Некорректный формат директивы Disallow.
    Неправильно:
    User-agent: Yandex
    Disallow: admin
    Правильно:
    User-agent: Yandex
    Disallow: /admin/

Проверить файл robots.txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».

Выводы

  • Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
  • Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
  • Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
  • Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
  • После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.





Знания на вашу почту!

Получайте одно письмо в месяц с лучшими статьями от экспертов «Ашманов и партнеры».

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Контент в любом формате

Знания на вашу почту!

Получайте одно письмо в месяц с лучшими статьями от экспертов «Ашманов и партнеры».

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Контент в любом формате

Анастасия Курдюкова

Анастасия Курдюкова

Руководитель отдела поисковой оптимизации • Эксперт

Статей в блоге: 64

Опытный специалист по SEO-оптимизации, работает в продвижении более 6 лет. Спикер  конференций и вебинаров для клиентов компании.

Ольга Прокопьева

Ольга Прокопьева

Редактор блога

Статей в блоге: 31

Специализируется в области коммерции и маркетинга. Опыт работы в копирайтинге — более 7 лет. В портфолио — более 5000 статей в тематиках: маркетинг, медицина, инвестиции, банковское дело, строительство и других.

Читайте по теме

Факторы ранжирования — 2019. Автомобили
Факторы ранжирования — 2019. Автомобили

Четвертый аналитический отчет в серии, посвященной особенностям ранжирования в Яндексе и Google для различных отраслей. На этот раз тема нашего исследования — автомобили. В отличие от двух предыдущих отчетов, здесь мы подробно остановимся только на одном типе сайтов — «продавцах».

Факторы ранжирования Яндекса и Google в 2019 году в секторе e-commerce
Факторы ранжирования Яндекса и Google в 2019 году в секторе e-commerce

Подробный аналитический отчет Лаборатории поисковой аналитики о факторах ранжирования интернет-магазинов с практическими рекомендациями.

Популярные запросы в Яндексе
Популярные запросы в Яндексе

Отслеживайте популярные слова и фразы, чтобы построить стратегии продвижения и рекламы.

19.04.2018

68 958

9 мин

Оставьте заявку

Вы можете проконсультироваться или оставить заявку на коммерческое предложение, связавшись с нами любым удобным способом.

Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности