Продвигаем бизнес в Интернете с 2001 года

Как закрыть сайт от индексации в robots.txt

Рассказываем, как закрыть сайт или отдельные его разделы и страницы от индексации, и какие ошибки допускают разработчики при записи файла robots.txt.

Последнее обновление: 19 апреля 2023 года
39211
Время прочтения: 6 минут

Тэги: Яндекс, Google


О чем статья?


Кому будет полезна статья?

  • Веб-разработчикам.
  • Контент-редакторам.
  • Оптимизаторам.
  • Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

Инфографика индексация сайта

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразится на его рейтинге и затруднит SEO-продвижение.

Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

Анастасия Курдюкова
«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».


Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

Инфографика индексация сайта

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта

Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц

Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

  1. Поисковым роботам доступны все разделы, кроме каталога:
    User-agent: *
    Disallow: /catalog
  2. Поисковым роботам доступны все страницы, кроме контактов:
    User-agent: *
    Disallow: /contact.html
  3. Поисковым роботам закрыт весь сайт, кроме одного раздела:
    User-agent: *
    Disallow: /
    Allow: /catalog
  4. Поисковым роботам закрыт весь раздел, кроме одного подраздела:
    User-agent: *
    Disallow: /product
    Allow: /product/auto
    1. Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

      Как скрыть от индексации ссылки?

      Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

      • в html-коде страницы указать мета тег robots с директивой nofollow;
      • вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.

      Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.

Какие ошибки встречаются при записи файла robots.txt?

Если robots.txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:

  1. Неверные (перепутанные) значения директив.
    Неправильно:
    User-agent: /
    Disallow: Yandex
    Правильно:
    User-agent: Yandex
    Disallow: /
  2. Указание нескольких URL в одной директиве.
    Неправильно:
    Disallow: /admin/ /tags/ /images/
    Правильно:
    Disallow: /admin/
    Disallow: /tags/
    Disallow: /images/
  3. Пустое значение User-agent.
    Неправильно:
    User-agent:
    Disallow: /
    Правильно:
    User-agent: *
    Disallow: /
  4. Некорректный формат директивы Disallow.
    Неправильно:
    User-agent: Yandex
    Disallow: admin
    Правильно:
    User-agent: Yandex
    Disallow: /admin/

Проверить файл robots.txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».

Выводы

  • Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
  • Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
  • Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
  • Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
  • После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.




Анастасия Курдюкова
Лого АиП
Анастасия Курдюкова
Руководитель отдела поисковой оптимизацииЭксперт
Опытный специалист по SEO-оптимизации, работает в продвижении более 6 лет. Спикер  конференций и вебинаров для клиентов компании.
Ольга Прокопьева
Лого АиП
Ольга Прокопьева
Редактор блога
Специализируется в области коммерции и маркетинга. Опыт работы в копирайтинге — более 7 лет. В портфолио — более 5000 статей по тематикам: маркетинг, инвестиции, банковское дело, строительство, медицина и другим.
Теги: SEO, Яндекс, Google

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз