Индексация сайта robots.txt, способы закрыть от индексации

Время прочтения: 6 минут

О чем статья?

Зачем закрывать сайт от поисковых роботов?
Как проверить, закрыт сайт от индексации или нет? robots.txt
Как закрыть сайт от индексации?
Какие ошибки встречаются при записи файла robots.txt?

Кому будет полезна статья?

Веб-разработчикам.
Контент-редакторам.
Оптимизаторам.
Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

Инфографика индексация сайта

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразится на его рейтинге и затруднит SEO-продвижение.

Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».

Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

Инфографика индексация сайта

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта

Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц

Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

Поисковым роботам доступны все разделы, кроме каталога:
User-agent: *
Disallow: /catalog
Поисковым роботам доступны все страницы, кроме контактов:
User-agent: *
Disallow: /contact.html
Поисковым роботам закрыт весь сайт, кроме одного раздела:
User-agent: *
Disallow: /
Allow: /catalog
Поисковым роботам закрыт весь раздел, кроме одного подраздела:
User-agent: *
Disallow: /product
Allow: /product/auto

Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

Как скрыть от индексации ссылки?

Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

в html-коде страницы указать мета тег robots с директивой nofollow;
вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.

Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.

Проверь своего SEO-подрядчика

Если работа SEO-подрядчика не дает ожидаемых результатов, мы предлагаем провести аудит текущего поискового продвижения. Наша экспертиза поможет выявить существующие проблемы.

Какие ошибки встречаются при записи файла robots.txt?

Если robots.txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:

Неверные (перепутанные) значения директив.
Неправильно:
User-agent: /
Disallow: Yandex
Правильно:
User-agent: Yandex
Disallow: /
Указание нескольких URL в одной директиве.
Неправильно:
Disallow: /admin/ /tags/ /images/
Правильно:
Disallow: /admin/
Disallow: /tags/
Disallow: /images/
Пустое значение User-agent.
Неправильно:
User-agent:
Disallow: /
Правильно:
User-agent: *
Disallow: /
Некорректный формат директивы Disallow.
Неправильно:
User-agent: Yandex
Disallow: admin
Правильно:
User-agent: Yandex
Disallow: /admin/

Проверить файл robots.txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».

Выводы

Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.

Статья

Продвижение сайта в Яндексе

#SEO, #Яндекс

Статья

Стоимость интернет-рекламы в Яндексе и Google

#Яндекс, #Google

Статья

Обновления в Поиске Яндекса и новые возможности для интернет-магазинов

#SEO, #Яндекс

Анастасия Курдюкова

Руководитель отдела поисковой оптимизации • Эксперт

Опытный специалист по SEO-оптимизации, работает в продвижении более 6 лет. Спикер конференций и вебинаров для клиентов компании.

Ольга Прокопьева

Редактор блога

Специализируется в области коммерции и маркетинга. Опыт работы в копирайтинге — более 7 лет. В портфолио — более 5000 статей по тематикам: маркетинг, инвестиции, банковское дело, строительство, медицина и другим.

Теги: SEO, Яндекс, Google

Вам будет интересно

Обновления в Поиске Яндекса и новые возможности для интернет-магазинов

#SEO, #интернет-магазины, #Яндекс

Микроразметка в Яндексе

#SEO, #поисковое продвижение, #Яндекс

Факторы ранжирования в «Яндексе» и Google в 2019 году

#SEO, #факторы ранжирования, #Яндекс

Как решить проблемы с индексацией на сайтах от 1 до миллионов страниц

#SEO, #Optimization, #Google

Как увеличить продажи Яндекс Маркета

#SEO, #контекстная реклама, #интернет-магазины

Как Яндекс ранжирует сайты: новые метрики качества

#SEO, #Optimization, #бизнес-ориентированное продвижение

Хотите обсудить ваш проект?

Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Отправить заявку

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Как закрыть сайт от индексации в robots.txt

Зачем закрывать сайт от поисковых роботов?

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

Как проверить, закрыт сайт от индексации или нет?

Как закрыть сайт от индексации?

Запрет индексации всего сайта

Запрет на индексацию разделов и страниц

Как скрыть от индексации ссылки?

Какие ошибки встречаются при записи файла robots.txt?

Выводы