Как закрыть сайт от индексации

Ответили на 5 популярных вопросов, связанных с закрытием сайта от поисковиков.

Поисковые роботы сканируют всю информацию в интернете, но владельцы сайтов могут ограничить или запретить доступ к своему ресурсу. Для этого нужно закрыть сайт от индексации через служебный файл robots.txt. 

Если закрывать сайт полностью не требуется, запрещайте индексацию отдельных страниц. Пользователям не следует видеть в поиске служебные разделы сайта, личные кабинеты, устаревшую информацию из раздела акций или календаря. Дополнительно нужно закрыть от индексации скрипты, всплывающие окна и баннеры, тяжелые файлы. Это поможет уменьшить время индексации и снизит нагрузку на сервер.

Как закрыть сайт полностью 

Обычно ресурс закрывают полностью от индексации во время разработки или редизайна. Также закрывают сайты, на которых веб-мастера учатся или проводят эксперименты. 

Запретить индексацию сайта можно для всех поисковиков, для отдельного робота или запретить для всех, кроме одного. 

Запрет для всех        User-agent: * 
Disallow: / 
Запрет для отдельного робота   User-agent: YandexImages 
Disallow: /  
Запрет для всех, кроме одного робота   User-agent: * 
Disallow: / 
User-agent: Yandex 
Allow: / 

Как закрыть отдельные страницы 

Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Для ресурсов с большим количеством служебной информации закрывайте страницы и целые разделы: 

  • административная панель; 
  • служебные каталоги; 
  • личный кабинет; 
  • формы регистрации; 
  • формы заказа; 
  • сравнение товаров; 
  • избранное; 
  • корзина; 
  • каптча; 
  • всплывающие окна и баннеры;
  • поиск на сайте; 
  • идентификаторы сессий. 

Желательно запрещать индексацию т.н. мусорных страниц. Это старые новости, акции и спецпредложения, события и мероприятия в календаре. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.

Запрет индексации

Отдельной страницы  User-agent: *
Disallow: /contact.html 
Раздела    User-agent: *
Disallow: /catalog/   
Всего сайта, кроме одного раздела  User-agent: *
Disallow: /
Allow: /catalog
Всего раздела, кроме одного подраздела  User-agent: *
Disallow: /product
Allow: /product/auto 
Поиска на сайте  User-agent: *
Disallow: /search 
Административной панели  User-agent: *
Disallow: /admin

Как закрыть другую информацию 

Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. Указывайте запрет для индексации всем роботам или отдельным. 

Запрет индексации

Типа файлов  User-agent: *
Disallow: /*.jpg 
Папки  User-agent: *
Disallow: /images/ 
Папку, кроме одного файла  User-agent: *
Disallow: /images/
Allow: file.jpg 
Скриптов  User-agent: *
Disallow: /plugins/*.js 
utm-меток  User-agent: *
Disallow: *utm= 
utm-меток для Яндекса  Clean-Param: utm_source&utm_medium&utm_campaign 

Как закрыть сайт через мета-теги 

Альтернативой файлу robots.txt является мета-тег robots. Прописывайте его в исходный код сайта в файле index.html. Размещайте в контейнере <head>. Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название. Для Google — Googlebot, для Яндекса — Yandex. Существуют два варианта записи мета-тега. 

Вариант 1.
<meta name=”robots” content=”noindex, nofollow”/>

Вариант 2.  
<meta name=”robots” content=”none”/>

Атрибут “content” имеет следующие значения: 

  • none — индексация запрещена, включая noindex и nofollow; 
  • noindex — запрещена индексация содержимого; 
  • nofollow — запрещена индексация ссылок; 
  • follow — разрешена индексация ссылок; 
  • index — разрешена индексация; 
  • all — разрешена индексация содержимого и ссылок. 

Таким образом, можно запретить индексацию содержимого, но разрешить ссылки. Для этого укажите content=”noindex, follow”. На такой странице ссылки будут индексироваться, а текст — нет. Используйте для разных случаев сочетания значений. 

Если закрыть сайт от индексации через мета-теги, создавать robots.txt отдельно не нужно.

Какие встречаются ошибки 

Логические — когда правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в инструментах Яндекс.Вебмастере и Google Robots Testing Tool. 

Синтаксические — когда неправильно записаны правила в файле. 

К наиболее часто встречаемым относятся: 

  • запись без учета регистра; 
  • запись заглавными буквами; 
  • перечисление всех правил в одной строке; 
  • отсутствие пустой строки между правилами; 
  • указание краулера в директиве; 
  • перечисление множества вместо закрытия целого раздела или папки; 
  • отсутствие обязательной директивы disallow.

Шпаргалка 

  1. Для запрета на индексацию сайта используйте два варианта. Создайте файл robots.txt и укажите запрет через директиву disallow для всех краулеров. Другой вариант — пропишите запрет через мета-тег robots в файле index.html внутри тега . 

  2. Закрывайте служебные информацию, устаревающие данные, скрипты, сессии и utm-метки. Для каждого запрета создавайте отдельное правило. Запрещайте всем поисковым роботам через * или указывайте название конкретного краулера. Если вы хотите разрешить только одному роботу, прописывайте правило через disallow. 

  3. При создании файла robots.txt избегайте логических и синтаксических ошибок. Проверяйте файл через инструменты Яндекс.Вебмастер и Google Robots Testing Tool.

Материал подготовила Светлана Сирвида-Льорентэ.

18.04.2018

Следите за нашими новостями

Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз