Связаться с нами

Здравствуйте, мы принимаем звонки по будням, 10:00—19:00

Центральный офис в Москве
офис в Санкт-Петербурге

Дублированный контент и процентное мышление

Как справиться с проблемой дублированного контента и избавиться от процентного мышления

04 мая 2006 года
706
12.06.2006 - stuntdubl
Оригинальный текст - http://www.stuntdubl.com/2006/06/12/dupe-content/.
Перевод выполнен с разрешения правообладателя.

Уникальный контент - это ценный продукт. Несколько дней назад на форуме WMW была дискуссия по этому поводу, поэтому я подумал, что было бы неплохо написать статью на эту тему. Статья особенно интересна для тех, кто не зарегистрирован на этом форуме (хотя и должен был бы!).

Тема дублированного контента касается каждого, потому что у каждого имеются опасения, что он так или иначе имеет немного дублированного контента на своем сайте и может стать жертвой одноименного фильтра. До тех пора пока на всем вашем сайте есть хоть немного оригинального контента, шанс, что вы будете забанены или наказаны есть, но он довольно маленький. Учитывая это, я решил немного более глубоко погрузиться в эту тему, для того чтобы в будущем (не дай бог это понадобится) иметь готовый документ под рукой.

Дублированный контент - это не процентное соотношение

Все было бы очень просто, если бы можно было с уверенностью сказать, что 42% одинакового контента включают фильтр дублированного контента для сайта, тогда каждый вебмастер выкладывал на каждую страницу не более 40% такого контента и был бы счастлив. Но дело НЕ в процентах. Переменные, касающиеся процентного соотношения могут применяться в фильтре, но первым шагом на пути к пониманию, что же такое дублированный контент - перестать думать о нем как о некоем процентном соотношении.

Этот документ - Finding near-replicas of documents on the web - дает некоторое представление о том как поисковики оперируют с дублированным контентом:

Кластеризация точных копий по контрольной сумме (checksum)

Сравнение размера документа с размером страницы. Это то, как обычно люди представляют себе определение дублированного контента в рамках "процентное соотношение". До тех пор пока 20% контента будет оставаться уникальным - все будет в порядке Пррррравильно. Это самый простой способ определения дублированного контента, который лежит в основе, но он не учитывает и другие методы, которые также могут применяться. Многие не учитывают эти другие методы, а полагаются на самый простой и таким образом попадают в ловушку процентного мышления.

Расчет по всем составляющим документа

"Разделение" документа на куски и поиск дублей среди этих кусков, которые потом маркируются для повторного просмотра.

Конечный документ разбивается, таким образом, на несколько маленьких частей...

Понимание методов определения дублированного контента - это первый шаг, для того чтобы избавиться от процентного мышления (далее в тексте - ПМ). Представьте себе 10 разных документов, которые состоят из 5 строчек текста, которые взяты из 3 документов, содержащих 20 строчек каждый. Все эти десять документов будут "уникальными" если сделать качественные перестановки. Но все они, тем не менее, будут до определенного процента подобны. А теперь, перед тем как подумать "сколько процентов подобия" будут критичными для вас, подумайте о других методах определения релевантности документа. Учтите также повторяющиеся операции для определения подобий между всеми этими документами. Теперь, как разработчик поисковых систем как бы вы справились со всей это кучей данных?

Сортировочный подход

Сортирование и нахождение наложений (подобий).

Подход, основанный на вероятностном подсчете

Сравнение вероятности дублированного контента основываясь на маркерах (в документах) различных типов.

Работа фильтра дублированного контента

Хорошо, вы больше не думаете в рамках процентного мышления. Вы уже не думаете о том, какой процент дублированного контента допустим на сайте и решили нанять копирайтера, чтобы разместить на вашем сайте что-то стоящее. Вот еще один документ о дублированном контенте, который мне очень нравится - Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content

Из него мы можем вывести несколько положений о различных степенях строгости соответствия по отношению к дублированному контенту:

  • Первая степень - идентичность контента и структуры.
    Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.
  • Вторая степень - структурная идентичность, эквивалентный контент.
    Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.
  • Третья ступень - структурная идентичность, похожий контент.
    Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.
  • Четвертая ступень - частичное структурное соответствие, похожий контент.
    Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.
  • Пятая ступень - структурная идентичность, родственный контент.
    Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.

Несовпадение - ничего из вышеперечисленного.

Наказания, фильтры и бан за дублированный контент

Хочу отметить, что все нижеследующее основано на моем собственном опыте и догадках, так что есть большая вероятность, что на самом деле все - по-другому. Поэтому здоровый скепсис приветствуется...

Исходя из ступеней перечисленных выше:

  • 1 степень - бан
    Пример: dmoz/wiki clones
  • 2 степень - бан
    Пример: страница состоит из контента другой страницы (страницы результатов поиска).
  • 3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента
    Пример: osCommerce и описания в каталоге производителя
  • 4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.
    Пример: тот же что и в случае 3 - похожий контент и использование CMS
    Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.
  • 5 степень - не стоит волноваться -
    Два форума на vbulletin с одинаковыми категориями.

Несовпадение - лучший из возможных сценариев. Это именно то, что вам нужно. Дублирующий контент - не проиндексирован. Можно поставить запрет на индексацию дублированного контента.

Фильтр - какая-то часть контента на сайте (или на внешнем сайте) продублирована, или у вас недостаточно уникального контента. Скорей всего эти страницы будут выдаваться как дополнительные результаты. Фильтр понижает ваши позиции, из-за проблем с конкретными страницами.

Наказание - дублированный контент встречается слишком часто. Вы подсунули ботам дублированный контент столько раз, что они отказались посещать (индексировать) сайт так же часто, как и раньше (хороший пример - это календарь, или ID сессий). При наказании сайт обходится ботом не так часто или не очень глубоко (внутренние страницы не будут проиндексированы). Проблема находится на уровне страниц или сайта, с различной степенью соответствия; понижает в результатах выдачи.

Вам будет интересно

Следите за нашими новостями
Подпишитесь на рассылку, и мы будем приглашать вас на наши мероприятия и делиться советами экспертов компании. Рассылка «Практика интернет-маркетинга» выходит дважды в месяц, в ней мы публикуем статьи о продвижении брендов в Интернете, делимся репортажами с крупных отраслевых событий и отвечаем на вопросы читателей.
Спасибо

Для завершения подписки вам необходимо перейти по ссылке,
присланной по указанному адресу email.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Соглашение на обработку персональных данных

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года Вы подтверждаете свое согласие на сбор, хранение и обработку компанией «Ашманов и партнеры» персональных данных, указанных путем заполнения веб-форм на сайте ashmanov.com и его поддоменов *.ashmanov.com.

Компания «Ашманов и партнеры» гарантирует конфиденциальность получаемой информации. Обработка персональных данных осуществляется в целях эффективного исполнения заказов, договоров и иных обязательств, принятых компанией «Ашманов и партнеры» в качестве обязательных к исполнению.

В случае необходимости предоставления Ваших персональных данных правообладателю, дистрибьютору или реселлеру программного обеспечения в целях регистрации программного обеспечения на Ваше имя, Вы даёте согласие на передачу Ваших персональных данных. Компания «Ашманов и партнеры» гарантирует, что правообладатель, дистрибьютор или реселлер программного обеспечения осуществляет защиту персональных данных на условиях, аналогичных изложенным в Соглашении на обработку персональных данных.

Настоящее согласие распространяется на следующие Ваши персональные данные: фамилия, имя и отчество, адрес электронной почты, контактный телефон, платёжные реквизиты.

Персональные данные хранятся и обрабатываются до завершения всех необходимых процедур либо до ликвидации Компании. Вы можете в любой момент отозвать настоящее согласие, направив письменное уведомление на адрес: 121357, Москва, ул. Верейская, д.29, стр. 134, Бизнес-центр «Верейская плаза 3», офис «Ашманов и партнеры» с пометкой «Отзыв согласия на обработку персональных данных». Вы также можете отказаться от получения электронных сообщений, используя ссылку «Отписаться», расположенную в конце каждого письма.

Вы гарантируете, что представленная информация является полной, точной и достоверной, а также что при представлении информации не нарушаются действующее законодательство Российской Федерации, законные права и интересы третьих лиц. Вся предоставленная информация заполнена Вами в отношении себя лично.

Настоящее согласие действует в течение всего периода хранения персональных данных, если иное не предусмотрено законодательством Российской Федерации.