Продвигаем бизнес в Интернете с 2001 года

Дублированный контент и процентное мышление

Как справиться с проблемой дублированного контента и избавиться от процентного мышления

Последнее обновление: 16 октября 2018 года
3056
12.06.2006 - stuntdubl
Оригинальный текст - http://www.stuntdubl.com/2006/06/12/dupe-content/.
Перевод выполнен с разрешения правообладателя.

Уникальный контент - это ценный продукт. Несколько дней назад на форуме WMW была дискуссия по этому поводу, поэтому я подумал, что было бы неплохо написать статью на эту тему. Статья особенно интересна для тех, кто не зарегистрирован на этом форуме (хотя и должен был бы!).

Тема дублированного контента касается каждого, потому что у каждого имеются опасения, что он так или иначе имеет немного дублированного контента на своем сайте и может стать жертвой одноименного фильтра. До тех пора пока на всем вашем сайте есть хоть немного оригинального контента, шанс, что вы будете забанены или наказаны есть, но он довольно маленький. Учитывая это, я решил немного более глубоко погрузиться в эту тему, для того чтобы в будущем (не дай бог это понадобится) иметь готовый документ под рукой.

Дублированный контент - это не процентное соотношение

Все было бы очень просто, если бы можно было с уверенностью сказать, что 42% одинакового контента включают фильтр дублированного контента для сайта, тогда каждый вебмастер выкладывал на каждую страницу не более 40% такого контента и был бы счастлив. Но дело НЕ в процентах. Переменные, касающиеся процентного соотношения могут применяться в фильтре, но первым шагом на пути к пониманию, что же такое дублированный контент - перестать думать о нем как о некоем процентном соотношении.

Этот документ - Finding near-replicas of documents on the web - дает некоторое представление о том как поисковики оперируют с дублированным контентом:

Кластеризация точных копий по контрольной сумме (checksum)

Сравнение размера документа с размером страницы. Это то, как обычно люди представляют себе определение дублированного контента в рамках "процентное соотношение". До тех пор пока 20% контента будет оставаться уникальным - все будет в порядке Пррррравильно. Это самый простой способ определения дублированного контента, который лежит в основе, но он не учитывает и другие методы, которые также могут применяться. Многие не учитывают эти другие методы, а полагаются на самый простой и таким образом попадают в ловушку процентного мышления.

Расчет по всем составляющим документа

"Разделение" документа на куски и поиск дублей среди этих кусков, которые потом маркируются для повторного просмотра.

Конечный документ разбивается, таким образом, на несколько маленьких частей...

Понимание методов определения дублированного контента - это первый шаг, для того чтобы избавиться от процентного мышления (далее в тексте - ПМ). Представьте себе 10 разных документов, которые состоят из 5 строчек текста, которые взяты из 3 документов, содержащих 20 строчек каждый. Все эти десять документов будут "уникальными" если сделать качественные перестановки. Но все они, тем не менее, будут до определенного процента подобны. А теперь, перед тем как подумать "сколько процентов подобия" будут критичными для вас, подумайте о других методах определения релевантности документа. Учтите также повторяющиеся операции для определения подобий между всеми этими документами. Теперь, как разработчик поисковых систем как бы вы справились со всей это кучей данных?

Сортировочный подход

Сортирование и нахождение наложений (подобий).

Подход, основанный на вероятностном подсчете

Сравнение вероятности дублированного контента основываясь на маркерах (в документах) различных типов.

Работа фильтра дублированного контента

Хорошо, вы больше не думаете в рамках процентного мышления. Вы уже не думаете о том, какой процент дублированного контента допустим на сайте и решили нанять копирайтера, чтобы разместить на вашем сайте что-то стоящее. Вот еще один документ о дублированном контенте, который мне очень нравится - Mirror, Mirror on the Web: A Study of Host Pairs with Replicated Content

Из него мы можем вывести несколько положений о различных степенях строгости соответствия по отношению к дублированному контенту:

  • Первая степень - идентичность контента и структуры.
    Каждая страница на хосте А с путем P (например, URL формы http://A/P) имеет идентичную страницу на хосте B, которая находится на http:/ /B/P и наоборот.
  • Вторая степень - структурная идентичность, эквивалентный контент.
    Каждая страница на хосте А с путем Р, представлена эквивалентной страницей на хосте В с путем http:/ /B/P, и наоборот.
  • Третья ступень - структурная идентичность, похожий контент.
    Каждая страница на хосте А с путем Р, имеет очень похожую страницу на хосте В, расположенную по адресу http:/ /B/P и наоборот.
  • Четвертая ступень - частичное структурное соответствие, похожий контент.
    Некоторые страницы на хосте А с путем Р, имеют страницу на хосте В, по адресу http:/ /B/P и части этих страниц очень похожи.
  • Пятая ступень - структурная идентичность, родственный контент.
    Каждая страница на хосте А с путем Р, имеет страницу на хосте В по адресу http:/ /B/P и наоборот. Страницы находятся в тесной связи друг с другом (например, это оригинальный текст - на одних страницах, и их перевод - на других), но в общем они не идентичны синтаксически.

Несовпадение - ничего из вышеперечисленного.

Наказания, фильтры и бан за дублированный контент

Хочу отметить, что все нижеследующее основано на моем собственном опыте и догадках, так что есть большая вероятность, что на самом деле все - по-другому. Поэтому здоровый скепсис приветствуется...

Исходя из ступеней перечисленных выше:

  • 1 степень - бан
    Пример: dmoz/wiki clones
  • 2 степень - бан
    Пример: страница состоит из контента другой страницы (страницы результатов поиска).
  • 3 степень - частичное наказание или наложение фильтра в зависимости от степени соответствия дублированного контента
    Пример: osCommerce и описания в каталоге производителя
  • 4 степень - возможное наказание и/или наложение фильтра на часть контента, в зависимости от степени соответствия.
    Пример: тот же что и в случае 3 - похожий контент и использование CMS
    Два форума: один - на phpBB, а другой vbulletin, одинаковые категории, с возможностью постить тот же самый контент, или использование RSS.
  • 5 степень - не стоит волноваться -
    Два форума на vbulletin с одинаковыми категориями.

Несовпадение - лучший из возможных сценариев. Это именно то, что вам нужно. Дублирующий контент - не проиндексирован. Можно поставить запрет на индексацию дублированного контента.

Фильтр - какая-то часть контента на сайте (или на внешнем сайте) продублирована, или у вас недостаточно уникального контента. Скорей всего эти страницы будут выдаваться как дополнительные результаты. Фильтр понижает ваши позиции, из-за проблем с конкретными страницами.

Наказание - дублированный контент встречается слишком часто. Вы подсунули ботам дублированный контент столько раз, что они отказались посещать (индексировать) сайт так же часто, как и раньше (хороший пример - это календарь, или ID сессий). При наказании сайт обходится ботом не так часто или не очень глубоко (внутренние страницы не будут проиндексированы). Проблема находится на уровне страниц или сайта, с различной степенью соответствия; понижает в результатах выдачи.

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.

Доставляем экспертный контент

Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз