Как справиться с проблемой дублированного контента и избавиться от процентного мышления
Уникальный контент - это ценный продукт. Несколько дней назад на форуме WMW была
Тема дублированного контента касается каждого, потому что у каждого имеются опасения, что он так или иначе имеет немного дублированного контента на своем сайте и может стать жертвой одноименного фильтра. До тех пора пока на всем вашем сайте есть хоть немного оригинального контента, шанс, что вы будете
Все было бы очень просто, если бы можно было с уверенностью сказать, что 42% одинакового контента включают фильтр дублированного контента для сайта, тогда каждый вебмастер выкладывал на каждую страницу не более 40% такого контента и был бы счастлив. Но дело НЕ в процентах. Переменные, касающиеся процентного соотношения могут применяться в фильтре, но первым шагом на пути к пониманию, что же такое дублированный контент - перестать думать о нем как о некоем процентном соотношении.
Этот документ -
Кластеризация точных копий по контрольной сумме (checksum)
Сравнение размера документа с размером страницы. Это то, как обычно люди представляют себе определение дублированного контента в рамках "процентное соотношение". До тех пор пока 20% контента будет оставаться уникальным - все будет в порядке Пррррравильно. Это самый простой способ определения дублированного контента, который лежит в основе, но он не учитывает и другие методы, которые также могут применяться. Многие не учитывают эти другие методы, а полагаются на самый простой и таким образом попадают в ловушку процентного мышления.
Расчет по всем составляющим документа
"Разделение" документа на куски и поиск дублей среди этих кусков, которые потом маркируются для повторного просмотра.
Конечный документ разбивается, таким образом, на несколько маленьких частей...
Понимание методов определения дублированного контента - это первый шаг, для того чтобы избавиться от процентного мышления (далее в тексте - ПМ). Представьте себе 10 разных документов, которые состоят из 5 строчек текста, которые взяты из 3 документов, содержащих 20 строчек каждый. Все эти десять документов будут "уникальными" если сделать качественные перестановки. Но все они, тем не менее, будут до определенного процента подобны. А теперь, перед тем как подумать "сколько процентов подобия" будут критичными для вас, подумайте о других методах определения релевантности документа. Учтите также повторяющиеся операции для определения подобий между всеми этими документами. Теперь, как разработчик поисковых систем как бы вы справились со всей это кучей данных?
Сортировочный подход
Сортирование и нахождение наложений (подобий).
Подход, основанный на вероятностном подсчете
Сравнение вероятности дублированного контента основываясь на маркерах (в документах) различных типов.
Хорошо, вы больше не думаете в рамках процентного мышления. Вы уже не думаете о том, какой процент дублированного контента допустим на сайте и решили нанять копирайтера, чтобы разместить на вашем сайте что-то стоящее. Вот еще один документ о дублированном контенте, который мне очень нравится -
Из него мы можем вывести несколько положений о различных степенях строгости соответствия по отношению к дублированному контенту:
Несовпадение - ничего из вышеперечисленного.
Хочу отметить, что все нижеследующее основано на моем собственном опыте и догадках, так что есть большая вероятность, что на самом деле все - по-другому. Поэтому здоровый скепсис приветствуется...
Исходя из ступеней перечисленных выше:
Несовпадение - лучший из возможных сценариев. Это именно то, что вам нужно. Дублирующий контент - не проиндексирован. Можно поставить запрет на индексацию дублированного контента.
Фильтр - какая-то часть контента на сайте (или на внешнем сайте) продублирована, или у вас недостаточно уникального контента. Скорей всего эти страницы будут выдаваться как дополнительные результаты. Фильтр понижает ваши позиции, из-за проблем с конкретными страницами.
Наказание - дублированный контент встречается слишком часто. Вы подсунули ботам дублированный контент столько раз, что они отказались посещать (индексировать) сайт так же часто, как и раньше (хороший пример - это календарь, или ID сессий). При наказании сайт обходится ботом не так часто или не очень глубоко (внутренние страницы не будут проиндексированы). Проблема находится на уровне страниц или сайта, с различной степенью соответствия; понижает в результатах выдачи.
Вам будет интересно
Доставляем экспертный контент
Мы делимся с подписчиками экспертным контентом: отправляем полезные статьи, советы от специалистов, приглашаем на вебинары. Подпишитесь, чтобы узнать больше о продвижении бизнеса в Интернете, наших мероприятиях и репортажах с крупных отраслевых событий. Выберите наиболее удобную платформу для вас и наслаждайтесь контентом!
Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных и соглашаюсь c политикой конфиденциальности
Мы отправили вам проверочое письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.
Пожалуйста, попробуйте еще раз