При анализе сайта на предмет технических ошибок мы часто сталкиваемся с такой проблемой, как дубликаты страниц. Давайте подробнее разберемся, что это такое, какие виды дубликатов существуют, как их выявить и избавиться.
Примечание: если вы знаете что такое дубли страниц и чем они вредны для продвижения, можно сразу перейти в четвертый раздел «Как выявить дубли страниц».
Разберем общее понятие:
Дубликаты страниц — это полная или частичная копия основной веб-страницы на сайте, которая участвует в продвижении. Как правило копия находится на отдельном URL-адресе.
Чем вредны дубликаты страниц при продвижении сайта?
Многие владельцы сайтов даже не подозревают о том, что на сайте может присутствовать большое количество дубликатов, наличие которых плохо сказывается на общем ранжировании сайта. Поисковые системы воспринимают данные документы как отдельные, поэтому контент страницы перестает быть уникальным, тем самым снижается ссылочный вес страницы.
Наличие небольшого количества дублей страниц не будет являться большой проблемой для сайта. Но если их число зашкаливает, то от них необходимо избавляться в срочном порядке.
Виды дубликатов страниц
Существуют различные виды дубликатов страниц, самые распространенные из них представлены в рисунке 1:
Рис. 1. Виды дубликатов страниц
Разберем подробнее представленные виды дублей страниц.
Полные дубликаты страниц — полное дублирование контента веб-документа, различия только в URL-адресе.
Частичные дубликаты страниц — частичное дублирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Например, большие фрагменты текстов дублируются на нескольких страницах сайта — это уже частичные дубликаты или похожие карточки товаров, которые отличаются только одной незначительной характеристикой.
Внешние дубликаты страниц — полное или частичное дублирование контента на разных сайтах.
Технические дубликаты — это дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.
Дубликаты, созданные человеком — это дубликаты страниц, которые были созданы по невнимательности самим вебмастером.
Как выявить дубли страниц?
Способов обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего.
1. Парсинг сайта в сервисе
При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть страницы-дубликаты.
К примеру, когда не склеены зеркала либо у страниц есть какие-то параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.
Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах
Небольшой лайфхак для работы с сервисом Screaming Frog: если у сайта огромное количеством страниц, и вы сразу заметили, что зеркала не склеены и поставили проект на парсинг, естественно процесс замедлится и уменьшит скорость работы вашей системы (если у вашего ПК, конечно, не мощные системные характеристики).
Чтобы этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.
В вкладке Regex Replace создаем следующее правило (используя регулярное выражение, «говорим» сервису, как нужно склеивать зеркала, чтобы он выводил только страницы с HTTPS):
Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting
Далее нажимаем кнопку «ОК» и переходим во вкладку «Test». В данной вкладке сервис вам покажет, правильно ли вы задали правило и как будут склеиваться зеркала. В нашем случаем должен выходить такой результат:
Рис. 4. Скриншот из сервиса Screaming Frog — Использование функции Test
Таким же способом можно склеивать страницы с «www» и без «www», а также задавать различные параметры, чтобы не выводить ненужные страницы (например, страницы пагинации).
После всех операций спокойно запускаем парсинг сайта без дополнительной нагрузки на систему.
2. Использование панели Яндекс.Вебмастер
В Яндекс.Вебмастер есть очень удобный пункт сервиса - «Индексирование» — «Страницы в поиске». Данный пункт наглядно показывает текущую индексацию сайта, а также дубликаты страниц (то, что мы ищем):
Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске
Для полного анализа дубликатов страниц рекомендуется выгрузить xls-файл всех страниц, которые присутствуют в поиске:
Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер
Открываем наш xls-файл и включаем фильтр: Данные – Фильтр:
Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»
В фильтре выбираем «DUPLICATE», и перед нами будет список дубликатов страниц. Рекомендуется проанализировать каждую страницу или один тип страниц, (если, например, это только карточки товаров) на предмет дублирования.
Например: поисковая система может признать дубликатами похожие карточки товаров с незначительными отличиями. Тогда необходимо переписать содержание страницы: основной контент, теги и метатеги, если они дублируются, либо такие карточки склеить с помощью атрибута rel=”canonical”. Другие рекомендации по избавлению от дубликатов страниц подробно описаны в пункте 5.
3. Использование Google Search Console
Заходим в Google Search Console, выбираем свой сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:
Рис. 8. Скриншот из панели «Google Console»
Данные страницы могут и не являются дубликатами, но проанализировать их нужно и при необходимости устранить проблемы с дублированием.
4. Использование операторов поиска
Для поиска дубликатов также можно использовать операторы поиска «site:» и «inurl», но данный метод уже устарел. Его полностью заменила функция «Страницы в поиске» в Яндекс.Вебмастере.
Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов
5. Ручной поиск
Для ручного поиска дубликатов страниц необходимо уже обладать знаниями о том, какие дубликаты могут быть. Вручную обычно проверяются такие типы дубликатов, как:
一 URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и без “/” в конце в сервисе bertal. Если обе страницы отдают код ответа сервера 200 ОК, то такие страницы являются дубликатами и их необходимо склеить 301 редиректом
一 добавление в URL-адрес каких-либо символов в конце адреса или в середине. Если после перезагрузки страница не отдает 404 код ответа сервера или не настроен 301 Moved Permanently на текущую основную страницу, то перед нами, по сути, тоже дубликат, от которого необходимо избавиться. Такая ошибка является системной, и ее нужно решать на автоматическом уровне.
Как избавиться от дубликатов страниц: основные виды и методы
В данном пункте разберем наиболее часто встречающиеся виды дубликатов страниц и варианты их устранения:
- Не склеенные страницы с «/» и без «/», с www и без www, страницы с http и с https.
Варианты устранения:
一 Настроить 301 Moved Permanently на основное зеркало, обязательно выполните необходимые настройки по выбору основного зеркала сайта в Яндекс.Вебмастер.
- Страницы пагинации, когда дублируется текст с первой страницы на все остальные, при этом товар разный.
Выполнить следующие действия:
一 Использовать теги next/prev для связки страниц пагинации между собой;
一 Если первая страница пагинации дублируется с основной, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой на основную;
一 Добавить на все страницы пагинации тег:
Данный тег не позволяет роботу поисковой системы индексировать контент, но дает переходить по ссылкам на странице.
- Страницы, которые появляются из-за некорректно работающего фильтра.
Варианты устранения:
一 Корректно настроить страницы фильтрации, чтобы они были статическими. Также их необходимо правильно оптимизировать. Если все корректно настроено, сайт будет дополнительно собирать трафик на страницы фильтрации;
一 Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow.
- Идентичные товары, которые не имеют существенных различий (например: цвет, размер и т.д.).
Варианты устранения:
一 Склеить похожие товары с помощью тега rel=”canonical”;
一 Реализовать новый функционал на странице карточки товара по выбору характеристики. Например, если есть несколько почти одинаковых товаров, которые различаются только, к примеру, цветом изделия, то рекомендуется реализовать выбор цвета на одной карточке товара, далее – с остальных настроить 301 редирект на основную карточку.
- Страницы для печати.
Вариант устранения:
一 Закрыть в файле robots.txt.
- Страницы с неправильной настройкой 404 кода ответа сервера.
Вариант устранения:
一 Настроить корректный 404 код ответа сервера.
- Дубли, которые появились после некорректной смены структуры сайта.
Вариант устранения:
一 Настроить 301 редирект со страниц старой структуры на аналогичные страницы в новой структуре.
- Дубли, которые появляются из-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются на index.php, index.html и др.
Варианты устранения:
一 Закрыть в файле robots.txt;
一 Настроить 301 редирект со страниц дубликатов на основные.
- Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях по отдельным URL-адресам.
Варианты устранения:
一 Cклеить страницы с помощью тега rel=”canonical”;
一 Лучшим решением будет вынести все страницы товаров под отдельный параметр в URL-адресе, например “/product/”, без привязки к разделам, тогда все товары можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.
- Дубли, которые возникают при добавлении get-параметров, различных utm-меток, пометок счетчиков для отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Метрика, реферальных ссылок, например, страницы с такими параметрами как: gclid=, yclid=, openstat= и др.
Варианты устранения:
一 В данном случае необходимо проставить на всех страницах тег rel=”canonical” со ссылкой страницы на саму себя, так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний.
Устранение дублей позволит поисковым системам лучше понимать и ранжировать ваш сайт. Используйте советы из этой статьи, и тогда поиск и устранение дублей не будет казаться сложным процессом.
И повторюсь: малое количество дубликатов не так значительно скажется на ранжировании вашего сайта, но большое количество (более 50% от общего числа страниц сайта) явно нанесет вред.