Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Россия +7 (495) 139-20-33
22 Ноября 2017 в 16:54

Противодействие парсингу, или Как защитить свои данные от копирования

Россия +7 (495) 139-20-33
6 21362
Подпишитесь на нас в Telegram
Алексей Дурнев
Технический директор MyWebSupport

Вы наверняка слышали выражение, что в интернете ничего не пропадает. Звучит почти как «рукописи не горят». Однако смысл имеет самый прямой. Любая поисковая система работает за счет того, что находит, обрабатывает и хранит все данные, которые в интернете появились. С одной стороны, это хорошо, потому что мы имеем к этим данным доступ. С другой стороны, это проблема, потому что созданный нами интернет-ресурс – тоже ни что иное, как данные. А значит, их нетрудно сканировать и скачать оттуда всю информацию. Использовать ее потом как угодно. Делается это при помощи программ парсинга. Риск того, что ваш сайт подвергнется этому процессу, есть всегда. Как к этому относиться и что с этим делать? Давайте посмотрим.

Как работает парсинг

Для пользователя интернет-магазин (как и любой сайт) – это совокупность картинок, текстов, видео – то есть всего того, что предназначено для человеческих органов восприятия. Для компьютера сайт – это совокупность данных, предназначенных для обработки и преобразования в определенный формат. Чтобы извлеченные данные перевести на языки программирования (PHP, Perl, Ruby, Python и т.д.), работают разные программы (скрипты). Они наделяют каждую страницу сайта своей структурой. В зависимости от этой структуры страница может получить формат. Такой как .html, .xml, .sql, .txt и прочие.

Сначала скрипты выполняют свою работу на локальном компьютере – непосредственно во время наполнения сайта контентом. Когда сайт появляется в интернете, это делают боты поисковых систем. Они проводят анализ, разбор и преобразование содержимого сайта, чтобы пользователь интернета увидел в поисковой выдаче ссылку на интересующий его запрос. Этот процесс и называется парсинг.

Пока содержимое сайта в необходимом для последующей обработки виде доступно только поисковым системам, все прекрасно. Программа-парсер позволяет вычленить со страницы именно ту информацию, которая нужна пользователю. Собственно, благодаря этому на сайт переходят посетители из поиска. Но спарсить содержимое сайта можно и в других интересах. В частности, чтобы заполучить и использовать контент.

Парсинг контента для использования на другом сайте – это реальность, с которой приходится иметь дело любому владельцу интернет-магазина. Ведь специфика такого сайта – сотни и тысячи однотипных описаний товаров, технических характеристик и другого контента. В отличие от других видов сайтов, контент, например, интернет-магазина формализован и унифицирован. А значит, легко поддается воспроизведению. Пользователю ведь все равно, какой сайт является первоисточником – он делает запрос товара и переходит по любой ссылке, которую предлагает выдача либо реклама.

Можно как угодно порицать использование чужого контента, однако мы живем в мире, где понятие интеллектуальной собственности сильно изменилось. К тому же технические описания и характеристики товара – это контент, который глупо переписывать другими словами. А значит, он не является ничьей собственностью. Но создание полной копии чужого магазина – это уже воровство. Равно как и частичное использование того контента, на который у вас есть права. Кстати, есть и другой термин, граббинг (от англ. «grab», т.е. использовать, перехватывать) – сбор информации по определенным параметрам. 

Мы все занимаемся граббингом, когда скачиваем что-либо с торрентов. Но не считаем себя ворами до тех пор, пока нас не уличат в коммерческом использовании чужой интеллектуальной собственности.

Как парсинг мешает работать вам

Есть несколько видов проблем, которые создает парсинг (граббинг) контента: технические, коммерческие, психологические.

Техническая проблема заключается в том, что боты и сканнеры – это бесполезный трафик, который увеличивает нагрузку на сервер. Порой статистика показывает на сайте всплеск посещаемости и «космическую» глубину просмотра, но вряд ли это повод для радости. Скорей всего, это работает скрипт, его сканнеры и боты. Если у вас хостинг с ограничениями, то превышение нагрузки – это и проблема, и реальный повод начать следствие: кто вас парсит.

Коммерческая проблема очевидна: если парсер запускает ваш конкурент, собирает базу товаров с вашего интернет-магазина и начинает продавать те же товары по меньшей цене, то вы теряете покупателей.

Психологически проблему можно описать одним восклицанием: «Ну как так-то!». Собственно, любой вид воровства нам именно эту эмоцию и приносит. Особенно когда мы не знаем, удастся ли наказать виновника.

Поиск вредителей

Для начала посмотрим на вещи реалистично. Пока не существует способа блокировать и наказывать за парсинг и граббинг со стопроцентной эффективностью. Поэтому создавать рядовой магазин с рядовым контентом – это всегда риск. Если же ваш магазин популярен, то паразитный трафик должен послужить для вас поводом развивать бизнес в том направлении, которое легче защитить. Здесь большую роль играет человеческий фактор: он позволяет создать интеллектуальный продукт, который хоть и можно скопировать, но его авторство легко доказать, а воров – как минимум отвадить.

И все же, что делать, если вы решили бороться с парсингом? Есть несколько видов мер: технические, юридические, психологические.

Технические меры

На специализированных форумах развернуты ветки обсуждений, как же бороться с парсерами техническими способами. Хорошая новость — решения есть, плохая — они могут в перспективе принести больше вреда, чем пользы.

Итак, самый простой и работающий метод – это вычислять, с какого IP вас парсят и закрывать для него доступ. Для этого нужна таблица логов, куда записываются данные пользователя и время обращения к странице. Один из способов идентификации — время между запросами. Если обращается слишком часто (то есть отклонение от среднего значения дельты у 80% запросов меньше 10 секунд), значит парсер. Другой способ идентификации — проверка на скачивание контента, к примеру, изображений или стилей CSS. Полезные боты вряд ли их будут скачивать.

Следующий шаг — определить, полезный или бесполезный бот посещает ваш ресурс. Это сложно, так как многие боты маскируются под вполне себе нормальные поисковые боты либо под браузеры. Таких ботов можно выявить только по совокупности факторов, и это требует разработки специфического самописного ПО.

Тут проблема в том, что без учета разных факторов можно заблокировать бота поисковика или еще какого-то безвредного бота – не все они правильно представляются по user-agent. Да и частоту обращений вредители сейчас научились снижать для маскировки.

Блокировка IP вообще резонна только в самых очевидных злостных случаях, потому что IP может быть динамически выделенным. Однако добавить ограничение на частоту обращений и заданное количество вхождений будет нелишней мерой. И все это, напоминаем, относится только к одному методу.

Другой метод – использовать различные сервисы, которые защищают от DDOS-атак. Эти сервисы пытаются определить степень загрузки вашего сайта. При высокой частоте подключений в секунду работа парсера рассматривается как аналогичная DDOS-атаке. На мониторе возникает задержка и предупреждающая надпись. При использовании такого подхода мы предполагаем, что парсер создает нагрузку в несколько потоков и не делает пауз между закачкой страниц. В ряде случаев это может помочь, но только против самых простых парсинговых ботов.

Третий метод – активное использование различных JavaScript на странице. Эти скрипты могут существенно затруднить работу парсера, так как многие парсеры не в состоянии их интерпретировать. Однако недостаток этого метода в том, что «хорошим» ботам это тоже осложняет работу. Неаккуратное использование подобных скриптов может запросто привести к тому, что ваш сайт выпадет из поисковой выдачи или просядет в ней.

Четвертый метод – нелюбимая всеми капча. Метод можно было бы считать действенным, если бы не два отрицательных момента:

  • капча раздражает вашего пользователя и мешает ему, чем снижает его лояльность по отношению к вашему ресурсу;
  • существуют сервисы по распознаванию капчи, они постоянно совершенствуются.

А значит, результаты ее применения сомнительны в свете возможной потери заинтересованнности в вашем сайте.

Более полезно использовать ReCAPTCHA, так как она пытается определить, человек ли путешествует по сайту или нет.

Более изощренные подходы требуют больше усилий: сначала нужно каким-то образом определить, что сайт посещает парсер, потом его идентифицировать и далее либо «разрешить» работу, либо ее «запретить». В целом использование технических мер похоже на борьбу человека с литературным или мифологическим персонажем: Лернейской гидрой, например, или ветряными мельницами. Пытаться можно, но вероятность навредить себе выше.

И наконец, метод, который хоть частично, но помогает без ущерба и регулярных усилий. Если мы не можем защититься от ботов, то хотя бы можем затруднить использование собственного контента. Основную его ценность могут составлять фото товаров. Используйте на изображениях водяные знаки, которые трудно удалить. Ведь автоматическим способом это сделать сложно, а восстановление исходного изображения сильно усложняет использование его на чужом ресурсе.

Организационные меры

Важная организационная мера – обеспечить быстрое индексирование новых страниц сайта, пока их не успели спарсить. Сделайте в поиске запрос «авторство в Google и Yandex» и используйте все методы оповещения поисковых ботов о новых страницах. Естественно, метод сработает, только если ваш контент оригинален.

Мониторинг интернета на предмет заимствования ваших материалов (ручные запросы в поиске, системы антиплагиата) может открыть вам глаза на тот факт, что ваш контент скопировали. В случае если вами установлен факт заимствования, вы можете пробовать договориться с владельцем другого ресурса. В зависимости от успеха переговоров можно дойти и до юридических претензий.

При этом важно понимать свойства информации в интернете:

  • Информация распространяется быстро — поэтому доказать, что ваш ресурс является первоисточником, может быть сложно технически;
  • Большая часть информации в интернете — это не авторские материалы, а различные компиляции из них. В этом отношении авторское право может оказаться бессильным;
  • Правовые вопросы относительно интернета не так хорошо проработаны, и дополнительная судебная волокита может только усложнить дело, а вовсе не решить его, тем более в вашу пользу;
  • Существует множество юридических лазеек, которыми пользуются такие гиганты ИТ-отрасли, как поисковые системы. Не исключено, что ими будут пользоваться и те, кто собирает ваш контент.
  • Претензии по незаконному использованию фотографий и другого контента, авторское право на который легко доказать, предъявлять можно. И начать прямо с жалобы поисковым системам. Как минимум, это вернет сайту преимущество первоисточника. Но в норме по жалобе наказывают: например, Google может наказать за единственную картинку.

Насколько далеко можно зайти в организации противодействия парсингу, зависит от конкретной ситуации и того, что находится на кону. Одна из оправданных предпосылок для обязательной борьбы с парсерами — если парсеры пытаются собрать с вашего ресурса персональные данные. Утечка таких данных дискредитирует ваш ресурс. Снижение доверия, как правило, сразу же отражается и на посещаемости, и на прибыли. В некоторых случаях может обернуться противостоянием с исполнительными органами власти.

Однако в большинстве случаев судебные тяжбы относительно заимствования контента ни к чему хорошему не приводят. Они требуют времени и внимания, а результат может и вовсе не окупиться.

Психологические меры

В данном случае их можно рассматривать исходя из вашего настроя и целесообразности. Проведем аналогию «плохой следователь – хороший следователь». Если вы настроены сурово, то вам не обойтись без технических и юридических мер, цель которых – показать, что лучше найти другой сайт, чем воевать с вами.

Если вы считаете, что с парсероводами проще договориться, предложите им сотрудничество. Суть в том, что, если информация с вашего ресурса востребована, всегда найдутся желающие ее спарсить. Парсер соберет всю необходимую информацию и сформирует выгрузку. Это может быть формат Excel, XML или YML. На всякий случай, YML-файл – это документ, который обрабатывает Яндекс для своего Маркета. Как говорится, если вы не можете бороться с явлением, можете организовать его.

Предложите партнерские программы, программы сотрудничества с вами, организуйте интерфейс экспорта данных и получайте прибыль. Ваши вчерашние заказчики парсеров станут вашими клиентами, и вы сможете с ними договориться на взаимовыгодных условиях. Конечно, это сработает только в определенном рыночном сегменте и при определенных видах бизнеса. Однако организованные вами партнерские программы могут увеличить у вас количество посетителей или продаж.

Резюмируем

  • Любое препятствие для парсинга можно обойти, это лишь вопрос нужности вашей информации.
  • Стоимость получения ваших данных другой стороной зависит от трудности их получения, то есть от цены, в которую вам обойдется защита от парсинга. Так что оценивайте целесообразность и необходимую сложность запутываний исходя из ценности контента, который у вас есть.
  • Стоимость вашей защиты может включать не только цену настройки системы противодействию парсинга, а дополнительно еще и риски ее некорректной работы. Большинство инвестиций в SEO могут вовсе не окупиться, если система защиты будет блокировать поисковых ботов. Это наихудший сценарий развития ситуации. Пользователи тоже не будут в восторге от замедления работы, случайных блокировок и необходимости ввода капчи.
  • Проблемы с поисковыми системами могут оказаться дороже, чем попытка защитить свои данные. Может, имеет смысл подумать, как зарабатывать на своем ресурсе больше, а к потерям от парсинга относиться как к реалиям нашего времени, например, сетевому пиратству?

В недалеком будущем может быть наступит эра семантического веба, который так давно активно обсуждается. В этой новом будущем парсеры станут совсем другими, и это создаст совершенно другие проблемы. А пока что мы еще находимся в преддверии семантического веба, не имеет смысла в большинстве случаев создавать себе дополнительные трудности.

6 комментариев
Подписаться 
Подписаться на дискуссию:
E-mail:
ОК
Вы подписаны на комментарии
Ошибка. Пожалуйста, попробуйте ещё раз.
  • Алексей Кор.
    2
    комментария
    0
    читателей
    Алексей Кор.
    больше года назад
    Хорошая новость в том, что защищаться от самого дорого способа парсинга не нужно. Это самая низко вероятная угроза. Которая по логу активности у клиентов моей программы защиты, вообще не встречается

    Замки на двери вешают не от высококвалифицированных домушников, которых замки не остановят. А от 99,99% всех остальных. Алексей (обращаюсь к автору статьи), у Вас есть т.н. гипер-обобщение: раз кто-то где-то когда-то выкинет десятки или сотни тысяч рублей на парсинг Вашего...
    Хорошая новость в том, что защищаться от самого дорого способа парсинга не нужно. Это самая низко вероятная угроза. Которая по логу активности у клиентов моей программы защиты, вообще не встречается

    Замки на двери вешают не от высококвалифицированных домушников, которых замки не остановят. А от 99,99% всех остальных. Алексей (обращаюсь к автору статьи), у Вас есть т.н. гипер-обобщение: раз кто-то где-то когда-то выкинет десятки или сотни тысяч рублей на парсинг Вашего сайта, то защищаться от всех остальных проблем не нужно и делать ничего не нужно. Но как раз все остальные – это 95%, если не 99% проблемы. То есть проблему можно решить на 95%-99%. А оставшийся 1-5% - это низковероятные угрозы.

    Наибольшую проблему в нагрузке создают боты, от которых владельцу сайта не холодно и не жарко (пользы нет, а убытки есть). Они то одновременно, то переменно, то еще как-то вваливаются на сайт и делают какую-то свою работу. Эти боты подписывают себя в AGENT и поэтому их легко запретить. Сейчас таких ботов уже несколько тысяч известных, регулярных, и будет еще больше.

    Вторая проблема – это периодические набеги конкурентов и тех, кто заказывает услуги парсинга у фриленсеров. Сайт может неделю лежать пока простые ПК или Онлайн парсеры будут его забирать. И чем заметнее проект, тем больше будет таких набегов. Такие набеги легко отсекаются по активности в разных интервалах обязательно.

    Третья проблема (для магазинов) – монитринг цен, остатков. Был случай, что в соседнем офисе того же БЦ конкурент срисовывал цены. Это тоже легко устраняется.

    И конечно проблема с поисковыми ботами не проблема вообще. Поисковые боты – их IP известные, не меняются многолетиями. На этих IP увязано много чего у клиентов. Поэтому это самая простая часть, как сделать так, чтобы не вылететь из поисковика.

    Обращайтесь, есть готовое, понятное решение для любых сайтов с php.
    -
    1
    +
    Ответить
  • Кирилл Шуринов
    9
    комментариев
    1
    читатель
    Кирилл Шуринов
    больше года назад
    очень много лирики ;)
    Все знают, что если захотят украсть контент, то его украдут.
    -
    2
    +
    Ответить
  • Pogrebnoy Alexandr
    1
    комментарий
    0
    читателей
    Pogrebnoy Alexandr
    больше года назад
    Хорошая статья. Только я не понял как  ReCAPTCHA поможет от парсинга?
    -
    1
    +
    Ответить
    • Алексей Кор.
      2
      комментария
      0
      читателей
      Алексей Кор.
      Pogrebnoy Alexandr
      больше года назад
      Конечно. Есть две версии, во-первых. Капчу ругают, когда выкидывают её всем подряд. Это раздражает. Но если капча выходит при подозрении, что перед нами бот, а не всем подряд, то это совсем другое дело
      -
      0
      +
      Ответить
  • virs
    4
    комментария
    0
    читателей
    virs
    больше года назад
    Не тратьте время короче, спарсить можно абсолютно все, что видит пользователь.
    -
    7
    +
    Ответить
    • Максим Лютов
      1
      комментарий
      0
      читателей
      Максим Лютов
      virs
      больше года назад
      А пусть попробует картинку( svg, png ) разобрать вместо текста )))
      -
      0
      +
      Ответить

Отправьте отзыв!
X | Закрыть