Парсинг цен конкурентов

Парсинг цен конкурентов

Serhii Bzenko

Цены важный показатель любого бизнеса для привлечения потенциальных покупателей, фактор который приводит к покупке или уводит клиента к конкуренту. Быть осведомленный о ценовой конкуренции на рынке является важнейшим фактором. В сравнении с офлайн, онлайн бизнес не нуждается в агентах которые мониторят цены соседней лавки с фотоаппаратом или блокнотом с ручкой - вся работа выполняется ботами и аналитическим центром.

  1. Что такое парсинг?
  2. Что такое мониторинг?
  3. Чем полезен мониторинг цен на рынке?
  4. Обогащение информации
  5. Как происходит мониторинг цен конкурентов?
  6. Аналитика полученных данных
  7. В каком виде можно получать данные мониторинга?
  8. Как часто мониторить цены?
  9. Разработка своего парсера
  10. Стоимость мониторинга цен

Что такое парсинг?

Парсинг - это процесс извлечение данных специально настроенным роботом для последующей обработки и извлечение коммерческой пользы. Этот метод широко применяется для разных целей где сбор разного рода информации которую можно связать по контексту и обогатить используя дополнительные источники играет ключевую роль. Сам процесс подготовки работа требует особой квалификации и внимательности к деталям построения интернет-ресурса с которого нужно извлечь данные.

Очень редко парсинг является линейной задачей, для подготовки действительно важной информации нужно проделать несколько этапов или несколько цепочек этапов для достижения цели.
Ниже приведен скриншот нашей системы с частью схемы выполнения поэтапных действий.

Схема настройки парсинга цен

Как использовать полученные данные

Любая информация имеет ценность, все зависит от области применения. Риэлторскому агентству важно иметь договора с владельцами недвижимости, перекупщикам автомобилей нужны данные автомобилей и контакты их владельцев, сервису услуг для рекламной рассылке - email адреса целевой аудитории.

  • информация с разных досок объявлений на аренду недвижимости предоставляет конкретные предложения с контактами арендодателей, номер телефона, email, адрес недвижимости
  • с автомобильных досок можно получить информацию владельцев автомобилей или перекупщиков
  • интернет магазины предоставляют ассортимент товарных карточек с обзорной информацией и ценами
  • сервис prom.ua предоставляет предпринимателям платформу по открытию интернет магазинов - что даем возможность получить контактные данные владельца и категории продаваемой продукции.

Что такое мониторинг?

Энтеральное получение данных от парсинга важных показателей, изменения цен, новые торговые позиции. Другими словами бот посещает интернет магазин каждый день и присылает обновленную информацию которую можно сопоставить с предыдущей. На базе таких данных строится аналитика, оцениваются тренды и делаются отчеты.

Чем полезен мониторинг цен на рынке?

Цена - это важнейший фактор принятия решения потребителем и для открытия нового дела или продвижение имеющегося важно осознавать положение вещей на рынке. Конкуренция это нескончаемый поток изменений, динамика ценовой политики, промо акций и скидок меняет потребительские предпочтения и чтобы оставаться привлекательным на рынке нужно идти в ногу со временем.

Парсинг цен конкурентов предоставляет обширную картину ассортимента и цен что позволяет делать более корректную оценку и принимать решения в правильной направлении.

Помимо цен можно использовать информацию о наличии или отсутствия товара конкурента и корректировать акции или рекламную кампанию ниши товаров для привлечения потребителей.

Оперативные данные - это преимущество которое нужно использовать!

Обогащение информации

Имея данные мониторинга цен конкурента дает преимущество но есть и другие весомые показатели которые удвоили б ценность собранных данных. Используя продвинутые инструменты и прагматичный анализ интернет магазина конкурента дают дополнительные результаты.

Рассмотрим такой показатель как количество товара на складе - это не публикуемая информация, пользователь не может ее увидеть. Но если оформить заказ с большим количеством товара по одной позиции то часто страница заказа уведомит покупателя что это не доступное количество для покупки. Это означает что если поиграть с цифрами то можно определить максимальное количество которое имеется в наличии. Этот простой трюк применим почти к любому интернет магазину но требует дополнительной сложности подготовки робота.

Очень часто в процессе настройки робота обнаруживаются дополнительная информация которая не видна на пользовательской странице. Это технические погрешности разработчиков интернет площадки которые можно использовать в случаи обнаружения. К примеру на сайте нет информации о дате поступления товара но специалист видит это в исходном коде или в ответах сервера.

Пример процесса сбора и обогащение информации нашей системы, прогресс представляется в виде цепочке действий и передачей результатов.

Система парсинга конкурента в действии

Как происходит мониторинг цен конкурентов?

По расписанию, робот стараясь быть незамеченным системой мониторинга посещает интернет магазин конкурента и выполняет указанные операции для обхода целевых страниц или категорий, собирает информацию и отправляет в аналитический центр. Данный процесс занимает время так как нужно имитировать активность пользователя и не нагружать сервер конкурента. Для сокращения время часто используются прокси сервера других стран чтоб поставить несколько задач в параллельный поток. После финализации сбора данных аналитический центр обрабатывает разнородную информацию и сохраняет в базе данных. Как только все готово формируются отчеты и отправляются клиенту по расписанию.

Сложности парсинга

Парсинг сильно распространен и существует большее количество приемов и платных сервисов для разоблачения робота. Это нормальный процесс эволюции, кто-то атакует - кто-то обороняется. Первое с чем встречается любой парсер - это защита.
На сегодняшний день идентифицировать робота задача не новая. IP адрес активности, аномальное поведение, несоответствие User Agent к окружением выполнения до Fingerprinting. Обходить защиту становится сложнее с каждых годом, появляются новые подходы и технологии.

Следующая проблема заключается в изменении дизайна сайта конкурента. Любой парсер ориентируется на разметку страницы и есть разработчик вносит изменения - парсер нужно адаптировать к новому представлению сайта. Это вечная проблема когда все работало и вдруг перестало. Единственное решение - это вовремя реагировать. Нужен дополнительный функционал по валидации адаптации робота и в случае если робот ее не проходит нужно останавливать парсинг и перенастроить систему. Сама валидация должно проходить чаще чем выполняется парсинг, если интервал парсинга это раз в день то валидация должна проводится 3-4 раза в день чтобы успеть перенастроить робота до начала следующей итерации парсинга.

Еще одна сложность может возникнуть в связи с построением интернет магазина конкурента. Любую площадку продвигают в поисковой выдачи и чтобы использовать бюджет индексации эффективно страницы сайта должны быть построены на стороне сервера. Но бывают и другие подходы где страница строится на стороне браузера и для парсинга таких страниц нужно больше ресурсов системы и время выполнения.

Особенности мониторинга

Цены конкурента не имеют большого значение без информации о каталоге, деталей продукта и его положения на странице для качественного мониторинга нужно собрать максимальное количество смежной информации.

Любой товар имеет ряд характеристик которые влияют на цену, один и тот же продукт но с разным объемом памяти или размером экрана в итоге имеет две разные позиции.
Идентификация товара является самым важным и сложным моментом.

Рассмотрим пример не корректной идентификации товара на примере, слева оригинальный товар, с правой стороны идентифицируемый. Оба товара воспринимаются системой как идентичные. Не корректная идентификация товара по результатам парсинга

Пример корректного сопоставления после предварительной настройки и сотни тестов Корректная идентификация товара по результатам парсинга

Имея список цен и заголовков товарных карточек конкурента безусловно полезная информация но для построения аналитики придется самостоятельно разбирать все эти данные с excel таблицы.

Представим что у нас в наличии 1000 товарных карточек на что уйдет несколько дней на разбор этих данных, явно что вся эта работа должна выполнятся автоматически. Полученные данные о конкуренте должны сразу давать общую картину положения дел.

Аналитика полученных данных

Сами данные являются сырыми без предварительной обработки, цена товара конкурента не имеет значения если не сопоставить ее с ценой вашего товара. Нам нужно вычислить разницу цен, просчитать разницу ценовой политики, определить самые большие различия в цене на определенные товары, понять ассортимент конкурента. Нельзя забывать о динамике изменений, всю информацию нужно сопоставить с информацией предыдущего парсинга.

Этот процесс происходит в несколько этапов:
  • Идентификация товара - нужно определить что это за товар учитывая факторы различия в характеристиках. Apple iPhone 12 64GB и Apple iPhone 12 32GB по факту две разные позиции с разной стоимостью.
  • Категоризация товаров - смартфоны, телевизоры, бытовая техника
  • Сбор сводной информации о каталоге, количество наименований, количество товаров доступных и недоступных для приобретения.
  • Проделать все вышеупомянутые пункты с интернет магазином клиента
  • Используя историческую информацию парсинга подготовить отчет показателей.

В каком виде можно получать данные мониторинга?

Нет ограничений на формат данных или их репрезентацию, это зависит от технических возможностей и предпочтений клиента. Обычно мониторинговые сервисы не предоставляют отдельную админ панель для клиента так как нет общего формата который подходит всем.
Все моменты и важные показатели обсуждаются заранее и каждый клиент имеет своего рода уникальность.

Крупный клиент зачастую имеет свою собственную настроенную и адаптированную CRM для ведения бизнеса и требует особой интеграции. Этот вариант дает ряд преимуществ - все данные находятся в панели управления клиента и в том виде который будет наиболее эффективным.

Возможные варианты получения данных от мониторинга:
  • email рассылка в виде html шаблона
  • excel документы
  • json, xml формат данных
  • графики аналитики

Как часто мониторить цены?

Мониторить конкурента нужно с периодичностью скорости его развития. Другими словами если конкурент каждую неделю изменяет цены или добавляет новые товары то достаточно проводить мониторинг дважды в неделю.

Большего конкурента с тысячами товарных карточек лучшим способом будет пассивный ежедневный мониторинг. Такой вид мониторинга не выгружает все карточки к примеру за один день а производит выгрузку порциями, каждый день по 200-300 карточек.

Частота мониторинга на прямую зависит от объемов и серверов на которых хоститься конкурент.

Разработка своего парсера

Существует множество бесплатных и платных инструментов которые можно и нужно использовать. В самом примитивном виде собрать свой парсер не занимает много времени. Это требует определенной квалификации или денег в случае коммерческого заказа.

Парсер не является решением вопроса, здесь много подводных камней и нюансов. Цель данного инструмента решать поставленные задачи что в конечном итоге принести пользу. Сама польза и является ключевым явлением и чтобы добиться этого нужно пройти долгий путь и не боятся тонны грядущих проблем. Защита, большой объем данных, интервальность, отказоустойчивость, глубокая аналитика, скорость выполнения задач. Это занимает годы разработки имея несколько команд квалифицированных специалистов.

Так что разработать свой парсер звучит простой затеей, но в промышленных масштабах это очень затратное дело.

Стоимость мониторинга цен

Для получения данных с разных источников необходимы разные производные мощностя и сложность настройки. Цена разового мониторинга и постоянного существенно отличается так как большая часть расходов сконцентрирована на начальной этапе. Начальный этап включает аудит конкурента, настройка робота, настройка аналитики и первые тесты.

Факторы влияющие на цену мониторинга:
  • количество конкурентов
  • разовый или постоянный мониторинг
  • сложность защиты конкурентов
  • частота мониторинга
  • глубина аналитики