
Парсинги - какие могут быть трудности при работе с ними?
Автор: Игорь Яворский

Поскольку мы занимаем первые позиции в поиске по запросу "парсинг сайтов", и у нас их много в работе, мы постоянно сталкиваемся с одними и теми же заблуждениями наших заказчиков, некоторые из них разберем в этой статье.
[spoiler]
Что такое парсинг?
Как правило - это копия какой-то части чужого сайта (донора) в Эксель и последующая заливка на ваш сайт (получатель).
В этой статье мы избежим правовых вопросов, упомянем только, что если это товары с типовыми описаниями производителя и фотографиями от него же, то вряд ли за такое вас кто-то засудит.
Так чем же тогда опасен парсинг, кроме возможных претензий от донора?
- Мы делаем полную копию чужого сайта. Ничего хорошего в этом нет, а есть признание Яндексом плагиата. Более того, наверняка перенесутся и всякие мелочи, типа метатегов с упоминанием сайта-донора или водяных знаков.
- Мы можем спарсить сайт, который нравится заказчику, но не нравится Яндексу. Тогда ситуация еще хуже. Например, сайта-донора нет в топе, или на нем вообще фильтр типа АГС. Получив такой контент, мы наследуем и проблемы донора.
- Если парсинги идут с нескольких сайтов, то возможно частичное дублирование. Например, на одном сайте-доноре есть Кирпич пустотелый, а на другом Пустотелый кирпич. Несмотря на то, что это один и тот же товар, в результате парсинга будет задвоение.
- Сайт-получатель не может принять результаты парсинга. Элементарно может быть, что у донора 5 фотографий товаров, а у получателя возможность разместить только 1.
Что с этим делать?
Попробуем взглянуть на проблему шире. Для чего делают парсинг? Его делают, чтобы быстро наполнить сайт товарами и потом запустить продвижение. Тогда, может, стоит начать сразу с продвижения? Вот алгоритм действий:
- Определите товары и категории, которые вам нужны и подберите донора, на котором они есть. Донор должен находиться по нужным вам товарным запросам в топе. Самое верное - собрать все нужные нам запросы, и подобрать более точно несколько доноров под разные товарные категории. Подробнее про сбор семантического ядра написано тут.
- Определите, будет ли ваш сайт повторять структуру донора, или будет следовать собранному семантическому ядру. Последнее - наиболее верно, если мы не хотим быть в положении вечнодогоняющего.
- Определите, как будет идти уникализация контента. Хотя бы изменим немного цены, подставим иные шаблоны для метатегов, и массово изменим заголовки h1. Это можно сделать после парсинга в csv.
- Убедитесь, что получатель в состоянии принять парсинг, что у него есть возможность показать все те характеристики, которые будут спарсены, и что у него корректно работает экспорт-импорт. Если нет - доработать сайт.
Парсинг без продвижения - малополезен, вот основная мысль. Обращайтесь не к программистам, а к специалистам по продвижению, которые сделают парсинг под продвижение. Мы пока не встречали тех, кто делает всё вместе. Мы - можем. Мы знаем множество примеров сайтов, которые заливали к себе десятки тысяч позиций и это давало 10-20 посетителей в сутки естественного трафика, что является просто смешным для магазинов такого объема. А всё потому, что SEO-составляющая не бралась в расчет. |
В заключение еще несколько полезных советов:
В каком случае НЕ надо делать парсинг? | У вас менее 2000 товаров в сумме, или много доноров (например, один донор для 100 товаров, другой для еще 100, третий для 200 и т.д.). |
Как подобрать донора для парсинга быстро? | Выделите 3-4 самых главных для вас запроса и найдите в топе современно выглядящие сайты на позициях 1-3 места. |
Как поставить задачу на парсинг так, чтобы вас поняли? | Лучше всего так "я продаю ...., вот мой прайс-лист, и я хочу чтобы эти товары наименее затратным образом появились на моем сайте, и чтобы потом можно было продвигать их. И я хочу чтобы была настройка с сайтом поставщика для автоматической корректировки цен и наличия" (ну или автоматическое обновление не нужно). И вам нетрудно, и нам понятно. |
Могут ли быть гарантии на парсинг, и какие? | К сожалению, вообще никаких. Только в случае автоматического обновления можно на условиях техподдержки гарантировать, что мы исправим возможные проблемы. |
Чем меньше доноров, тем лучше. | Чем больше доноров - тем больше проблем пересечения товарного ассортимента. |
Посмотреть про стоимость парсинга
Посмотреть про автоматическое обновление