Если вы занимаетесь парсингом цен с помощью прокси, вы уже знаете главную проблему: сайты блокируют ваши запросы через 50–100 итераций, данные устаревают быстрее, чем вы успеваете их собрать, а переключение между дата-центровыми IP давно не помогает. Реальные магазины — Allegro, Amazon, Wildberries, крупные ритейлеры электроники — умеют отличать ботов от людей. В этом руководстве вы узнаете: как выбрать правильный тип прокси для мониторинга цен, как построить архитектуру парсера с нуля, как настроить ротацию IP через API, и почему мобильные 4G-прокси дают практически нулевой процент блокировок при сборе данных о ценах.

Почему обычные прокси не справляются с парсингом цен
Дата-центровые прокси были хороши пять лет назад. Сейчас крупные ритейлеры ведут базы данных диапазонов IP крупнейших хостинг-провайдеров — AWS, Hetzner, OVH — и блокируют их на уровне файрвола ещё до первого запроса. Резидентные прокси лучше, но они работают через чужие устройства с непредсказуемым качеством соединения.
Мобильные 4G-прокси работают иначе. Трафик идёт через реальные SIM-карты и LTE-модемы, поэтому с точки зрения сайта вы выглядите как обычный пользователь смартфона. А поскольку операторы сотовой связи используют CGNAT (один внешний IP делят десятки тысяч абонентов), заблокировать такой адрес означает отрезать от сайта реальных покупателей. Именно поэтому ритейлеры крайне редко банят мобильные IP.
Вот конкретные проблемы, которые вы встретите при парсинге цен без мобильных прокси:
- CAPTCHA после 20–50 запросов с одного IP даже при медленном режиме
- Тихие блокировки: сайт возвращает 200 OK, но подставляет завышенные или пустые цены
- Fingerprinting по HTTP-заголовкам — проверьте свои заголовки, прежде чем запускать парсер
- Геолокационные ограничения: польские магазины показывают одни цены польским пользователям, другие — иностранным
- IP-репутация: один заспамленный IP из пула ломает весь сбор данных
Ключевой вывод: для стабильного мониторинга цен в 2026 году мобильные прокси — не роскошь, а базовое требование инфраструктуры.
Архитектура инструмента сравнения цен
Хороший инструмент сравнения цен состоит из четырёх независимых слоёв. Разделение важно: если упадёт один компонент, остальные продолжат работу.
Слой сбора данных (Scraping Layer)
Здесь живут ваши парсеры. Каждый парсер заточен под конкретный сайт: знает структуру DOM, умеет ждать динамической подгрузки JavaScript, обрабатывает пагинацию. Этот слой ничего не знает о хранилище — он только добывает сырые данные и кладёт их в очередь.
Слой прокси-менеджмента
Управляет пулом мобильных прокси, следит за состоянием каждого порта, инициирует смену IP через API при необходимости. Именно здесь реализуется логика ротации: когда менять IP, как долго держать сессию, как распределять нагрузку между портами.
Слой обработки и нормализации
Цены с разных сайтов приходят в разных форматах: «1 299 zł», «PLN 1299.00», «1299,00 zł». Этот слой приводит всё к единому виду, проверяет аномалии (цена не может упасть на 90% за час без распродажи), обогащает данные метаданными.
Слой хранения и API
База данных временных рядов (TimescaleDB или ClickHouse) хорошо подходит для ценовых данных. REST API или WebSocket поверх неё отдаёт данные вашему фронтенду или клиентским приложениям.
Такая архитектура позволяет горизонтально масштабировать только слой сбора данных, не трогая остальные части системы.
Выбор технологий: Python, Playwright и HTTP-клиенты
Для большинства задач парсинга цен через прокси подходит Python. Экосистема зрелая, библиотек достаточно, и девопс-инфраструктура хорошо с ним знакома.
Для статических страниц: httpx + selectolax
Если сайт рендерит цены на сервере (старые CMS, простые каталоги), достаточно асинхронного HTTP-клиента. httpx поддерживает HTTP/2, что помогает мимикрировать под браузер. selectolax парсит HTML в 10 раз быстрее BeautifulSoup.
- Установите:
pip install httpx selectolax - Настройте прокси через параметр
proxiesв клиенте httpx - Передайте заголовки реального браузера: User-Agent, Accept-Language, sec-ch-ua
- Добавьте случайные задержки между запросами: от 1.5 до 4 секунд
Для динамических страниц: Playwright
Amazon, Allegro, Ozon и большинство крупных маркетплейсов загружают цены через JavaScript. Здесь нужен headless-браузер. Playwright предпочтительнее Selenium: он быстрее, поддерживает async/await, и его легче настроить с прокси.
- Используйте
playwright install chromium— минимальный размер, достаточная совместимость - Настройте прокси через
browser.new_context(proxy={...}) - Включайте
stealth-режим через пакетplaywright-stealth - Перехватывайте сетевые запросы к API цен — часто данные приходят в чистом JSON
Ключевой вывод: не используйте Playwright там, где достаточно httpx. Headless-браузер потребляет в 15–20 раз больше ресурсов при том же объёме данных.

Как настроить мобильные прокси для парсинга цен
Прокси Польши предоставляют выделенные порты на реальных LTE 4G/5G-модемах с польскими SIM-картами. Для инструмента сравнения цен на польском рынке это критично: Allegro, Ceneo, MediaMarkt.pl показывают реальные польские цены только польским IP.
Подключение занимает меньше минуты. Вот базовая конфигурация для Python:
Для httpx:
proxy_url = "http://user:password@pl.proxy-poland.com:PORT"
client = httpx.AsyncClient(proxies={"http://": proxy_url, "https://": proxy_url})
Для Playwright:
context = await browser.new_context(proxy={"server": "http://pl.proxy-poland.com:PORT", "username": "user", "password": "password"})
Поддерживаются протоколы HTTP, SOCKS5 и OpenVPN — выбирайте в зависимости от инфраструктуры. SOCKS5 предпочтительнее для Playwright, так как не модифицирует заголовки запросов.
Прежде чем запускать парсер, убедитесь, что прокси работает корректно:
- Проверьте внешний IP через наш инструмент определения IP — он должен показать польский мобильный адрес
- Убедитесь, что DNS-запросы не утекают через тест на DNS-утечки
- Измерьте задержку через тест скорости прокси — для парсинга достаточно 300–500 мс
Трафик не тарифицируется по гигабайтам — плоская ставка за порт. Для интенсивного парсинга с тысячами запросов в день это существенная экономия по сравнению с провайдерами, считающими каждый мегабайт.
Ротация IP и управление сессиями
Правильная стратегия ротации IP — половина успеха при парсинге цен. Менять IP слишком часто бессмысленно (теряете cookie-сессию, увеличиваете нагрузку), но держать один IP часами тоже рискованно.
Когда менять IP
- После получения CAPTCHA или кода 429 (Too Many Requests)
- После завершения парсинга одной категории товаров
- По таймеру: каждые 15–30 минут при непрерывном сборе данных
- При переходе между разными сайтами в пуле задач
Смена IP через API
Proxy Poland предоставляет API для смены IP за 2 секунды. Вызов выглядит как обычный GET-запрос к управляющему эндпоинту. Интегрируйте его в логику вашего прокси-менеджера:
requests.get("https://api.proxy-poland.com/rotate?port=PORT&token=YOUR_TOKEN")
После успешного вызова ваш порт получает новый мобильный IP из пула польского оператора. Никакой ручной работы, никаких задержек в несколько минут — как у некоторых конкурентов.
Sticky-сессии для авторизованного парсинга
Некоторые сайты показывают персональные цены авторизованным пользователям (программы лояльности, B2B-тарифы). Для таких случаев нужны sticky-сессии: один IP держится достаточно долго, чтобы залогиниться и собрать данные. В нашей инфраструктуре автоматическая ротация настраивается через панель управления — можно отключить её для конкретного порта на нужный период.
Ключевой вывод: оптимальная стратегия для большинства проектов мониторинга цен — ротация после каждых 200–300 успешных запросов или при первом признаке блокировки.
Обработка и хранение ценовых данных
Собрать цены — половина работы. Чтобы инструмент сравнения цен давал реальную ценность, данные нужно правильно обработать и сохранить для анализа динамики.
Нормализация цен
Разные сайты используют разные форматы. Напишите единый нормализатор:
- Удалите все символы кроме цифр, запятой и точки
- Определите разделитель десятичных (в польских сайтах часто запятая)
- Приведите к типу
Decimal, а неfloat— денежные расчёты требуют точности - Сохраните оригинальную строку как есть для аудита
Обнаружение аномалий
Автоматически помечайте подозрительные значения:
- Цена изменилась более чем на 30% за один цикл сбора
- Цена равна нулю или отрицательна
- Для товара нет цены три цикла подряд (возможно, товар снят с продажи)
- Цена сильно выбивается из медианы по категории
Хранение временных рядов
TimescaleDB (расширение PostgreSQL) позволяет хранить миллионы ценовых записей и делать эффективные запросы вида «покажи минимальную цену на этот товар за последние 30 дней». Альтернатива — ClickHouse, если объёмы исчисляются миллиардами строк. Для небольших проектов достаточно обычного PostgreSQL с индексом на (product_id, scraped_at).
Храните не только текущую цену, но и исторические данные: именно анализ динамики цен — главная ценность подобных инструментов для e-commerce-аналитики, ритейлеров и потребителей.

Заключение
Построить работающий инструмент сравнения цен с мобильными прокси реально за несколько дней. Ключевые выводы, которые стоит запомнить: во-первых, дата-центровые IP больше не работают для мониторинга крупных ритейлеров — мобильные 4G-прокси с польскими SIM-картами дают практически нулевой процент блокировок. Во-вторых, правильная архитектура с разделением слоёв позволяет масштабировать парсинг без переписывания всей системы. В-третьих, грамотная стратегия ротации IP — менять адрес по событию, а не по таймеру — экономит ресурсы и снижает риск детектирования.
Начните с бесплатного часового тестового доступа без банковской карты. Проверьте, как ведут себя ваши парсеры на реальных польских мобильных IP, прежде чем переходить на платный план. Посмотреть тарифы и запустить бесплатный пробный период — от 11 долларов за однодневный доступ с безлимитным трафиком.
