Избежать блокировки IP при парсинге интернет-магазинов — задача, с которой сталкивается каждый, кто хоть раз пытался собрать данные с Amazon, Allegro или AliExpress. Вы запускаете скрипт, делаете 50–100 запросов, и вдруг получаете 403 Forbidden или CAPTCHA. Знакомо? В этом руководстве вы узнаете, почему сайты блокируют парсеры, какие технические методы помогают обойти защиту, и почему мобильные 4G-прокси дают принципиально другой результат по сравнению с дата-центровыми IP. Конкретно разберём:
- Как работают системы обнаружения ботов на крупных e-commerce платформах
- Какие HTTP-заголовки и паттерны запросов вас выдают
- Пошаговую стратегию ротации IP и управления сессиями
- Почему реальные SIM-карты Orange LTE решают проблему там, где дата-центры проигрывают

Почему интернет-магазины блокируют парсеры
Крупные платформы вроде Amazon, Wildberries или Nike блокируют автоматические запросы не из вредности. Парсинг создаёт реальную нагрузку на серверы, раскрывает ценовые стратегии конкурентам и нарушает условия использования. Поэтому защита от ботов стала отдельной индустрией со своими игроками: Cloudflare, DataDome, PerimeterX, Akamai Bot Manager.
Каждый из этих сервисов использует комбинацию сигналов для определения, человек перед ними или скрипт. И первый сигнал, который они проверяют — это IP-адрес. Если с одного адреса приходит 500 запросов за минуту, решение очевидно. Но даже при умеренной частоте запросов IP из дата-центра Hetzner или AWS немедленно попадает под подозрение.
Key takeaway: Блокировка происходит не только из-за частоты запросов. Тип IP-адреса, его история и принадлежность к ASN (автономной системе) играют не меньшую роль.
- IP из ASN дата-центра (Amazon, OVH, Hetzner) блокируются превентивно на большинстве крупных магазинов
- Резидентские прокси лучше, но легко обнаруживаются по паттернам трафика
- Мобильные IP (CGNAT, ASN мобильного оператора) воспринимаются как обычные пользователи телефонов
- История IP имеет значение: адрес, замеченный в спаме месяц назад, уже в чёрных списках
Как работает обнаружение ботов на e-commerce сайтах
Системы защиты анализируют десятки параметров одновременно. Понять логику их работы — значит понять, что именно нужно имитировать. Базовая проверка выглядит так: сервер смотрит на IP, User-Agent, скорость заполнения форм, порядок загрузки ресурсов страницы и поведение мыши.
Три уровня защиты, которые встречает парсер
Первый уровень — сетевой. Здесь проверяется репутация IP, его принадлежность к дата-центру или мобильному оператору, наличие в базах данных абьюза. Cloudflare обновляет свои списки в реальном времени.
Второй уровень — HTTP. Анализируются заголовки запроса: порядок заголовков, значение Accept-Language, наличие Sec-Fetch-* заголовков, которые браузеры добавляют автоматически, а скрипты часто забывают.
Третий уровень — поведенческий. JavaScript-челленджи от DataDome отслеживают движения мыши, паузы между кликами, скорость прокрутки. Если страница загружается, но никаких действий нет 0.3 секунды — это подозрительно для реального человека.
- Cloudflare: проверяет ASN, TLS fingerprint, порядок HTTP/2 фреймов
- DataDome: фокусируется на поведенческих паттернах и скорости JS-выполнения
- PerimeterX: анализирует сессионные паттерны и корреляцию запросов
- Akamai: использует device fingerprinting и анализ времени между запросами
HTTP-заголовки и fingerprint браузера: что вас выдаёт
Большинство начинающих парсеров делают одну и ту же ошибку: меняют IP, но оставляют неправильные заголовки. Избежать блокировки IP при парсинге невозможно, если ваш User-Agent — это python-requests/2.28.0. Это как прийти на маскарад в маске, но в рабочей форме с именным бейджем.
Реальный браузер отправляет конкретный набор заголовков в определённом порядке. Chrome 124 на Windows 11 всегда добавляет sec-ch-ua, sec-ch-ua-mobile, sec-ch-ua-platform. Если этих заголовков нет или они в неправильном порядке — система моментально распознаёт автоматику.
Проверить, какие заголовки видит сервер с вашей стороны, можно через инструмент анализа HTTP-заголовков.
Минимальный набор заголовков для парсинга
User-Agent— реальная строка Chrome или Firefox, актуальная на 2026 годAccept—text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8Accept-Language—pl-PL,pl;q=0.9,en-US;q=0.8(для польских магазинов)Accept-Encoding—gzip, deflate, brSec-Fetch-Site,Sec-Fetch-Mode,Sec-Fetch-Dest— обязательны для ChromeReferer— имитируйте переход с поиска Google или главной страницы
Key takeaway: TLS fingerprint (JA3/JA4) тоже уникален для каждого клиента. Использование curl или стандартных HTTP-библиотек Python создаёт специфический TLS-fingerprint, который отличается от браузерного. Решение — использовать headless-браузеры или специальные HTTP-клиенты с кастомным TLS.

Ротация IP и управление сессиями при парсинге
Ротация IP — это не просто смена адреса после каждого запроса. Грамотное управление сессиями означает, что один IP живёт ровно столько, сколько живёт реальная сессия пользователя. Зашёл на сайт, посмотрел 5–10 страниц, ушёл. Следующий визит — с другого IP.
Слишком частая смена IP тоже подозрительна. Если за час с разных адресов приходят запросы с одинаковым fingerprint браузера, система это заметит. Каждый новый IP должен сопровождаться новой сессией браузера: новые куки, новый User-Agent, другой размер экрана.
Наш опыт на инфраструктуре Proxy Poland показывает: оптимальный интервал ротации для парсинга интернет-магазинов — каждые 10–15 страниц или после получения первого CAPTCHA-ответа. API ротации позволяет сменить IP за 2 секунды через простой HTTP-запрос.
- Получите новый IP через API-запрос к панели управления
- Очистите все куки и данные сессии в вашем браузере/клиенте
- Сгенерируйте новый User-Agent, соответствующий реальному устройству
- Сделайте паузу 3–8 секунд перед первым запросом с нового IP
- Начните сессию с главной страницы или страницы категории, а не товара
Лимиты запросов и человекоподобное поведение
Даже с идеальными заголовками и хорошими прокси скрипт, делающий запрос каждые 100 миллисекунд, будет заблокирован. Люди так не читают страницы. Реальный пользователь проводит на странице товара 15–45 секунд: смотрит фото, читает отзывы, возможно, открывает другую вкладку.
Добавьте случайные задержки между запросами. Не фиксированные 2 секунды — это тоже паттерн. Используйте нормальное распределение со средним 3–5 секунд и стандартным отклонением 1–2 секунды. Иногда делайте паузы 10–20 секунд, как будто читаете длинное описание.
- Максимальная безопасная скорость для большинства магазинов: 20–30 страниц в минуту с одного IP
- Имитируйте случайный порядок просмотра: не по порядку пагинации, а вперёд-назад
- Загружайте CSS и JS файлы страницы — чистый парсинг только HTML без ресурсов заметен
- Для Allegro и Amazon используйте не более 10–15 запросов в минуту с одного IP
- Планируйте парсинг на ночное время: меньше трафика, меньше внимания защитных систем
Проверить скорость соединения через конкретный прокси-порт можно через тест скорости прокси до начала основного парсинга.
Мобильные 4G-прокси против дата-центровых: реальное сравнение
Здесь стоит говорить конкретно, а не абстрактно. Избежать блокировок IP при парсинге с дата-центровых прокси становится всё сложнее в 2026 году. Cloudflare и DataDome давно научились определять ASN крупных хостингов и блокируют их профилактически.
Мобильные IP работают иначе. Телефон на Orange LTE в Польше имеет IP из пула оператора, за которым стоят сотни тысяч реальных абонентов. Это CGNAT: один внешний IP делят несколько пользователей. Заблокировать такой IP — значит заблокировать сотни невинных людей. Ни один серьёзный интернет-магазин на это не пойдёт.
Сравнительная таблица типов прокси
- Дата-центровые прокси: дёшево, быстро (5–20ms), но мгновенно блокируются на защищённых сайтах. Блокировка по ASN — норма.
- Резидентские прокси (ISP): лучше дата-центровых, но пул адресов известен провайдерам прокси, которые их продают — и они постепенно попадают в блэклисты.
- Мобильные 4G-прокси: IP меняются динамически, принадлежат реальному оператору (Orange Poland), работают через CGNAT. Процент блокировок в нашем тестировании — менее 1%.
Наша инфраструктура построена на физических модемах с реальными SIM-картами Orange LTE. Каждый порт — это отдельный модем, отдельный IP из пула мобильного оператора. Мы обрабатываем более 50 000 ротаций IP в день по всему пулу портов.
Убедиться, что ваш IP действительно выглядит как мобильный, а не как прокси-сервер, поможет проверка вашего IP.

Практическая настройка прокси для парсинга магазинов
Теория без практики бесполезна. Вот конкретная схема настройки для парсинга e-commerce с использованием мобильных 4G-прокси Proxy Poland.
Подключение работает через HTTP или SOCKS5 протокол. Для Python с библиотекой requests конфигурация выглядит так:
- Получите хост, порт, логин и пароль в личном кабинете после активации тарифа
- Настройте прокси в вашем скрипте:
proxies = {"http": "http://user:pass@host:port", "https": "http://user:pass@host:port"} - Для смены IP вызовите API ротации:
GET https://panel.proxypoland.com/api/rotate?port=PORT&key=APIKEY - Подождите 2–3 секунды после ротации перед следующим запросом
- Проверьте новый IP через сервис проверки IP, чтобы убедиться в смене адреса
Для Scrapy добавьте middleware с автоматической ротацией при получении статуса 429 или 403. При получении CAPTCHA — ротируйте IP немедленно, не пытайтесь решать её на текущем адресе. Этот IP уже под подозрением.
- Трафик не ограничен по объёму — платите за порт, а не за гигабайты
- Поддерживаются HTTP, SOCKS5 и OpenVPN — выбирайте протокол под вашу задачу
- Один порт работает на одном физическом модеме с одной SIM-картой Orange
- Автоматическая ротация настраивается в панели управления без программирования
Тарифы начинаются от $11 за сутки — это разумная цена для тестирования перед долгосрочными проектами. Есть бесплатный пробный период на 1 час без привязки карты.
