Allegro и OLX — крупнейшие площадки Польши
Allegro — крупнейший маркетплейс Центральной Европы с более чем 20 миллионами активных покупателей и 220 000 продавцами. OLX Польша — главная доска объявлений с миллионами листингов. Оба ресурса защищены продвинутыми системами обнаружения ботов и агрессивно блокируют стандартные прокси.
Польские 4G мобильные прокси от ProxyPoland обходят эти защиты, поскольку для Allegro и OLX ваши запросы выглядят как трафик реального польского пользователя с мобильного телефона Orange.
Почему Allegro блокирует обычные прокси?
Allegro использует несколько уровней защиты:
- Cloudflare с проверкой репутации IP-адреса
- Анализ ASN (автономной системы) — блокировка IP из дата-центров
- Rate limiting по IP и User-Agent
- JavaScript-челленджи (JS challenge pages)
- TLS fingerprinting
Польские 4G прокси Orange Polska проходят все эти проверки, так как IP принадлежат реальному мобильному оператору с отличной репутацией.
Парсинг Allegro на Python
import requests
import time
import random
PROXY_SOCKS5 = "socks5h://логин:пароль@api.proxypoland.com:5001"
ROTATION_URL = "https://api.proxypoland.com/api/proxies/ВАШ_ID/rotate"
proxies = {
"http": PROXY_SOCKS5,
"https": PROXY_SOCKS5,
}
headers = {
"User-Agent": "Mozilla/5.0 (Linux; Android 13; Pixel 7) AppleWebKit/537.36",
"Accept-Language": "pl-PL,pl;q=0.9,en;q=0.8",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
}
def scrape_allegro_listing(query, pages=5):
results = []
session = requests.Session()
for page in range(1, pages + 1):
url = f"https://allegro.pl/listing?string={query}&p={page}"
resp = session.get(url, proxies=proxies, headers=headers, timeout=15)
if resp.status_code == 429:
# Ротируем IP при блокировке
requests.post(ROTATION_URL, headers={"Authorization": "Bearer ВАШ_ТОКЕН"})
time.sleep(3)
continue
# Обрабатываем HTML...
results.append(resp.text)
time.sleep(random.uniform(1.5, 3.5)) # Случайная задержка
return results
Парсинг OLX с Playwright
OLX активно использует JavaScript-рендеринг, поэтому для надёжного парсинга лучше использовать Playwright:
from playwright.sync_api import sync_playwright
def scrape_olx(query: str):
with sync_playwright() as p:
browser = p.chromium.launch(
proxy={
"server": "socks5://api.proxypoland.com:5001",
"username": "логин",
"password": "пароль"
}
)
page = browser.new_page()
page.goto(f"https://www.olx.pl/oferty/q-{query}/")
# Ждём загрузки листингов
page.wait_for_selector('[data-testid="listing-grid"]')
listings = page.query_selector_all('[data-cy="l-card"]')
# Обрабатываем данные...
browser.close()
Стратегии обхода блокировок
- Ротируйте IP каждые 50-100 запросов — не ждите блокировки
- Пул из 3-5 прокси в режиме round-robin для параллельного парсинга
- Случайные задержки от 1 до 4 секунд между запросами
- Реалистичный User-Agent мобильного Android устройства
- Polish Accept-Language заголовок:
pl-PL,pl;q=0.9
Начните с бесплатного теста
Проверьте, как польские 4G прокси работают с вашим парсером — 1 час бесплатно без привязки карты. Тарифы от $9 за прокси, скидки от 5% при заказе от 5 штук.