Powrót do Bloga

Jak uniknąć bana IP podczas scrapingu sklepów?

6 marca 2026Proxy Poland Team
Detailed close-up of honey being extracted from a honeycomb frame using a tool in a bee farm.

Scraping sklepów internetowych to jedno z najtrudniejszych zadań w zbieraniu danych, a unikanie banów IP podczas scrapingu to problem, z którym mierzy się każdy developer i analityk danych. Wysyłasz kilkadziesiąt zapytań, wszystko działa, a potem nagle: 403 Forbidden, captcha albo zupełna cisza. Twój IP właśnie trafił na czarną listę. W tym przewodniku dowiesz się:

  • Dlaczego sklepy blokują adresy IP i jak wykrywają boty
  • Jakie techniki scraping stosować, by ominąć systemy anty-botowe
  • Jak skonfigurować rotację proxy 4G, żeby wyglądać jak zwykły użytkownik
  • Które platformy e-commerce są najtrudniejsze i jak do nich podejść

Ten przewodnik łączy teorię z konkretnymi przykładami konfiguracyjnymi, więc nawet jeśli zaczynasz przygodę ze scrapingiem, wyjdziesz z nim z gotowym planem działania.

A top-down view of a shopping cart, list, card, and bag on a green background.
Photo: Nataliya Vaitkevich on Pexels

Dlaczego sklepy e-commerce blokują adresy IP

Sklepy internetowe takie jak Allegro, Amazon czy Zalando nie blokują IP z czystej złośliwości. Mają ku temu konkretne powody biznesowe i techniczne. Każde zapytanie do serwera kosztuje zasoby. Bot wysyłający 1000 requestów na minutę obciąża infrastrukturę tak samo jak tysiąc prawdziwych klientów, tyle że nie przynosi ani złotówki przychodu.

Ale to nie jedyny powód. Sklepy chronią swoje dane cenowe przed konkurencją. Allegro nie chce, żebyś zbierał wszystkie ceny produktów i budował na tej podstawie tańszego konkurenta. Nike nie życzy sobie, żebyś monitorował stan magazynowy SNKRS w czasie rzeczywistym i odsprzedawał buty z marżą.

Key takeaway: Blokada IP to decyzja biznesowa, nie techniczna. Systemy anty-botowe są coraz droższe w omijaniu właśnie dlatego, że sklepy aktywnie w nie inwestują.

  • Ochrona danych cenowych przed konkurencją
  • Zapobieganie przeciążeniu serwerów
  • Walka z botami zakupowymi (sneaker bots, limited drops)
  • Compliance z regulaminami i warunkami użytkowania
  • Ochrona przed agregatorami cen bez umowy partnerskiej

Zrozumienie tej motywacji pomaga lepiej planować strategię scrapingu. Nie chodzi o to, żeby być niewidzialnym, chodzi o to, żeby wyglądać jak normalny użytkownik mobilny, który przypadkowo klikał przez kilka godzin.

Jak systemy anty-botowe wykrywają scrapery

Zanim zaczniesz unikać banów IP podczas scrapingu, musisz wiedzieć, na czym polega detekcja. Systemy takie jak Cloudflare, PerimeterX czy DataDome nie patrzą tylko na Twój adres IP. To tylko jeden sygnał z kilkudziesięciu, które analizują równocześnie.

Sygnały sieciowe

Pierwsza warstwa to analiza ruchu sieciowego. Jeśli z jednego adresu IP przychodzi 500 requestów w ciągu minuty, system flaguje to jako anomalię. Ale nawet 5 requestów na minutę może wyglądać podejrzanie, jeśli każde zapytanie trafia dokładnie co 12 sekund. Ludzki użytkownik tak nie przegląda sklepu.

  • Zbyt regularne odstępy między zapytaniami
  • Brak requestów do plików CSS, JS i obrazów (czysty HTML scraping)
  • User-Agent niezgodny z nagłówkami przeglądarki
  • Brak plików cookie sesji lub ich nieprawidłowa sekwencja
  • IP z zakresu centrum danych (ASN datacenter)

Sygnały behawioralne

Bardziej zaawansowane systemy analizują JavaScript fingerprint, ruch myszą, wzorce scrollowania i kolejność odwiedzanych stron. Prawdziwy użytkownik nie przeskakuje bezpośrednio z listy produktów do strony checkout bez żadnej wizyty na stronie produktu.

Możesz sprawdzić, jakie nagłówki wysyła Twój scraper, korzystając z narzędzia analizy nagłówków HTTP. To pierwszy krok do diagnozy problemu z detekcją.

Podstawowe techniki ograniczające ryzyko bana

Samo proxy to za mało. Zanim przejdziemy do rotacji IP, warto wdrożyć kilka technik po stronie scrapera, które drastycznie obniżają ryzyko blokady nawet zanim system zdąży przeanalizować Twój adres.

  1. Randomizuj opóźnienia: Zamiast stałego time.sleep(2), używaj random.uniform(1.5, 4.5). Losowe opóźnienia imitują ludzkie zachowanie lepiej niż jakikolwiek stały interwał.
  2. Rotuj User-Agenty: Przygotuj listę 20-30 aktualnych User-Agentów przeglądarek mobilnych i desktop. Zmieniaj je nie przy każdym requeście, ale co sesję.
  3. Pobieraj zasoby statyczne: Prawdziwa przeglądarka ładuje CSS, JS, fonty. Jeśli Twój scraper pobiera tylko HTML, wyglądasz jak bot. Możesz to zrobić z Playwright lub Puppeteer.
  4. Symuluj sesję: Zacznij od strony głównej, przejdź do kategorii, potem do produktu. Nie skacz od razu do strony z ceną.
  5. Obsługuj cookies i nagłówki sesji: Utrzymuj stan sesji między requestami. Używaj requests.Session() w Pythonie zamiast oddzielnych requestów.
  6. Respektuj robots.txt (strategicznie): Wiedz, co blokujesz, a co nie. Niektóre sklepy używają robots.txt jako honeypot.

Key takeaway: Scraper, który wygląda jak przeglądarka, jest o 80% trudniejszy do zablokowania niż prosty skrypt HTTP, nawet jeśli oba korzystają z tego samego proxy.

Rotacja proxy jako fundament bezpiecznego scrapingu

Techniki behawioralne pomagają, ale bez rotacji IP prędzej czy później Twój adres trafi na czarną listę. Pytanie nie brzmi "czy?", tylko "kiedy?". Dlatego unikanie banów IP podczas scrapingu wymaga przemyślanej strategii rotacji.

Rotacja proxy polega na tym, że każde kolejne zapytanie (lub grupa zapytań) wychodzi z innego adresu IP. Serwer docelowy widzi ruch od wielu różnych użytkowników, nie od jednego bota.

Rodzaje rotacji

  • Rotacja per request: Nowy IP przy każdym zapytaniu. Dobre do masowego scrapingu z krótkimi sesjami.
  • Rotacja per sesja: Ten sam IP przez całą sesję (np. jeden produkt), potem zmiana. Lepiej imituje zachowanie użytkownika.
  • Rotacja czasowa: Zmiana IP co X minut niezależnie od liczby requestów. Wygodne przy długich sesjach.

W infrastrukturze Proxy Poland rotacja IP zajmuje 2 sekundy i odbywa się przez wywołanie API lub panel sterowania. Możesz ustawić automatyczną rotację co określony czas lub wywołać ją ręcznie, gdy tylko wykryjesz pierwsze oznaki blokady (np. wzrost liczby błędów 429).

Warto też regularnie weryfikować, czy Twój aktualny IP nie jest już na liście zablokowanych. Narzędzie sprawdzania adresu IP pozwala szybko potwierdzić, z jakiego adresu aktualnie wychodzi ruch Twojego scrapera.

A female engineer using a laptop while monitoring data servers in a modern server room.
Photo: Christina Morillo on Pexels

Dlaczego proxy 4G mobile wygrywają z datacenter

Większość początkujących scraperów zaczyna od najtańszych opcji: proxy datacenter kupowane hurtowo za kilka dolarów miesięcznie. To błąd, który kosztuje ich czas i pieniądze na debugging zamiast zbierania danych.

Adresy IP z centrów danych mają specyficzny wzorzec. Należą do ASN takich jak Amazon AWS, DigitalOcean, Hetzner czy OVH. Każdy system anty-botowy zna te zakresy na pamięć i blokuje je priorytetowo. Na Amazonie czy Allegro masz szansę przeżyć może kilkaset requestów z adresu datacenter, zanim trafi na ban.

Co wyróżnia proxy 4G mobile

Proxy 4G to zupełnie inny świat. Adres IP pochodzi z sieci Orange LTE, czyli tej samej, z której korzystają miliony polskich użytkowników telefonów. Serwer docelowy widzi ruch identyczny z ruchem kogoś, kto przegląda Allegro na smartfonie w tramwaju.

  • IP z zakresu sieci mobilnej (ASN Orange Polska) nie jest flagowane przez żaden znany system
  • CGNAT oznacza, że wiele prawdziwych użytkowników dzieli ten sam adres IP, więc ban jednego IP blokuje też prawdziwych klientów, co sklepy chcą uniknąć
  • Opóźnienie 300ms jest porównywalne z prawdziwym urządzeniem mobilnym
  • Nielimitowana przepustowość pozwala scrapeować bez liczenia gigabajtów

W testach własnej infrastruktury widzimy, że proxy mobilne 4G mają stopę bana poniżej 1% nawet na takich platformach jak Amazon czy Nike SNKRS, gdzie proxy datacenter są blokowane w ciągu minut. To nie magia, to po prostu fakt, że wyglądają jak prawdziwi użytkownicy.

Key takeaway: CGNAT w sieciach mobilnych to naturalna ochrona przed banami. Sklep, który zablokuje adres IP współdzielony przez 50 prawdziwych użytkowników, straci tych klientów. To czyni proxy 4G niemal odpornym na blokady.

Praktyczna konfiguracja proxy 4G do scrapingu

Teoria to jedno. Zobaczmy, jak wygląda realna konfiguracja proxy 4G z Proxy Poland w skrypcie scrapującym w Pythonie.

Po wykupieniu dostępu do portu proxy otrzymujesz dane połączenia w formacie:

  • Host: proxy.proxypoland.com
  • Port: np. 10001
  • Login i hasło do autentykacji
  • Endpoint API do rotacji IP

Podstawowa konfiguracja w bibliotece requests wygląda następująco:

proxies = {"http": "http://user:pass@proxy.proxypoland.com:10001", "https": "http://user:pass@proxy.proxypoland.com:10001"}

Rotację IP wywołujesz przez proste zapytanie GET do endpointu API. Po 2 sekundach Twój modem 4G dostaje nowy adres IP z puli Orange LTE.

Przykładowy schemat scrapingu z rotacją

  1. Uruchom sesję z proxy 4G i załaduj stronę główną sklepu (symulacja wejścia)
  2. Przejdź przez kategorię do listy produktów (3-5 requestów z losowymi opóźnieniami)
  3. Zbierz dane z 10-20 produktów w tej samej sesji IP
  4. Wywołaj rotację IP przez API
  5. Odczekaj 3-5 sekund na stabilizację nowego adresu
  6. Rozpocznij nową sesję od strony głównej lub kategorii

Taki schemat sprawdza się na Allegro, Ceneo, OLX i większości polskich platform e-commerce. Dla bardziej agresywnych systemów jak Amazon możesz zmniejszyć liczbę produktów per sesja do 5-10.

Jeśli zauważysz wolniejsze odpowiedzi lub wzrost liczby captcha, użyj testu szybkości proxy, żeby sprawdzić, czy problem leży po stronie połączenia czy po stronie blokady.

Allegro, Amazon i inne trudne platformy

Nie każdy sklep jest tak samo trudny. Polskie platformy mają inną charakterystykę niż globalne giganty, i warto to rozumieć przed rozpoczęciem projektu scrapingowego.

Allegro

Allegro korzysta z własnego systemu detekcji wzbogaconego o Cloudflare. Szczególnie czuły jest na szybkie przechodzenie między kategoriami i brak plików cookies. Proxy 4G z polskim IP jest tu kluczowe, bo Allegro dodatkowo sprawdza geolokalizację. Zagraniczne proxy, nawet mobilne, są flagowane częściej.

Amazon

Amazon to jeden z najtrudniejszych celów. CAPTCHA pojawia się już po kilku dziesiątkach requestów z nowego IP datacenter. Z proxy 4G możesz utrzymać sesję znacznie dłużej, ale i tak warto ograniczyć liczbę requestów do 15-20 per sesja przed rotacją.

Ceneo i porównywarki cen

Polskie porównywarki cen takie jak Ceneo czy Skąpiec są generalnie mniej agresywne. Podstawowe techniki z losowymi opóźnieniami i rotacją co sesję wystarczają w większości przypadków.

  • Allegro: wymagany polski IP, rotacja co 15-20 produktów
  • Amazon: rotacja co 10 produktów, pełna symulacja sesji
  • Zalando: czuły na fingerprinting przeglądarki, warto użyć Playwright
  • OLX: stosunkowo łatwy, podstawowa rotacja wystarczy
  • Nike SNKRS: blokady w czasie rzeczywistym, wymagana rotacja per request

Pamiętaj też, żeby przed startem dużego projektu sprawdzić stan swojego IP pod kątem wycieków DNS. Test szczelności DNS upewni Cię, że Twój ruch faktycznie wychodzi przez proxy, a nie bezpośrednio z Twojego połączenia.

Focused young woman holding a Bitcoin coin indoors close-up, symbolizing cryptocurrency.
Photo: Tima Miroshnichenko on Pexels

Często zadawane pytania

Ile proxy 4G potrzebuję do scrapingu dużego sklepu?

Jeden port proxy 4G z rotacją IP wystarczy do scrapeowania małych i średnich sklepów. Jeśli planujesz zbierać dane z Amazona lub Allegro w dużej skali (dziesiątki tysięcy produktów dziennie), rozważ 2-3 porty działające równolegle z synchronizowaną rotacją. Każdy port to osobny modem fizyczny i osobna pula IP sieci Orange LTE.

Czy scraping e-commerce jest legalny?

To zależy od jurysdykcji, regulaminu platformy i tego, co robisz z danymi. Zbieranie publicznych danych cenowych do własnych analiz jest generalnie tolerowane. Używanie danych do budowania bezpośredniej konkurencji lub naruszanie warunków użytkowania może rodzić konsekwencje prawne. Zawsze konsultuj się z prawnikiem przed dużymi projektami komercyjnymi.

Jak szybko proxy 4G zmienia adres IP?

W infrastrukturze Proxy Poland rotacja IP zajmuje około 2 sekund od wywołania API. Nowy adres pochodzi z puli sieci Orange LTE i jest w pełni funkcjonalny zaraz po przydzieleniu. Możesz ustawić automatyczną rotację co określony czas lub wyzwalać ją ręcznie w skrypcie.

Czy proxy 4G działa z Playwright i Selenium?

Tak. Proxy 4G obsługuje protokoły HTTP i SOCKS5, więc integracja z Playwright, Selenium, Puppeteer czy Scrapy sprowadza się do podania adresu proxy w konfiguracji przeglądarki. SOCKS5 jest szczególnie wygodny z Playwright, bo obsługuje też ruch WebSocket i inne protokoły poza HTTP.

Podsumowanie

Skuteczne unikanie banów IP podczas scrapingu e-commerce to połączenie trzech elementów: dobrego kodu (losowe opóźnienia, symulacja sesji, właściwe nagłówki), przemyślanej strategii rotacji IP i odpowiedniego rodzaju proxy. Proxy datacenter to pułapka dla początkujących, bo są tanie, ale skuteczność mają zerową na poważnych platformach. Proxy 4G mobile na prawdziwych kartach SIM Orange LTE wyglądają jak zwykli użytkownicy i przechodzą przez filtry anty-botowe bez problemów. Rotacja IP co kilkanaście produktów, utrzymywanie sesji i symulacja ludzkiego zachowania to przepis na stabilny scraper, który nie budzi się co rano z nową blokadą.

Jeśli chcesz zacząć bez ryzyka, Proxy Poland oferuje bezpłatną godzinną próbę bez podawania karty kredytowej. Sprawdź dostępne plany i zacznij scrapeować bez banów już dziś. Zobacz plany Proxy Poland i zacznij darmowy trial.

Powiązane artykuły