Evitar ban de IP no scraping é o maior desafio de quem coleta dados em sites de e-commerce como Amazon, Mercado Livre, Shopee ou Allegro. Você configura seu script, roda as primeiras requisições e tudo funciona. Depois de 50 a 100 requests, o site retorna erro 403, CAPTCHA ou simplesmente para de responder. Frustrante, não é? Neste guia completo, você vai aprender exatamente como contornar esses bloqueios de forma profissional. Vamos cobrir:
- Por que sites de e-commerce bloqueiam IPs e como eles detectam bots
- As melhores técnicas para evitar ban de IP em scraping de alta escala
- Como proxies móveis 4G eliminam detecção na raiz
- Configurações práticas para seus scrapers rodarem 24/7 sem interrupção

Por Que Sites de E-commerce Bloqueiam IPs
Sites de e-commerce investem pesado em sistemas anti-bot. A razão é simples: scraping em larga escala consome banda, sobrecarrega servidores e expõe dados de preços que as empresas preferem manter sob controle. Amazon, por exemplo, tem uma equipe inteira dedicada a detectar e bloquear raspagem de dados não autorizada.
Os bloqueios acontecem em camadas. No nível mais básico, o servidor monitora quantas requisições chegam de um único IP em determinado período. Se você faz 200 requests por minuto a partir do mesmo endereço, qualquer sistema de proteção vai flagrar isso como comportamento anômalo. Um usuário real simplesmente não navega nessa velocidade.
Mas o problema vai além da velocidade. Sites modernos usam fingerprinting comportamental, análise de headers HTTP e até machine learning para identificar padrões que não batem com tráfego humano orgânico. Mesmo que você esteja fazendo uma requisição a cada 5 segundos, um IP de datacenter sem cookies, sem histórico de navegação e com User-Agent genérico vai levantar suspeitas.
- Rate limiting: bloqueio automático após X requisições por minuto
- Blacklists de IP: ranges de datacenters já conhecidos são bloqueados proativamente
- Desafios CAPTCHA: ativados quando o sistema detecta padrão suspeito
- Honeypot traps: links invisíveis que só bots clicam, revelando a automação
- Análise de TLS fingerprint: bibliotecas como requests Python têm assinatura diferente de browsers reais
Key takeaway: Para evitar ban de IP no scraping, você precisa entender que os sistemas de proteção não bloqueiam só por velocidade. Eles analisam dezenas de sinais ao mesmo tempo.
Como Funciona a Detecção de Bots em E-commerce
Plataformas como Cloudflare, DataDome, PerimeterX e Akamai Bot Manager são usadas pelos maiores e-commerces do mundo. Cada uma tem sua própria lógica, mas todas compartilham os mesmos vetores de análise.
Análise de Headers HTTP
Quando seu scraper faz uma requisição, ele envia headers que funcionam como uma impressão digital. Um browser real envia Accept-Language, Accept-Encoding, Cache-Control e dezenas de outros headers em ordem específica. Scripts Python com a biblioteca requests padrão enviam headers mínimos, sem essa ordem natural. Ferramentas como o analisador de headers HTTP mostram exatamente o que seu cliente HTTP está expondo.
Comportamento de IP e Geolocalização
IPs de datacenters como AWS, Google Cloud ou DigitalOcean aparecem em listas públicas de ASNs. Qualquer sistema anti-bot medianamente configurado já tem esses ranges bloqueados por padrão. IPs residenciais são mais difíceis de detectar, mas IPs móveis são ainda melhores porque estão em CGNAT, compartilhados com milhares de usuários reais simultaneamente.
Consistência de Sessão
Bots geralmente não mantêm sessões consistentes. Eles não acumulam cookies entre sessões, não têm histórico de referrer e não seguem padrões de navegação lógicos, como ir da página de listagem para o produto, depois para o carrinho. Sistemas avançados pontuam cada visita com base nessa consistência.
E aí está o problema central: você pode corrigir headers, pode simular delays, mas se o seu IP de datacenter já está na blacklist, nenhuma dessas técnicas vai funcionar sozinha.
Técnicas Principais para Evitar Ban de IP no Scraping
Aqui estão as abordagens que realmente funcionam quando você precisa evitar ban de IP no scraping de e-commerce em escala profissional.
1. Rotação de IPs com Intervalo Adequado
Rotacionar IPs é o fundamento de qualquer operação de scraping sustentável. A questão não é só trocar o IP, mas trocar antes de atingir o limite de detecção. Com proxies móveis 4G da Proxy Poland, você pode trocar de IP em 2 segundos via chamada de API, sem reconectar manualmente.
2. Controle de Rate e Delays Aleatórios
Não faça requisições em intervalos fixos. Um delay de exatamente 3 segundos entre cada request é tão suspeito quanto fazer 100 por segundo. Use delays aleatórios entre 1.5 e 8 segundos. Em Python:
import time, random; time.sleep(random.uniform(1.5, 8.0))
3. Headers Realistas e User-Agents Rotativos
Mantenha uma lista de User-Agents reais de browsers modernos (Chrome 120+, Firefox 121+) e rotacione entre eles. Inclua headers completos como um browser real enviaria: Accept, Accept-Language, Accept-Encoding, Sec-Fetch-Dest, Sec-Fetch-Mode.
4. Gerenciamento de Sessões e Cookies
Mantenha sessões persistentes por IP. Não troque de IP a cada requisição se você está navegando dentro de um mesmo fluxo de produto. Troque de IP entre sessões completas de scraping.
- Use sessões do
requests.Session()para manter cookies automaticamente - Acesse a homepage antes de ir direto para páginas de produto
- Simule cliques em categorias antes de acessar o alvo real
- Respeite o robots.txt para evitar padrões óbvios de acesso direto
Key takeaway: Técnicas de evasão funcionam em conjunto. Nenhuma delas sozinha é suficiente. A combinação de IP móvel, headers corretos e comportamento natural é o que mantém seu scraper rodando.

Por Que Proxies Móveis 4G São a Melhor Solução
Proxies de datacenter são bloqueados proativamente. Proxies residenciais são melhores, mas compartilhados e instáveis. Proxies móveis 4G são o topo da cadeia para quem precisa evitar ban de IP no scraping de e-commerce sério.
A razão técnica é o CGNAT, Carrier-Grade Network Address Translation. Operadoras de telefonia celular atribuem um único IP público para centenas ou milhares de usuários simultaneamente. Isso significa que quando você usa um proxy móvel 4G, seu tráfego sai do mesmo IP que usuários reais com smartphones estão usando naquele momento. Bloquear esse IP causaria danos colaterais enormes para o site alvo, então os sistemas de proteção são muito mais cautelosos com IPs móveis.
A infraestrutura da Proxy Poland roda em modems LTE 4G/5G físicos com SIMs reais de operadoras polonesas. Não é IP compartilhado de pool genérico, é uma porta dedicada exclusivamente para você, com bandwidth ilimitado e sem cobrança por GB.
Comparativo: Tipos de Proxy para Scraping
- Datacenter: Barato, mas bloqueado por padrão na maioria dos e-commerces grandes
- Residencial: Melhor que datacenter, mas pool compartilhado e velocidade inconsistente
- Móvel 4G dedicado: IP CGNAT de operadora real, taxa de detecção próxima de 0%, performance estável
Nos nossos testes com scraping em sites como Amazon.de, Allegro e Zalando, proxies móveis 4G completaram sessões de 500 requisições sem um único bloqueio, enquanto proxies de datacenter eram banidos na média após 40 a 80 requests.
Os planos começam em $11 por dia com trial gratuito de 1 hora, sem necessidade de cartão de crédito. Para operações contínuas, o plano de 30 dias por $60 é o mais popular entre equipes de scraping. Veja todas as opções em nossa página de preços.
Configuração Prática: Integrando Proxies ao Seu Scraper
Teoria sem prática não resolve nada. Aqui está como configurar proxies móveis 4G da Proxy Poland no seu scraper Python de forma funcional.
Configuração Básica com requests
Após adquirir sua porta, você recebe host, porta, usuário e senha. A integração é direta:
proxies = {"http": "http://usuario:senha@host:porta", "https": "http://usuario:senha@host:porta"}
response = requests.get(url, proxies=proxies, timeout=15)
Rotação Automática via API
Quando você quer trocar de IP sem esperar o ciclo automático, use a API de rotação. Uma chamada GET simples para o endpoint da Proxy Poland troca o IP em até 2 segundos. Integre isso no seu código após cada sessão completa de scraping ou a cada N requisições.
Usando com Playwright ou Selenium
Para sites que exigem renderização JavaScript, como páginas com lazy loading de preços, use Playwright com proxy configurado no contexto do browser:
browser = await playwright.chromium.launch(); context = await browser.new_context(proxy={"server": "http://host:porta", "username": "user", "password": "pass"})
- Configure o proxy no contexto, não no browser global
- Crie um novo contexto para cada sessão de scraping separada
- Use
page.wait_for_load_state("networkidle")para aguardar carregamento completo - Feche o contexto e abra novo após rotacionar o IP
Para verificar se seu IP está corretamente mascarado antes de iniciar o scraping, use a ferramenta verificador de IP para confirmar que o endereço visível é o do proxy móvel.
Erros Comuns Que Causam Bloqueio de IP
Mesmo com bons proxies, scrapers continuam sendo bloqueados por erros de configuração evitáveis. Esses são os mais frequentes que vemos nas comunidades de web scraping.
- Ignorar o robots.txt completamente: Acessar dezenas de paths proibidos em sequência é um sinal forte de bot para sistemas que monitoram padrões de URL
- Requests paralelas demais no mesmo IP: 10 threads simultâneas no mesmo proxy é pior do que 1 thread com proxy ruim
- Não respeitar redirects: Seguir redirects de forma anômala ou ignorá-los denuncia automação
- Scraping de madrugada em horário local: Um IP polonês fazendo milhares de requests às 3h da manhã parece muito mais suspeito do que durante horário comercial
- User-Agent desatualizado: Usar Chrome 90 em 2026 quando 99% dos usuários reais estão no Chrome 120+ é um sinal óbvio
- Não verificar DNS leaks: Às vezes o DNS resolve fora do proxy, expondo o IP real. Use o teste de DNS leak para verificar sua configuração
E um erro menos óbvio: comprar proxies baratos compartilhados e depois perder semanas tentando contornar bloqueios que vêm de outros usuários abusando do mesmo IP. Com um proxy dedicado, você controla totalmente o histórico e a reputação do seu endereço.
Se você quer medir a performance real do seu proxy antes de escalar a operação, o teste de velocidade de proxy mostra latência e throughput em tempo real.

