Web Scraping com Proxies Móveis
Os sistemas anti-bot modernos bloqueiam IPs de datacenter em segundos. Os proxies móveis 4G poloneses contornam limites de requisições, Cloudflare e detecção comportamental — permitindo coletar dados em escala sem jamais ser bloqueado permanentemente.
Por que o web scraping requer proxies móveis
Todo alvo sério de scraping implanta infraestrutura anti-bot. No momento em que um scraper faz mais de 50-100 requisições a partir de um único IP, limitação de taxa, desafios CAPTCHA ou banimentos permanentes de IP surgem — em minutos no Google, Amazon, LinkedIn e em qualquer grande site de e-commerce.
Contorne limites de taxa
Rotacione por IPs de operadora. Cada novo IP recebe uma cota de requisições renovada — permitindo mais de 10.000 capturas de página por hora em um pool de proxies.
Evite banimentos permanentes
IPs móveis nunca são incluídos permanentemente em listas negras — as operadoras os reciclam de volta para usuários reais. Seu histórico de IP é redefinido de forma limpa a cada rotação.
Obtenha dados reais
Sites servem conteúdo diferente para IPs suspeitos — preços falsos, resultados vazios, páginas de redirecionamento. IPs móveis recebem respostas idênticas às de usuários reais.
Configuração de web scraping com Python
Stack Python recomendado
Middleware integrado para rotação de proxies, lógica de tentativas e gerenciamento de concorrência. A melhor escolha para scraping de 100.000+ páginas.
Análise simples de páginas estáticas. Passe as credenciais do proxy diretamente para requests.get(proxies={...}).
Automação de navegador da Microsoft com capacidades stealth. Combine com o plugin stealth do playwright-extra para contornar o Cloudflare.
Automação completa de navegador com suporte SOCKS5 via ChromeOptions. Lida com SPAs e conteúdo dinâmico.
Controle do Chrome DevTools Protocol. Excelente para sites que exigem renderização de JavaScript e gerenciamento de sessões.
Configuração de rotação de proxies no Scrapy
# settings.py
ROTATING_PROXY_LIST = [
"http://user:pass@host1:port",
"http://user:pass@host2:port",
]
DOWNLOADER_MIDDLEWARES = {
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
ROTATING_PROXY_PAGE_RETRY_TIMES = 5Configuração de proxy no Requests
import requests
proxies = {
"http": "http://user:[email protected]:port",
"https": "http://user:[email protected]:port",
}
response = requests.get(
"https://target-site.com/page",
proxies=proxies,
timeout=10
)
print(response.text)Estratégias para contornar sistemas anti-bot
| Vetor de detecção | Solução |
|---|---|
| Reputação do IP | Use IPs de operadora móvel (Orange 4G) -- maior nível de confiança, nunca em listas de bloqueio ASN |
| Taxa de requisições | Adicione atrasos aleatórios (1,5-4,5s), varie a concorrência entre sessões |
| User-Agent | Rotacione User-Agents móveis reais do Chrome/Safari correspondentes ao SO do proxy |
| Impressão digital do navegador | Use o plugin stealth do Playwright ou undetected-chromedriver |
| Rastreamento de cookies | Mantenha sessões por IP, limpe os cookies a cada rotação de IP |
| Impressão digital TLS | Use a biblioteca tls-client do Python para corresponder aos handshakes TLS de navegadores reais |
| Consistência de cabeçalhos | Envie o conjunto completo de cabeçalhos: Accept, Accept-Language, Referer, Sec-Fetch-* |
| Execução de JavaScript | Use Playwright ou Puppeteer para conteúdo renderizado com JS |
Perguntas frequentes
Por que preciso de proxies para web scraping?
Sites limitam requisições por IP para evitar a coleta automatizada de dados — tipicamente 10-100 requisições/hora antes de acionar bloqueios ou CAPTCHAs. Proxies móveis rotativos distribuem requisições por IPs de operadora limpos, permitindo extrair milhares de páginas por hora. Sem proxies, o IP do seu servidor é permanentemente incluído em listas negras em minutos em qualquer alvo sério.
Qual é o melhor tipo de proxy para scraping no Google?
Proxies móveis são os mais confiáveis para scraping no Google. O sistema anti-bot do Google (reCAPTCHA, limitação de taxa) é calibrado para tolerar tráfego de IPs de operadoras móveis porque bilhões de usuários Android acessam o Google pelas mesmas redes. IPs de datacenter são bloqueados quase imediatamente; IPs residenciais funcionam mas são sinalizados mais rápido do que IPs móveis.
Como rotaciono proxies em Python com Scrapy?
Use o middleware scrapy-rotating-proxies. Configure sua lista de proxies a partir do painel da Proxy Poland, depois passe as credenciais como http://user:pass@host:port. Configure ROTATING_PROXY_LIST em settings.py ou implemente um middleware de downloader personalizado com lógica de tentativas para requisições com falha.
Proxies móveis conseguem contornar o Cloudflare?
Proxies móveis melhoram significativamente as taxas de contorno do Cloudflare em comparação a IPs de datacenter. O Bot Score do Cloudflare depende muito da reputação do IP — IPs de operadoras móveis pontuam 0-5 (menor risco), enquanto IPs de datacenter pontuam 90-100 (sinalizados). Combinados com uma impressão digital de navegador adequada via plugin stealth do Playwright, proxies móveis contornam a maioria das proteções do Cloudflare.
Quantas requisições por hora posso enviar por um proxy móvel?
Com rotação de IP, praticamente ilimitadas. Sem rotação (IP persistente), respeite os limites de taxa do site alvo — tipicamente 60-300 requisições/hora antes de acionar bloqueios. Para scraping agressivo, rotacione o IP a cada 20-50 requisições. Um modem da Proxy Poland suporta milhares de capturas de página diárias quando combinado com rotação inteligente.
Preciso de proxies móveis para scraping no Amazon?
Proxies móveis superam os residenciais para o Amazon. As páginas de produtos, preços e dados do Buy Box do Amazon são muito protegidos e retornam respostas diferentes por tipo de IP. IPs móveis recebem as mesmas páginas que compradores reais — incluindo preços em tempo real, disponibilidade e promoções que IPs de datacenter nunca veem.