为何选择 SELENIUM + PROXY POLAND
Selenium 是使用最广泛的浏览器自动化框架。通过 Proxy Poland 的专用 4G 手机代理路由 Selenium,您可以使用真实手机 IP 抓取数据、运行测试和自动化任务,从而绕过反机器人检测。
设置说明
安装依赖
安装 Selenium 和您浏览器的 WebDriver:
pip install selenium webdriver-manager # or for Node.js: npm install selenium-webdriver
获取代理凭据
在 proxypoland.com 注册并获取您的代理 IP、端口、用户名和密码。
配置带代理的 Chrome(Python)
使用 SOCKS5 代理设置 Chrome WebDriver:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
PROXY = "socks5://username:password@proxy-ip:port"
options = Options()
options.add_argument(f'--proxy-server={PROXY}')
driver = webdriver.Chrome(options=options)
driver.get('https://whatismyipaddress.com')
print(driver.title)
driver.quit()配置 HTTP 代理(Python)
替代的 HTTP 代理配置:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
PROXY = "http://username:password@proxy-ip:port"
options = Options()
options.add_argument(f'--proxy-server={PROXY}')
driver = webdriver.Chrome(options=options)
driver.get('https://httpbin.org/ip')
print(driver.page_source)
driver.quit()使用 Node.js 配置
Node.js 中的 Selenium WebDriver 带代理:
const { Builder } = require('selenium-webdriver');
const chrome = require('selenium-webdriver/chrome');
const options = new chrome.Options();
options.addArguments(
'--proxy-server=socks5://username:password@proxy-ip:port'
);
const driver = new Builder()
.forBrowser('chrome')
.setChromeOptions(options)
.build();
await driver.get('https://httpbin.org/ip');
console.log(await driver.getTitle());
await driver.quit();添加 IP 轮换
在爬取会话之间轮换 IP:
import requests
def rotate_ip():
"""Call Proxy Poland's rotation API"""
response = requests.get(
'https://your-proxy-ip:port/rotate',
auth=('username', 'password')
)
return response.json()
# Rotate before each session
rotate_ip()
driver = webdriver.Chrome(options=options)
# ... scrape with new IP验证您的 IP
检查 Selenium 是否使用代理 IP:
driver.get('https://httpbin.org/ip')
ip_text = driver.find_element('tag name', 'pre').text
print(f'Current IP: {ip_text}')
# Should show a Polish mobile IP专业提示
使用 SOCKS5 进行包括 DNS 查询在内的完整流量路由
添加 --headless 标志用于生产爬取
对有速率限制的网站实施指数退避
在页面加载之间轮换 IP 进行大规模爬取
对具有高级机器人检测的网站使用 undetected-chromedriver
适用于以下场景
FAQ
哪种代理协议最适合 Selenium?+
SOCKS5 兼容性最强,可防止 DNS 泄露。HTTP 适用于基本爬取,但 SOCKS5 路由所有流量(包括 DNS)通过代理。
我可以将 Selenium 与 undetected-chromedriver 和这些代理一起使用吗?+
可以。undetected-chromedriver + Proxy Poland 的手机代理是爬取受保护网站的最佳组合。手机 IP 绕过基于 IP 的检测,而 undetected-chromedriver 处理浏览器指纹检查。
如何在 Selenium 中处理代理认证?+
对于 Chrome,在代理 URL 中包含凭据:socks5://用户:密码@主机:端口。对于 Firefox,使用代理认证扩展或透明处理认证的 selenium-wire。
我可以在无头模式下运行 Selenium 使用这些代理吗?+
可以。向 Chrome 选项添加 --headless=new。代理在无头模式下工作方式完全相同。对于检测无头浏览器的网站,使用 undetected-chromedriver。
使用手机代理与数据中心代理的爬取速度如何?+
我们 4G 连接上 30-100 Mb/s 的吞吐量。虽然比原始数据中心速度慢,但优势在于您不会被封锁。通过手机代理的一次成功请求比通过数据中心 IP 的 100 次被封锁请求更有价值。