作为写了4年爬虫的老鸟,我从最开始的“爬3页就封IP”“验证码卡一下午”“数据乱码没法用”,到现在“爬10万条无异常”“验证码自动识别”“数据精准提取”,前前后后踩了足足50个坑——有免费代理的坑、有编码格式的坑、有滑块验证码的坑,甚至还有因为没加随机延时被平台拉黑宽带的坑。
这些坑踩得多了,也总结出了一套“对症解决方案”:针对IP封禁,搭建高可用IP池+行为伪装;针对验证码,按类型用自动化工具秒过;针对数据乱码,编码自动识别+精准提取。这篇文章就把这些实战经验整理成手册,每个方案都带“踩坑经历+可复用代码+避坑技巧”,新手照着做就能避开90%的爬虫问题。
一、IP不封:从“免费代理秒封”到“高可用IP池+行为伪装”
IP封禁是爬虫最常见的问题,也是我踩过最多坑的地方——最开始用自己的IP硬爬,封;换免费代理,爬10页就封;甚至买了低价代理,还是频繁被检测。后来才明白,IP不封的核心是“IP干净+行为像人”。
1. 新手必踩3个IP坑
- 坑1:用免费代理。免费代理基本是“共享黑名单”,几百人共用一个IP,平台早就标记为恶意IP,用了必封;
- 坑2:代理数量太少。就3-5个代理轮换,切换频率不够,单一IP仍高频访问;
- 坑3:只换IP不伪装行为。IP换了,但请求头固定、延时固定,还是被一眼认出是爬虫。
2. 解决方案:高可用IP池+全链路行为伪装
(1)搭建高可用IP池(亲测稳定)
核心是“收费高匿代理+自动验证+