这几天抓取新浪微博,每个请求随机一个代理,每半小时换一个账号,过了几个小时,立马几十个账号被冻结。很郁闷。。。有高手知道怎么对付新浪微博的反爬虫么?
1
bzzhou 2016-04-14 10:28:20 +08:00
> 每个请求随机一个代理,每半小时换一个账号
这种请求不封你才怪 |
2
shiny 2016-04-14 10:29:35 +08:00
抓的是 m.weibo.cn 还是 weibo.com
|
3
CheungKe 2016-04-14 10:38:29 +08:00
放慢速度。
看 robots.txt ,你这么做是违法的 |
5
hcwhan 2016-04-14 10:56:57 +08:00 via Android
主要还是每个账号一直换 ip 的问题吧 可以抓几次后 换账号的同时换 ip 每个账号 ip 不换
|
6
mfinal 2016-04-14 11:03:38 +08:00 1
经验之谈(仅针对 mobile 版):
微博的反爬虫还是很厉害的(阈值为:人点的太快都会 /sad ) 高速状态下(多线程)数分钟就挂,低速的话(几秒 per resquest )一个账号可以持续数小时。 还是多账号延长冷却吧~ 还是等高手作答 |
7
mapleray 2016-04-14 11:39:43 +08:00 2
告诉一个最简单的方法,用 google bot 的 header,频率控制好就行
|
8
UnisandK 2016-04-14 12:15:34 +08:00
同一个账号一直换 IP 你这不作死吗
|
9
badcode 2016-04-14 12:17:13 +08:00
|
14
goodluck OP @mfinal 是的,我现在根据这几天的经验,猜测的是新浪的反爬虫不是实时的,没过 2 个小时左右的频率,新浪就会封一批账号,现在我在测是新浪的规则,目前来看,换代理的原因比较小,因为前几天我用一个账号不换代理也是 game over.
|
17
msg7086 2016-04-14 13:29:58 +08:00
虽然可能性并不大,但是违规爬虫的话人家完全可以挖掘出你个人信息然后按照网络攻击什么的来起诉你。
|
18
theFool 2016-04-14 16:50:15 +08:00
最近也在爬微博, 很好奇 lz 代理是怎么来的。
我在网上找到的代理都被封了。 如果方便的话能指点下关键词吗。 谢谢。:) |