首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取

  •  1
     
  •   ton4 · 160 天前 · 3421 次点击
    这是一个创建于 160 天前的主题,其中的信息可能已经有所发展或是发生改变。

    当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?

    1、放慢速度,尽量不被发现,以时间换数量

    2、全速爬取,能爬多少是多少,被封了再想办法

    3、还有其他好方法吗,求教

    28 回复  |  直到 2018-04-16 19:31:34 +08:00
        1
    R18   160 天前 via Android
    代理池了解一下
        2
    zhjits   160 天前
    多买 IP 地址
        3
    golmic   160 天前 via Android
    愿意付费我可以接
        4
    ton4   160 天前
    @R18 @zhjits 目前用的这个 https://github.com/jhao104/proxy_pool 能找到百来个代理。
    几亿的数据 几百个代理够用吗
        5
    boom7   160 天前 via Android
    都亿级数据了你还想着用免费代理…差这点钱?
        6
    beforeuwait   160 天前
    这种情况哈,多代理的是必须的。
        7
    ton4   160 天前
    @boom7 哈哈 刚开始玩数据
        8
    ton4   160 天前
    @beforeuwait 多代理搞起啊,有好用的推荐一下
        9
    ton4   160 天前
    @golmic 加你了
        10
    sw10   160 天前
    几百个代理,有点少。我维护的一个商用代理池,一天的代理量都有 40 万。

    感兴趣的话,可以了解下:
    /t/424630
        11
    golmic   160 天前 via Android
    @ton4 微信没收到请求
        12
    golmic   160 天前 via Android
    @ton4 公众号 pydatame 有我联系方式
        13
    woscaizi   160 天前 via iPhone
    @sw10 私密代理是如何达到 10 万的呢,好奇。
        14
    woscaizi   160 天前 via iPhone
    @sw10 宽带重播吗?
        15
    ton4   160 天前
    @golmic OK 加你公众号了,明天找你聊
        16
    lihongming   160 天前 via Android   ♥ 2
    免费不太可能。
    我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。
    他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号……
        17
    gabon   160 天前 via Android
    某代理网站买动态代理爬了一亿多的微博数据。
        18
    gabon   160 天前 via Android
    @lihongming 原来是这样。。之前买的时候还在想他们怎么搞的
        19
    knightdf   160 天前
    @lihongming 牛逼
        20
    simonsww   160 天前
    @lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过)
        21
    Antidictator   160 天前
    emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下)
        22
    ton4   160 天前 via iPhone
    @Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊😣
        23
    afpro   160 天前
    现在爬人家数据都这么明目张胆的嘛
        24
    afpro   160 天前
    就没考虑过发个邮件购买一份数据?
        25
    vtwoextb   160 天前
    重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip
        26
    ton4   160 天前
    @afpro 发个邮件给谁
        27
    ton4   160 天前
    总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。
        28
    fate0   160 天前
    免费的 https://github.com/fate0/proxylist 了解一下
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1685 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 22ms · UTC 12:02 · PVG 20:02 · LAX 05:02 · JFK 08:02
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1