V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
oukichi
V2EX  ›  问与答

萌新发问:那些 B 站小红书的大数据分析工具,数据是怎么采集的?

  •  
  •   oukichi · 4 天前 · 713 次点击

    网站截图.png ,懒得点连接的朋友直接看截图就好

    类似于这种网站,明显是把所有数据都爬了下来

    https://xz.newrank.cn/

    如果只是普通的爬虫的话,上千万个页面岂不是要爬到死? 还是说他们是 N 台机器一起爬?

    我从没碰过爬虫,所以想在这里问一问,知道 V 站大神多,谢谢各位啦

    4 条回复    2024-06-25 10:59:20 +08:00
    EsWann
        1
    EsWann  
       4 天前   ❤️ 1
    都是集群爬虫啊
    gaobh
        2
    gaobh  
       3 天前 via iPhone   ❤️ 1
    无头浏览器,虚拟机等等
    justfun
        3
    justfun  
       3 天前
    爬虫会涉及到法律问题 听别人说是买的官方数据
    JustZzer
        4
    JustZzer  
       3 天前
    爬虫做的,相对购买数据爬虫成本低,除了榜单和热销数据,其他的适当控制请求量级即可
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   947 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:02 · PVG 04:02 · LAX 13:02 · JFK 16:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.