V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yjsp1919
V2EX  ›  互联网

为什么反爬虫的标准越来越严了

  •  
  •   yjsp1919 · 2024-04-24 10:38:05 +08:00 · 3781 次点击
    这是一个创建于 366 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我设置的比真人浏览还慢 5 秒 10 秒延迟那种 还是给我跳 cloudflare 到底为什么要反爬 我比真人慢等于是降低了服务器负担吧?

    21 条回复    2024-04-25 14:48:56 +08:00
    meshell
        1
    meshell  
       2024-04-24 10:40:33 +08:00
    你喜欢内容农场吗?
    NessajCN
        2
    NessajCN  
       2024-04-24 10:40:47 +08:00   ❤️ 3
    ....你认真的吗
    不爬才是降低服务器负担啊兄弟
    didi0luc
        3
    didi0luc  
       2024-04-24 10:41:12 +08:00
    代理 ip 质量比任何反反爬手段都要重要
    Masterlxj
        4
    Masterlxj  
       2024-04-24 10:42:44 +08:00
    访问频率只是反爬策略中的 1/n
    coderluan
        5
    coderluan  
       2024-04-24 10:50:41 +08:00
    因为发现爬不了就去一页一页从浏览器复制的傻子其实非常少......
    itakeman
        6
    itakeman  
       2024-04-24 10:53:53 +08:00 via Android
    特别讨厌五秒盾,严重影响用户体检,当然的我不爬别人网站
    yjsp1919
        7
    yjsp1919  
    OP
       2024-04-24 10:59:55 +08:00
    @NessajCN 假如我人工复制要十分钟
    我设置的爬虫可能要一小时
    这不是降低了单位时间内负载吗?
    Bantes
        8
    Bantes  
       2024-04-24 11:05:32 +08:00
    1. 干净的代理 IP
    2. TLS/JA3 指纹
    zephyru
        9
    zephyru  
       2024-04-24 11:40:31 +08:00
    如果只是收集数据(一次性的),这种可以直接在浏览器里写脚本,不少插件干这事的...
    msg7086
        10
    msg7086  
       2024-04-24 11:48:08 +08:00
    如果你是建站并复制其他网站数据的话,复制他人有版权的内容是违法行为。
    反爬一般是用来阻止违法行为的。
    BeiChuanAlex
        11
    BeiChuanAlex  
       2024-04-24 11:49:19 +08:00
    这不是很正常吗,爬虫与反爬,天生就是矛与盾
    nothingistrue
        12
    nothingistrue  
       2024-04-24 12:26:56 +08:00
    你不爬,服务器负载更低。
    deorth
        13
    deorth  
       2024-04-24 12:36:25 +08:00 via Android
    是,主要降低了脑子的负担
    nodejsexpress
        14
    nodejsexpress  
       2024-04-24 13:49:42 +08:00
    cf ,akamai 这些不仅仅看你爬取速度,除了浏览器指纹,也有行为检测。
    Shanky
        15
    Shanky  
       2024-04-24 14:41:16 +08:00
    @zephyru #9 🐶 你怎么知道我拿油猴脚本去爬 18+的漫画的?
    timjunk
        16
    timjunk  
       2024-04-24 14:43:54 +08:00
    cloudflare 挡住的负担在 cloudflare 那边,网站的服务器不就减负了吗
    whoosy
        17
    whoosy  
       2024-04-24 16:31:48 +08:00
    kpi 罢了
    opengps
        18
    opengps  
       2024-04-24 16:33:30 +08:00
    除了搜索引擎,那个站长喜欢不带来流量价值的爬虫?
    ZnductR0MjHvjRQ3
        19
    ZnductR0MjHvjRQ3  
       2024-04-24 18:05:04 +08:00
    @yjsp1919 你只考虑降低了负载 但是你有想过没 人家欢迎正常玩家来访问哪怕正常玩家再快都行 但是你是爬虫! no !!!

    这才是问题 ,所以 不是慢就是正常人。。。。
    yjsp1919
        20
    yjsp1919  
    OP
       2024-04-25 07:29:23 +08:00
    @zephyru 直接用 JS 吗?
    zephyru
        21
    zephyru  
       2024-04-25 14:48:56 +08:00
    @yjsp1919
    是的,直接写 js ,最简单的莫过于在控制台里自动翻页,拦截请求/直接解析 dom ,收集的数据直接生成文件下载下来
    经常做这种事情可以写成油猴脚本,不想自己写代码可以去找 chrome 商店里的插件
    其它,无头浏览器或者各种全自动测试框架也可以做这些事情,不过那就杀鸡用牛刀的感觉了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   932 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 20:15 · PVG 04:15 · LAX 13:15 · JFK 16:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.