V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yjsp1919
V2EX  ›  互联网

为什么反爬虫的标准越来越严了

  •  
  •   yjsp1919 · 239 天前 · 3519 次点击
    这是一个创建于 239 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我设置的比真人浏览还慢 5 秒 10 秒延迟那种 还是给我跳 cloudflare 到底为什么要反爬 我比真人慢等于是降低了服务器负担吧?

    21 条回复    2024-04-25 14:48:56 +08:00
    meshell
        1
    meshell  
       239 天前
    你喜欢内容农场吗?
    NessajCN
        2
    NessajCN  
       239 天前   ❤️ 3
    ....你认真的吗
    不爬才是降低服务器负担啊兄弟
    didi0luc
        3
    didi0luc  
       239 天前
    代理 ip 质量比任何反反爬手段都要重要
    Masterlxj
        4
    Masterlxj  
       239 天前
    访问频率只是反爬策略中的 1/n
    coderluan
        5
    coderluan  
       239 天前
    因为发现爬不了就去一页一页从浏览器复制的傻子其实非常少......
    itakeman
        6
    itakeman  
       239 天前 via Android
    特别讨厌五秒盾,严重影响用户体检,当然的我不爬别人网站
    yjsp1919
        7
    yjsp1919  
    OP
       239 天前
    @NessajCN 假如我人工复制要十分钟
    我设置的爬虫可能要一小时
    这不是降低了单位时间内负载吗?
    Bantes
        8
    Bantes  
       239 天前
    1. 干净的代理 IP
    2. TLS/JA3 指纹
    zephyru
        9
    zephyru  
       239 天前
    如果只是收集数据(一次性的),这种可以直接在浏览器里写脚本,不少插件干这事的...
    msg7086
        10
    msg7086  
       239 天前
    如果你是建站并复制其他网站数据的话,复制他人有版权的内容是违法行为。
    反爬一般是用来阻止违法行为的。
    BeiChuanAlex
        11
    BeiChuanAlex  
       239 天前
    这不是很正常吗,爬虫与反爬,天生就是矛与盾
    nothingistrue
        12
    nothingistrue  
       239 天前
    你不爬,服务器负载更低。
    deorth
        13
    deorth  
       239 天前 via Android
    是,主要降低了脑子的负担
    nodejsexpress
        14
    nodejsexpress  
       239 天前
    cf ,akamai 这些不仅仅看你爬取速度,除了浏览器指纹,也有行为检测。
    Shanky
        15
    Shanky  
       239 天前
    @zephyru #9 🐶 你怎么知道我拿油猴脚本去爬 18+的漫画的?
    timjunk
        16
    timjunk  
       239 天前
    cloudflare 挡住的负担在 cloudflare 那边,网站的服务器不就减负了吗
    whoosy
        17
    whoosy  
       239 天前
    kpi 罢了
    opengps
        18
    opengps  
       239 天前
    除了搜索引擎,那个站长喜欢不带来流量价值的爬虫?
    ZnductR0MjHvjRQ3
        19
    ZnductR0MjHvjRQ3  
       239 天前
    @yjsp1919 你只考虑降低了负载 但是你有想过没 人家欢迎正常玩家来访问哪怕正常玩家再快都行 但是你是爬虫! no !!!

    这才是问题 ,所以 不是慢就是正常人。。。。
    yjsp1919
        20
    yjsp1919  
    OP
       238 天前
    @zephyru 直接用 JS 吗?
    zephyru
        21
    zephyru  
       238 天前
    @yjsp1919
    是的,直接写 js ,最简单的莫过于在控制台里自动翻页,拦截请求/直接解析 dom ,收集的数据直接生成文件下载下来
    经常做这种事情可以写成油猴脚本,不想自己写代码可以去找 chrome 商店里的插件
    其它,无头浏览器或者各种全自动测试框架也可以做这些事情,不过那就杀鸡用牛刀的感觉了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1105 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:59 · PVG 02:59 · LAX 10:59 · JFK 13:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.