V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
godall
V2EX  ›  程序员

对于这样反爬网站,怎么破解?

  •  
  •   godall · 25 天前 · 1311 次点击
    中国理财网,https://www.chinawealth.com.cn/lcweb/management/proScreen ,也不是要爬全部数据,只是爬几个知道代码的数据每天的变化情况,因为自己不同银行购买的,看起来麻烦。

    最近改版后就不知道怎么爬了,技术特点:
    1. 网站采用了一个复杂的 js 文件进行混淆和加密,所有网页的查询请求都先调用 js 文件进行加密后,作为 form data 进行提交。
    2. 如果采用 playwright 网页模拟点击来操作呢,他界面上好多数据都隐藏了,网页隐含调用/lcw-fe-service/prodInfo/getProductDetail 这个接口返回的 json 数据不知道怎么读取。

    以上解决任何一个问题都可以,请大家帮忙给个思路
    zqr10159
        1
    zqr10159  
       25 天前
    建议上截图,要爬什么内容
    jianyang
        2
    jianyang  
       25 天前
    ![到这里能看明白了吧]( https://imgur.com/a/yZrcy5I)
    jianyang
        3
    jianyang  
       25 天前
    为什么不显示图片 -。-
    Nanmi
        4
    Nanmi  
       25 天前 via iPhone
    playwright 可以触发操作然后拦截 ajax 请求的,把自己需要的 API 过滤一下解析响应就可以了
    v2048
        5
    v2048  
       25 天前
    想起了影刀 rpa ,感觉可以实现需求,不用考虑接口逻辑
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2643 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 09:50 · PVG 17:50 · LAX 02:50 · JFK 05:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.