V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xubingok
V2EX  ›  问与答

想解放人力.浏览器插件是否可以代替爬虫?

  •  
  •   xubingok · 17 天前 · 1312 次点击

    背景:

    老婆是做数据分析的,每天就是用 pandas 处理各种原始 excel.但是 excel 来自于第三方服务的管理后台(xx 商家版),需要用指定账号登录上去下载.

    问题:

    数据处理过程已经很自动化了.现在就是这个原始 excel 下载蛮烦人的,每天都要做. 想解决这个问题,打通全流程.

    想法:

    最开始想的是爬虫,毕竟 python 做起来也方便.我用 postman 尝试了下,各种加密头,还得从登陆流程开始分析,没做过这方面,还是有点难度.

    我本职是前端开发,最近再看浏览器插件,感觉这东西能做的也挺多的,似乎也可以实现点击按钮下载文件的功能,而且直接绕过了第三方的接口安全校验,要是能调起本地 python 就更好了...

    对此产生了一个想法:是否大部分需要爬虫的地方都可以用对应的浏览器插件来代替呢?

    10 条回复    2024-08-30 18:32:14 +08:00
    weixind
        1
    weixind  
       17 天前   ❤️ 1
    起个 playwright 爬就完事了。
    Y25tIGxpdmlk
        2
    Y25tIGxpdmlk  
       17 天前
    python 我记得不是有模拟浏览器的库吗,类似 selenium 之类的。

    py 虽然不用,但是我知道这类轮子已经有很多人找好了。当然你说的直接写插件也可以
    xubingok
        3
    xubingok  
    OP
       17 天前
    @weixind #1 卧槽老哥.我发现新大陆了.这东西很有意思啊..
    tianzi123
        4
    tianzi123  
       17 天前
    直接写个油猴脚本模拟点击下载不就行了
    hrdom
        5
    hrdom  
       17 天前
    总之就是不大批量爬的话不要逆向 js ,而是模拟个浏览器环境
    wangee
        6
    wangee  
       17 天前   ❤️ 1
    你都用浏览器插件了,不如用浏览器自动化工具。我倒不推荐 playright ,简单的数据抓取可以用这个:

    https://github.com/g1879/DrissionPage
    wutongshuxia
        8
    wutongshuxia  
       17 天前
    @wutongshuxia 之前写的一个自动化框架,只要配一下 json 就行
    NoOneNoBody
        9
    NoOneNoBody  
       17 天前
    上周用油猴自动爬了 2w+页面,用无头总是被 cloudfare 拦截,懒得研究 cookies ,干脆开油猴上,反正也不多
    kamal
        10
    kamal  
       17 天前
    可以试试 影刀
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   933 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 19:48 · PVG 03:48 · LAX 12:48 · JFK 15:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.