V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ZZ74
V2EX  ›  问与答

网页信息获取是爬虫还是 Selenium,还有图片分类库求推

  •  
  •   ZZ74 · 2023-12-03 12:09:38 +08:00 · 1147 次点击
    这是一个创建于 390 天前的主题,其中的信息可能已经有所发展或是发生改变。

    举个栗子
    淘宝商品列表页面,获取名称和图片,以及每个商品详情后的其他一些信息。
    想问下爬虫框架和 Selenium 哪个更合适,不容易触发风控。

    另外想根据名称描述和图片自动分类,有没有开源或者免费的
    基于开源的 tensorflow 自己训练 AI 的话耗费太大 感觉小题大做了。

    5 条回复    2023-12-04 13:47:45 +08:00
    incubus
        1
    incubus  
       2023-12-03 13:21:36 +08:00
    这也想白嫖?
    ZZ74
        2
    ZZ74  
    OP
       2023-12-03 14:45:37 +08:00
    @incubus
    第一个是技术选型问题
    第二个是问一下,不确定有没有。白嫖谈不上吧
    r6cb
        3
    r6cb  
       2023-12-03 17:09:30 +08:00
    还是早点放弃吧,正常用户去浏览都经常要人机认证。
    ZZ74
        4
    ZZ74  
    OP
       2023-12-03 17:36:39 +08:00
    @r6cb
    不是淘宝啊 我只是举个例子 另外不是高频访问。我放到服务器上慢慢跑
    aureole999
        5
    aureole999  
       2023-12-04 13:47:45 +08:00   ❤️ 1
    看你要访问的是什么网站了。有的不怎么管的你用什么都行。
    不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

    第二个 chatgpt api 之类的也许能做到?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3606 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 10:25 · PVG 18:25 · LAX 02:25 · JFK 05:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.