V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hackingwu
V2EX  ›  程序员

有什么办法吧一个网站上的文章都爬取下来吗?

  •  
  •   hackingwu ·
    hackingwu · 139 天前 · 1582 次点击
    这是一个创建于 139 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

    2G
        1
    2G   139 天前
    用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
    hackingwu
        2
    hackingwu   139 天前
    @2G 我们可以去触发插件的按钮吗
    oneisall8955
        3
    oneisall8955   139 天前
    爬虫爬得好
    ingdawn
        4
    ingdawn   139 天前
    坐牢坐到老
    seamonster
        5
    seamonster   139 天前
    真刑啊,日子越来越有判头了
    zelentre
        6
    zelentre   139 天前
    很刑.
    HankLu
        7
    HankLu   139 天前
    很简单
    ztcaoll222
        8
    ztcaoll222   139 天前
    先这样
    HashV2
        9
    HashV2   139 天前
    再这样
    tojike
        10
    tojike   139 天前
    进去进得早
    yunyuyuan
        11
    yunyuyuan   139 天前
    然后再这样
    nepiedg
        12
    nepiedg   139 天前
    最后在这样
    jingcoco
        13
    jingcoco   139 天前
    有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
    kasusa
        14
    kasusa   138 天前
    python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
    就这么个流程吧。
    不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
    caicaiwoshishui
        15
    caicaiwoshishui   138 天前 via iPhone
    楼上队形笑死我
    2G
        16
    2G   138 天前
    @hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
    solopython
        17
    solopython   138 天前
    试试 Newspaper3k
    muzuiget
        18
    muzuiget   138 天前
    写个浏览器扩展就可以了,专事专办。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2768 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:20 · PVG 20:20 · LAX 04:20 · JFK 07:20
    ♥ Do have faith in what you're doing.