有什么办法吧一个网站上的文章都爬取下来吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1532 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想把一个网站上的文章爬取下来，有没有办法可以自动触发 chrome 插件（简悦），他可以重新排版，保存的日记中。但是怎么批量的去做这件事情呢？大家有什么 idea ？

悦读

排版

Chrome

文章

18 条回复

6J73U552K5UVij4R

2021-07-13 16:30:44 +08:00

用 selenium ？然后加载的时候把 chrome 插件 load 进去，再用 xpath 操作？

hackingwu

2021-07-13 16:48:42 +08:00

@2G 我们可以去触发插件的按钮吗

itechify

PRO

2021-07-13 17:09:10 +08:00

爬虫爬得好

ingdawn

2021-07-13 17:10:06 +08:00

坐牢坐到老

seamonster

2021-07-13 17:10:47 +08:00

真刑啊，日子越来越有判头了

zelentre

2021-07-13 17:18:55 +08:00

很刑.

HankLu

2021-07-13 17:22:47 +08:00

很简单

ztcaoll222

2021-07-13 17:25:18 +08:00

先这样

HashV2

2021-07-13 17:28:29 +08:00

再这样

tojike

2021-07-13 17:29:39 +08:00

进去进得早

yunyuyuan

2021-07-13 17:32:09 +08:00

然后再这样

nepiedg

2021-07-13 17:35:32 +08:00

最后在这样

jingcoco

2021-07-13 18:40:44 +08:00

有个网联网记忆的工具，初衷是解决有些网站过了几年下线了没法看的问题。

kasusa

2021-07-13 22:48:29 +08:00

python 写，selenium 库，模拟点击按钮，用 xpath 定位下一篇按钮，刷新再来。
就这么个流程吧。
不过我感觉网上还是垃圾信息多。都爬下来有什么用呢？

caicaiwoshishui

2021-07-13 23:20:38 +08:00 via iPhone

楼上队形笑死我

6J73U552K5UVij4R

2021-07-14 02:47:02 +08:00

@hackingwu 可以的，用 js dom 就可以，xpath 估计也可以。

solopython

2021-07-14 09:47:57 +08:00

试试 Newspaper3k

muzuiget

2021-07-14 13:33:39 +08:00

写个浏览器扩展就可以了，专事专办。