V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
amiwrong123
V2EX  ›  问与答

如何将自己的 csdn 博客爬虫下来?

  •  
  •   amiwrong123 · 2020-02-24 13:31:29 +08:00 · 1139 次点击
    这是一个创建于 1546 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天突然觉得,博客还是本地有一个备份比较好。

    然后发现 csdn 自带的 markdown 导出的 md 文件是好用的,

    1582521384(1)

    只不过里面的图片是在 csdn 的图床里,我再把图片下载下来,再把 md 文件的图片从链接改成本地图片就好了。

    除了大部分的文章是 markdown 写的外,还有小部分是用 html 编辑器写的(这种文章点击编辑,只能进入 html 编辑器,而且这个编辑器没有导出选项)。

    现在大概思路是模拟自己登陆,然后点击文章编辑,能进入 markdown 编辑器的,就模拟点击那个导出按钮;进入 html 编辑器的,这种该怎么处理呢?

    各位大佬帮忙指点下,这个思路应该对吧?爬虫估计得用 py 吧,本人用过 py 刷过算法题(大概就是常用数据结构、简单处理过文本),但从来没有用来爬虫,这几天先看看 GitHub,有没有什么现成的学习一下

    2 条回复    2020-02-24 13:47:46 +08:00
    miao
        1
    miao  
       2020-02-24 13:45:28 +08:00 via Android
    火车头
    ysc3839
        2
    ysc3839  
       2020-02-24 13:47:46 +08:00 via Android
    这操作用浏览器开发者工具执行 js 脚本应该也能完成。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1514 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:55 · PVG 00:55 · LAX 09:55 · JFK 12:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.