V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
27
V2EX  ›  问与答

如何抓取论坛贴子更新的内容

  •  
  •   27 · 2015-06-27 18:51:28 +08:00 · 3040 次点击
    这是一个创建于 3223 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有几个分散在不同网站的信息来源,不定时有更新。
    想每天把新的内容聚合起来发邮件到邮箱里,有什么好方法?

    11 条回复    2015-06-27 23:15:05 +08:00
    lxy42
        1
    lxy42  
       2015-06-27 19:02:43 +08:00
    RSS
    27
        2
    27  
    OP
       2015-06-27 19:09:57 +08:00
    没有 rss,想用 python 来抓
    lawder
        3
    lawder  
       2015-06-27 19:18:48 +08:00
    用Feed43生成rss源
    27
        4
    27  
    OP
       2015-06-27 20:24:03 +08:00
    @lawder 这种只能抓取固定网址更新的内容,如果遇到一个长贴子,页数会变化的就不行了。
    举例:想获取 http://www.china-midas.cn/bbs/thread-26016-20-1.html 的最后一个 post 的更新内容
    mystryl
        5
    mystryl  
       2015-06-27 20:37:35 +08:00
    requests 抓url= 'http://www.china-midas.cn/bbs/thread-26016-%s-1.html' %page,
    page么从20开始加 试到没抓到内容就停止
    beautifulsoup抓取每一个div 为 ‘post_元素,Html2text转为纯文本,注意这货有个warp=87的bug自己改下config post后面有数字作为每一个的id
    这样输出的数组建个csv,新抓的历遍一次id有没有重复的,没有重复就给自己发,可以用新的telegram bot啊,很方便。。。

    最近才写了一个完全类似的项目。。。好玩的
    ksupertu
        6
    ksupertu  
       2015-06-27 21:31:14 +08:00 via Android
    军犬舆情监控系统
    mystryl
        7
    mystryl  
       2015-06-27 21:47:24 +08:00
    https://www.dropbox.com/s/mqjxumluwpkhlv4/MIDAS.py?dl=0

    写了个大概,看看吧?顺便共享下要监控啥。。
    loading
        8
    loading  
       2015-06-27 22:09:54 +08:00 via Android
    如果想通用,我觉得你要先写出 AI ,乖乖一个个站点适配吧!

    要么就暴力点,全再抓一次了再说。
    abelyao
        9
    abelyao  
       2015-06-27 22:10:52 +08:00
    @mystryl 难道是定时抓取 1024 的更新!
    mystryl
        10
    mystryl  
       2015-06-27 22:29:55 +08:00
    @abelyao 需要么,看看DMM的更新查查番号不就行了。。
    我抓的是业务相关的专业资讯类网站更新。。
    halfcrazy
        11
    halfcrazy  
       2015-06-27 23:15:05 +08:00
    kimonolab
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4410 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:04 · PVG 09:04 · LAX 18:04 · JFK 21:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.