V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wlwr
V2EX  ›  分享创造

写了个 RSS 小工具,提供微信公众号 RSS 订阅接口

  •  5
     
  •   wlwr · 2015-04-27 23:04:44 +08:00 · 16020 次点击
    这是一个创建于 3279 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前用V2网友提供的微信公众号RSS接口,但最近挂掉了。。索性自己写个小程序,便于维护

    地址: http://rss.wlwr.net

    基于Node.js koajs开发

    第 1 条附言  ·  2015-04-28 10:40:56 +08:00
    欢迎 Star:https://github.com/wlwr/rss
    58 条回复    2018-06-13 13:43:14 +08:00
    missqso
        1
    missqso  
       2015-04-27 23:34:38 +08:00
    谢谢
    alsacegustav
        2
    alsacegustav  
       2015-04-28 00:17:48 +08:00
    好用,文字、图片、格式抓取过来都正常,希望能长期使用,加油
    wlwr
        3
    wlwr  
    OP
       2015-04-28 09:24:38 +08:00
    @alsacegustav 会长期维护,谢谢支持哈
    wizos
        4
    wizos  
       2015-04-28 11:02:12 +08:00
    用inoreader时,抓取的内容会直接显示标签……
    m3ng9i
        5
    m3ng9i  
       2015-04-28 12:30:37 +08:00
    不错。另外有一些符号,比如英文圆括号能不能不要编码成 ( 和 ) 啊?
    m3ng9i
        6
    m3ng9i  
       2015-04-28 13:04:47 +08:00
    这个地址报错:Internal Server Error
    http://rss.wlwr.net/weixin/oIWsFt_fzFTmSWJ96bXXqFX0yHIQ
    ccbikai
        7
    ccbikai  
       2015-04-28 13:12:14 +08:00
    搜狗有反爬虫,你做处理了吗?
    hanqian
        8
    hanqian  
       2015-04-28 13:36:43 +08:00   ❤️ 1
    用 inoreader 看时,有些会显示代码。。
    siriusVtoEX
        9
    siriusVtoEX  
       2015-04-28 13:45:38 +08:00
    @wizos 同样的问题
    wlwr
        10
    wlwr  
    OP
       2015-04-28 14:58:32 +08:00
    @m3ng9i 刚才 Internal Server Error 的问题处理了
    Winny
        11
    Winny  
       2015-04-28 15:01:15 +08:00
    太赞了 感谢 @wlwr
    wlwr
        12
    wlwr  
    OP
       2015-04-28 15:01:28 +08:00
    @ccbikai 现在接口请求量还少,还没做反爬虫处理。。等后面采集频繁,搞一些代理IP做爬虫代理。
    wlwr
        13
    wlwr  
    OP
       2015-04-28 15:04:55 +08:00
    @wizos @hanqian inoreader的问题,晚上我装个看看。。我用Reeder看是没问题的
    ccbikai
        14
    ccbikai  
       2015-04-28 16:19:32 +08:00
    @ccbikai 不只是 IP ,还有 cookies ,有人 做过 http://bozpy.sinaapp.com/blog/24
    mrjoel
        15
    mrjoel  
       2015-04-29 09:29:07 +08:00
    额 仔细看了下 是订阅公众号内容。。
    wizos
        16
    wizos  
       2015-05-01 16:05:26 +08:00
    好像没用了……
    wlwr
        17
    wlwr  
    OP
       2015-05-01 19:22:04 +08:00
    @wizos 恢复了
    mytion
        18
    mytion  
       2015-05-02 22:02:41 +08:00
    不错,已经收藏使用,希望长期保持。加油
    m3ng9i
        19
    m3ng9i  
       2015-05-05 09:57:36 +08:00
    @wlwr 采集异常,无法获取数据
    wlwr
        20
    wlwr  
    OP
       2015-05-05 10:11:25 +08:00
    @m3ng9i 已恢复。
    m3ng9i
        21
    m3ng9i  
       2015-05-05 10:24:18 +08:00
    @wlwx 多谢
    zangbob
        22
    zangbob  
       2015-05-05 13:02:52 +08:00
    @wlwr 感谢楼主的作品,希望能长期运行。

    PS:貌似html代码过滤不干净。。。比如这个: http://rss.wlwr.net/weixin/oIWsFt2w7J2ciAdD722lQRr6_Tec
    wlwr
        23
    wlwr  
    OP
       2015-05-06 18:30:57 +08:00
    @zangbob html是不做过滤的,尽量保留公众号的文章格式。。强制过滤会导致排版很乱。
    xcz
        24
    xcz  
       2015-05-18 20:10:55 +08:00 via Android
    这个不做过滤在inoreader里面看见的真的很纠结啊,别的没有测试,楼主用什么RSS阅读器?
    wlwr
        25
    wlwr  
    OP
       2015-05-19 09:55:46 +08:00
    @xcz 我用 Reeder
    berry10086
        26
    berry10086  
       2015-05-20 12:09:19 +08:00
    楼主是抓取搜狗的gzhjs这个地址吗
    berry10086
        27
    berry10086  
       2015-05-20 12:09:40 +08:00
    现在好像又是数据采集异常
    wizos
        28
    wizos  
       2015-05-22 13:46:37 +08:00
    换用http://weirss.me/吧
    wlwr
        29
    wlwr  
    OP
       2015-05-23 01:16:43 +08:00   ❤️ 1
    @berry10086 是的,搜狗接口做了加密处理,导致采集失败。问题已修复,可以正常使用了。
    berry10086
        30
    berry10086  
       2015-05-23 09:42:31 +08:00
    @wlwr 我也试着写了一个,http://weirss.me,抓取是直接用selenium + phantomjs,解析js渲染后的html,不用考虑cookies和接口变化。但是问题是抓取速度太慢,有时会超时
    berry10086
        31
    berry10086  
       2015-05-23 09:59:39 +08:00
    @wlwr 你的网站抓取非常快
    wlwr
        32
    wlwr  
    OP
       2015-05-23 10:47:15 +08:00
    @berry10086 当时也有考虑过phantomjs,但等待请求的资源过多,还是选择直接调接口。不过维护成本高些。
    somkanel
        33
    somkanel  
       2015-05-25 17:53:07 +08:00
    只能是订阅号嘛?不知为何搜狗搜不到我想找的服务号啊
    Williamzhang515
        34
    Williamzhang515  
       2015-05-25 18:28:23 +08:00
    题图似乎无法显示啊
    wlwr
        35
    wlwr  
    OP
       2015-05-25 22:50:38 +08:00
    @somkanel 搜狗只提供订阅号的数据检索
    wlwr
        36
    wlwr  
    OP
       2015-05-25 22:51:47 +08:00
    @Williamzhang515 文章封面图的问题修复了,后面订阅的文章会显示封面图
    libraor
        37
    libraor  
       2015-05-26 21:38:49 +08:00
    @wlwr 采集异常,无法获取数据
    libraor
        38
    libraor  
       2015-05-26 23:10:55 +08:00
    @wizos 貌似被我玩坏了么。。加进去的都没显示。。
    sinosure
        39
    sinosure  
       2015-05-27 12:27:12 +08:00
    @wlwr 奇怪,开始能跑,但运行一段时间后就再也不能跑了,始终报错

    listening on port 3000
    <-- GET /
    <-- GET /
    --> GET / 200 337ms -
    --> GET / 200 352ms -
    <-- GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg
    <-- GET /favicon.ico
    --> GET /favicon.ico 404 12ms -
    [SyntaxError: Unexpected end of input]
    --> GET /weixin/oIWsFt0GzJ9B8He5MfCo4DpkeYBg 200 3,074ms -
    wlwr
        40
    wlwr  
    OP
       2015-05-27 13:01:13 +08:00
    @sinosure 前2天搜狗接口做了加密处理,代码有变更,你从GitHub检出最新的代码就可以了
    vchard
        41
    vchard  
       2015-05-27 18:15:42 +08:00
    这个不错,就是有的文章只有标题没有内容。
    gzany
        42
    gzany  
       2015-05-27 18:32:11 +08:00
    之前一直在用,很不错!!
    wlwr
        43
    wlwr  
    OP
       2015-05-27 23:09:57 +08:00
    @vchard 比如哪篇文章? 我排查下是什么问题
    sinosure
        44
    sinosure  
       2015-05-28 09:20:17 +08:00
    @berry10086 看来还是基于网页的最稳定啊,有考虑开源么
    vchard
        46
    vchard  
       2015-05-29 09:17:41 +08:00
    无法更新了
    fuckgfw
        47
    fuckgfw  
       2015-05-29 09:41:25 +08:00
    采集异常,无法获取数据
    berry10086
        48
    berry10086  
       2015-05-29 10:35:52 +08:00
    @sinosure 会开源的,但是现在还没有完全做好,还有一些问题
    vchard
        49
    vchard  
       2015-05-29 11:34:59 +08:00
    已经很好了。恢复原装就可以,能更新就行!
    cainiao
        50
    cainiao  
       2015-06-07 20:31:32 +08:00
    又挂了,无法采集了
    wlwr
        51
    wlwr  
    OP
       2015-06-07 20:43:04 +08:00
    @cainiao 恢复了。搜狗限制了频率,请求量较多会造成不定时抽风。建议取代码 https://github.com/wlwr/rss 自己搭建一个。
    ulic95
        52
    ulic95  
       2015-06-18 11:19:39 +08:00
    现在又采集异常了
    wlwr
        53
    wlwr  
    OP
       2015-06-28 18:21:35 +08:00
    @cainiao @ulic95 抱歉,之前有些忙,已恢复正常。
    WenyiJi
        54
    WenyiJi  
       2015-07-31 13:01:48 +08:00
    请问lz还在更新这个作品吗?网页打不开了
    globetour
        55
    globetour  
       2016-07-09 12:57:22 +08:00 via Android
    安装后可以正常用,但是两个小问题。
    1 ,系统后台运行一段时间后自动退出了,不知什么原因。
    2 ,这个能绕过搜狗的反爬机制吗?
    globetour
        56
    globetour  
       2016-07-09 16:36:42 +08:00
    第 3 个问题
    RSS 里好像是取每次群发的第一篇文章,其余的就没有了。
    knightliao
        57
    knightliao  
       2016-12-20 13:44:52 +08:00
    目前,微读可以持续提供服务哈

    http://100weidu.com
    knightliao
        58
    knightliao  
       2018-06-13 13:43:14 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1000 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 22:22 · PVG 06:22 · LAX 15:22 · JFK 18:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.