V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
LichMscy
V2EX  ›  问与答

发现一个很 awesome 的网站

  •  
  •   LichMscy · 2017-10-11 11:50:10 +08:00 · 2036 次点击
    这是一个创建于 2625 天前的主题,其中的信息可能已经有所发展或是发生改变。
    https://mercury.postlight.com/web-parser/

    号称可以直接拉到 HTML 的文章内容正文的数据,测试了很多资讯站基本上都覆盖的比较完美。
    不过感觉不太可能是手动覆盖了这些测试站点的样式,所以应该用的算法之类的实现。

    大家有相关的资料可以参考下吗?对这个非常感兴趣
    5 条回复    2017-10-12 09:22:41 +08:00
    cubelate
        1
    cubelate  
       2017-10-11 11:57:35 +08:00
    有意思,可能是通过判断位置,z-index,大小之类吧。把自己当做浏览器,分析最前面最大块的内容。
    airycanon
        2
    airycanon  
       2017-10-11 12:04:09 +08:00   ❤️ 1
    @kenshin 感觉简悦可以借鉴一下,处理不在支持列表中的网站。
    ygger
        3
    ygger  
       2017-10-11 20:08:21 +08:00
    这是我的一个正文提取器: http://kandouban.top/extractor
    ygger
        4
    ygger  
       2017-10-11 20:15:03 +08:00
    kenshin
        5
    kenshin  
       2017-10-12 09:22:41 +08:00 via iPhone
    @airycanon
    之前有参考过这个,但它是传到服务器处理。
    即将发布的 1.0.4 基本上可以覆盖全部的页面了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3386 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:12 · PVG 19:12 · LAX 03:12 · JFK 06:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.