V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
URL2io
V2EX  ›  分享创造

URL2io — 提供简单、强大的网页正文提取服务

  •  9
     
  •   URL2io ·
    url2io · 2016-09-30 11:28:28 +08:00 · 22467 次点击
    这是一个创建于 2969 天前的主题,其中的信息可能已经有所发展或是发生改变。

    URL2io.com — 提供简单、强大的网页正文提取服务

    今天给大家分享的是一个网页正文提取服务 URL2Article ,主页地址:http://www.url2io.com

    URL2Article 服务提供 RESTful API 接口,用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

    功能列表

    features

    • 标题识别

    不仅仅是简单地提取 title 标签,而是智能识别网页正文的标题。

    • 正文识别

    提取的内容将不含有任何广告、导航和其他非正文内容。网页正文中的所有链接、图片和其他媒体将予以保留。

    • 发布日期识别

    智能识别文章的发布日期。

    • 下一页链接识别

    智能识别当前网页的下一页链接。因为一篇完整的文章会被分成多个页面,所以这个功能会非常有用。

    Demo

    demo 地址:点这测试效果。

    API 使用文档

    可以查看相关文档 (URL2Article API doc) 来了解如何使用。

    示例应用

    为了让大家近一步了解这项服务,我们写了一个教学示例 Pageless, 它使用 URL2Article API 来提取网页正文,并自动将被分成多页的文章合并成一页。
    演示地址, 代码在 Github: url2io-app-samples

    pageless

    Feedback

    That's all. 希望有兴趣的童鞋可以试用一下,然后给点反馈(使用中出现的问题、会用来开发什么、意见和建议等都可以)。 欢迎留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183

    第 1 条附言  ·  2016-10-27 11:45:23 +08:00

    近期的一些更新:(2016-10-02 ~2016-10-27)

    根据大家的反馈和讨论做了大量更新,包括算法优化新特性支持其他更新等。

    优化 (Breaking Changes): —— URL2Article

    1. 针对正文上卷问题做了优化
    2. 运行速度优化

    新特性 (New Features):—— URL2Article

    1. 对于 <img> 标签会保留全部属性,方便之后的处理。
    2. 支持惰性图片解析,智能识别正文中的惰性图片,并自动将图片地址解析为真实地址。

    现有功能列表 features-2016-10-27

    其他更新 (Other Changes):

    1. 文档中心添加了 Quickstart ,提供多种编程语言(Python、NodeJS、PHP、Ruby ...)和工具(Curl ...)的使用示例,方便大家快速(约 20 秒)上手。
    2. 新增 PHP SDKurl2io-phpsdk ,由 @ety001 提供,十分感谢!
    3. 对于用 js 渲染内容的动态页面,在 UA 中使用兼容搜索引擎蜘蛛的特征串可以抓取到网页的静态版(感谢 @blueset 提供的思路),不过此方法的稳定性还在测试中,所以此次更新暂时还不能提供 -_-

    That‘s all. 非常感谢大家的反馈和讨论,URL2io 的成长离不开热心朋友的关注与支持。 欢迎继续留言讨论,或者 url2#sina.com ,或者 QQ 用户群: 341180183,或者 Github Issues,或者关注微薄 @url2io

    第 2 条附言  ·  2018-01-28 11:43:10 +08:00

    URL2io Enterprise 服务发布

    URL2io Enterprise 是 URL2io 的本地部署版本,您可以在自己的环境中进行安装部署和管理。
    目前包含了 URL2Article 服务(用来提取并解析网页中的正文区域,实现网页正文提取、标题提取、下一页链接提取等。)

    ok

    第 3 条附言  ·  2019-11-27 01:33:12 +08:00

    URL2io 云镜像版和SaaS版发布

    2019-11-25

    云镜像版是将 URL2io API 镜像部署在高性能云主机上的服务方式,提供多种云主机规格,对性能配置具备更好的可控性。同时,我们会提供运帷支持服务,为您免除运维烦恼。

    >> 了解更多

    SaaS版是将 URL2io API 部署在相互隔离的沙箱环境之中的服务方式,用户无需部署和维护。提供多种套餐,按需选择,性价比高。

    >> 了解更多

    102 条回复    2019-10-09 14:33:01 +08:00
    1  2  
    geeglo
        1
    geeglo  
       2016-09-30 11:37:47 +08:00 via iPhone
    我反正是没这需求,自己解析也挺方便的
    leilux
        2
    leilux  
       2016-09-30 11:47:21 +08:00
    @geeglo 如果要解析的页面非常多的话还是挺恼火的,而且页面结构变了的话还得重新分析。有这种自动化的服务还是挺好的^_^
    DoraJDJ
        3
    DoraJDJ  
       2016-09-30 11:52:26 +08:00
    用自己的 blog 试了一下,好像连头像都不小心给抓到了 23333
    jy02201949
        4
    jy02201949  
       2016-09-30 11:55:37 +08:00
    不错不错,想当年刀耕火种的年代,用雅虎的 pipe ,之后是自己写代码,如今已经开始自动化了
    URL2io
        5
    URL2io  
    OP
       2016-09-30 12:31:59 +08:00
    @DoraJDJ 你这个巨型弹幕有点凶残啊!哈哈哈
    tscat
        6
    tscat  
       2016-09-30 12:35:05 +08:00 via iPhone
    收藏一下,午休后看看。希望比有道的好用
    URL2io
        7
    URL2io  
    OP
       2016-09-30 12:46:40 +08:00
    @jy02201949 看来是老司机了,自动化之后能做的事就有意思了,比如 URL2Article 与 pipe 的结合
    wuyadong
        8
    wuyadong  
       2016-09-30 12:47:26 +08:00
    下一页连接,是怎样识别的呀,能否大致告知一下。谢谢
    URL2io
        9
    URL2io  
    OP
       2016-09-30 12:54:45 +08:00
    @tscat 可以使用我们提供的接口将网页的正文提取出来,再发到有道笔记里
    doubleflower
        10
    doubleflower  
       2016-09-30 13:05:32 +08:00
    这个攫取服务器是在国内还是国外的?
    URL2io
        11
    URL2io  
    OP
       2016-09-30 13:06:50 +08:00
    @wuyadong 大致的假设是本页链接与下一页链接的网址不会相差太大,应该有一个特定的模式。通过收集大量网站的下一页链接,做特征工程,再通过机器学习训练和预测下一页链接。只能讲这么多了 -_-

    如果有相关需求还是推荐使用我们的产品,肯定比自己写的好用 ^_^
    doubleflower
        12
    doubleflower  
       2016-09-30 13:08:19 +08:00
    好象不灵啊,比如这样的:

    https://zhuanlan.zhihu.com/p/22597353
    URL2io
        13
    URL2io  
    OP
       2016-09-30 13:18:03 +08:00
    @doubleflower 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。

    它的[接口]( https://zhuanlan.zhihu.com/api/posts/22597353)还是挺好找的,不过现在还没有找到一种高效、普适的方法就没有处理这种情况。
    iyaozhen
        14
    iyaozhen  
       2016-09-30 13:20:47 +08:00   ❤️ 1
    挺不错的。赞
    doubleflower
        15
    doubleflower  
       2016-09-30 13:20:56 +08:00
    @URL2io 先用普通方式抓,发现没内容就用浏览器方式。
    URL2io
        16
    URL2io  
    OP
       2016-09-30 13:45:02 +08:00
    @doubleflower 用浏览器方式是指加上 User-Agent 吗?也不行啊。它的内容是靠 js 加载的,也就是说如果浏览器禁用了 js ,那直接用浏览器访问都没有内容。

    Google 的爬虫可以收录 JS 和 CSS 内容,用的方法好像也不是全部渲染,不知道怎么实现的......
    doubleflower
        17
    doubleflower  
       2016-09-30 13:51:52 +08:00   ❤️ 1
    @URL2io 用这种 http://phantomjs.org/ 现在的很多网页爬虫就是这么搞的。
    URL2io
        18
    URL2io  
    OP
       2016-09-30 14:14:10 +08:00
    @doubleflower 感谢感谢
    leilux
        19
    leilux  
       2016-09-30 15:33:41 +08:00
    提取结果还是挺准的,赞一个
    Aether
        20
    Aether  
       2016-09-30 15:35:11 +08:00

    抓 V2EX 的时候……
    pandachow
        21
    pandachow  
       2016-09-30 15:39:56 +08:00
    是在 readability 基础上做的么?
    xvx
        22
    xvx  
       2016-09-30 15:50:01 +08:00   ❤️ 1
    我搜索了一下,发现有个效果比 LZ 的要好……不过不是开源的。 LZ 研究下。

    http://www.weixinxi.wang/open/extract.html
    gujiaxi
        23
    gujiaxi  
       2016-09-30 15:57:26 +08:00
    @URL2io 求 bookmarklet 。
    URL2io
        24
    URL2io  
    OP
       2016-09-30 17:50:22 +08:00
    @Aether 习惯性向上卷,哈哈

    @pandachow 不是在 readability 的基础上做的,不过 readability 可以说是所有正文提取算法的始祖,所以说和 readability 还是有关系的。
    URL2io
        25
    URL2io  
    OP
       2016-09-30 17:50:47 +08:00
    @xvx 这个我在开发时也搜到过,也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文,所以看上去会简洁一点,不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文,所以在头部偶尔会将多余的内容卷进来,不过普适性更好,遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的,要在简洁与普适这两者之间进行权衡。
    URL2io
        26
    URL2io  
    OP
       2016-09-30 17:51:18 +08:00
    @gujiaxi Pageless 的吗?

    将书签的地址改为:

    <pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

    不过 Pageless 用的是演示用的 API 是有频率限制的,可以根据 Pageless 的源码再结合正式的 API 搭建一个。
    Aether
        27
    Aether  
       2016-09-30 17:53:49 +08:00   ❤️ 1
    @URL2io 可能要针对主要网站都做一遍优化?这可是苦力活儿,但也是值钱的活儿;但是你可以列一堆 logo ,表示「这些网站已特别优化」,让用户放心使用。
    techmoe
        28
    techmoe  
       2016-09-30 18:09:15 +08:00 via Android
    做这个的思路是什么?计算页面占比最大的 div ?
    URL2io
        29
    URL2io  
    OP
       2016-09-30 21:11:35 +08:00
    @Aether 确实是个苦力活儿。你这个建议很不错 ^_^
    URL2io
        30
    URL2io  
    OP
       2016-09-30 22:18:14 +08:00
    @techmoe 思路点抓得很好,不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品,肯定比自己写的好用 ^_^
    designer
        31
    designer  
       2016-09-30 22:26:10 +08:00   ❤️ 1
    支持,是不是有点像 pocket 插件
    missdeer
        32
    missdeer  
       2016-09-30 22:33:54 +08:00   ❤️ 1
    效果也就一般,比如我一直看的盗版小说页面 http://www.piaotian.net/html/7/7762/5084075.html 页脚都没去掉
    alexapollo
        33
    alexapollo  
       2016-10-01 00:01:55 +08:00   ❤️ 1
    斯坦福前两年有篇论文写的就是这个方法,简单粗暴,但是做起来估计也得有不少 dirty work
    pandachow
        34
    pandachow  
       2016-10-01 00:10:14 +08:00   ❤️ 1
    @URL2io 之前给团队项目做过一个类似的功能,我开始是在 Readability 基础上改,后来从 evernote 的 clearly 插件源码中又学了一些奇技淫巧。总的感觉 dirty work 比较多,以及很多 tricks …
    URL2io
        35
    URL2io  
    OP
       2016-10-01 09:05:09 +08:00
    @designer 对,不同的是,把类似于 pocket 的提取功能作为接口提供给开发者了,这样自己都可以做一个 pocket 了。感谢支持!
    URL2io
        36
    URL2io  
    OP
       2016-10-01 09:23:14 +08:00
    @missdeer 还在改进中…… 果然我们的样本还是很有限的,感谢反馈!
    URL2io
        37
    URL2io  
    OP
       2016-10-01 09:29:55 +08:00
    @alexapollo @pandachow

    我大 V 站的水太深了,以后还请多多指教
    blueset
        38
    blueset  
       2016-10-01 11:01:31 +08:00   ❤️ 2
    建议抓取用的 UA 兼容一下其他搜索引擎蜘蛛的特征串(除了 Google )

    部分用 JS 渲染内容的站点(比如我的)开启了根据 UA 判断针对 Bot 推送索引用全文的功能。这样提取起来也会方便些。

    之所以说除了 Google 是因为 Google 的蜘蛛 Bot 可以解析渲染 JS 。所以很多类似的库就把 Google 排除在外了。
    URL2io
        39
    URL2io  
    OP
       2016-10-01 13:00:51 +08:00
    @blueset 原来还有这样的技巧,我去试验一下,感谢感谢!
    15015613
        40
    15015613  
       2016-10-01 21:02:02 +08:00   ❤️ 1
    @URL2io
    对几个百度贴吧的帖子试了一下,感觉效果不一
    楼层数不定,大部分好像就提了个一楼
    还有经常把百度加的广告也提了出来
    另外,对于有图的贴子提取尤其的糟糕。
    livc
        41
    livc  
       2016-10-01 21:13:21 +08:00
    telegram 的正文不知如何提取的
    URL2io
        42
    URL2io  
    OP
       2016-10-01 23:10:53 +08:00
    @livc 我记得以前 V 站有个帖子讨论过,好像是和 desc 有关的
    URL2io
        43
    URL2io  
    OP
       2016-10-01 23:22:03 +08:00
    @15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分,所以从我们的角度来说这些帖子其实是没有正文的 -_-!
    不过这种应该算是更广义的正文了,目前我们还没这个精力去做这方面的研究……
    jqw1992
        44
    jqw1992  
       2016-10-02 10:27:22 +08:00   ❤️ 1
    强大
    iannil
        45
    iannil  
       2016-10-02 11:01:38 +08:00   ❤️ 1
    微信公众号文章,图片全丢。
    Warder
        46
    Warder  
       2016-10-02 13:32:20 +08:00   ❤️ 1
    嗯,效果还挺不错
    qianddream
        47
    qianddream  
       2016-10-02 14:26:12 +08:00
    @URL2io 知乎这种问答网站如何处理?
    URL2io
        48
    URL2io  
    OP
       2016-10-02 14:59:16 +08:00
    @iannil 目前还不支持网页中惰性加载的图片,不过这部分和 URL2Images (开发中) 用到的技术有交叉,所以之后会加上对这个的支持。感谢反馈!
    URL2io
        49
    URL2io  
    OP
       2016-10-02 15:27:52 +08:00
    @qianddream 仅从问答上来说,知乎有两类页面:

    1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题,不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子,正文的概念很弱。结果就是效果不一,无法评判。
    2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章,提取这种还是 URL2Article 比较擅长的。

    所以,还是看使用者的策略吧,比如:从提问页提取出所有回答的链接,再用 URL2Article 提取出每个回答。
    beidouxun
        50
    beidouxun  
       2016-10-02 16:28:04 +08:00 via Android
    我最近对这方面很感兴趣。尤其是如何判断正文部分和发布日期的。我的网站后台必须填写相关规则才能提取。
    URL2io
        51
    URL2io  
    OP
       2016-10-02 20:45:08 +08:00
    @beidouxun 用我们的产品呗,把精力放在你要实现的功能上 ^_^
    xiubin
        52
    xiubin  
       2016-10-03 08:20:40 +08:00 via iPhone
    Mark ,打算写一个 RSS 阅读器,估计用的到。以后会有一直维护,和免费吗?
    20015jjw
        53
    20015jjw  
       2016-10-03 09:12:41 +08:00
    希望能 push 到 kindle
    URL2io
        54
    URL2io  
    OP
       2016-10-03 14:51:07 +08:00 via Android
    @xiubin 请放心会一直维护的。对于免不免费还没考虑过,还早呢,现阶段只想把产品打磨得更好。
    URL2io
        55
    URL2io  
    OP
       2016-10-03 18:28:11 +08:00 via Android
    @20015jjw Pageless 就是个教学示例而已啊 -_-|| ,不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。
    xiaoz
        56
    xiaoz  
       2016-10-04 09:21:20 +08:00 via iPhone   ❤️ 1
    目前已经用接口撸了个小工具,非常感谢楼主,希望继续维护下去。另外贵方服务器是多台吗?会不会出现被屏蔽 ip 的情况。
    URL2io
        57
    URL2io  
    OP
       2016-10-04 22:16:53 +08:00
    @xiaoz 感谢使用!会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现,接下去会针对这个可能出现的情况做相应的处理。
    dphdjy
        58
    dphdjy  
       2016-10-05 07:31:02 +08:00 via Android
    mark

    前年找过类似服务,最后一个基于内容块的分析,还有一个是对不同页面做适配,然而用起来挺麻烦的。。。
    看过悦读的源码,有点多就放弃了。。。

    等 po 优化完成,再折腾
    URL2io
        59
    URL2io  
    OP
       2016-10-05 18:18:57 +08:00
    @dphdjy 这一版的接口是不会变了,有空可以先折腾着 ^_^
    URL2io
        60
    URL2io  
    OP
       2016-10-05 23:12:01 +08:00
    @jqw1992
    @Warder 感谢支持!
    v9ox
        61
    v9ox  
       2016-10-06 06:10:40 +08:00
    试了 google 和 t66y 都不行 (还以为能顺手翻墙
    URL2io
        62
    URL2io  
    OP
       2016-10-06 15:43:02 +08:00
    @v9ox 墙太高不好翻啊 (⇀‸↼‶)
    HanSonJ
        63
    HanSonJ  
       2016-10-07 13:51:26 +08:00
    URL2io
        64
    URL2io  
    OP
       2016-10-07 14:10:12 +08:00
    @HanSonJ 其中有什么不妥的地方吗?
    HanSonJ
        65
    HanSonJ  
       2016-10-07 15:21:00 +08:00   ❤️ 1
    @URL2io 没问题,只是我们对于样式的要求不一样罢了
    URL2io
        66
    URL2io  
    OP
       2016-10-07 17:00:43 +08:00
    @HanSonJ 是有点…… -_- ,哈哈 偷懒了
    Izual_Yang
        67
    Izual_Yang  
       2016-10-07 17:04:25 +08:00 via Android
    @missdeer
    有看小说用的油猴子脚本, My Novel Reader
    olbb
        68
    olbb  
       2016-10-08 11:30:51 +08:00
    可以提取分页内容吗
    URL2io
        69
    URL2io  
    OP
       2016-10-08 17:00:29 +08:00
    @olbb 可以的,请求时带上 next 参数,在返回的数据中就会包含当前网页的下一页链接(如果有的话)。

    * 具体文档可以看 http://www.url2io.com/docs
    * 具体示例可以看 pageless ,它就利用了这个特性,实现持续地加载分页中的正文内容

    其实帖子中都写了的…… -_-
    typcn
        70
    typcn  
       2016-10-10 08:44:56 +08:00   ❤️ 1
    比起 import 还是差不少。。 JS 翻页识别不到,列表页面第一项被识别成标题,图片 lazyload 识别不到
    ljcarsenal
        71
    ljcarsenal  
       2016-10-10 09:46:13 +08:00   ❤️ 1
    ARGUMENT DESCRIPTION
    error type : "HTTPError"
    message : "HTTP 599: socket write not completed (_ssl.c:562)"
    url : "http://taobao.com"
    code : "599"
    tinyproxy
        72
    tinyproxy  
       2016-10-10 12:15:10 +08:00   ❤️ 1
    URL2io
        73
    URL2io  
    OP
       2016-10-10 13:44:37 +08:00
    @ljcarsenal 已经解决,感谢反馈!
    URL2io
        74
    URL2io  
    OP
       2016-10-10 14:03:16 +08:00
    @tinyproxy 知乎专栏这种通过 ajax 加载内容的网页暂时还不支持,要渲染 js 的开销太大了。 虽然它的接口

    https://zhuanlan.zhihu.com/api/posts/21454432

    还是挺好找的,不过现在还没有找到一种高效、普适的方法,就没有处理这种情况。

    PS :看完你推荐的这个网页,我内心涌起了想要为知乎日报做特殊处理的冲动 -_-
    BOYPT
        75
    BOYPT  
       2016-10-10 14:43:36 +08:00   ❤️ 1
    好东西,, mark 一下。
    Yeoman
        76
    Yeoman  
       2016-10-10 16:52:07 +08:00 via Android
    提取正文这种需求只有在爬小黄蚊的时候遇到过
    Youen
        77
    Youen  
       2016-10-10 17:37:23 +08:00
    可以去 1024 撸种子啊~~
    URL2io
        78
    URL2io  
    OP
       2016-10-10 21:45:13 +08:00
    @typcn 和 import 没法比啊,它把采集相关的通通都做了 -_- 。而我们只是提供了一个功能,让大家可以集成到自己的软件系统中(或许也可以集成到 import 中)。两者的关系更像是框架与库的关系。

    目前有关 js 动态渲染的东西都不支持,不过图片 lazyload 之后会支持的……

    方便贴一下“列表页面第一项被识别成标题”的网址吗?目前在对正文提取做优化,十分需要这种提取效果不好的样本……
    jeremaihloo
        79
    jeremaihloo  
       2016-10-11 00:07:21 +08:00   ❤️ 1
    一直在用这个方法提取网页正文,感觉还不错

    https://code.google.com/archive/p/cx-extractor/
    URL2io
        80
    URL2io  
    OP
       2016-10-11 12:46:12 +08:00
    @jeremaihloo 恩,速度比较快、准确率也不错。 cx-extractor 使用基于不用解析 dom 解析的行分块 ,这是一大优点。不过因此也带来了一些限制。因为使用行分块,所以提取前要去除 html tag ,这样就只能提取出文字内容了,顶多保留 img 标签作为文字内容也提取出来。另一个就是要对其进行扩展比较难,因为提取其他信息如标题、日期、下一页链接这些还是需要 html tag 的信息的。
    URL2io
        81
    URL2io  
    OP
       2016-10-11 12:55:00 +08:00
    @Yeoman (¯﹃¯)
    URL2io
        82
    URL2io  
    OP
       2016-10-11 12:56:08 +08:00
    @Youen 撸种子?? How ??
    nicoljiang
        83
    nicoljiang  
       2016-10-13 11:37:03 +08:00
    URL2io
        84
    URL2io  
    OP
       2016-10-13 11:48:09 +08:00
    @nicoljiang 可以的啊, blog 是托管在 github 上的,这两天习惯性抽风,要多刷几次 -_-
    ghosrt
        85
    ghosrt  
       2016-10-27 15:52:27 +08:00
    随手试了一下 cnBeta 的一个新闻地址,最后的文字广告连接也被识别为正文了……:)
    URL2io
        86
    URL2io  
    OP
       2016-10-30 01:40:29 +08:00 via Android
    @ghosrt 不做语义分析,要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了,哈哈
    ldehai
        87
    ldehai  
       2016-10-30 19:29:55 +08:00
    soulmine
        88
    soulmine  
       2016-10-31 11:05:18 +08:00
    @URL2io 有几个问题 1.图片都是网络链接 一旦遇上外链失效的图片 那就是无效 2.爬论坛或者贴吧这种 需要的回复之类的文字和图片 而不是仿格式的页面 json 里面还是一堆的 html 标签 这个和没使用有区别么 2333
    不过用来抓下一页 时间和标题还是很方便的 希望有答复
    URL2io
        89
    URL2io  
    OP
       2016-10-31 15:59:30 +08:00 via Android
    @soulmine 感谢使用!

    1. 验证外链是否失效不会出现在正文提取阶段,所以对于外链失效就要自己想办法了,毕竟还有 src 在。
    2. 这次发布是 URL2Article ,顾名思义适用范围是新闻,博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务,那它返回的字段肯定完全不同,比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
    3. 关于一堆 html 标签的问题,还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的,所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果,可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了,而且严重依赖原站的 CSS 设计,所以如果不能提取出第 2 条所说的那些字段,要想得到不是仿格式的页面恐怕有点难了。
    4. URL2Article 也提供了输出纯文字内容的选项,只不过图片作为 html 标签也会去除。

    可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊?
    URL2io
        90
    URL2io  
    OP
       2016-11-06 21:41:38 +08:00
    @ ldehai 不知道该说什么好……
    soulmine
        91
    soulmine  
       2016-11-09 23:12:53 +08:00
    @URL2io 嗯 那是我错误理解了提供的服务了 用来提取新闻这方面确实很赞
    zlong
        92
    zlong  
       2016-11-19 10:58:18 +08:00
    就是不知道这工具有什么用处
    URL2io
        93
    URL2io  
    OP
       2016-11-20 20:24:13 +08:00 via Android
    @zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下
    dreamcog
        94
    dreamcog  
       2017-03-07 17:57:58 +08:00   ❤️ 1
    @URL2io 打算使用,是否收费?能否保证稳定性?唯一的担心是稳定性。所以觉得这种付费付费的可能比较敢用。
    URL2io
        95
    URL2io  
    OP
       2017-03-10 19:52:21 +08:00 via iPhone
    @dreamcog 目前不收费的哈,会一直做下去的 ,请放心使用。^_^
    dreamcog
        96
    dreamcog  
       2017-04-02 02:34:35 +08:00 via iPhone
    @URL2io 有微信吗?能加一个不?另外知乎无法提取
    URL2io
        97
    URL2io  
    OP
       2017-04-02 23:35:15 +08:00 via iPhone
    @dreamcog 加 QQ 群吧 341180183 小窗聊
    qsnow6
        98
    qsnow6  
       2017-04-24 19:56:17 +08:00
    可以直接给爬虫用么?担心会不会爬挂了
    URL2io
        99
    URL2io  
    OP
       2017-04-25 08:55:15 +08:00 via iPhone
    @qsnow6 可以,但别用大并发^_^
    cnfuyu
        100
    cnfuyu  
       2017-05-08 16:27:45 +08:00
    只有 API 吗?现在本地有一个 G 的数据需要提取正文,也只能用 API 的方式吗😭
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2765 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 44ms · UTC 12:32 · PVG 20:32 · LAX 04:32 · JFK 07:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.