V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Feiox
V2EX  ›  Python

求推荐好用的网页减噪的 Python 库

  •  
  •   Feiox ·
    feiox · 2015-05-27 10:36:27 +08:00 · 4229 次点击
    这是一个创建于 3500 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需要抓取很多新闻网站,但这些页面很多是极其不规范的使用 html ,那么如何自动化提取这些网页中的正文部分呢?
    试用了几个,感觉还是有一些问题。。。。求推荐

    第 1 条附言  ·  2015-05-27 11:25:07 +08:00
    好像大家多没有做过类似的,或者没有理解我的意思。
    我是说提取网页正文,类似 pocket 那种。
    已用过的库:
    * [Goose](https://github.com/grangier/python-goose)
    * [python-readability](https://github.com/buriy/python-readability)

    看过的论文:
    * [《基于行块分布函数的通用网页正文抽取算法》](http://cx-extractor.googlecode.com/files/%E5%9F%BA%E4%BA%8E%E8%A1%8C%E5%9D%97%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E7%9A%84%E9%80%9A%E7%94%A8%E7%BD%91%E9%A1%B5%E6%AD%A3%E6%96%87%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95.pdf)

    大家还有用过/看过的其他的吗?
    20 条回复    2015-05-27 22:17:12 +08:00
    shierji
        1
    shierji  
       2015-05-27 10:46:49 +08:00 via Android
    额 XPath选取还行啊

    我遇到的主要是改版问题 不过我感觉逻辑上多处理一下也行
    我遇到的问题是很多新闻网站旧链接是孤岛 没法从当前时间递归抓取 不知道楼主有这个问题没有?
    Valyrian
        2
    Valyrian  
       2015-05-27 10:49:00 +08:00
    每个网站单独处理。。我上个实习就是干这个的,没有什么好办法
    binux
        3
    binux  
       2015-05-27 10:49:19 +08:00
    现在正常一点的 html 库都能做到兼容不规范的 html
    要不你试试 lxml
    fy
        4
    fy  
       2015-05-27 10:50:27 +08:00
    @shierji 文不对题啊,楼主说的是那种自动分析网页,猜测正文大概位置的库。并不是说xpath选取不准确。
    fy
        5
    fy  
       2015-05-27 10:51:57 +08:00
    = = 好像也并不是来着,如果是这样的话lxml的xpath确实已经够用了。
    alexapollo
        6
    alexapollo  
       2015-05-27 10:52:36 +08:00
    web extractor
    binux
        7
    binux  
       2015-05-27 11:05:36 +08:00
    @fy 还真是「正文大概位置的库」,这种涉及策略的东西,想要好,就自己写一个吧。
    TuxcraFt
        8
    TuxcraFt  
       2015-05-27 11:19:38 +08:00
    你需要人工智能黑科技…… (逃
    zts1993
        9
    zts1993  
       2015-05-27 12:27:20 +08:00 via Android
    招点实习生吧
    simo
        10
    simo  
       2015-05-27 12:35:38 +08:00
    看下qq收藏网页助手,插件应该能反编吧
    nbndco
        11
    nbndco  
       2015-05-27 12:41:24 +08:00
    libextract
    hewigovens
        12
    hewigovens  
       2015-05-27 13:16:11 +08:00
    Diffbot?
    xixijun
        13
    xixijun  
       2015-05-27 13:54:00 +08:00 via iPhone
    不知道楼主说的不规则具体指的是什么。
    bootstrap可以自动补全
    zog
        14
    zog  
       2015-05-27 14:05:42 +08:00
    pip install html2text
    zhicheng
        15
    zhicheng  
       2015-05-27 14:07:47 +08:00
    13k
        16
    13k  
       2015-05-27 14:32:33 +08:00
    zztt168
        17
    zztt168  
       2015-05-27 14:34:18 +08:00 via Android
    在学习爬虫,感谢楼主和楼上的分享!
    bigbook
        18
    bigbook  
       2015-05-27 14:49:52 +08:00
    https://github.com/buriy/python-readability
    这个算是最好用的了

    具体遇到什么问题了呢?
    pango
        19
    pango  
       2015-05-27 19:17:02 +08:00
    楼主遇到点什么小问题?请具体说说。
    一直在用python-goose爬youtube,从来没有出过什么问题。
    shiznet
        20
    shiznet  
       2015-05-27 22:17:12 +08:00 via iPhone
    印象笔记在chrome的插件可以实现类似的功能
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3088 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 13:13 · PVG 21:13 · LAX 05:13 · JFK 08:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.