V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shsf4
V2EX  ›  问与答

怎么监控网站的结构

  •  
  •   shsf4 · 2015-06-11 14:18:33 +08:00 · 1941 次点击
    这是一个创建于 3490 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我现在遇到的问题是,我第一次爬取了一个网页上面的指定内容,然后我下次再想爬取,我怎么确定这个网站的结构是否变化了。
    3 条回复    2015-06-11 14:42:11 +08:00
    mhycy
        1
    mhycy  
       2015-06-11 14:23:19 +08:00
    判断抓取信息是否符合预期
    shsf4
        2
    shsf4  
    OP
       2015-06-11 14:39:19 +08:00
    @mhycy 如果有1000个网站,这样不是需要每个网站人为去判断么,我需要的是用程序来监控。
    mhycy
        3
    mhycy  
       2015-06-11 14:42:11 +08:00
    @shsf4
    如果是固定站点的爬虫必定是写爬虫的时候预先加入判断的。
    你的爬虫如果是通用爬虫的话,爬虫本身就应该具有适应架构变化的能力。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1345 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 17:32 · PVG 01:32 · LAX 09:32 · JFK 12:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.