V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lx19930805
V2EX  ›  问与答

早期的网页爬虫是如何进行的?

  •  
  •   lx19930805 · 2015-12-25 16:49:19 +08:00 · 3097 次点击
    这是一个创建于 3292 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
    那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

    22 条回复    2015-12-25 21:34:40 +08:00
    imn1
        1
    imn1  
       2015-12-25 17:18:16 +08:00
    ?
    啥意思
    没有 HTML 何来网页?没有 HTML 的时代也没有爬虫一说
    那时候都是 tele bbs+邮件列表
    qw7692336
        2
    qw7692336  
       2015-12-25 17:28:54 +08:00
    不是更容易吗
    ck65
        3
    ck65  
       2015-12-25 17:37:22 +08:00 via iPhone
    隐约觉得楼主暴露年龄段了。
    lx19930805
        4
    lx19930805  
    OP
       2015-12-25 18:02:38 +08:00
    @imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
    因为不懂各种词的表达,所以不要见怪.
    就是网页源代码,里面的那些 HTML 代码.
    早期没有"审查元素",是如何具体爬出来的.
    lx19930805
        5
    lx19930805  
    OP
       2015-12-25 18:03:34 +08:00
    @ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触
    lx19930805
        6
    lx19930805  
    OP
       2015-12-25 18:03:50 +08:00
    @qw7692336 具体呢?
    Zzzzzzzzz
        7
    Zzzzzzzzz  
       2015-12-25 18:05:47 +08:00
    view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
    早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.
    abelyao
        8
    abelyao  
       2015-12-25 18:06:26 +08:00
    @lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧?那当然是人工查找啦, HTML 那么简单…
    lx19930805
        9
    lx19930805  
    OP
       2015-12-25 18:14:40 +08:00
    @abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
    抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的
    imn1
        10
    imn1  
       2015-12-25 18:15:44 +08:00
    @lx19930805
    你是说 DOM 吧?
    DOM 其实很早就有了, 9x 年代,大概 ie3~4 期间出现
    再早些时候 js 都没有, html 页面很简单,直接文本查找就可以了,正则
    那个是贺氏时代,网速慢得要死,没什么人弄爬虫
    但那时有一种另类爬虫,就是离线浏览器,基本上就是抓<a href=>
    loading
        11
    loading  
       2015-12-25 18:16:35 +08:00 via Android
    居然要审查元素…楼主,你水平暴露了。

    我们以前都是用 windows 记事本来审查元素的,不需要 chrome 或者 firefox
    qqmishi
        12
    qqmishi  
       2015-12-25 18:22:59 +08:00
    右键查看网页源代码,人肉去查,,,
    xcodebuild
        13
    xcodebuild  
       2015-12-25 18:26:57 +08:00
    楼主的描述方式有点白啊,,,以及正则不适合处理 html ,用 xpath
    lx19930805
        14
    lx19930805  
    OP
       2015-12-25 18:31:24 +08:00
    @loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
    在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.
    Kokororin
        15
    Kokororin  
       2015-12-25 18:33:16 +08:00
    就算过去没有查看源代码,记事本总有吧。直接打开里面输入 url 地址就是源代码
    lxy
        16
    lxy  
       2015-12-25 18:36:43 +08:00
    在“审查元素”这个功能没有之前,可以右键查看源码吧?即使没有,也可以直接 Ctrl+S 保存网页文档,然后查看源码。不知那个时候有没有抓包工具,反正我小学的时候就会用 IE6 保存网页了。
    xidianpanpei
        17
    xidianpanpei  
       2015-12-25 19:47:26 +08:00
    估计楼主是想知道在浏览器没有查看网页源码功能的时候,大家是怎么解析网页做爬虫的。这个其实不复杂,因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后,接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令,就可以直接获取百度首页的源码。
    binux
        18
    binux  
       2015-12-25 19:55:17 +08:00
    审查元素只是帮你建树并定位节点,但是 HTML 源代码本事就存在的,即使没有审查元素,也可以脑内建树嘛。
    而且早期的页面,没有那么多复杂的元素<h1>就是<h1>,<li>就是<li>,结构清晰得多。
    crab
        19
    crab  
       2015-12-25 20:21:59 +08:00
    winnet winhttp .....等等等
    xcodebuild
        20
    xcodebuild  
       2015-12-25 20:55:46 +08:00
    @lx19930805 我还真不知道早期浏览器有没有这个功能,但是 curl 一下也就出来了-。-
    loading
        21
    loading  
       2015-12-25 21:32:46 +08:00 via Android
    楼主去看看 织梦 cms 的采集功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2859 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:47 · PVG 20:47 · LAX 04:47 · JFK 07:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.