V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lissome
V2EX  ›  问与答

请教 Laravel 怎么提取一个页面中的特定内容(传说中的爬虫?)

  •  
  •   lissome · 2016-06-03 10:23:47 +08:00 · 5435 次点击
    这是一个创建于 2876 天前的主题,其中的信息可能已经有所发展或是发生改变。
    想要提取某个网站的一个页面上的特定内容,页面大体结构就是一些 div 、 table ,需要提取的是一个 table 中的内容, table 有 ID ,要提取的内容也有特定的 class

    因为本身项目是 Laravel ,所以想也用 Laravel 实现,请指教一下思路?有什么包可以用?
    11 条回复    2016-06-03 20:05:10 +08:00
    xuxu
        1
    xuxu  
       2016-06-03 10:26:29 +08:00
    这跟 Laravel 没关系😄
    lissome
        2
    lissome  
    OP
       2016-06-03 11:02:29 +08:00
    @xuxu 和 PHP 有关系?
    xummerj
        3
    xummerj  
       2016-06-03 11:04:20 +08:00   ❤️ 1
    这个你可以直接用 curl 获取内容,然后正则或者 PHP Simple HTML DOM 解析;
    还有可以看看这相
    https://github.com/FriendsOfPHP/Goutte
    yangqi
        4
    yangqi  
       2016-06-03 11:05:36 +08:00   ❤️ 1
    和 laravel 没关系,看看 DomCrawler 这个包
    jugelizi
        5
    jugelizi  
       2016-06-03 11:13:13 +08:00
    Laravel 什么时候变爬虫了?
    curl 抓取 [snoopy] 然后解析 [simple_html_dom_node]
    lissome
        6
    lissome  
    OP
       2016-06-03 11:27:03 +08:00
    @yangqi
    @xummerj 谢谢指点

    @jugelizi 并不是要用 Laravel 做爬虫,只是想在现有 Laravel 项目里实现一个这个功能
    terranboy
        7
    terranboy  
       2016-06-03 11:43:06 +08:00
    goutte 不错 可惜是单线程
    tagtag
        8
    tagtag  
       2016-06-03 13:52:18 +08:00
    file_get_contents+正则
    Moker
        9
    Moker  
       2016-06-03 14:13:55 +08:00
    phpQuery 用这个,语法和 JQ 一样 $('table').html()
    icybee
        10
    icybee  
       2016-06-03 16:21:40 +08:00
    进队列,后台守护进程抓去入库,推荐用各种 mq 实现
    thenbsp
        11
    thenbsp  
       2016-06-03 20:05:10 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1256 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 23:29 · PVG 07:29 · LAX 16:29 · JFK 19:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.