V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xiaotuzi
V2EX  ›  分享创造

开发了一个简单的 PHP 爬虫系统,做个轮子,给需要的朋友一点帮助!

  •  
  •   xiaotuzi · 2020-04-20 18:02:56 +08:00 · 2060 次点击
    这是一个创建于 842 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    自己在一次简单的教学中,给学生讲解并手撸的项目,感觉不错,分享给大家。

    项目

    实现简单的爬虫系统,可创建多个爬虫,然后写对应的规则,爬取对应的内容,然后导入数据库。 类似火车头、蓝天采集等爬虫系统,目前只是基础版本。当然,轮子已经做好了,后面就根据自己的需求添加功能即可。

    开源

    码云: https://gitee.com/Cherry_toto/a_simple_php_crawler_system (如果觉得不错,点个 star❤)

    演示

    http://caiji.test.2wex.com

    有任何问题可以在码云里留言给我!

    希望对有需要的人一点帮助!

    6 条回复    2020-04-21 16:23:21 +08:00
    wework
        1
    wework  
       2020-04-20 18:08:40 +08:00
    keepeye
        2
    keepeye  
       2020-04-20 18:09:51 +08:00
    兄弟 你这代码 不考虑安全的吗?
    xiaotuzi
        3
    xiaotuzi  
    OP
       2020-04-20 18:11:28 +08:00
    @keepeye 没考虑。。。你帮忙检查下?
    xiaotuzi
        4
    xiaotuzi  
    OP
       2020-04-20 18:14:08 +08:00
    @wework 看过第一个 querylist,很不错的 html dom,写爬虫很简单。第二个不明觉厉,哈哈,英文不太好。我的是比较简单的吧,适合爬取一些简单的东西,如果要添加 header 这些,还需要增加一些功能,以及处理函数。其实都是比较简单的二次开发啦。
    wework
        5
    wework  
       2020-04-20 18:16:13 +08:00
    @xiaotuzi 那个 Ultimate Web Scraper 它那个主要是比较方便处理 cookies 以及一些转跳
    tikazyq
        6
    tikazyq  
       2020-04-21 16:23:21 +08:00
    很类似 crawlab 的可配置爬虫
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4176 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 09:26 · PVG 17:26 · LAX 02:26 · JFK 05:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.