V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zorlan
V2EX  ›  程序员

开源的 PHP 爬虫系统,可视化的采集器,蓝天采集器

  •  
  •   zorlan · 2018-05-04 10:59:11 +08:00 · 8229 次点击
    这是一个创建于 2394 天前的主题,其中的信息可能已经有所发展或是发生改变。

    php+mysql 开发的数据采集发布系统

    支持 php5.3~php7

    支持多级、多页、分页抓取

    支持正则、xpath、json 匹配内容

    可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等

    实现定时定量全自动采集发布

    界面自适应宽度,手机也可以操作采集

    开源地址: https://github.com/zorlan/skycaiji

    第 1 条附言  ·  2018-05-06 14:30:51 +08:00
    此程序虽然开源但是代码经过 php_strip_whitespace 处理,下载下来 ctrl+i 还是可以看的
    33 条回复    2018-05-12 20:38:01 +08:00
    eluotao
        1
    eluotao  
       2018-05-04 11:09:02 +08:00
    支持一下...感谢你的开源分享.
    zorlan
        2
    zorlan  
    OP
       2018-05-04 11:16:38 +08:00
    @eluotao 谢谢支持哈!
    martyartrt1
        3
    martyartrt1  
       2018-05-04 11:43:46 +08:00
    支持 Js 解析么
    183387594
        4
    183387594  
       2018-05-04 11:48:30 +08:00
    共享采集规则这个也不错
    zorlan
        5
    zorlan  
    OP
       2018-05-04 12:24:28 +08:00
    @martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
    zorlan
        6
    zorlan  
    OP
       2018-05-04 12:25:00 +08:00
    @183387594 谢谢支持!还可以把规则保存到本地的
    LevineChen
        7
    LevineChen  
       2018-05-04 12:28:34 +08:00 via iPhone
    @zorlan php v8js 了解一下
    zorlan
        8
    zorlan  
    OP
       2018-05-04 12:31:02 +08:00
    @LevineChen 好东西,研究一下!
    mf2019d
        9
    mf2019d  
       2018-05-04 12:39:08 +08:00 via iPhone
    好好。
    gouchaoer
        10
    gouchaoer  
       2018-05-04 12:55:19 +08:00
    说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
    siknet
        11
    siknet  
       2018-05-04 13:54:21 +08:00
    挂上服务器试试
    LeungJZ
        12
    LeungJZ  
       2018-05-04 14:06:55 +08:00
    支持。
    Nott
        13
    Nott  
       2018-05-04 14:27:46 +08:00
    赞,PHP 版火车头
    gouchaoer
        14
    gouchaoer  
       2018-05-04 14:36:43 +08:00
    源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
    xjroot
        15
    xjroot  
       2018-05-04 15:08:25 +08:00
    phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
    aiseo
        16
    aiseo  
       2018-05-04 15:36:31 +08:00
    这个怎么感觉就是 php 版火车头呢
    zorlan
        17
    zorlan  
    OP
       2018-05-04 16:10:40 +08:00
    @gouchaoer 额,代码写的烂,不好意思让你们看
    zorlan
        18
    zorlan  
    OP
       2018-05-04 16:11:07 +08:00
    @aiseo 站在巨人的肩膀上
    akira
        19
    akira  
       2018-05-04 16:34:49 +08:00
    @zorlan 那不就是更应该让大家来帮忙改么
    nosay
        20
    nosay  
       2018-05-04 17:08:13 +08:00
    赞,就是 tp 版本低了点,可能是一个不稳定的因素。
    zorlan
        21
    zorlan  
    OP
       2018-05-04 19:18:14 +08:00
    @nosay tp3.2 暂时还是很稳定的,tp5 更新太频繁,等稳定了会考虑升级
    VgV
        22
    VgV  
       2018-05-05 00:24:32 +08:00
    @zorlan 这换行去掉了,开放开源思想不坚定啊。
    xttttt
        23
    xttttt  
       2018-05-05 02:16:41 +08:00
    为什么汉化只有一半看着好蛋疼
    zorlan
        24
    zorlan  
    OP
       2018-05-05 09:29:29 +08:00
    @VgV 行业竞争激烈,你懂的~
    zorlan
        25
    zorlan  
    OP
       2018-05-05 09:30:34 +08:00
    @xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢!
    files
        26
    files  
       2018-05-05 10:06:58 +08:00
    去掉换行符不让别人修改,这也叫开源?
    zorlan
        27
    zorlan  
    OP
       2018-05-05 10:35:31 +08:00
    @files 呵呵,难道不知道有个功能叫 ctrl+a ctrl+i 吗?再说了这个软件重要的是功能,你改源码干嘛?
    zorlan
        28
    zorlan  
    OP
       2018-05-05 10:47:54 +08:00
    @akira 谢谢支持,有专门技术人员维护的,大家只要反馈 bug 就可以的
    zorlan
        29
    zorlan  
    OP
       2018-05-06 08:20:54 +08:00
    哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4
    hxy100
        30
    hxy100  
       2018-05-06 14:00:10 +08:00
    @zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好!
    zorlan
        31
    zorlan  
    OP
       2018-05-06 14:29:37 +08:00
    @hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了?
    mmd1989
        32
    mmd1989  
       2018-05-10 14:24:21 +08:00
    xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢
    eluotao
        33
    eluotao  
       2018-05-12 20:38:01 +08:00
    @zorlan 我有一个网站 无法采集呢.请问如何解决?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2854 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 02:53 · PVG 10:53 · LAX 18:53 · JFK 21:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.