V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
easychen
V2EX  ›  分享创造

CatGate - 简单粗暴的浏览器爬虫框架

  •  
  •   easychen ·
    easychen · 2017-06-28 11:20:21 +08:00 · 4870 次点击
    这是一个创建于 2694 天前的主题,其中的信息可能已经有所发展或是发生改变。

    CatGate

    CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。

    演示视频

    http://weibo.com/1088413295/F9P1izhY2

    功能

    • ① CatGate 会访问这个 URL,这个 URL 应该返回一个 Json 格式的数组,每一个元素一个字符串(即网址)。点 ② 按钮即可载入数据,并可按 ③ 进行查看,会自动排重。

    • ⑤ CatGate 抓取到数据后,会直接 POST 给这个 URL,key 为 content , 通过 $_REQUEST['content'] 即可获取抓取内容。

    • ⑥ 默认一秒抓取一次,如果抓取失败太多,可以增加秒数。

    • ④ 这是一个高级用法,就是 ① 这个 URL 可以不停的新增 URL,CatGate 会自动每隔一秒(可设置)去抓取并合并进来。

    Demo

    进入 php 目录,运行 php -S localhost:8000 即可测试。

    • list.php 这个页面生成了要抓取的页面列表,默认是微博收藏的页面。
    • save.php 这个页面定义了如何处置抓到的数据,默认是保持成为文件。

    安装插件

    如果你不想或不能在 Chrome 商店安装插件,可手工安装。

    chrome > extentsion > load unpacked extension > ./ext

    License

    CC,保留签名、非商用。

    第 1 条附言  ·  2017-06-28 19:50:37 +08:00
    4 条回复    2017-08-16 08:58:52 +08:00
    demov2
        1
    demov2  
       2017-06-28 14:59:01 +08:00
    说个小点...

    之前也写了专门抓收藏的~ 那个 URL 里的 containerid = 230259 + uid ...

    感谢分享~
    wjm2038
        2
    wjm2038  
       2017-06-28 15:15:39 +08:00 via Android
    。。。链接?
    downsky
        3
    downsky  
       2017-06-28 15:34:55 +08:00
    终于看到有插件形式的抓取了。是不是有鼠标手势触发,用于抓取固定位置的数据?
    zonzin
        4
    zonzin  
       2017-08-16 08:58:52 +08:00
    视屏能清楚一点的吗?不知道怎么用?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1054 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:59 · PVG 03:59 · LAX 11:59 · JFK 14:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.