V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
heywin
V2EX  ›  程序员

7 万多条的 json 如何储存检索

  •  
  •   heywin · 2018-12-15 23:07:09 +08:00 · 3066 次点击
    这是一个创建于 2173 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大概有 700 多个字段吧,总共 70000 多条。有什么好方法能存储及高效检索,以及数据可视化呢。 试过 Mysql, bigquery 好像都不怎么行。 谢谢

    tedd
        1
    tedd  
       2018-12-15 23:08:50 +08:00
    上 Elastic search ?
    tedd
        2
    tedd  
       2018-12-15 23:09:25 +08:00
    可视化 Elastic 全家福也能搞定
    lhx2008
        3
    lhx2008  
       2018-12-15 23:12:09 +08:00 via Android
    这么少直接导进去 mongo 就好了
    Vegetable
        4
    Vegetable  
       2018-12-15 23:13:15 +08:00
    json 如果是固定格式的,MySQL 不会不行吧
    嵌套的多就 MongoDB 咯,检索效率有保证,但是比较底层需要做的工作比较多.
    可视化就是另一个问题了,和储存关系不大,不评论啦
    jiezhi
        5
    jiezhi  
       2018-12-15 23:17:46 +08:00
    solr?
    liprais
        6
    liprais  
       2018-12-15 23:19:20 +08:00
    spark 处理一遍丢进 mysql,7 万多条很轻松的
    heywin
        7
    heywin  
    OP
       2018-12-15 23:36:24 +08:00
    @liprais 多谢,我也想过,太懒了。实在不行就用 PySpark 先搞一下。
    jimchen9999
        8
    jimchen9999  
       2018-12-15 23:42:22 +08:00   ❤️ 1
    7 万数据就用 spark 你还不如用 Bash
    heywin
        9
    heywin  
    OP
       2018-12-15 23:51:22 +08:00
    @jimchen9999 文件有 500 多 M,还是有点费劲。
    congeec
        10
    congeec  
       2018-12-15 23:54:49 +08:00
    700 多个字段是什么意思?
    heywin
        11
    heywin  
    OP
       2018-12-15 23:58:57 +08:00
    @congeec 不知道 json 黑话怎么说,键值对。
    sagaxu
        12
    sagaxu  
       2018-12-16 00:06:56 +08:00 via Android
    nuance2ex
        13
    nuance2ex  
       2018-12-16 00:16:41 +08:00 via iPhone   ❤️ 1
    70000 多条用 pandas 就可以了

    pd.read_json 秒秒钟转好格式,
    再直接调用 plt 调好参数函数可视化。

    最后,
    如果只是自用,可以调用 to_csv 保存
    如果想持久话,用 to_sql
    koodai
        14
    koodai  
       2018-12-16 00:24:07 +08:00 via iPhone
    @nuance2ex 你电脑啥配置呀?
    500M 加载起来有点费劲的
    heywin
        15
    heywin  
    OP
       2018-12-16 00:28:21 +08:00
    @nuance2ex 这个好!!!简单
    谢谢
    zchlwj
        16
    zchlwj  
       2018-12-16 01:02:28 +08:00 via Android
    直接 mongo 啊
    jimchen9999
        17
    jimchen9999  
       2018-12-16 04:12:34 +08:00
    500m 用 spark? spark 最起码都是 tb 起步吧
    missdeer
        18
    missdeer  
       2018-12-16 08:12:35 +08:00
    mongodb?
    sqlite3 也有 json 相关 api 了
    还有个 unqlite 好像也有
    imNull
        19
    imNull  
       2018-12-16 09:00:35 +08:00 via Android
    临时用的话,我一般都是直接 bash 跑下拿出需要的数据。
    不少新点子,mark
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5385 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 09:23 · PVG 17:23 · LAX 01:23 · JFK 04:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.