V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lovepim
V2EX  ›  问与答

几亿条的 csv 格式数据怎么快速导入 elasticsearch?

  •  
  •   lovepim · 2017-03-24 01:04:01 +08:00 · 6241 次点击
    这是一个创建于 2613 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前在 V2EX 上问了一个关于 elasticsearch 的问题,得到了大家的热情帮助,真是很感动!

    最近又遇到一个问题,就是有几亿条的 csv 格式数据(分成了几十个 csv 文件,每个文件有几个字段,用逗号隔开的),想快速的把这些数据导入到 elasticsearch 。之前用的是 logstash ,但是感觉太慢了,每秒也就几百个,估计跟机器性能有关。

    针对这种的问题,请问大家有没有更快的导入办法?具体怎么操作呢?
    klxq15
        1
    klxq15  
       2017-03-24 06:52:02 +08:00 via Android
    用 python 写个 bulk insert
    findex
        2
    findex  
       2017-03-24 08:18:07 +08:00 via iPhone
    给你看看一个好工具 github.com xros jsonpyes 你可能需要把 csv 手动转换成 json 格式,方可分块多线程导入。
    lovepim
        3
    lovepim  
    OP
       2017-03-24 16:08:01 +08:00
    @findex 我试了一下,这种转换没有找到好的工具。。。不知道你有推荐的吗?
    findex
        4
    findex  
       2017-03-24 21:38:51 +08:00
    @lovepim 这就需要你自己写了。你可以写个动态的脚本转换器,然后导入进去。根据自己的需求
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1087 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:43 · PVG 02:43 · LAX 11:43 · JFK 14:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.