V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
daxin945
V2EX  ›  问与答

数据方向大佬请留步,有一事请教~

  •  
  •   daxin945 · 2021-03-21 20:09:38 +08:00 · 1161 次点击
    这是一个创建于 1125 天前的主题,其中的信息可能已经有所发展或是发生改变。

    基本情况: 1. 数据量 TB 级 数据基于 HTTP 协议、KAFKA 、日志文件等方式进行传输(暂不考虑直接从数据库等存储中抽取数据的情况) 2. 数据格式可能是 Json 、syslog 、xml 、有固定格式的文本日志如 Nginx 日志 3. 编程语言 Python(能力所限,大佬勿喷,可拓展), 中间件是开源就行 需求: 1. 可以通过编写配置文件的方式,对异构数据进行采集及格式的统一化。 2. 对上一条的补充说明,实际工作中需要对接的设备会比较多,并会在未来的时间里对接很多的不同种类的设备。所以现在希望写一套能减轻这部分工作成本的代码 /系统。

    跪求思路,请大佬们不吝赐教 祝身体健康,工作顺利!

    4 条回复    2021-03-22 08:56:25 +08:00
    ursash
        1
    ursash  
       2021-03-21 21:26:18 +08:00
    datax,flinkx,nifi ?
    zagfai
        2
    zagfai  
       2021-03-22 00:13:20 +08:00
    TB 算啥量级。。。随便来个 txt 都能完事
    whenov
        3
    whenov  
       2021-03-22 00:22:25 +08:00 via Android
    对于配置文件的规范,以及统一化的格式,要记得做版本控制
    c6h6benzene
        4
    c6h6benzene  
       2021-03-22 08:56:25 +08:00
    听起来就是个 ETL 的过程……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1003 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:30 · PVG 03:30 · LAX 12:30 · JFK 15:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.