V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
BrightLiao
V2EX  ›  程序员

敏捷数据工程实践--以 ETL 为单位的 CI 和 CD

  •  
  •   BrightLiao ·
    gmlove · 2023-05-17 11:08:29 +08:00 · 795 次点击
    这是一个创建于 555 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在数据项目中,对于持续集成流水线的构建,如果采用应用软件的大包发布方式构建,则部署频率较低,且容易引起安全问题。

    可能带来的问题有:

    • 以 e2e 测试为主的测试用例,运行缓慢,导致流水线运行时间特别长
    • 一次性更新大规模的 ETL ,容易混入一些预期之外的更新
    • 离线的 ETL 任务不会立即反映问题,待运行时发现问题已经很晚了

    联想到最近了解到的进口贸易业务问题,我发现可以借鉴其业务的抽取和拆分的模式,将持续集成流水线拆分为以 ETL 为单位的流水线。或许可以更好的解决上述问题。

    进口贸易业务模式

    阅读全文,请点击这里

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2522 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 01:33 · PVG 09:33 · LAX 17:33 · JFK 20:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.