V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nakroy
V2EX  ›  Kubernetes

针对 AI 场景的分布式存储

  •  
  •   nakroy · 25 天前 · 882 次点击

    大模型一般是在集群场景进行分布式训练和推理,那么对于大模型这种动辄几十几百 G (如果训练,还要考虑数据集可能也是 T 级别),分布式存储有比较好的方案吗(读写性能、网络带宽等)?

    比如多个 GPU 节点同时从存储节点读取和加载模型权重,对存储节点的读写性能要求应该非常高,想知道集群场景下有没有针对 AI 的分布式存储系统

    2 条回复    2024-10-26 11:05:36 +08:00
    wyxustcsa09
        1
    wyxustcsa09  
       25 天前
    cybort
        2
    cybort  
       25 天前 via Android
    其实没必要同时加载,一个读了发给其他人就行,走网线
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4684 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 05:37 · PVG 13:37 · LAX 21:37 · JFK 00:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.