V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhuwd
V2EX  ›  NVIDIA

NVLink 对显卡集群的影响有多大?

  •  
  •   zhuwd · 38 天前 · 3087 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
    组了 8 台 NVIDIA A100-PCIE-40GB ,用 Ollama 跑了 Deepseek 的 70B 版本,理论上性能是足够的,但是思考时间特别长,显存的占用率也不是很高,功率甚至连五分之一都没达到,不知道问题出在什么地方
    19 条回复    2025-02-17 20:46:39 +08:00
    neteroster
        1
    neteroster  
       38 天前 via Android   ❤️ 1
    1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
    2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
    zhuwd
        2
    zhuwd  
    OP
       38 天前
    @neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
    hertzry
        3
    hertzry  
       38 天前 via iPhone
    NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
    TimeNewRome
        4
    TimeNewRome  
       38 天前
    deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。

    所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。

    PCIE 通道数有上限,会严重拖慢 IO 速度。
    liuyuncai
        5
    liuyuncai  
       38 天前
    被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
    cpstar
        6
    cpstar  
       38 天前
    谁给的勇气判定“理论上性能是足够的”?
    这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。
    然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。
    zhuwd
        7
    zhuwd  
    OP
       38 天前
    @cpstar 目前 8 张卡在一台机器上,总显存 320G ,部署 70B 版本的应该够了吧,只不过 8 张卡是 PCIe 版的
    scys
        8
    scys  
       38 天前
    看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。
    apuslilie
        9
    apuslilie  
       38 天前
    好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。

    个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。

    一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。
    iorilu
        10
    iorilu  
       38 天前
    70b? 为什么要这么多卡
    wuyadaxian
        11
    wuyadaxian  
       38 天前   ❤️ 1
    https://post.smzdm.com/p/a96e6rg5/
    早上刚看了这个。
    reeco
        12
    reeco  
       38 天前   ❤️ 1
    生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的
    secondwtq
        13
    secondwtq  
       38 天前
    你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。
    secondwtq
        14
    secondwtq  
       38 天前
    70B 的话试试用四块跑,卡越多通信开销越大。
    kernelpanic
        15
    kernelpanic  
       38 天前
    deepseek 只有一个 671B 版本
    eternitym31
        16
    eternitym31  
       38 天前
    我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。
    carmark
        17
    carmark  
       38 天前
    8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。
    lkc3093
        18
    lkc3093  
       37 天前 via Android
    sxm 版本的才能用 nvlink
    mengban
        19
    mengban  
       36 天前
    70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远 真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:36 · PVG 05:36 · LAX 14:36 · JFK 17:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.