V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhyim
V2EX  ›  Local LLM

8 卡 H100 部署 DeepSeekR1 求助

  •  
  •   zhyim · 38 天前 via iPhone · 1168 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。
    公司要在本地部署 ds ,搞了一台服务器,让我部署一下,内存 DDR5 2T ,显存 640G ,我现在 llamacpp 部署的 q4 量化版,并发设置了 4 ,但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ,我是下载的 gguf 文件
    15 条回复    2025-03-04 16:46:09 +08:00
    dayeye2006199
        1
    dayeye2006199  
       37 天前   ❤️ 1
    sglang
    raycool
        2
    raycool  
       37 天前
    是 404G 大小的模型文件吗?
    这个 8 卡可以部署成功?
    zhyim
        3
    zhyim  
    OP
       37 天前 via iPhone
    @raycool 是的,用 llamacpp 和 ollama 都能成功,就是并发不行
    zhyim
        4
    zhyim  
    OP
       37 天前 via iPhone
    @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf
    JackyTsang
        5
    JackyTsang  
       36 天前
    SGLang 部署。
    haimianbihdata
        6
    haimianbihdata  
       22 天前
    @JackyTsang 这个支持并发怎样
    weiming
        7
    weiming  
       21 天前
    vllm + awq 量化
    zhyim
        8
    zhyim  
    OP
       21 天前
    @weiming awq 推理速度特别慢,只有 6t/s
    weiming
        9
    weiming  
       21 天前
    @zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ
    zhyim
        10
    zhyim  
    OP
       21 天前
    @weiming 能支持多少并发啊,我用的 GPUStack 里面那个 vllm
    volvo007
        11
    volvo007  
       21 天前
    请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下
    zhyim
        12
    zhyim  
    OP
       21 天前
    @volvo007 我不知道啊,我们只负责部署,硬件这块 IT 搞的,是 nvlink 的
    volvo007
        13
    volvo007  
       21 天前
    @zhyim 还是感谢哈,知道是 nvlink 也是很好的线索了
    weiming
        14
    weiming  
       21 天前
    @zhyim vllm 0.7.2 awq
    Parallel request Token per second ( Total ) Token per second(per request)
    1 30 30
    10 81 10
    30 144 6.2
    50 180 5
    weiming
        15
    weiming  
       21 天前
    4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1025 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 21:07 · PVG 05:07 · LAX 14:07 · JFK 17:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.