V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
crac
V2EX  ›  Local LLM

ubuntu + 双 N 卡 本地部署 DS-R1,性能优化请教

  •  
  •   crac · 4 天前 · 610 次点击

    ubuntu + 双 A6000 + R1-q4-70b 模型

    GPU 负载、输出性能 见下图..

    各位大佬有没有什么环境配置的优化建议? 另外换 llama.cpp 会有显著提升吗?

    截图

    6 条回复    2025-04-01 10:00:32 +08:00
    maskerTUI
        1
    maskerTUI  
       4 天前   ❤️ 1
    ollama 本质还是调用 llama.cpp ,想要提升得换后端推理引擎,比如 vLLM 。
    crac
        2
    crac  
    OP
       4 天前
    @maskerTUI 请教一下,根据您的经验,如果换了 vLLM 这种情况下大概能提升多少
    Chihaya0824
        3
    Chihaya0824  
       3 天前   ❤️ 1
    R1-Llama-70B-Distill-Q5KM-GGUF
    VLLM
    单次(类似 ollama )
    Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 28.3 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.4%, CPU KV cache usage: 0.0%.
    双卡并发 (并行 12 个请求)
    Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 98.7 tokens/s, Running: 12 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 2.7%, CPU KV cache usage: 0.0%.
    差不多 3 到 4 倍的样子
    maskerTUI
        4
    maskerTUI  
       3 天前   ❤️ 1
    @crac 实际使用的话,我在公司的相同的硬件上测试 deepseek-r1:32b ,ollama 最多出 30 字/秒,vLLM 最多每秒 60 字/秒。使用上提升很大。
    crac
        5
    crac  
    OP
       3 天前 via iPhone
    @maskerTUI 感谢,我研究一下
    crac
        6
    crac  
    OP
       3 小时 49 分钟前   ❤️ 1
    @Chihaya0824 效果反馈~ 切换 VLLM 后 输出速度直接提升一倍~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5191 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 05:49 · PVG 13:49 · LAX 22:49 · JFK 01:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.