模型部署的姿势

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 297 天前的主题，其中的信息可能已经有所发展或是发生改变。

小白想问问现在的模型一般都是怎么部署的？直接用 python 的框架部署上去吗？还是导出给 c++部署？看到好像 onnx 部署的文章好像很稀少，大伙都是直接用 python 部署的吗？

部署

Python

onnx

9 条回复 • 2025-01-06 15:44:29 +08:00

Hans999632

296 天前

我是用 vllms ，或者 ollama ，不过 ollama 慢，实在不行直接用本地模型

anivie

296 天前

@Hans999632 本地模型？这不都是本地的吗

qiniu2025

296 天前

用 flashai.com.cn 下载整合包,win 或者 mac 无需任何安装配置,下载解压运行,开箱即用, 内置聊天+知识库+翻译应用

anivie

296 天前

@qiniu2025 我不是在问怎么用大模型，是在问怎么部署这些大模型

qiniu2025

296 天前

@anivie 你要在哪里部署?PC 端还是服务器,并发不重要就无脑上 ollama

neteroster

296 天前

个人简单用用 llama.cpp 就行，要生产环境或者有高并发 / 高性能要求的推荐 sglang ，会比 vllm 快。

kiritoxkiriko

PRO

296 天前

生产级别的主流开源推理框架有 tgi vllm sglang tensorrt-llm lmdeploy ，这些框架都支持直接启动 openai compatible 的 http server ，后面可以接 rag 或者那种 chatbot gui 来调 api ，性能和兼容性略有不同
vllm 支持的模型应该是最多，trt-llm/sglang 性能更好
自己部署着玩可以用 ollama

anivie

296 天前

@wxm1997 谢谢大佬，想问问非 llm 的模型怎么部署呢，cs 或者 cv 类的任务有什么部署方式吗

kiritoxkiriko

PRO

292 天前

@anivie #8 可以看下 bentoml ，这个项目允许你在现有的推理代码上简单包一层就可以部署生产级别的服务