AI 本地化部署的方式

AI

本地化部署

ollama

42 条回复 • 2025-09-28 23:11:06 +08:00

1

byby

37 天前

都半斤八兩，最後都要老老實實上 api

2

songyoucai

37 天前

超微 7049 128g 内存 2080ti22g * 2 pve+Ubuntu + vllm 部署了千问 30b

3

SGL

37 天前

本地化部署的是不是都是“弱智”AI ，有实际应用价值不

4

MIUIOS

37 天前

多少 B 的？本地部署大语言模型纯降智成智障，还不如接 api 真的，花点钱还省了多少电费

5

davidyin

36 天前 via Android

在 16G 内存的 i5 6500 上跑过十几 b 的模型，反应速度还行。

6

visper

36 天前

本地就 ollama 玩玩就行了啊。又或者 xinference 之类的可以部署其他格式的模型。

7

usVexMownCzar

36 天前 via iPhone

本地聊天的那种没意思。

生成图片视频的还不错，但是对设备的要求太高

8

justtokankan

36 天前

用来做量化交易用应该不错吧

9

sdwgyzyxy

36 天前

cnb 每个月可以白嫖 1600 核时，h20 的 gpu ，可以跑 gpt-oss:120b ，挺好的

10

wenkgin

OP

36 天前

@byby 很多场景还是需要本地化的（涉密信息、能完全控制 api 的方式以后停用、收费），设备不用担心有需要就肯定有钱买，主要是看 ai 模型的效果如何

11

wenkgin

OP

36 天前

@visper 我现在玩的就是 ollama 感觉可用性太低了，我电脑性能也不太行

12

wenkgin

OP

36 天前

@davidyin 也是用的 ollama 吗

13

wenkgin

OP

36 天前

@totoro52 qwen3:4b ，测试用的我只是验证可行性

14

youtubbbbb

36 天前

本地部署的意义是什么？即使你有隐私的考虑，租服务器也好很多

15

wenkgin

OP

36 天前

@youtubbbbb 有些涉密内容的知识库或者公司内部的一些东西，不能公开的

16

silomrelephant

36 天前

8b 可以稳定工具调用了，20b oss 能用用。硬件可以考虑 ai pc ，32g 统一大内存足够，2/4 通道板载内存速度够用。

17

wenkgin

OP

36 天前

@silomrelephant 我这够吗？
<img src="https://i.mji.rip/2025/09/12/876a350e56245a7659d2ca98b33874d8.png" alt="876a350e56245a7659d2ca98b33874d8.png" border="0">

18

wenkgin

OP

36 天前

@silomrelephant 搞了半天这个应该能是图片了吧
https://imgur.com/a/aX4bsr3

19

wenkgin

OP

36 天前

[Imgur]( https://imgur.com/wXEtddV)

20

wenkgin

OP

36 天前

![Imgur]( https://imgur.com/wXEtddV)

21

wenkgin

OP

36 天前

![test]( https://imgur.com/wXEtddV.png)

22

silomrelephant

36 天前 via Android

@wenkgin cpu 应该问题不大，没研究过这个 r9 ，目前主要瓶颈看内存速度，成品机 ai pc 板载 ddr5 多通道的，一般比自己组的速度高很多，自己找大模型算一下 token 每秒多少

23

8o8

36 天前

本地部署性能有点跟不上，我在本地跑的 15b phi4 用来进行编程，感觉上下文长度限制很大，经常写着写着就忘了要干什么，总之很不好用。如果有哪位大佬本地调好了请指点一下。
在三个配置上都试了：
1.台式机，14900K+256GB 内存，使用 cpu 跑
2.笔记本电脑，14900K+64G 内存+4070
3.服务器，至强 6138*2+512G 内存+3080-12GB*4

24

songyoucai

36 天前

@8o8 #23 我们可以交流交流我现在编程部署的 30b 感觉够用

25

YsHaNg

36 天前 via iPhone

@8o8 都有第三个平台了为什么跑 phi4 这么上古的模型还是个 14b 的

26

YsHaNg

36 天前 via iPhone

@8o8 都有第三个平台了为什么跑 phi4 这么上古的模型还是个 14b 的按说这能跑 qwen3-coder:480b

27

davidyin

36 天前 via Android

@wenkgin
是的

28

wtks1

36 天前

有没有那种本地部署，家用 pc 也能带的动的翻译模型？

29

iorilu

36 天前

说实话, 本地部署唯一有点用的就是翻译

翻译说实话确实不需要太大模型, 8b 就行了

其他的还是算了, 真想干点活, 还得上 api, 除非你有能力部署那种满血 deepseek, 那是另一回事

30

busier

36 天前 via iPhone

lm studio 操作界面友好些

31

slowgen

35 天前

@wenkgin 内存小小，带宽小小，只能找 [激活参数 < 5B] 的模型的 4bit 量化了。

Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩，里面的 A3B 的意思就是激活的参数只有 3B ，4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右（单人勉强用），像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。

其实本地模型现在已经很能打了，从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流，可惜国内一直没怎么跟，直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型，今年出的模型都是 MoE 为主的了。

而且模型越大提升的能力分数并不是线性增加的，关注现在的模型跑分就能得出结论，就像前几天的 Qwen3-Max-Preview ，1000B 的参数，比自家 Qwen3-235B-A22B-2507 多了 765B ，这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了，然而性能提升连 10%都没有，所以现在选模型有点像玩游戏选个甜品卡那样，根据你的任务难度和硬件选一个合适的模型（你的任务里跑分高的）就行了。

你这个硬件看起来像是个笔记本带个小显存的 N 卡，模型从上面 A3B 里挑一个，部署方案首选 https://github.com/kvcache-ai/ktransformers （合理分配好模型活跃的专家到 GPU 跑得快点），次选 LM Studio 这种傻瓜式部署方案

32

youtubbbbb

35 天前

@wenkgin 这种情况下用私有云的集成方案就好了，没必要自己手搓，ai infra 的成本还是挺高的。

33

mewking

33 天前

@shuimugan ktransformers （合理分配好模型活跃的专家到 GPU 跑得快点）

请问，这个项目的加成能有多少？我找不到相关（目标硬件和模型）性能测试

假定是家用平台：DDR5 6400 256G RAM ，A770 16G * 2

内存带宽 102GB/s ，单卡显存带宽 560GB/s,这两张卡的带宽能叠加吗？能把上下文和激活专家平均放在两张卡上，相当于 1120GB/s 带宽？

Qwen3 235B ，int8 ，激活参数 22GB ，加上下文，应该能放在 32G 显存里？假定不发生专家交换，也无法叠加显存带宽，这时理论速度应该有 560/22=25.5 token/s ，跑 Q4 量化就有 50t/s 。可一旦发生专家交换就崩了吧，掉到 4-5t/s ？

我是想知道这套硬件跑 235b 实际平均速度到底会怎样，Intel 那个 ipex llm 项目，有人问测试分数，开发人员回应说保密……保密…………Intel 咋还没倒闭

34

mewking

33 天前

@shuimugan 好吧，刚才 ipex llm 项目下面看到一个 4 张 a770 ，Q3 量化的 235b ，只有 2.99 t/s ，这是哪里没搞对吧，GPU 显存 64G ，完全没利用到

35

slowgen

33 天前

@mewking 22B 的 Q8 量化加上 KV Cache ，32G 显存还真不一定放得下，你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了，一般是计算分层，Q4 量化推理速度都不一定能到 30 ，我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子，这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在，和 235B 的百分比差距很小了

36

mewking

32 天前

@shuimugan 这个链接我是看了，所以说 Intel 活该卖大楼，一个 demo gif ，分辨率低的看不清，也不公布具体配置，还说测试数据需要审计不能公布。那个 demo 可能用了志强，8 或者 12 通道，再来个 amx 加速，桌面级 cpu 和 ddr5 双通道比不了

如果跑 Qwen3-Next-80B-A3B int8 ，是不是单单 96G DDR5 6400 就够了，不用 256G 和独立显卡吧？

102/3 = 34 tokens/s

如果 Q6 量化更快，还能留出更多内存给上下文？

我还没买硬件呢，不然就自己实测了。现在 a770 价格比三年前还高，b770 也马上来了，可能还有铭瑄那个 B60 ，ddr5 价格也涨了不少。如果 80b 和 235b 差距不大，那省不少钱呀

37

slowgen

32 天前

1

@mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ，单 96G DDR5 6400 确实够了，但是这个系列分推理和非推理模型，我日常是 2 个模型都会常驻的，如果你也像我一样操作那 96G 内存就不太够。

但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分，会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

这些跑分提升不到 10%是什么概念？我最近用这些模型来测编程能力，发现了一个很有趣的现象，理论上大模型现在写 python 、javascript 能力最好，但是 golang 因为关键字就 25 个，特性也少足够简陋，所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小，准确度超级高

38

mewking

32 天前

@shuimugan 所以，就是尽量拆解问题，尽可能缩小和封闭空间（相当于减少关键字），想错都难，但这样也就跟写伪代码差不多了，模型差不多就是补全一下。ruby 那种花样繁多的可能容易 gg

39

slowgen

32 天前 via Android

1

@mewking 也不能说写伪代码，正常提需求是可以的，举个例子
https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的，还开了推理

几乎没差别，但是你把问题换成其它编程语言看看？
https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

这里一下用 3 个模型同时回答，只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ，写出来的代码能跑，但是也有 2 个语法问题：finally 代码块里的变量作用域不对。

40

kpprotector

21 天前

Moe 模型把专家参数 offload 到内存，共享部分在 GPU 运算，这样选择就多很多了。

41

ragnarok19

20 天前 via Android

Amd7h12+3090*2+8*128 ktransforms 满血版 r1 很慢，现在 llama.cpp 双卡跑 seed-oss-32b

42

ragnarok19

20 天前 via Android

有没有交流群，想学习下