V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wenkgin
V2EX  ›  Local LLM

AI 本地化部署的方式

  •  
  •   wenkgin · 10 天前 · 2702 次点击

    最近在尝试本地化部署 AI ,用了 ollama+dify ,只是简单的试用了下,感觉还行,能完全在离线环境安装使用。

    想问问老哥们的方式有哪些,我都想试试对比一下

    39 条回复    2025-09-16 20:01:10 +08:00
    byby
        1
    byby  
       10 天前
    都半斤八兩,最後都要老老實實上 api
    songyoucai
        2
    songyoucai  
       10 天前
    超微 7049 128g 内存 2080ti22g * 2 pve+Ubuntu + vllm 部署了 千问 30b
    SGL
        3
    SGL  
       10 天前
    本地化部署的是不是都是“弱智”AI ,有实际应用价值不
    MIUIOS
        4
    MIUIOS  
       10 天前
    多少 B 的? 本地部署大语言模型纯降智成智障,还不如接 api 真的,花点钱还省了多少电费
    davidyin
        5
    davidyin  
       10 天前 via Android
    在 16G 内存的 i5 6500 上跑过 十几 b 的模型,反应速度还行。
    visper
        6
    visper  
       10 天前
    本地就 ollama 玩玩就行了啊。又或者 xinference 之类的可以部署其他格式的模型。
    chiaf
        7
    chiaf  
       10 天前 via iPhone
    本地聊天的那种没意思。

    生成图片视频的还不错,但是对设备的要求太高
    justtokankan
        8
    justtokankan  
       10 天前
    用来做量化交易用应该不错吧
    sdwgyzyxy
        9
    sdwgyzyxy  
       10 天前
    cnb 每个月可以白嫖 1600 核时,h20 的 gpu ,可以跑 gpt-oss:120b ,挺好的
    wenkgin
        10
    wenkgin  
    OP
       10 天前
    @byby 很多场景还是需要本地化的(涉密信息、能完全控制 api 的方式以后停用、收费),设备不用担心有需要就肯定有钱买,主要是看 ai 模型的效果如何
    wenkgin
        11
    wenkgin  
    OP
       10 天前
    @visper 我现在玩的就是 ollama 感觉可用性太低了,我电脑性能也不太行
    wenkgin
        12
    wenkgin  
    OP
       10 天前
    @davidyin 也是用的 ollama 吗
    wenkgin
        13
    wenkgin  
    OP
       10 天前
    @totoro52 qwen3:4b ,测试用的 我只是验证可行性
    youtubbbbb
        14
    youtubbbbb  
       10 天前
    本地部署的意义是什么?即使你有隐私的考虑,租服务器也好很多
    wenkgin
        15
    wenkgin  
    OP
       10 天前
    @youtubbbbb 有些涉密内容的知识库或者公司内部的一些东西,不能公开的
    silomrelephant
        16
    silomrelephant  
       10 天前
    8b 可以稳定工具调用了,20b oss 能用用。硬件可以考虑 ai pc ,32g 统一大内存足够,2/4 通道板载内存速度够用。
    wenkgin
        17
    wenkgin  
    OP
       10 天前
    @silomrelephant 我这够吗?
    <img src="https://i.mji.rip/2025/09/12/876a350e56245a7659d2ca98b33874d8.png" alt="876a350e56245a7659d2ca98b33874d8.png" border="0">
    wenkgin
        18
    wenkgin  
    OP
       10 天前
    @silomrelephant 搞了半天这个应该能是图片了吧
    https://imgur.com/a/aX4bsr3
    wenkgin
        19
    wenkgin  
    OP
       10 天前
    wenkgin
        20
    wenkgin  
    OP
       10 天前
    wenkgin
        21
    wenkgin  
    OP
       10 天前
    silomrelephant
        22
    silomrelephant  
       10 天前 via Android
    @wenkgin cpu 应该问题不大,没研究过这个 r9 ,目前主要瓶颈看内存速度,成品机 ai pc 板载 ddr5 多通道的,一般比自己组的速度高很多,自己找大模型算一下 token 每秒多少
    8o8
        23
    8o8  
       10 天前
    本地部署性能有点跟不上,我在本地跑的 15b phi4 用来进行编程,感觉上下文长度限制很大,经常写着写着就忘了要干什么,总之很不好用。如果有哪位大佬本地调好了请指点一下。
    在三个配置上都试了:
    1.台式机,14900K+256GB 内存,使用 cpu 跑
    2.笔记本电脑,14900K+64G 内存+4070
    3.服务器,至强 6138*2+512G 内存+3080-12GB*4
    songyoucai
        24
    songyoucai  
       10 天前
    @8o8 #23 我们可以交流交流 我现在编程 部署的 30b 感觉够用
    YsHaNg
        25
    YsHaNg  
       10 天前 via iPhone
    @8o8 都有第三个平台了为什么跑 phi4 这么上古的模型 还是个 14b 的
    YsHaNg
        26
    YsHaNg  
       10 天前 via iPhone
    @8o8 都有第三个平台了为什么跑 phi4 这么上古的模型 还是个 14b 的 按说这能跑 qwen3-coder:480b
    davidyin
        27
    davidyin  
       10 天前 via Android
    @wenkgin
    是的
    wtks1
        28
    wtks1  
       10 天前
    有没有那种本地部署,家用 pc 也能带的动的翻译模型?
    iorilu
        29
    iorilu  
       10 天前
    说实话, 本地部署唯一有点用的就是翻译

    翻译说实话确实不需要太大模型, 8b 就行了

    其他的还是算了, 真想干点活, 还得上 api, 除非你有能力部署那种满血 deepseek, 那是另一回事
    busier
        30
    busier  
       10 天前 via iPhone
    lm studio 操作界面友好些
    slowgen
        31
    slowgen  
       9 天前
    @wenkgin 内存小小,带宽小小,只能找 [激活参数 < 5B] 的模型的 4bit 量化了。

    Qwen3-Next-80B-A3B 系列、Qwen3-30B-A3B-2507 系列、ERNIE-4.5-21B-A3B-Thinking 、SmallThinker-21BA3B-Instruct 这些都能在低配置玩,里面的 A3B 的意思就是激活的参数只有 3B ,4bit 量化后 DDR4-3200 双通道的带宽 50GB/s 左右也能跑个 15token/s 左右(单人勉强用),像锐龙 AI Max+ 395 的 256GB/s 的内存带宽就能跑个 55token/s 左右。

    其实本地模型现在已经很能打了,从 Mixtral-8x7B 开始打 ChatGPT3.5 的时候 MoE 架构模型应该成为主流,可惜国内一直没怎么跟,直到 DeepSeek V2.5 V3 R1 这些出来国内才跟进大搞 MoE 模型,今年出的模型都是 MoE 为主的了。

    而且模型越大提升的能力分数并不是线性增加的,关注现在的模型跑分就能得出结论,就像前几天的 Qwen3-Max-Preview ,1000B 的参数,比自家 Qwen3-235B-A22B-2507 多了 765B ,这个差距差不多能塞一个 DeepSeek + gpt-oss-120b 了,然而性能提升连 10%都没有,所以现在选模型有点像玩游戏选个甜品卡那样,根据你的任务难度和硬件选一个合适的模型(你的任务里跑分高的)就行了。

    你这个硬件看起来像是个笔记本带个小显存的 N 卡,模型从上面 A3B 里挑一个,部署方案首选 https://github.com/kvcache-ai/ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点),次选 LM Studio 这种傻瓜式部署方案
    youtubbbbb
        32
    youtubbbbb  
       9 天前
    @wenkgin 这种情况下用私有云的集成方案就好了,没必要自己手搓,ai infra 的成本还是挺高的。
    mewking
        33
    mewking  
       7 天前
    @shuimugan ktransformers (合理分配好模型活跃的专家到 GPU 跑得快点)

    请问,这个项目的加成能有多少?我找不到相关(目标硬件和模型)性能测试

    假定是家用平台:DDR5 6400 256G RAM ,A770 16G * 2

    内存带宽 102GB/s ,单卡显存带宽 560GB/s,这两张卡的带宽能叠加吗?能把上下文和激活专家平均放在两张卡上,相当于 1120GB/s 带宽?

    Qwen3 235B ,int8 ,激活参数 22GB ,加上下文,应该能放在 32G 显存里?假定不发生专家交换,也无法叠加显存带宽,这时理论速度应该有 560/22=25.5 token/s ,跑 Q4 量化就有 50t/s 。可一旦发生专家交换就崩了吧,掉到 4-5t/s ?

    我是想知道这套硬件跑 235b 实际平均速度到底会怎样,Intel 那个 ipex llm 项目,有人问测试分数,开发人员回应说保密……保密…………Intel 咋还没倒闭
    mewking
        34
    mewking  
       6 天前
    @shuimugan 好吧,刚才 ipex llm 项目下面看到一个 4 张 a770 ,Q3 量化的 235b ,只有 2.99 t/s ,这是哪里没搞对吧,GPU 显存 64G ,完全没利用到
    slowgen
        35
    slowgen  
       6 天前
    @mewking 22B 的 Q8 量化加上 KV Cache ,32G 显存还真不一定放得下,你可以用这个 https://smcleod.net/vram-estimator/ 算一下。带宽的话叠加不了,一般是计算分层,Q4 量化推理速度都不一定能到 30 ,我肉眼看 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/Quickstart/flashmoe_quickstart.md 这里的 gif 估摸着单卡速度也就 12token/s 的样子,这个配置还是跑新出的 Qwen3-Next-80B-A3B 系列实在,和 235B 的百分比差距很小了
    mewking
        36
    mewking  
       6 天前
    @shuimugan 这个链接我是看了,所以说 Intel 活该卖大楼,一个 demo gif ,分辨率低的看不清,也不公布具体配置,还说测试数据需要审计不能公布。那个 demo 可能用了志强,8 或者 12 通道,再来个 amx 加速,桌面级 cpu 和 ddr5 双通道比不了

    如果跑 Qwen3-Next-80B-A3B int8 ,是不是单单 96G DDR5 6400 就够了,不用 256G 和独立显卡吧?

    102/3 = 34 tokens/s

    如果 Q6 量化更快,还能留出更多内存给上下文?


    我还没买硬件呢,不然就自己实测了。现在 a770 价格比三年前还高,b770 也马上来了,可能还有铭瑄那个 B60 ,ddr5 价格也涨了不少。如果 80b 和 235b 差距不大,那省不少钱呀
    slowgen
        37
    slowgen  
       6 天前   ❤️ 1
    @mewking 如果跑 Qwen3-Next-80B-A3B 的 int8 ,单 96G DDR5 6400 确实够了,但是这个系列分推理和非推理模型,我日常是 2 个模型都会常驻的,如果你也像我一样操作那 96G 内存就不太够。

    但是如果你仔细观察 Qwen3-Next-80B-A3B-Thinking 的跑分,会发现它比 Qwen3-30B-A3B-2507-Thinking 提升也不到 10%……估计你手头现有硬件都能跑了。

    这些跑分提升不到 10%是什么概念?我最近用这些模型来测编程能力,发现了一个很有趣的现象,理论上大模型现在写 python 、javascript 能力最好,但是 golang 因为关键字就 25 个,特性也少足够简陋,所以 Qwen3 这 30B 级别的模型写出来的 golang 代码居然和更大更顶级的模型差距非常小,准确度超级高
    mewking
        38
    mewking  
       6 天前
    @shuimugan 所以,就是尽量拆解问题,尽可能缩小和封闭空间(相当于减少关键字),想错都难,但这样也就跟写伪代码差不多了,模型差不多就是补全一下。ruby 那种花样繁多的可能容易 gg
    slowgen
        39
    slowgen  
       6 天前 via Android   ❤️ 1
    @mewking 也不能说写伪代码,正常提需求是可以的,举个例子
    https://chat.qwen.ai/s/e80b06a7-f08b-4c10-b556-ab71b158a0b1?fev=0.0.208 30B 参数写的

    https://chat.qwen.ai/s/1a84cca6-4818-43fc-a131-24b48bbc7d41?fev=0.0.208 80B 参数写的

    https://yuanbao.tencent.com/bot/app/share/chat/Ua8dLAdHJBHj 671B 参数写的,还开了推理

    几乎没差别,但是你把问题换成其它编程语言看看?
    https://chat.qwen.ai/s/0d258b03-a808-415b-8523-a76b33ba27a9?fev=0.0.208

    这里一下用 3 个模型同时回答,只有 480B 的 Qwen-Coder 意识到高性能要用 asyncio ,写出来的代码能跑,但是也有 2 个语法问题:finally 代码块里的变量作用域不对。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4945 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:03 · PVG 14:03 · LAX 23:03 · JFK 02:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.