V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wxd21020
V2EX  ›  Local LLM

配置小主机跑大模型

  •  
  •   wxd21020 · 2024-02-18 08:46:44 +08:00 · 10870 次点击
    这是一个创建于 367 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在下目前有个蜗牛黑群辉,j1900 ,搞一些小东西还是够用的; 新年伊始,想着整个小主机玩玩,配置稍微高一点,主要是想 ALL IN ONE ,大佬们有啥配置建议没;预算 1000 到 2000 左右。 还有一点是想在小主机上跑个低配的那种大模型,只要输入一段文字能检索出关键信息、关键字等等这些功能就行,不需要复杂功能。 求兄弟们支招哇。

    83 条回复    2024-05-30 01:17:13 +08:00
    jonty
        1
    jonty  
       2024-02-18 08:55:53 +08:00
    AIO 的话,没啥拓展需求,12 代 i3 将将够组一套吧
    paopjian
        2
    paopjian  
       2024-02-18 08:56:28 +08:00
    现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧
    winson030
        3
    winson030  
       2024-02-18 09:05:13 +08:00 via iPhone
    好奇,一两千的预算,不上独显怎么跑模型?
    hahiru
        4
    hahiru  
       2024-02-18 09:09:15 +08:00
    从你的描述中看得出来,你似乎并没有明确的大模型需求。
    因为大部分小模型预设的并不好用,得针对性微调。
    微调比加载需要更多显存。如果不想微调也得有显卡,不然 CPU 那速度真不如不用。
    建议先主力机跑通流程,然后选符合门槛的小型机配置。
    opengps
        5
    opengps  
       2024-02-18 09:12:07 +08:00
    建议先用你自己电脑跑一套,满足需要后再去考虑配置硬件
    nealot
        6
    nealot  
       2024-02-18 09:18:42 +08:00 via Android
    据说有些 APU 能把显存魔改到 16G 然后跑大模型

    J1900 还是算了吧
    ychost
        7
    ychost  
       2024-02-18 09:23:38 +08:00
    小主跑 LLM 几乎不可能,也不要想着 ALL IN ONE 了 BOOM 就不好了,我的小主机只装了个 Ubuntu ,其余的靠 docker 来安装
    wxd21020
        8
    wxd21020  
    OP
       2024-02-18 09:34:59 +08:00
    @hahiru 目前倒是有一个主力台式机,上的 3060TI 显卡,是否可以结合使用呢
    @ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧,这种方式也是可以的。
    @winson030 可以把台式机的 3060TI 显卡拆下来用,不知道能不能支持。
    wxd21020
        9
    wxd21020  
    OP
       2024-02-18 09:35:29 +08:00
    @nealot 现在就是想整个机器,1900 肯定是啥也跑不了的
    JensenQian
        10
    JensenQian  
       2024-02-18 09:37:16 +08:00
    主机卖掉
    冲个 chatgpt plus
    完毕
    hahiru
        11
    hahiru  
       2024-02-18 09:37:28 +08:00
    主力机跑模型,小主机跑 API 可以,其他不要想了。人工智能本地化就是资源堆砌,和小主机的初衷相悖。
    makerbi
        12
    makerbi  
       2024-02-18 09:38:32 +08:00
    如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了,llama.cpp 量化部署,纯 CPU 跑就行,内存不要太小都没问题。
    ShadowPower
        13
    ShadowPower  
       2024-02-18 09:57:45 +08:00
    @nealot APU 的方案不如直接用 CPU 快,我试过……
    nealot
        14
    nealot  
       2024-02-18 09:57:58 +08:00 via Android
    @wxd21020 搜 Reddit 帖子
    I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion
    wxd21020
        15
    wxd21020  
    OP
       2024-02-18 10:03:12 +08:00
    @JensenQian 我现在就用 3.5 ,plus 感觉没那么大需求

    @hahiru 可以先拿主力机试试
    @makerbi 感谢老哥,现在需求也就搞点文字,提取文本啥的这些需求,我研究一下整个模型。
    @nealot 安排
    ShadowPower
        16
    ShadowPower  
       2024-02-18 10:03:56 +08:00
    我之前用 Intel N100 跑过。实际上速度还能接受,这玩意的内存还只是单通道(或者算 32bit 位宽双通道)的。
    再过一段时间也许会有更好的方案,苹果提出的那个还是手机内存+手机闪存的组合。

    找个 DDR5 双通道(在 CPU-Z 里应该显示 32bit 四通道)的主机就好了。不建议选 AMD 平台,因为有内存带宽上限 50GB/s 的限制,只有 APU 能用得上更高的带宽。然而我用 6800H 试了,真实表现不如 CPU 推理。
    ShadowPower
        17
    ShadowPower  
       2024-02-18 10:07:03 +08:00
    @nealot Stable Diffusion 和 LLM 的性能表现不一样,我都试过……
    Stable Diffusion 的话,我的 7840HS 比 M2 Pro 都快(用 Olive ONNX ),但是 LLM 则反过来了。
    reeco
        18
    reeco  
       2024-02-18 10:14:16 +08:00
    纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存,跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了,单独配其实也可以考虑 amd rocm ,便宜大碗。但目前这块需求其实没那么强,跑起来新鲜劲一过,容易吃灰。
    network127001
        19
    network127001  
       2024-02-18 10:18:09 +08:00
    跑大模型的都是电老虎啊,魔搭社区好像可以白嫖资源
    ShadowPower
        20
    ShadowPower  
       2024-02-18 10:25:23 +08:00
    @reeco AVX512 对这个场景没有提升。
    目前的情况,CPU 的运算速度不是瓶颈,瓶颈都在从内存到 CPU 的带宽上。
    wxd21020
        21
    wxd21020  
    OP
       2024-02-18 10:25:42 +08:00
    @ShadowPower 那是不是可以等等,感觉也就是热乎劲儿,主要还是没有持续的需求
    ShadowPower
        22
    ShadowPower  
       2024-02-18 10:35:19 +08:00
    @wxd21020 可以先玩玩线上的服务,或者用目前的主力机来跑。如果确实没有需求,其实很快就玩腻了,还能省一笔钱。

    其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候,就算是非常低端的处理器,也有这方面的硬件加速,或者根据这种场景做专门的优化了。
    Puteulanus
        23
    Puteulanus  
       2024-02-18 10:44:02 +08:00
    reeco
        24
    reeco  
       2024-02-18 10:51:48 +08:00
    @ShadowPower 在我的 7950x 上面,llama.cpp avx512 有大约 10%到 20%的提升
    wclebb
        25
    wclebb  
       2024-02-18 11:16:09 +08:00

    虽然很奇怪,但如果真想专门跑模型,Mac 8G 说不定也能跑。
    因为 10 核心 16G 能跑。
    reeco
        26
    reeco  
       2024-02-18 11:20:13 +08:00
    @wclebb 能跑,7b 量化到 2bit ,iPhone 15 Pro 上就能跑了,但没什么用,模型上限太低了
    Greendays
        27
    Greendays  
       2024-02-18 13:12:59 +08:00
    这预算只能捡垃圾吧,看看二手的 P106 和 P40 一类的显卡,这些显卡必须要配合核显是用,坑不少,可靠性也不保障。
    chaos93
        28
    chaos93  
       2024-02-18 13:29:52 +08:00
    https://gptcs.chaos.mba/
    试试
    skye
        29
    skye  
       2024-02-18 13:57:34 +08:00
    小主机的话,应该只有 mac mini 符合你要求了
    elegantwolf
        30
    elegantwolf  
       2024-02-18 14:07:18 +08:00
    确实,16g 甚至 24g 的 Mac mini 大概可以满足你的需求,但是需要额外配置非 cuda 的环境,以及没法用 docker ,我买了一台 16g 的 Mac mini 想试着跑跑,但是因为很难环境隔离,一直没下定决心去污染整个环境,。。。
    thedog
        31
    thedog  
       2024-02-18 14:08:12 +08:00
    mac studio 应该是能跑大模型的最佳小设备
    stimw
        32
    stimw  
       2024-02-18 14:47:19 +08:00 via Android
    @thedog 目前有几个大模型能支持 apple silicon
    thedog
        33
    thedog  
       2024-02-18 14:57:41 +08:00
    @stimw 大多数都可以
    Jiajin
        34
    Jiajin  
       2024-02-18 15:44:37 +08:00
    新鲜劲会很快过去了,因为现在开源本地大模型肯定是比不过 chatgpt 的,除非有明确需求
    Revenant
        35
    Revenant  
       2024-02-18 16:32:45 +08:00
    树莓派 4B 跑量化 llm ,1 tokens/s ,这速度谁受得了啊😂😂
    winson030
        36
    winson030  
       2024-02-18 18:40:15 +08:00 via iPhone
    @wxd21020 有独显,那就上支持 oculink 的小主机,可进可退,完美😍
    ShadowPower
        37
    ShadowPower  
       2024-02-18 18:43:39 +08:00
    @elegantwolf 也许可以试试 LM Studio ,玩腻了能删得比较干净
    zagfai
        38
    zagfai  
       2024-02-18 22:07:46 +08:00
    AMD 5600G
    Ayahuasec
        39
    Ayahuasec  
       2024-02-18 22:49:28 +08:00 via Android
    我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
    laminux29
        40
    laminux29  
       2024-02-18 23:18:46 +08:00   ❤️ 1
    1.有信息保护的场景,才需要自己买服务器跑大模型,其他场景完全没必要。

    2.现在 OpenAI 的 GPT4 (离线版)、MS Copilot (联网版) 和 Google Gemini (联网版)之外,其他的各种 AI ,质量真的是差,完全没私有化部署意义。
    kneo
        41
    kneo  
       2024-02-18 23:49:52 +08:00 via Android
    除非你有自觉倾向,否则不建议你尝试小主机大模型的吐豆速度。
    lrigi
        42
    lrigi  
       2024-02-19 08:14:47 +08:00 via iPhone
    @elegantwolf ollama 和那些 webui 都是当前目录下配置环境,何来污染一说😧
    wxd21020
        43
    wxd21020  
    OP
       2024-02-19 08:35:52 +08:00
    @winson030 列入方案计划
    @Ayahuasec 能跑就行了,速度忍一忍
    blackmirror
        44
    blackmirror  
       2024-02-19 10:09:55 +08:00
    2000 的机器能跑模型吗
    findex
        45
    findex  
       2024-02-19 12:40:39 +08:00 via iPhone
    建议放弃。我有个 n100 配上 32G ddr5 内存,无独显无法跑大模型或者小一点的模型。建议换高功率 cpu 加独显。主要看现存和流处理器。
    dayeye2006199
        46
    dayeye2006199  
       2024-02-19 14:53:08 +08:00
    感觉还不如 colab 。
    一个月 10 块美元
    shm7
        47
    shm7  
       2024-02-19 15:54:42 +08:00
    wo tmd laugh de desk dou yao xuan diao le
    lchynn
        48
    lchynn  
       2024-02-19 18:35:44 +08:00
    @laminux29 自己部署,多数都是找基线大模型微调或者做 RAG 场景的。 并不太依赖模型本身逻辑推理能力,所以一般 30B 的模型微调后能做一个凑合用的企业知识库就满足很多场景了。
    obfuscator
        49
    obfuscator  
       364 天前
    你这个预算,显卡那块就压的死死的
    只能选择 P106 或者是它的难兄难弟 P104 、P102 那些了
    至于 P4 ,想必你预算是不够的
    mkdirmushroom
        50
    mkdirmushroom  
       363 天前
    @ShadowPower 还好大佬说了 AMD 平台的内存带宽限制,我也准备入手小主机跑大模型,本来想买 8845hs 的,看到内存带宽限制劝退了。
    mkdirmushroom
        51
    mkdirmushroom  
       363 天前
    @ShadowPower 大佬还是有点疑问,我看了下 AMD 新的移动端处理器 8845hs 的介绍,双通道 DDR5 5600 理论上是有大约 90GB/s 的带宽的,是芯片内部做了限制吗?
    ShadowPower
        52
    ShadowPower  
       363 天前
    @mkdirmushroom AMD 的 IF 总线带宽有限……
    台式机处理器还好,限制没有那么大,基本上什么内存都可以正常发挥。

    移动端就不一样了。我刚刚测出来的数据:


    这是 6400MHz 的内存,可以看到核显的读写带宽基本上都砍了对半,但是同时读+写( Copy )接近两者的总和。
    而 CPU 的读取带宽只有约 50GB/s ,写入则可以达到 86GB/s ,但是同时读写倒不是两者的总和。

    对于跑 LLM 推理的场景,对内存读取带宽要求挺高,瓶颈几乎都在这里,而写比读少很多。

    虽然内存带宽真的有将近 90GB/s ,但跑 LLM 时,实际上可以视为只有 50GB/s……
    GPU 会更慢,也是因为读取带宽更低。
    mkdirmushroom
        53
    mkdirmushroom  
       362 天前
    @ShadowPower 感谢大佬的解惑,感觉 8845hs 这个马甲 U 应该也差不多。那如果是小主机的话大佬推荐哪个 U 呢,目前在观望的小主机的 U 有 i9 13900h 、i9 12900h 、i5 12450h 还有 AMD 家的 8845hs ,价格应该是依次递减的,不过巨硬家的内存频率最多到 5200 。
    mkdirmushroom
        54
    mkdirmushroom  
       362 天前
    @ShadowPower 还有 Intel Core Ultra 5 125H ,它的定位和 8845hs 差不多,但是稍微贵一点。
    刚刚看了些评测,在双通道 DDR5 5600 32GB ,PCIE4.0 SSD 2TB 环境下:
    Ultra5 的内存带宽的 CPU 读写及延迟分别是 71058 MB/s 、70765 MB/s 、150.4ns
    8845hs 则为 61887 MB/S 、86688 MB/s 、90.5 ns
    AMD 的写入和延迟好一点,Intel 的读取高了大概 10GB/s
    ShadowPower
        55
    ShadowPower  
       362 天前
    @mkdirmushroom 如果内存频率一样的话,它们应该没什么明显的差别。内存延迟的影响不大,GPU 和显存之间的延迟要更高。
    renyi1986
        56
    renyi1986  
       362 天前
    现在 8700 不就可以跑大模型,对应的小主机也有了
    wxd21020
        57
    wxd21020  
    OP
       362 天前
    @mkdirmushroom 老哥,你要是配好了,甩配置给我一下,我学习学习;其实里面有些东西我还是盲区,现在还在摸索。
    mkdirmushroom
        58
    mkdirmushroom  
       362 天前
    @wxd21020 准备等的天钡的 Gem12 了( 8845hs ),还没出,大概 3 月初上架,准系统价格估计在 2600 左右。
    lchynn
        59
    lchynn  
       361 天前
    @mkdirmushroom 8845HS 就是多了 NPU 的 7840 吧, 这个多出来的 NPU 对 AI 推理真的有帮助么? 它支持 CUDA ?
    mkdirmushroom
        60
    mkdirmushroom  
       359 天前
    mkdirmushroom
        61
    mkdirmushroom  
       352 天前
    @wxd21020 买了 gem12 了,8845 主机,准系统 2699 ,两个 m.2 ,一个 oculink ,两个 usb4 ,2 个 2.5G 网口,带副屏幕和指纹。感觉性价比蛮高,就是到手会有点晚,要 4 月初
    uniqueman
        62
    uniqueman  
       331 天前
    @mkdirmushroom 这个能跑多大规模的模型?
    mkdirmushroom
        63
    mkdirmushroom  
       331 天前
    @uniqueman 看你内存大小了,内存大一点带宽高一点,理论上 72B 都能跑,不过速度比较慢。
    lchynn
        64
    lchynn  
       288 天前
    @mkdirmushroom 买了 GEM12 了么? OLLAMA 或者 LM-STUDIO 推理 7B 的 gguf 模型咋样? 有测试结果么?
    wxd21020
        65
    wxd21020  
    OP
       288 天前
    @lchynn 坐等+1 ,我还在等 618 ,还没下手呢
    lchynn
        66
    lchynn  
       288 天前
    @wxd21020 8848HS 的 NPU 好像说 FP16 是 TFLOPS ; 估计是瞎吹吧。
    3060 12G 的 FP16 (half) 才 12.74 TFLOPS
    lchynn
        67
    lchynn  
       288 天前
    8845HS 的 NPU 好像说 FP16 (half) 的算力是 16 TFLOPS ; 估计是瞎吹吧。
    3060 12G 的 FP16 (half) 才 12.74 TFLOPS
    mkdirmushroom
        68
    mkdirmushroom  
       288 天前
    @lchynn 买了啊,目前是我的主力家庭服务器,ollama 7b 推理肯定没问题啊,大部分电脑都随便跑的,主要还是看内存带宽的。我还试了 qwen 的 72B 4bit ,大概 2 ,3Token/s 吧。

    我目前是 PVE 分了一个 32GB 内存的 ubuntu 跑 ollama ,基本上都用的 14B ,大概能有 10 几 token/s 吧。
    mkdirmushroom
        69
    mkdirmushroom  
       288 天前
    @mkdirmushroom
    @lchynn 8845hs 的 npu 算力不是浮点数,是整数 16TOPS
    lchynn
        70
    lchynn  
       288 天前
    @mkdirmushroom 有没有试一下 Code-Qwen 或者 Deepseek Code ? 谢谢, 如果速度可以, 感觉可以代替 Copilot 了
    tclm
        71
    tclm  
       283 天前
    @mkdirmushroom

    老哥,配的多少内存,我准备搞一台 8845HS (或 Utral5 125H )+ 96G ( 48G 5800Hz * 2 ) 来跑 70B 的模型,只做本地推理,按你的经验,有搞头吗?
    tclm
        72
    tclm  
       283 天前
    @tclm
    @mkdirmushroom

    内存是 96G ( 48G 5600Hz * 2 )

    我主要担心的是 8845HS 在内存足够的情况下,处理器性能是否满足 70B 的推理要求。
    tclm
        73
    tclm  
       283 天前
    @tclm
    @mkdirmushroom

    主要是推理效率,也不能太慢对吧,如果 CPU 跑不了 70B 的话,那内存的预算其实可以削减下来.
    mkdirmushroom
        74
    mkdirmushroom  
       280 天前
    @tclm 有点慢的,我试过,大概就 2.3token/s 吧
    tclm
        75
    tclm  
       279 天前
    @mkdirmushroom

    嗯,感谢,那纯 CPU + 内存 进行 70B 模型推理还是很勉强的事情.
    AndyWang666
        76
    AndyWang666  
       278 天前
    @mkdirmushroom GEM12 散热怎么样,我最近也在看。另外 oculink 能直接外接显卡跑模型吧?就是不知道 pve 里能不能直通 oculink
    mkdirmushroom
        77
    mkdirmushroom  
       274 天前
    @AndyWang666 散热非常好,但是我的机器低负载有电流或者电报的声音,换了一台还是更严重了,只好忍了。pve 直通 oculink 没试过,手里没有显卡坞。
    AndyWang666
        78
    AndyWang666  
       273 天前
    @mkdirmushroom 你是带副屏指纹的?听说带这玩意的有这毛病,这两天准备也入了,618 便宜了 100
    wxd21020
        79
    wxd21020  
    OP
       273 天前
    @AndyWang666 我想入个极摩客 M6 ,GEM12 有点略贵,预算跟不上了
    hootigger
        80
    hootigger  
       270 天前 via iPhone
    @mkdirmushroom gem12 也有电流声吗?滋滋的,我买的火影 a8 8845hs 也是,然后今天刚换货。不会也换个更严重的吧。。
    AndyWang666
        81
    AndyWang666  
       268 天前 via Android
    @wxd21020 我已经入了 gem12 了,ssd 只能上单面颗粒,买的 850x 4t 都退了,上了 96g 内存,今天刚装完系统。win server 2025 打驱动太麻烦了,被我直接换 win11 了
    mkdirmushroom
        82
    mkdirmushroom  
       267 天前
    @hootigger 应该是电感啸叫声,我刚开始有点介意,现在无所谓了,反正正常也听不到。
    hootigger
        83
    hootigger  
       265 天前 via iPhone
    @mkdirmushroom 经历差不多,我换货后。这个刚开始我听着声音很小。今天发现又出来了,我也只能接受了。就是低负载有。也就晚上能听到点。凑上去,也还好。玩游戏起来就没有了。整体还行主要火影价格还是香
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5446 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 120ms · UTC 07:43 · PVG 15:43 · LAX 23:43 · JFK 02:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.