V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sjmcefc2
V2EX  ›  程序员

求教 4090 的稳定运行的硬件配置,可以跑的大模型配置?

  •  
  •   sjmcefc2 · 2023-08-20 11:59:39 +08:00 · 5101 次点击
    这是一个创建于 457 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想求一个 4090 的配置单, 还有就是基于这个配置单,如何配置一个本地化运行的大模型呢? 感觉有点无从下手啊,需要学习哪些?目前的目标是机器装起来,本地化大模型配置起来,自己稳定的运行一下。 不知道会不会像黑苹果那样认硬件认系统啥的,求教了,感谢大家。

    21 条回复    2023-08-23 00:03:54 +08:00
    chesha1
        1
    chesha1  
       2023-08-20 12:13:08 +08:00
    不会认硬件系统,大模型是一个 OS 上的应用程序的任务,当然不会对硬件有要求
    深度学习任务,内存最好的显存的两倍或以上,CPU 没有要求,其实想省钱就缩一点,也是能跑的
    如果你想保留未来的拓展性,最好选服务器平台支持多个 pcie 通道,因为单张 4090 也只能跑 llama-7b 这种参数最少的大模型,再往上显存就不够了


    如果你是想用单张 4090 ,随便买个 4090 的游戏整机的配置都没问题,这种方案 tb 上一搜全都是,对着抄就行了
    如果想用多张 4090 的服务器/工作站,可以看下 https://www.autodl.com/machine/list
    或者上 tb 看 GPU 服务器的方案,当然 dell 这种大型服务器厂商也有方案的,就是会很贵
    jinsongzhao
        2
    jinsongzhao  
       2023-08-20 12:24:44 +08:00
    Mate 最近开源的 7B 模型,不训练只开发测试最低 10GB 显存,双志强 48 核 CPU 。它之上还有 13B, 70B 模型,所以说没有上限,完全看跑什么模型,大家都在优化降低模型需求,比如 4bit 可以让显存降到 8GB, 转换个格式,换其他引擎跑,还能不依赖 GPU,纯 CPU 跑。以上还只是不训练。
    jinsongzhao
        3
    jinsongzhao  
       2023-08-20 12:30:27 +08:00
    @chesha1 原来老看到人提到的 8k 训练就里这里头 19w 的那个呀
    sjmcefc2
        4
    sjmcefc2  
    OP
       2023-08-20 13:59:12 +08:00
    @chesha1 感谢指点。就是对未来能够跑的模型不是很熟悉,现在在用 cpu 跑清华的模型,感觉就对话而言,清华模型好像并不太好,让他对比两个文件或者从文件里面计算一个生产成本,没办法计算出来。现在是想着分析年报或者成本收益调查,计算其中产品的成本信息。现在都不知道有啥好用的模型,还请大家指点
    @jinsongzhao 我刚开始学习大模型,是不是不训练的话,模型就不懂行业黑话(术语)呢?现在的模型是否各有所长呢?大家都怎么选择大模型呢
    lrigi
        5
    lrigi  
       2023-08-20 14:05:51 +08:00 via iPhone
    @sjmcefc2 你这种需求先去问问 gpt4 和 gpt3.5 ,gpt4 如果能搞定开源模型才有希望,gpt4 搞不定就别指望开源模型了。除非是有专门针对某一领域微调好的模型,比如微软的数学模型
    ysc3839
        6
    ysc3839  
       2023-08-20 14:06:52 +08:00 via Android
    sjmcefc2
        7
    sjmcefc2  
    OP
       2023-08-20 14:11:34 +08:00
    @lrigi 注册了几个号,都没封了,也不知道啥原因。其实数学用的并不多,就是用一个小学除法而已。
    threebr
        8
    threebr  
       2023-08-20 17:52:53 +08:00
    24g 显存怎么跑大模型,别说训练了部署都做不到。b 站上有用 7950x CPU 跑性能达到 99%chatgpt 的一个模型,你可以搜一下。用 CPU 而不是 GPU 是因为个人电脑可以做到大内存,但做不到大显存。我电脑上就是 4090 ,只能用在绘图作曲这些地方。
    threebr
        9
    threebr  
       2023-08-20 17:54:53 +08:00
    @threebr 另外用 amd 的 cpu 而不是 intel 是因为 Intel 现在没有 avx512 指令集了。当然服务器 cpu 上的 avx512 指令集更好用
    gamekiller0010
        10
    gamekiller0010  
       2023-08-20 18:13:59 +08:00 via iPhone   ❤️ 1
    4090 的显存没办法跑大模型吧
    airqj
        11
    airqj  
       2023-08-20 20:25:57 +08:00
    @threebr
    @gamekiller0010
    能跑量化模型的显卡不是有很多吗
    cs3230524
        12
    cs3230524  
       2023-08-20 20:49:41 +08:00
    选 A100
    chesha1
        13
    chesha1  
       2023-08-20 20:52:54 +08:00
    @sjmcefc2 具体哪个模型比较好我也不清楚,不过 llama2 是现在比较火的模型
    你可以看一下 hugging face 这个网站,text-generation 这个任务下面,哪些 model 比较火

    要是不训练,确实大概率不懂你的行业黑化,不过如果你的行业黑话比较短,模型支持的 token 又比较多,也可以试一下直接在 prompt 里说明白。如果背景知识太多还是微调吧
    zion03
        14
    zion03  
       2023-08-20 23:35:12 +08:00
    ChatGLM2-6B ,十几 G 显存就可运行。我刚组了 4090 的主机,离线大模型跑的挺快的。推理速度感觉比 GPT 3.5 快不少
    zion03
        15
    zion03  
       2023-08-20 23:40:04 +08:00
    把领域知识的整个文件(比如 PDF )导入到向量数据库,利用 langchain 查询可以在一定程度上达到 finetune 模型的效果。B 站上有相关的详细分享。
    quake0day
        16
    quake0day  
       2023-08-21 08:36:53 +08:00
    @gamekiller0010 亲测 4090 可以跑 llma2 13b 的
    sducxh
        17
    sducxh  
       2023-08-21 09:55:01 +08:00
    ChatGLM2-6B 我在 3080 ( 10G )上 8bit 量化跑,速度确实快,但试用了 qwen-7b 和 baichuan-13b ,我自己的感受是 ChatGLM2-6B 也就速度和资源上的优势了。
    sducxh
        18
    sducxh  
       2023-08-21 09:57:17 +08:00
    @threebr 24g 怎么就不行呢,我一开始一张 3080 ,也就能跑跑 ChatGLM2-6B ,后来又加了一块,baichuan-13b 也能跑了,只能 4bit 量化~
    ShadowPower
        19
    ShadowPower  
       2023-08-21 13:07:20 +08:00
    @sjmcefc2 这个需求可以考虑用 WizardMath-70B ,我试了很多复杂的小学数学/奥数题,都比 ChatGPT 3.5 好
    sjmcefc2
        20
    sjmcefc2  
    OP
       2023-08-22 20:03:14 +08:00
    @ShadowPower 还不完全是解题,主要从年报等资料里面找到计算成本相关的变量,比如营业成本 xx 元,生产量 xx 吨,
    这样的数字,才能计算出来,是否 wizardmath-70b 也具备这样的提取数据能力呢?


    @sducxh 这样两块显卡是怎么配置呢?

    @zion03 能具体给一个链接吗?这个是不是还是利用的外部的计算能力?
    @chesha1 行业黑话专业术语是否可以导入而不训练呢?比如化工领域、农业领域、会计领域的。
    chesha1
        21
    chesha1  
       2023-08-23 00:03:54 +08:00
    @sjmcefc2 有可能可以直接导入,但是效果不能保证,而且有的 LLM 对于 prompt 很敏感,直接说不一定有效

    比如,下面是一个 prompt 的实例,“请解读下面这一张文本,它代表了一张资产负债表,任务是总结资产类科目的期末值。资产负债表的格式是 xxx”
    这样,可能对于人类,可以有不同的方式说一段类似的话,但是模型可能会输出很不一样的结果
    从成本考虑,先做 prompt engineering 是比较好的,如果不行再微调
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3660 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 04:34 · PVG 12:34 · LAX 20:34 · JFK 23:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.