V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Tuatara
V2EX  ›  Local LLM

现在买 3090TI 玩 AI 靠谱吗

  •  
  •   Tuatara · 214 天前 · 10084 次点击
    这是一个创建于 214 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想入一张显卡研究下 AI 。对比下来觉得要么 3090TI ,要么 4070TIS ,倾向于 3090TI ,因为 24g 显存宽裕一点,照现在模型的发展 16g 担心以后会不够用。16g 跑现阶段的模型大部分时候压力都不大,但比如开个 SDXL+四五个 lora ,估计 16g 也带不动了。

    现在的问题是对显卡一无所知😂看到说 30 系默认全矿的,又有说 3090TI 不是矿的。想问下老哥们,3090ti 现在能入吗,能的话什么渠道比较靠谱,合理的价格大概多少?

    另外我不玩游戏,实话说如果没有太大的性能差异我是能接受矿卡的,就怕以为是轻度锻炼没想到是深度锻炼,那就不能接受了。。

    91 条回复    2024-05-24 05:35:42 +08:00
    digd
        1
    digd  
       214 天前   ❤️ 1
    如果只是玩 llm ,建议 mac pro
    hunk
        2
    hunk  
       214 天前
    要不要考虑租用主机,试用先,4090 我记得有的才 3-5 块/小时。
    硬件投入感觉变数大。
    x86
        3
    x86  
       214 天前
    试试 2080ti 改 22g 的方案?
    go522000
        4
    go522000  
       214 天前
    现在能用,但明年就不一定了,我的显存 12G 只能下载别人量化好的来用。
    我看到群友们是搞魔改版本 22G * 4 , 才能跑 72b 的模型,而 110b 以上模型得自己量化为 4bit 才能跑。
    jamfer
        5
    jamfer  
       214 天前
    最近刚好看到一个视频,说苹果的统一内存(显存),对训练大模型很有用,本人不太懂,仅给 LZ 一个参考: https://www.bilibili.com/video/BV1MH4y1g77V
    jamfer
        6
    jamfer  
       214 天前
    @jamfer 视频比较长,可以直接看 5:10 的位置
    sleepybear1113
        7
    sleepybear1113  
       214 天前   ❤️ 2
    虽然我不懂跑 ai 模型的需求,但是为啥这里也有无脑吹 mac 的果粉啊
    Desiree
        8
    Desiree  
       214 天前
    @hunk 在哪里能出租?
    vivisidea
        9
    vivisidea  
       214 天前
    @Desiree 直接 google 搜 4090 租用,我看选择还不少的,没试过,可以先买几个小时试试看
    rabbbit
        10
    rabbbit  
       214 天前
    先按需租个试试,便宜的几块钱一小时,L4 T4 v100 A100 型号一大堆。
    plasticman64
        11
    plasticman64  
       214 天前   ❤️ 10
    @sleepybear1113 所以你不懂为什么要出来叫,M 芯片跑 LLM 性能确实很好啊
    libook
        12
    libook  
       214 天前 via Android
    显存大小是硬性需求,算力只是速度快慢的问题。

    看你要玩的模型要多大显存,另外训练和推理需要的显存大小可能是不一样的,以及你是否有需要同时加载多个模型。
    pinecone1
        13
    pinecone1  
       214 天前
    M 芯片因为有统一内存结构,笔记本都上 36G-48G 的统一内存了,是能跑起更大参数量的模型的。但是推理速度会比 4090 慢好多
    pinecone1
        14
    pinecone1  
       214 天前
    @pinecone1 即使 ultra 128 个 G 的统一内存能跑起 70b 的模型,估计一秒钟都吐不出几个 token
    WilliamZuo
        15
    WilliamZuo  
       214 天前
    不了解硬件,但如果 AI 无法在短时间内把推理硬件门槛降低到 3090Ti 或者 4060 ,那这个行业真的值得被长期看好吗?
    imoru
        16
    imoru  
       214 天前   ❤️ 2
    偶尔使用的话推荐租用 GPU,我用的是这个平台
    https://www.autodl.com/
    只花了 150 都不到就退烧了,因为其实真的没有那么多喜欢的角色 lora 需要训练,而且画了快一万张图感觉有点腻了😂

    jadehare
        17
    jadehare  
       214 天前   ❤️ 3
    @plasticman64 性能确实好性价比确实好么?买下来加内存买下来比 4090 还贵,跑下来还不如 4090 。有 mac 可以不用买显卡,但是已经有台式机更新肯定是更新显卡,推荐 mac 不是搞耍?
    sweat89
        18
    sweat89  
       214 天前
    @sleepybear1113 所以你不懂还要在这尬喷?人麻了都
    neteroster
        19
    neteroster  
       214 天前 via Android   ❤️ 4
    真要考虑 Apple Silicon 跑 LLM 的话先看看这个:

    https://github.com/ggerganov/llama.cpp/discussions/4167

    不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。

    除非你非跑超大模型不可,否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。

    然后就是如果涉猎比较广泛,不止玩 LLM ,当然还是 NVIDIA ,毕竟生态再这里。
    devlnt
        20
    devlnt  
       214 天前   ❤️ 1
    @pinecone1 #14 m3max 64G 跑 llama3:70b 能达到 9tokens/s ,而 4090+64G 内存只能 2tokens/s 。8b 的话 4090 能 100tokens/s, m3max 是 50 多 tokens/s 。
    liuyangmengqi
        21
    liuyangmengqi  
       214 天前
    @sleepybear1113 虽然你什么都不懂 ,但是也不妨碍你看到苹果就咬啊
    neteroster
        22
    neteroster  
       214 天前
    @neteroster 再补充几句,70B 还没到 Mac 的适应区间,2 * 3090 就能拉爆 M3 Max 了,还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。

    再大的模型?那就要想清楚你是不是真的需要那么大的模型了,现在大部分模型都集中在 <100B 区间,就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ,不过现阶段并不多,可能战未来吧。
    Caitlyn
        23
    Caitlyn  
       214 天前
    我的 4070tis 跑 ai 绘图、ai 唱歌,速度非常快,显存占用基本在 14g 左右,我觉得 70tis 性价比很高,4080s 贵了 1500 提升不是很大不划算了
    JayZXu
        24
    JayZXu  
       214 天前
    如果只是玩一玩,组个 GPU 的钱也就几块钱一个小时,就当上网吧了,而且环境配置时还不算钱,挺合算。自己试试真实需求再下手不迟


    如果是真的深入要微调模型啊之类的需求,买一张 3090ti 也不顶用。
    哪怕是 24G 跑大模型也顶多只能跑个优化好的 13B ,14B 。70B 就不要想了。
    画图参数拉高了,显存一样不够用。
    thinkershare
        25
    thinkershare  
       214 天前
    租卡是最合适的,弄个 A100*2 或者 3090*4 的集群,基本啥都能跑。。另外你是要搞推理还是训练?
    等到你真的需要自己训练大模型时,你一样需要专业的集群,而不能靠你手头那点资源。
    clear
        26
    clear  
       214 天前   ❤️ 6
    上面吹 Mac 跑大模型的自己真的用过吗,那么多坑都淌完了?

    还是看了个视频张口就来了。

    — 来自顶配 Studio 用户的评论。

    另附:租用目前是最合适的,退烧快,性价比高,以 AI 名义打游戏另说。
    tr1v1z
        27
    tr1v1z  
       214 天前 via Android   ❤️ 4
    说 mac 的基本就是限定了顶配,然后只适用 llama.cpp ,然后呢,买回来纯推理 llama ?楼主都说了 sdxl ,怎么可能推荐 mac ,不知道咋想的…

    至于为啥 4090 看上去拉,因为显存不够只能走 pcie 走 内存走 cpu 。换成 2x3090 就会立竿见影。话又说回来,sd 又不特别吃显存,4090 绝对是好选择。

    不要只看评测视频吧。。
    kenvix
        28
    kenvix  
       214 天前
    有很多人说 mac 跑 LLM 很好,我比较好奇,这个跑是推理还是微调? mac 能 SFT 微调 LLM 吗?
    LaurelHarmon
        29
    LaurelHarmon  
       214 天前
    3090 很好的,跑跑模型没啥问题,训练推理都在行,老当益壮
    herozzm
        30
    herozzm  
       214 天前
    小模型可以,稍大就抓瞎
    ansor
        31
    ansor  
       214 天前
    mac 跑 LLM,跟 wsl 跑 LLM 有什么区别,价格还更便宜。
    sola97
        32
    sola97  
       214 天前 via Android
    推理速度太慢没有实用价值,什么 14b 都不如免费的 kimi
    lithiumii
        33
    lithiumii  
       214 天前 via Android
    @sleepybear1113 因为老黄的显存跟果子的统一内存都是金子价。果子 96G 内存的机器是一台可以拎走的笔记本,同等价格 96G 显存的机器是一台体积功耗噪音都惊人的服务器。个人玩特别大的模型,苹果忽然就有性价比了。
    sighforever
        34
    sighforever  
       214 天前
    @ansor mac 现在是统一内存,内存也是显存,mac 有个 192G 版本的,相当于有 150+ 的显存了,等于 6 块 4090 了
    SkywalkerJi
        35
    SkywalkerJi  
       214 天前 via Android   ❤️ 3
    果粉只考虑显存大小,不考虑算力的吗? gt610 大狂牛?
    michaelzxp
        36
    michaelzxp  
       214 天前
    就等苹果 wwdc 看会不会发布自己的 ai ,年底上 m4 大内存版本
    1138743695
        37
    1138743695  
       214 天前
    感觉想学习不管是从成本还是便利性上都推荐用租的,能避免很多问题(我是本科 ai 专业,长时间的课题自然用实验室的,平时自己想试点什么就用租的,我用的 autodl )
    Francost
        38
    Francost  
       213 天前
    我是在 runpod 上租用 gpu ,有很多 option 可供选择,或者你也可以在 vast.ai 上看看
    BernieDu
        39
    BernieDu  
       213 天前
    @tr1v1z Mac 跑 sdxl 有什么问题吗,sdxl 这种啥机器跑不了,无非是快点慢点,大部分家庭需求还在乎时间?后台慢慢生成就是了。
    secondwtq
        40
    secondwtq  
       213 天前
    SD 和 LLM 这两个需求其实是不一样的
    LLM 看个人需求,跑得快当然好,有的场景慢一点也无所谓
    但是 SD 实际使用中需要迭代调参才能试出相对满意的结果,这种情况下能快速推理生成预览是非常有用的
    就像过去 3D 建模调材质,CPU 渲染很慢影响效率,但是后来 CPU 核数上来了,又可以用 GPU 硬件加速光追,效率指数级上升
    kenvix
        41
    kenvix  
       213 天前
    @ansor #31 WSL 也是统一内存,但只限软件层面,然后 x86 兼容机的内存和 CPU 离得很远,又受接口带宽限制,导致速度非常慢
    muxiaofei
        42
    muxiaofei  
       213 天前
    请教一下大佬们,如果只是做向量模型来跑模型,以及微调模型,这种需求是买 3090ti 还是 4070 呀
    muxiaofei
        43
    muxiaofei  
       213 天前
    或者说做一个定制化的企业知识库用的模型进行微调需要什么显卡( CHATGLM2 和 M3E ) 或者笔记本也行。
    r6cb
        44
    r6cb  
       213 天前
    @muxiaofei #43 只是知识库就只需要推理就行,显存能放下模型的显卡就够用了。但是微调 CHATGLM2 要多张 A100/A800 级别的 GPU 才干得了
    NewHere
        45
    NewHere  
       213 天前
    @Desiree AutoDL 2.XX/h 4090
    NewHere
        46
    NewHere  
       213 天前
    @sleepybear1113 统一内存比较吃香,老黄要 80g 的显存得 A100 和 H100 了,mac 可以几万拿下一整套,老黄价格比这贵还只是一张显卡
    PeneceaQwQ
        47
    PeneceaQwQ  
       213 天前
    首先,先建议租一下显卡试一试,说不定吃不满。可以尝试的平台:autodl ,vast.ai

    关于矿卡:3090ti 发布的比较晚,而且对矿老板性价比不高,就算挖的话也挖不了多久

    关于矿卡的危害:问题就是不稳定。连续高温满载工作。首先显存可能先炸(如果是 3090 到手建议换显存),硅脂因为高温会渗出硅油,除此之外还可能会有各种各样的小问题。可以捡,但是做好心理预期,建议观摩一下靓女维修佬的视频,做好功课再说。捡到个人买家也不是不可能()
    gransh
        48
    gransh  
       213 天前
    @plasticman64 问题 op 明确了需求是 SDXL+四五个 lora ,你哪里看到有 LLM 了?
    gransh
        49
    gransh  
       213 天前
    这楼我没看完都不知道你们能吵这么多关于 mac 的,SDXL+lora 几个大字看不见疯狂辩论 LLM ,绝绝子
    hunk
        50
    hunk  
       213 天前
    @Desiree 还有其他的很多,一时找不齐了。
    https://www.autodl.com/home
    https://openbayes.com/gear/
    tr1v1z
        51
    tr1v1z  
       213 天前 via Android
    @BernieDu 可能只有你不在乎时间
    muxiaofei
        52
    muxiaofei  
       213 天前
    @r6cb 感谢大佬的回复,我现在如果是想用 llama3 进行中文微调的话(其实我也只是一个小白),大概需要什么样子的显卡呢? 目前有一台 3060 12GB
    muxiaofei
        53
    muxiaofei  
       213 天前
    @1138743695 您好,想了解下,如果租用算力来微调自己的模型,这样是可行的吗?
    ljyst
        54
    ljyst  
       213 天前
    ai 说到底还是 cpu 语法套模版。玩的是硬件.没意思
    neteroster
        55
    neteroster  
       213 天前
    @muxiaofei

    中文微调推荐 Qwen 系列,llama3 预训练估计没多少中文语料。

    微调分不同类型,全量,LoRA ,QLoRA 等,最近也有一些新兴技术。例如,llama3 8b 用 LoRA 基本 24G 能满足,但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好,但是也有很多任务是不及全量微调的,需要实际测试。

    租算力完全可行。

    另外,知识库不推荐微调,先试试 RAG 。
    locoz
        56
    locoz  
       213 天前 via Android
    玩图片生成买个二手 3090 玩没啥问题,无论是要长期放着跑还是玩腻了打游戏都可以,不过 3090 会很热、风扇很吵,这个可能要考虑一下。

    如果明确只是短期玩玩,使用频率和时长没那么高,那租硬件是最具有性价比的选择,性能又好,实际产生的成本又低,又省事。

    吹苹果的看看就得了,拿苹果统一内存跑起来了大模型又怎么样?就那点速度完全不具备可用性。说白了就是个放企业级场景嫌慢、个人场景嫌贵的鸡肋。而且买了高配之后不想玩了干其他事又是纯浪费,想卖二手这过高的配置又不好出手,麻烦得很。
    cnevil
        57
    cnevil  
       213 天前
    @WilliamZuo 因为你要是不执著于本地部署的话,你没显卡都能用
    HojiOShi
        58
    HojiOShi  
       213 天前
    现在 5090 都要出了,就算有 3090TI ,别人凭什么把体质好的锻炼少的卡卖给你啊。。。
    leconio
        59
    leconio  
       213 天前 via iPhone
    MacOS 可以跑 llm 呀,有这个示例工程工程 https://github.com/ml-explore/mlx-examples ,有人在 macos 跑起了 32B 的大模型,lora 微调。。。而用 cuda 要 64 显存
    leconio
        60
    leconio  
       213 天前 via iPhone
    但 huggingface 上的大部分模型,开发者只给出 cuda 的例子,除非你特别知道自己在干什么,否则为了生态我还是劝你入英伟达 40 系列显卡
    Tuatara
        61
    Tuatara  
    OP
       213 天前
    @digd 不止 llm ,啥都想试哈哈哈,sd 跑跑图,再做做 tts ,其实也是探索自己的兴趣
    Tuatara
        62
    Tuatara  
    OP
       213 天前
    @hunk 我之前就是租用云 gpu ,这个主要弊端是只能 linux ,很多大神的整合包都是 windows ,另外每次用完都要重新搭建环境,时间长了也挺麻烦的。。
    Tuatara
        63
    Tuatara  
    OP
       213 天前
    @x86 听过这个方案,而且效果据说很强,主要是咱硬件一窍不通不敢这么弄😂 有靠谱渠道倒是完全可以考虑
    Tuatara
        64
    Tuatara  
    OP
       213 天前
    @go522000 那老哥有啥推荐吗,就直接上魔改?
    Tuatara
        65
    Tuatara  
    OP
       213 天前
    @jamfer 感激,我来看看
    Tuatara
        66
    Tuatara  
    OP
       213 天前
    @libook 我估计大概率不会到训练,主要是推理。但加在多个模型可能会有,比如加载多个 lora
    Tuatara
        67
    Tuatara  
    OP
       213 天前
    @WilliamZuo 硬件要求确实也在降低中,外国很多老哥在把模型优化成 12g 显存能跑。不过也都是开源小模型,毕竟有一定局限性
    Tuatara
        68
    Tuatara  
    OP
       213 天前
    @imoru 这个我试过,国内的 autodl ,国外的 runpod ,说实话都还不错。主要问题是只能 linux 没有图形界面,但很多整合包还是要图形界面操作,时间长了觉得租的还是不方便
    Tuatara
        69
    Tuatara  
    OP
       213 天前
    @neteroster 我估计最多也就跑个 70b 了,再大确实也没啥必要,而且也可以租 gpu 来玩
    Tuatara
        70
    Tuatara  
    OP
       213 天前
    @Caitlyn 老哥你的 70tis 跑图通常是多大的图,加 lora 吗
    Tuatara
        71
    Tuatara  
    OP
       213 天前
    @JayZXu 24g 啊,显存跑 70b 不行吗,我其实是想在本地尝试 70b 的。回头我去租个 gpu 试试看
    Tuatara
        72
    Tuatara  
    OP
       213 天前
    @thinkershare 我自己玩主要是推理,训练确实可以租 gpu 。有点之前忘说了,云 gpu 主要是只能 linux 有些大神的整合包用不了,而且每次都要重新搭建环境,时间长了感觉有点蛋疼
    Tuatara
        73
    Tuatara  
    OP
       213 天前
    @clear 哈哈啊哈老哥清醒!
    Tuatara
        74
    Tuatara  
    OP
       213 天前
    @1138743695 我之前也都是租,但我看很多大神出的整合包都是 windows 的,租的 gpu 都是 linux 用不了。加上每次要重新配环境有点蛋疼,这才考虑组机器。前面这两问题老哥怎么解决的?

    @Francost 我之前也是用 runpod (现在上面都还有钱笑死),租卡主要是👆这俩问题,老哥有啥好办法吗

    @secondwtq 蛮有道理的,能快速生成预览还蛮重要的

    @leconio 老哥点解,为啥为了生态要选 40 系? 30 和 40 的生态不一样吗,我理解都是 cuda
    Tuatara
        75
    Tuatara  
    OP
       213 天前
    大家讨论好多,很感谢哈哈哈

    原题忘了说了,我之前也一直是租 GPU 的,主要是 runpod 和 autodl 两个平台上。性价比上绝对是租划算,主要问题是 1 )想玩一些大神的整合包,但只能 windows/可视化,租的 gpu 都是只有 linux 这种整合包就跑不了;再来租的每次都要重新搭环境,时间长了有点蛋疼,这才考虑组机器。

    不过说实话我动手也没有那么多,看了一圈下来大家分歧还是比较大😂 准备再租 gpu 一段时间,真要入的话目前倾向 4070tis 了。

    至于 mac ,我工作电脑是个 M2 pro 芯片,跑 llm 倒是挺好。sd 的话还是慢的过分了,我感觉体验不是很能接受。但更新的 M3 + 统一内存没试过,我理解速度上还是不如显卡?因为它只是显存大,计算还是得 cpu
    BernieDu
        76
    BernieDu  
       213 天前
    @tr1v1z m3max 3 秒一张图和 3090 2 秒一张图差多少? 而且楼主是为了研究 ai ,3090 能跑 llam 70b ? 跑内存里是吧。这就不是浪费时间了?
    Oct31Dec25
        77
    Oct31Dec25  
       213 天前
    @devlnt #20 70b 模型,4090 显存是不够的

    4090*3 ,跑 70b ,每张显卡占用 13G 显存。
    wsbqdyhm
        78
    wsbqdyhm  
       213 天前
    目前使用 mac m1max 只会用 sd ,出图有点慢,搭车问下,mac 有没有一些免费项目可以训练自己的语音,然后用文本可以输出自己的专属语音。
    neteroster
        79
    neteroster  
       213 天前
    @wsbqdyhm 这个 https://github.com/RVC-Boss/GPT-SoVITS

    如果不会用的话 B 站搜搜教程,现在应该听多了。
    1138743695
        80
    1138743695  
       213 天前
    @Tuatara #74 这个我跟你的想法恰好相反,大多数开源的代码不应该都是基于 linux 的吗,所以才会主力用 mac 和云服务器做实验(不管是 github repo 还是 HuggingFace 默认都是 linux 吧),不过我猜你说的可能是 ai 绘画的整合包,这个我确实不是很了解😂
    Tuatara
        81
    Tuatara  
    OP
       213 天前
    @1138743695 对,我看的很多是 b 站 up 的 SD 教程,大多是要图形化工具,而且是打包好的只有 windows
    Tuatara
        82
    Tuatara  
    OP
       213 天前
    @1138743695 其实还有一些工具也都是只有 windows ,我之前做 ai 孙燕姿,要做人声分离,用到的软件就只有 win
    first2wood
        83
    first2wood  
       212 天前
    刚好看到这个,我看好多人用的 P100 和 P40 。https://www.reddit.com/r/LocalLLaMA/comments/1cu7p6t/llama_3_70b_q4_running_24_toks/
    ShadowPower
        84
    ShadowPower  
       212 天前 via Android
    我想起这个模型:
    https://civitai.com/models/332076/kohaku-xl-delta

    用两块 3090 显卡,在 360 万张图片(只比初代 NovelAI 少一点)上微调 SDXL 不到一个月得到的模型……
    rainbowmolly
        85
    rainbowmolly  
       212 天前
    @sleepybear1113 “因为我不懂,所以别人都是无脑”
    chesha1
        86
    chesha1  
       212 天前
    @plasticman64 能比得上同售价的 N 卡吗?除了显存大其他不全是劣势?

    真的性能好怎么只看见论坛和视频博主在吹,发论文和做大模型的商用的团队里,有 0.01%用 mac 吗?
    jimrok
        87
    jimrok  
       212 天前
    学习和调试机应该是要配置一台的,N 卡就行。租卡适合模型都调试完毕了,要进行大规模训练。
    Tuatara
        88
    Tuatara  
    OP
       209 天前
    @first2wood 这些卡太高级了,我都不会组😂另外好像还有些兼容性问题,感觉还是更适合真正研究/训练 AI 的人用,我这种业余玩家主流 N 卡最主要的好处是教程多社区大,有问题好解决
    Tuatara
        89
    Tuatara  
    OP
       209 天前
    @ShadowPower 有意思,更纠结了哈哈哈😂

    @jimrok 我也是这么想
    lancelvlu
        90
    lancelvlu  
       209 天前
    https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference 苹果芯片 LLM 推理可以参考这个
    glouhao
        91
    glouhao  
       208 天前 via Android
    @imoru 大佬,这个关机后训练的东西还在么?能跑激动人心的图么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3166 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 12:51 · PVG 20:51 · LAX 04:51 · JFK 07:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.