V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cinlen
V2EX  ›  程序员

本地跑 sd 和 local llm 推理, 什么显卡性价比最高?

  •  
  •   cinlen · 2 天前 · 2145 次点击

    如题。

    纯推理,主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。

    36 条回复    2024-06-29 18:10:45 +08:00
    justFxxk2060
        1
    justFxxk2060  
       2 天前
    2080ti 魔改
    13240284671
        2
    13240284671  
       2 天前
    3060ti 16g
    13240284671
        3
    13240284671  
       2 天前
    说错了,4060 16g
    hez2010
        4
    hez2010  
       2 天前
    本地一般是跑量化后的模型,你的显卡起码得支持 INT8 和 INT4 。
    netizenHan
        5
    netizenHan  
       2 天前
    应该要求不高吧,前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ,不过就是比较慢
    cinlen
        6
    cinlen  
    OP
       2 天前
    @justFxxk2060 有看到 2080ti + 22g 的方案,这个靠谱吗?
    cinlen
        7
    cinlen  
    OP
       2 天前
    @hez2010 最好是可以 fp16
    my101du
        8
    my101du  
       2 天前
    @13240284671 非 ti 的 4060 , 好像都是 8G 的? 618 想装机都没找到 16G 的 4060.
    cinlen
        9
    cinlen  
    OP
       2 天前
    @netizenHan 目前我是 m1 跑小模型没啥问题。 但还有 sd webui 和 sd comfyui 的需求,所以应该会攒台新机器。
    ccloving
        10
    ccloving  
       2 天前
    如果是 SD 和 ollama ,用 A 卡是不是就可以
    cinlen
        11
    cinlen  
    OP
       2 天前
    @ccloving 好问题. 话说你不提我压根没想过 A 卡
    ccloving
        12
    ccloving  
       2 天前
    @cinlen B 站上有人搞 A 卡,你搜搜,又不炼丹,按说没问题,大显存的显卡都不贵呀。
    gam2046
        13
    gam2046  
       2 天前
    @netizenHan #5 8B 效果很一般,基本处于完全胡诌的状态,我用 3090 跑过,响应速度快,但是胡说八道。而 70B ,我的 3090 就跑不起来了。
    SamLacey
        14
    SamLacey  
       2 天前
    @cinlen 矿卡老祖了,如果售后有保障,或者你动手能力强可以冲,40 系老黄刀法太好了,60superti 与 70 价格差一倍,性能也刚好差一倍,显存不爆的情况下,只有时间差别
    SamLacey
        15
    SamLacey  
       2 天前
    反正挺推荐 4070ts 的
    luchenwei9266
        16
    luchenwei9266  
       2 天前
    看预算,3000 以下无脑选 2080ti 22G
    goxxoo
        17
    goxxoo  
       2 天前
    我算过了, 和一台 MBP 价格差不多...2w 以内
    zysuper
        18
    zysuper  
       2 天前
    没钱选 NVIDIA GeForce RTX 4060 Ti ,
    billgreen1
        19
    billgreen1  
       2 天前
    M2 ULTRA 192GB,
    cinlen
        20
    cinlen  
    OP
       2 天前
    @luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗?
    FlintyLemming
        21
    FlintyLemming  
       2 天前
    @cinlen ollama 默认下的都是 int8 int4 的量化模型,根本就不会给你下 fp16 的,你显存小也没有必要跑没量化的模型
    afeiche
        22
    afeiche  
       2 天前
    个人感觉显存大的,新一点的,毕竟现在有些大模型必须用 cuda12 以上了,我印象中 2 系列的,不支持 12
    cinlen
        23
    cinlen  
    OP
       2 天前
    @FlintyLemming 请教一下,如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算? 和推理一样用参数量乘以数据类型占用 bit 数吗?
    FlintyLemming
        25
    FlintyLemming  
       2 天前
    @cinlen 量化跟推理不一样,显存没上限的,越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档,然后根据设置的参数计算。
    Greendays
        26
    Greendays  
       2 天前
    不能接受改装的话, 应该就是 4060ti 16G 了吧,或者 3060 12G
    Champa9ne
        27
    Champa9ne  
       2 天前
    居然没人推 P40 ?最廉价的 24G 显存,现在 LLM 能上大参数效果才可堪一用啊。自己一个人用,推理一次多等两分钟无所谓了吧?
    woorz
        28
    woorz  
       2 天前
    轻度最好用这个
    [爽过甲骨文 9 条街] 免费用 A100 、V100 !搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea
    shuimugan
        29
    shuimugan  
       1 天前
    @Champa9ne P40 太老了,带宽小,算力差,朋友拿 10 张去跑 Command R Plus 104B 8bit 推理,速度不到 2 token/s ,拿 M2 Ultra 192GB 跑起码还有 5.x token/s ,各种意义上的电子垃圾。
    shuimugan
        30
    shuimugan  
       1 天前
    @cinlen 2080ti 22g 我手头有 2 张,分别 24 小时开机 1 年和 1 年半,没啥问题。不建议买水冷版,单张的话建议买 2~3 风扇的。
    涡轮卡适合挤多张但是噪音大,把功耗限制在 70%左右,风扇拉一下可以得到很好的噪音/性能表现,跑 AI 性能下降在 10%左右。买了一张就会买第二张,迟早走上 4 卡/8 卡的道路。
    yianing
        31
    yianing  
       1 天前 via Android
    4090, you buy more, you save more
    flymeto
        32
    flymeto  
       1 天前
    2080ti 魔改,自己用一年了,没啥问题
    cowcomic
        33
    cowcomic  
       1 天前
    建议上安培架构的显卡,也就是 30 系和 40 系
    印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡
    crackidz
        34
    crackidz  
       1 天前
    @ccloving @cinlen 千万别用 A 卡,一堆坑,最好的还是换 N 卡,别问我怎么知道的
    crackidz
        35
    crackidz  
       1 天前
    跑 SD 最好还是显存足够大,跑 LLM 的话量化 int4 损失也不大,但 SD 是不一样的,基本上都需要 fp16 ,这样子的话 24G 显存是最好的选择,比如 3090 。当然你要是知道魔改卡的话那就...
    luchenwei9266
        36
    luchenwei9266  
       1 天前
    @cinlen #20 没什么雷,用了一年多了。建议上三风扇版本。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1015 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 69ms · UTC 18:43 · PVG 02:43 · LAX 11:43 · JFK 14:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.