V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zyzzustc98
V2EX  ›  硬件

矿卡用于生产力怎么样(深度学习)

  •  
  •   zyzzustc98 · 2022-10-05 12:09:23 +08:00 via Android · 6883 次点击
    这是一个创建于 805 天前的主题,其中的信息可能已经有所发展或是发生改变。
    实验室有资源但是要排队,打算跑小模型用用,有意向 3060 12g
    42 条回复    2022-10-08 11:48:05 +08:00
    nightwitch
        1
    nightwitch  
       2022-10-05 12:12:42 +08:00 via Android
    能用多久看人品
    arch9999
        2
    arch9999  
       2022-10-05 12:15:06 +08:00   ❤️ 14
    我这 AI 怎么跟个傻子一样啊?

    矿老板你真该死啊!
    optional
        3
    optional  
       2022-10-05 12:51:43 +08:00
    直接租算力。
    Tink
        4
    Tink  
       2022-10-05 13:16:08 +08:00 via Android
    跟打游戏一个道理
    s4nd
        5
    s4nd  
       2022-10-05 15:17:18 +08:00
    质量靠谱的话我觉得没问题,挖矿的过程不也是计算的过程吗,实验室的资源要排队用的话没准和矿卡被操的程度差不多了
    mineralsalt
        6
    mineralsalt  
       2022-10-05 15:41:31 +08:00
    刚买了几张矿卡组黑苹果, 价格很香, 坏了也认了, 不心疼
    RatioPattern
        7
    RatioPattern  
       2022-10-05 18:32:10 +08:00   ❤️ 1
    从不同矿场拿到的不同品牌不同型号不同出厂日期批次,不同的散热条件,所挖币种,供电电源的电压电流稳定性与纹波,矿场自己调试的挖矿 bios 超频幅度,甚至装在矿机机箱两边的与装在中间的积热带来的元件老化速度不一都是变量,简单用“矿卡”二字难以概括所有矿卡,没有可比性。同样的价格,你可能拿到堪比崭新出场刚挖就暴跌停机的新卡用 10 年都没问题,也可能拿到第一批无锁地下室偷电闷炉里面烤出来的火卡,插上用了几天还是好的,后来突然哪天天气不好温度高一点低一点家里冰箱空调开机带来了一点电压抖动就炸了。
    RatioPattern
        8
    RatioPattern  
       2022-10-05 18:34:57 +08:00   ❤️ 1
    至于不同的价格,还有有人翻新,翻新是水洗还是超声波还是工业清洗剂或者卖家自己小毛刷
    还有,出厂的 30 系“全新”也可能是翻新。
    全都是变量,不是着急用不如等 40 系,着急用,至少收个能个人送保的品牌,外观看起来正常点(免得厂家收了检查说你挖矿拒保)
    当然你自己会维修的话,怎么便宜怎么来,就是不知道工时费谁给结算
    RatioPattern
        9
    RatioPattern  
       2022-10-05 18:39:55 +08:00   ❤️ 1
    然后看到你说深度学习用,执意要收的话有个小建议,深度学习用不要收挖 ETH 的,ETH 消耗显存很厉害,显存出错你训练模型就会要么结果不对耗时过长( GDDR6 还能自己纠正的情况下),要么无法纠正直接中断训练从头开始
    agegcn
        10
    agegcn  
       2022-10-05 20:06:41 +08:00   ❤️ 1
    @RatioPattern 你讲了这么多,最后显得很业余了。。。矿卡还有不挖 eth 的吗?难道是 1060 3g ?
    agegcn
        11
    agegcn  
       2022-10-05 20:10:23 +08:00
    我自己就是又挖矿又做深度学习的。楼上不知道听了哪里的营销号扯淡,忽悠小白专业名词张口就来,还 tm 电压抖动,消耗显存。矿卡过压力测试就没问题。
    v2eb
        12
    v2eb  
       2022-10-05 20:15:10 +08:00 via Android
    可能用自来水冲过🐒
    RatioPattern
        13
    RatioPattern  
       2022-10-05 20:58:56 +08:00   ❤️ 2
    楼上自己挖矿卖卡的,各位自行判断。
    haifuyun
        14
    haifuyun  
       2022-10-05 22:37:39 +08:00 via iPhone
    要买选七彩虹和 asus ,这两个售后好,没拆过的,如果坏了估计给你换新的
    agegcn
        15
    agegcn  
       2022-10-05 22:59:17 +08:00
    @RatioPattern 我什么时候卖矿卡了?我自己挖了之后拿来深度学习,没卖过,可以吗?什么依据都拿不出,就只能怀疑别人动机。你说的电压抖动,显存消耗,有什么测试数据吗?张口就来谁不会啊
    agegcn
        16
    agegcn  
       2022-10-05 23:08:12 +08:00
    @RatioPattern 如果你没有挖过矿,也没有买过矿卡做深度学习,只是听营销号扯淡,或者自己脑海里 yy ,这种回答到底可不可靠,各位自行判断
    RatioPattern
        17
    RatioPattern  
       2022-10-05 23:28:39 +08:00   ❤️ 7
    不跟垃圾人浪费时间,我的确不是专业出身,但我折腾矿卡有几年了也有部分此行业从业经验,简单说明下:
    1.他自己是个例不具备普遍性,且可能直接利益相关,故直接使用公众号扯淡之类的词汇攻击正常讨论。就算不懂技术,单从厂家 RMA 均采取拒绝矿卡保修策略也可以看出,矿卡维修成本高难度大,间接说明老化 /损坏程度较日常用卡更甚,要知道这是在早期矿主往往直接工厂加价批量拿货且与厂家关系明显优于消费者个人的前提下。

    2.电阻、电容和电感,温度变化对其工作特性和寿命的影响是电子专业就业必修课,举例当温度升高时,二极管的正向特性左移,反向特性下移。一般地,在室温附近温度每升高 1℃二极管正向压降会减少 2 到 2.5mV ;而温度每升高 10℃,反向电流增大一倍。
    又比如目前电子产品内常见的固态电容在摄氏 105 度高温下,固态电容和液态电容的寿命同样为 2000 小时(83 天),但温度越低固态电容寿命将会比液态电容有更长的寿命,摄氏 95 度、85 度、75 度、65 度下其寿命将会是 1.5 倍、2.5 倍、4 倍和 6.25 倍。在 65 度温度情况下,固态电容的寿命约为 20 万小时(超过 22 年)。
    不要对矿场的散热和机器运行环境有过多期待,即使矿场温控无尘环境有所改善,也往往是为了更好的超频 GPU 显存来压榨出更高的算力,这最终还是会反应到矿卡的老化加速上。矿场第一成本电费,第二成本矿机。大矿厂规模更大,更有动力去极致优化在机房散热电能消耗与坏卡下线故障率上找一个能接受的平衡点。

    3.现代 GPU 有类似固态坏块控制的机制,当个别计算单元不稳定或者连续出错时可以驱动上降频至稳定运行频率 /功耗做软屏蔽,但是你相信我这个时候你如果在用卡你是能感觉出来的,哪怕看帧数是对的。此外光刻同一块 die 上出产的晶片量产存在出厂差异是公认的,在出场测试后会进行软硬屏蔽不当的 CU(shader)组,这些 shader 组被屏蔽的原因多种多样,但主要为片上短路 /预设频率下不能稳定运行
    4.搜索引擎能搜到的常规压力测试无法覆盖所有情况(包括常见的 GPUZ 甜甜圈,3dmark ,hwinfo64 看错误率,甚至包括厂家出厂测试软件如 nvida 的 mats 与 AMD 的 tserver,鲁大师不具备太高参考性),至今你仍能够见到工业渲染需求,大家拿来机器仍然是 3dmark 跑完分之后找个极端复杂的场景或者模型挂在那面连续 24 小时以上然后检查渲染结果是否与预期完全一致来确认稳定性.
    大部分普通用户拿到卡之后并不会拆开看里面更换了什么比如供电显存,也不会挨个检查每路供电模块变化预估老化程度,也不会连续 24 小时满载跑专业渲染工具并且比对渲染结果来确认稳定性,能够自己换下硅脂散热完好无损装回去的已经算较了解显卡的用户。相信你接触过足够多的矿卡之后就明白甜甜圈 30 分钟一小时并不能反映问题,3dmark 也是一样。矿卡明着的问题是宝贝,暗着的问题是计算错误。也许游戏用户还好,一帧两帧看不出来,但工业用最终的渲染结果比对更能反应问题,既测试了 GPU 计算单元的准确性又测试了显存。

    到此为止,出口成脏不值得交流
    RatioPattern
        18
    RatioPattern  
       2022-10-05 23:30:57 +08:00   ❤️ 1
    矿卡明着的问题是突然暴毙,打错了。
    agegcn
        19
    agegcn  
       2022-10-05 23:44:50 +08:00
    终于有点内容了,之前质疑你就是只说结论,不说论据,而且我质疑你之后,只怀疑我动机,完全回避关键点,所以才喷你是营销号来的。不过你说的这些都是正确的废话啊,套在任何电子产品上都通用。任何电子产品,都是用得越多,剩余寿命就越短,越容易坏。任何压力测试,都不可能覆盖所有情况。这种道理需要从电阻电容开始解释吗?我觉得只是忽悠小白的说辞而已,对提问者一点帮助也没有。我给的建议是实际操作建议,矿卡可以做深度学习,前提是半年内生产的卡,并且可以通过压力测试。
    wowodavid
        20
    wowodavid  
       2022-10-06 00:02:01 +08:00 via iPhone
    别想了,最大的问题:开不了发票
    Donahue
        21
    Donahue  
       2022-10-06 00:04:48 +08:00
    个人认为没什么问题~

    我 7 月底左右买了一张闲鱼卖家的索泰 1066 , 垃圾卖家,成色很差,到手玩下游戏就死机了。
    然后马上退掉,另外买了一张 1080 锁驱动,当时要 720 买的,现在都降到 420 了,ubuntu 下用 470 驱动还算稳定吧,这个卡到手的时候非常新,大矿主的卡。

    像 3060 这种卡我觉得没什么问题,才挖了 1 年吧, 应该没什么事的。

    我 2018 年矿难的时候收藏了两个巨龙 1250w 电源,两个都分别在 2021 年 9 月跟 2022 年 7 月装上机了,都正常用。网上还一堆人说矿卡有问题呢

    我现在台式机上装的两条 pm981a 1TB 都是矿盘,写入 300TB 左右,健康度 80%, 问题也不大。因为 2018 年的时候我怕二手会坏所以花了 600+买了一根 sn720 512GB, 当时是第一个笔记本,里面自带一个 pm981 256GB, 一直用到 2021 年都没有任何问题。所以我觉得硬盘也不是那么容易坏的,后面就把这两个小容量硬盘卖掉换了 1TB 的硬盘。
    因为之前一直容量恐惧,那段时间硬盘刚好又很便宜,我还倒手了大约有 30 根 1TB 的固态硬盘,买买卖卖这么多了都没什么问题,还赚了一点钱(1-2k 吧)。

    还有就是我 2019 年看着又有一些小矿难,买了我家云,然后 40 包邮买了一块 500G 的二手 3.5 寸机械硬盘,也是一直用到 2022 年,期间 500G 硬盘就放我家云里面,装一点数据。2022 年 7 月份被我 50 卖掉了,等于白用哈哈。。因为 2022 年 7 月份的时候我又买了一个 14TB 的东芝挖矿硬盘放在家里吃灰~

    所以我觉得 3060 12G 应该也是没什么问题的,毕竟才 1 年,一般不会坏的。我那个 1060 出问题是卖家的问题,那个卖家评论也有差评说用了几天就坏的,我当时急着用没看。他自己就一肚子坏水,他自己显卡的问题,退货邮费我出,还拖着时间自动确认退货。所以还是要挑卖家,看看卖家的信用跟评论。
    Donahue
        22
    Donahue  
       2022-10-06 00:09:53 +08:00
    等于说我现在电脑是矿电源 矿硬盘 矿显卡哈哈,要素齐全~

    不过不推荐 1080 锁驱动,除非你要求不是很高,跑模型比 3060 慢,显存也不够大,我跑模型只是跑着玩的
    agegcn
        23
    agegcn  
       2022-10-06 00:11:12 +08:00
    最后说一下你的建议为什么非常可笑:(深度学习要收没挖过 eth 的矿卡)
    1. 没挖过 eth 的矿卡,应该只有 1060 3g ,960 2g ,这种矿渣不可能做深度学习
    2. 不具备实际操作可能。退一步,存在 3060 的矿卡,且没有挖过 eth ,你也买不到。一方面是无法检验,而且卖卡的大部分是贩子,根本不清楚这卡的历史
    3. 你意思是 eth 消耗显存,显存很重要,所以要没挖过 eth 的显卡。挖矿要么吃显存,要么吃核心。一张没挖过 eth 的矿卡,等于说核心寿命不长,核心比显存贵多了,这种矿卡价值更低。换句话说,如果二选一,我肯定选挖过 eth 的矿卡。
    mythabc
        24
    mythabc  
       2022-10-06 00:36:40 +08:00
    @RatioPattern 电容、电阻、电感老化的问题听过不少,印象中这类配件价格很低廉,为什么显卡贩子没有选择给矿卡更换新的电容电阻电感呢?看一些矿卡维修,上面的配件都出液、发黄了。另外给矿卡核心降频、显存降频能否提高使用寿命?毕竟我电源和机箱散热规模都一般,我觉得在能发挥 80%的性能下 24H 连续深度学习就够了。
    westoy
        25
    westoy  
       2022-10-06 00:36:59 +08:00
    3060 除了第一批官方流出驱动破解的 LHR V1 的卡, 其他的破解 70% HASH 能力后没比 1060 强多少, 然后价格贵一倍多, 真的有很多人拿来挖么?
    westoy
        26
    westoy  
       2022-10-06 00:41:36 +08:00
    @mythabc

    人工成本也要钱的啊, 尤其都是小封装的贴片

    而且电阻涉及采样有精度需求的, 电容在路测不准, 要拆下来测

    而且小渠道拿不到品牌商这种货的, 搞这种维修的最优配件都是拆废掉的料板、料卡
    arch9999
        27
    arch9999  
       2022-10-06 03:20:37 +08:00 via iPhone
    @RatioPattern 兄弟,你不是蠢就是坏,就这两年还有傻子会用显卡去挖除了 eth 以外的币吗?莫不是你自己挖其它币挖傻了?
    RatioPattern
        28
    RatioPattern  
       2022-10-06 07:15:46 +08:00   ❤️ 1
    @mythabc 不止电容电阻电感,其实 GPU 工厂拿货也是我们想象不到的便宜,但是现代显卡维修检测人力成本更高,普通用户没有自己的检测维修能力即使有可能时间精力投入在这方面也是不划算的.
    1.零几年时候二线台企工厂就能日产万张以上显卡,这是现代工厂流水线的生产能力

    2.至今没有任何工厂,维修点能够有日检修万张显卡以上的能力(检测更复杂,真的维修可能拆拆焊焊经验多了也很快),一千张我都是怀疑的,一个熟练的师傅,一天五张左右应该是比较靠谱的。

    3.以上两点导致综合成本算下来,现代显卡厂商一般选择宁可直接给你 RMA 新的也不愿意增加维修检测员工的数量来做维修,这还是厂家有自己完整的 PCB 设计图检修点位图的前提下(一般保密,相当于厂家维修人员拥有地图和 debug 输出控制台,可以大大降低检修困难度和维修耗时)

    最后,直接回答你的问题,不选择直接更换新的电容电阻电感也是人力成本原因,实践当中没有任何一例整块 PCB 上所有易老化原件全部换新的先例,维修实践基本会是根据检测得到的信息判断到哪里坏了换哪里,如果没有哪里坏了换哪里而是换了多余的地方,往往是师傅也拿不准问题出在哪里就把平时容易出现故障的地方先都换掉。此外非工厂生产流水线(数控回流焊+BGA )自己手工操作更换一个两个元件也是非常考验师傅手艺的(举例比如显卡为了良好的散热设计,PCB 往往设计的就很不容易积热,这会导致从维修角度来看比如热风枪你可能需要更高的温度更长的加热时间来保证焊锡融化焊接无虚焊牢固接触,但是个别元件对焊接温度有明确容忍度回流焊没问题手工焊就特别容易失效,这是纯粹的靠实践摸经验),一个两个的电容类元件在更换时已经如此,整块 pcb 全部更换下来,可以想象如果个别更换上的新元件本身存在质量问题或者更换过程中发生了静电击穿 /加热过程中失效反而会进一步增加检修复杂度和耗时,所以理论可行,实践上没有人这么做
    RatioPattern
        29
    RatioPattern  
       2022-10-06 07:17:48 +08:00   ❤️ 2
    @arch9999 看清楚楼主用途是明确的工业用途,稳定第一,出口成脏不值得交流。屏蔽了。
    SekiBetu
        30
    SekiBetu  
       2022-10-06 10:14:54 +08:00
    超过 650 块的都有点亏
    HunterX
        31
    HunterX  
       2022-10-06 10:25:39 +08:00
    给我的话应该会直接实践一下,如果确实不满足,大不了挂回咸鱼,又亏不了多少
    m1nm13
        32
    m1nm13  
       2022-10-06 10:55:02 +08:00
    我觉得没啥问题,机房天天跑训练的卡,和天天挖矿有啥区别?
    AspirinXue
        33
    AspirinXue  
       2022-10-06 10:59:09 +08:00
    要不你试用下 OpenBayes ?
    https://openbayes.com/
    他们对学术机构很友好,有免费的在资源可以薅。
    AspirinXue
        34
    AspirinXue  
       2022-10-06 11:00:51 +08:00
    @AspirinXue 之前我注册的时候每周都送时常,现在好像是注册送一部分时间,然后每周送 RTX 3090 10 小时 /周 + CPU 5 小时 /周
    allpass
        35
    allpass  
       2022-10-06 11:07:45 +08:00
    @m1nm13

    机房的差很多,我机房那张 A2 ,24 小时 70 度在运行(因为我调不了服务器的风扇)。
    我自己买的显卡, 核心都控制在 50 度以下,比打游戏还低。
    m1nm13
        36
    m1nm13  
       2022-10-06 11:21:53 +08:00
    @allpass 真没啥差别。。。看矿场环境,8 卡 3090 空调房训练,也有接近 80 度了。
    在此点名 NT 技嘉涡轮 3090 .就 TM 漏油啊,漏得服务器都炸飞了
    m1nm13
        37
    m1nm13  
       2022-10-06 11:27:50 +08:00
    @m1nm13 国庆回来,给人配了个电脑,6700XT 矿卡,还是技嘉的卡,满载 76 度。感觉没啥问题。就硅脂垫看起来脏了点。八成搞风枪来吹的。
    还是点名 NT 技嘉,6700XT 魔鹰,TM 出厂 BIOS 有问题,默认锁频 500MHZ ,跑分连个 1050TI 都不如。整半天才找了新 BIOS 刷上去。别说是电脑小白,稍微懂一点的都得翻车在上面。问题实在太怪,生平罕见
    zhuangzijun1996
        38
    zhuangzijun1996  
       2022-10-06 12:05:04 +08:00 via Android
    边挖边跑模型都没事啊😂只要别拿正常价格买矿卡就行 这玩意也不是说那么容易翻车的
    agegcn
        39
    agegcn  
       2022-10-06 21:10:21 +08:00
    一方面说自己“腾矿卡有几年” “有部分此行业从业经验”,一方面自己也不懂装懂,用长篇大论忽悠小白,最后还给一个可笑的建议。这种人看到我就生气。我语气激烈了一点就被贴上“出口成脏不值得交流”。用自己也不懂的名词忽悠小白就值得交流了?我觉得我还算温和的了
    zyzzustc98
        40
    zyzzustc98  
    OP
       2022-10-07 11:25:32 +08:00 via Android
    @AspirinXue 谢谢,我去了解下,现在云平台很多
    zyzzustc98
        41
    zyzzustc98  
    OP
       2022-10-07 11:27:14 +08:00 via Android
    决定用云了,没有 24 以上显存的卡跑不太动
    mxT52CRuqR6o5
        42
    mxT52CRuqR6o5  
       2022-10-08 11:48:05 +08:00 via Android
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5747 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 52ms · UTC 02:46 · PVG 10:46 · LAX 18:46 · JFK 21:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.