V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zuotun
V2EX  ›  问与答

开机之后掉显卡如何排查?

  •  
  •   zuotun · 2 天前 · 609 次点击
    刚入手的 R730 + Tesla ,刚开机时显卡正常,但是过了几个小时 nvidia-smi 就显示找不到设备,并且在 lspci 中也是能看到显卡存在的。
    显卡外观看上去正常没有焊油,电源也是 750W 的,诸位有什么头猪吗?
    10 条回复    2024-12-27 08:04:09 +08:00
    lixiaobai913
        1
    lixiaobai913  
       2 天前
    设备管理器看一下显卡状态,更换显卡驱动试一下,BIOS 设置超频也有关系
    Atukey
        2
    Atukey  
       2 天前
    显存可能虚焊了,跟你同样的问题,3070 改了 16G 显存后就间歇性黑屏,直到有一次黑屏重启后花屏了,拿去维修才知道是显存虚焊了。
    kk2syc
        3
    kk2syc  
       2 天前
    lspci 能看到说明显卡是没问题的,问题应该是 nvidia-smi
    kk2syc
        4
    kk2syc  
       2 天前
    baibaibai0126
        5
    baibaibai0126  
       2 天前
    之前我们这有台双 4090 的设备,一直掉显卡,后来换了电源线才解决,说是功率的问题。头绪打成头猪是故意的吗。
    zuotun
        6
    zuotun  
    OP
       2 天前
    @baibaibai0126 #5 总不能是手写输入的吧。但我只有一张卡还没开始干活呢,待机功率最高也就三十多瓦不至于因为这个掉吧。
    Damn
        7
    Damn  
       2 天前 via iPhone
    @baibaibai0126 一看就是五笔了吧。。
    yy306525121
        8
    yy306525121  
       2 天前 via iPhone
    有可能是电源电压不够
    zuotun
        9
    zuotun  
    OP
       12 小时 6 分钟前
    @lixiaobai913
    @Atukey
    @kk2syc
    @yy306525121
    目前算是解决了,主要是两个问题,一是 nvidia_drm 没有加载,二是风扇。在官方论坛找到了几乎一样的问题 https://forums.developer.nvidia.com/t/need-help-with-p100-installation-r730-dell/262247
    这个问题实在是太离谱了,我自己想怎么都不会往风扇方面想啊。drm 是官方驱动 run 包的锅,风扇是掉卡的直接原因。
    yy306525121
        10
    yy306525121  
       1 小时 10 分钟前 via iPhone
    @zuotun 呃,这谁能想得到啊哈哈哈哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5002 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 01:14 · PVG 09:14 · LAX 17:14 · JFK 20:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.