|      1wxd21020 OP 没人么 | 
|      2ellipsecheung      2024-07-27 14:48:14 +08:00 多大规模的,什么显卡,要监控哪些数据 | 
|  |      3gesse      2024-07-27 14:58:12 +08:00 nvidia-smi | 
|      4wxd21020 OP @ellipsecheung 千卡级 A100 起步 | 
|  |      5mgrddsj      2024-07-27 22:13:35 +08:00 via Android 用过某高校的 HPC ,也是好多的 GPU 服务器,是用 Grafana 搭的资源占用监控。 | 
|      8ellipsecheung      2024-07-29 11:41:48 +08:00 @wxd21020 加个 wx 聊一下? | 
|      9Mi1kTea      2024-07-30 13:56:48 +08:00 https://github.com/utkuozdemir/nvidia_gpu_exporter?tab=readme-ov-file nvidia exporter 获取数据+Prometheus 整合数据+grafana 展示 |