NVIDIA 消费级显卡有没有免费靠谱的多个容器共享的方案？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› 下载 GeForce Experience

› NVIDIA SHIELD

› GPU Ray Tracing

› NVIDIA Unix Driver

这是一个创建于 469 天前的主题，其中的信息可能已经有所发展或是发生改变。

假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ，但目前一个 Pod 独占整数张 4090.

想要的效果是：2 个(or 多个) Pod 可以同时共享一张显卡。

看了一下 NVIDIA 官方的方案：

MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例，且只有例如 blackwell 等架构显卡才能用。
vGPU(有分时方案和 MIG 方案)，缺点是不免费，且一样挑显卡。

需求是:

支持同一张显卡在同一时间被多个容器使用
在消费级显卡上可用
免费
有在比较大规模集群上稳定跑过

请问站内有无大佬有相关的实践/思路/方案？

11 条回复 • 2024-07-19 23:08:25 +08:00

1

adsryen

2024-07-19 18:04:55 +08:00

蹲答案就是学习嘻嘻

2

yinwai

2024-07-19 18:17:42 +08:00 via Android

这个需求直接 nvidia-docker 不就可以了，可指定每个容器分配哪几张，单张 gpu 可映射到多个容器，不过这样做没法像 mig 一样对每个容器调节 gpu 性能。
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

3

cinlen

OP

2024-07-19 18:28:35 +08:00

@yinwai 漏了一个需求，要求这个 Pod 只能使用这张显卡的有限能力(例如 30%，不能超过上限)。

4

piero66

2024-07-19 18:44:07 +08:00 via Android

没有可能，游戏卡开 vgpu 止步于 20 系

5

piero66

2024-07-19 18:45:26 +08:00 via Android

建议用 nvidia-docker 竞技场，资源先到先得

6

choury

2024-07-19 18:47:34 +08:00 via Android

要是能让你这样搞，那些计算卡卖给谁

7

yinwai

2024-07-19 21:31:03 +08:00 via Android

2

@cinlen 那可以试试下面这个项目，可以 hack 消费级显卡开 vgpu
https://github.com/DualCoder/vgpu_unlock

8

skrbug

2024-07-19 22:03:30 +08:00

@piero66 这个代表的意思是？先运行的容器将一直占着这张显卡，哪怕没有进程调用 GPU

nvidia-docker 竞技场是说的什么？大佬科普下

9

carmark

2024-07-19 22:40:52 +08:00

1

具体的方案可以参考这里： https://zhuanlan.zhihu.com/p/398369404

参考方案就是阿里的 cGPU ，腾讯的 qGPU 。

主要实现的思路就是 ioctl 层面的拦截，干预调度和显存管理。

10

piero66

2024-07-19 22:45:29 +08:00

@skrbug 就是字面意思，资源先到先得，游戏卡基本做不了资源切割

11

longredzzz

2024-07-19 23:08:25 +08:00

2

https://github.com/Project-HAMi/HAMi
推荐这个项目，支持显存切分，算力切分，虚拟显存。

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 3782 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 10:11 · PVG 18:11 · LAX 03:11 · JFK 06:11
♥ Do have faith in what you're doing.