如何理解 HuggingFace 相关模型的加载过程

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理,但是 Python 代码经常发生内存泄露,同时也很难排查原因.请问各位大牛有没有相关的读物,调试工具来进行问题的溯源?

同时还想问一下比如说在 GPU 推理的时候,加载模型是不是只用加载一次到 GPU 显存,之后每个用户都可以用了,如果同时进行推理呢?如果使用 CPU 推理的话,又是什么情况呢?有没有专门的文档说对应的过程呢?

先谢过大家!

目前尚无回复