1
dayeye2006199 37 天前 ![]() sglang
|
2
raycool 37 天前
是 404G 大小的模型文件吗?
这个 8 卡可以部署成功? |
4
zhyim OP @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf
|
5
JackyTsang 36 天前
SGLang 部署。
|
6
haimianbihdata 22 天前
@JackyTsang 这个支持并发怎样
|
![]() |
7
weiming 21 天前
vllm + awq 量化
|
![]() |
9
weiming 21 天前
@zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ
|
11
volvo007 21 天前
请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下
|
![]() |
14
weiming 21 天前
@zhyim vllm 0.7.2 awq
Parallel request Token per second ( Total ) Token per second(per request) 1 30 30 10 81 10 30 144 6.2 50 180 5 |
![]() |
15
weiming 21 天前
4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。
|