为 Hopper GPU 设计的高效 MLA 解码内核,针对可变长度序列进行了优化,并且投入了生产环境。
✅ 支持 BF16 精度
✅ 使用分页 KV 缓存(块大小为 64 )
⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能
Github: https://github.com/deepseek-ai/FlashMLA
X: https://x.com/deepseek_ai/status/1893836827574030466