DeepSeek 开源周第一天： FlashMLA - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 32 天前的主题，其中的信息可能已经有所发展或是发生改变。

为 Hopper GPU 设计的高效 MLA 解码内核，针对可变长度序列进行了优化，并且投入了生产环境。

✅ 支持 BF16 精度

✅ 使用分页 KV 缓存（块大小为 64 ）

⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能

Github: https://github.com/deepseek-ai/FlashMLA

X: https://x.com/deepseek_ai/status/1893836827574030466

目前尚无回复

FlashMLA Hopper GPU 高效 MLA 解码内核

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2776 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 22ms · UTC 12:17 · PVG 20:17 · LAX 05:17 · JFK 08:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.