OpenAI 新模型将对 AI 套壳应用来一波革命

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 235 天前的主题，其中的信息可能已经有所发展或是发生改变。

groq 上 oss20b 近 6000token 每秒的输出速度

已经是量变引起质变了

快了将近 100 倍

7 条回复

iwdmb

2025 年 8 月 6 日

iwdmb

2025 年 8 月 6 日

YsHaNg

2025 年 8 月 6 日

可能要 hopper 以上更新架构的加速器垃圾佬平台不如 qwen3:30b 上下文预分配内存以及 offload 效率很低

sam2478

2025 年 8 月 7 日

@iwdmb 是网站出问题了吗？我打开没并没有对话框

jianyang

2025 年 8 月 7 日

gpt-oss 120b 推理加结果，token 吐字快到离谱

xieqiqiang00

2025 年 8 月 12 日 via Android

groq 我还看到有超过一万 token 每秒的

xieqiqiang00

2025 年 8 月 12 日 via Android

120b 的版本在英伟达官方的数据里甚至能跑到 2 万 token 每秒每卡