NIST 的测试要比各家自己吹的口径靠谱吧

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro

nist

测试

靠谱

14 replies • 2026-05-05 12:55:56 +08:00

2 days ago

有一种“前朝的剑斩本朝的官”的意味

longxinglink

2 days ago

不知道 deepseek-v4-pro 除去玩酒馆还能拿来干啥，小型生产里完全没有性价比场景

940i3s34v4F1HW41

PRO

2 days ago

我很确信这是 nist 作为政府部门的文书工作，而已

codehz

2 days ago

国产 ai 已经彻底落后了，差距还在不断增大，明年这个时候大概就会落后一年了（按图表来说）

cnnblike

2 days ago

GLM 都没有，这个也太那啥了……

laminux29

2 days ago

NIST 居然没把 Google Gemini 加入竞赛。全球第一的搜索引擎巨头 + 自研芯片，这两个因素加在一起，国产 AI 要追赶，只能说还要走很多弯路才行。

niubilewodev

2 days ago via iPhone

这种报告指不定就是花钱请德勤之类的外包做的……

catazshadow

2 days ago via Android

@codehz 这里面还没有 Mythos

FlashEcho

2 days ago

你看这个还不如看 LiveBench 和 LLMArena ，人家至少是全开源的，你列的这个里面有 22%的测试是闭源的

WuSiYu

2 days ago via iPhone

任何 bench 都是有偏向性的
当然，你可以挑一个自己更喜欢的来相信

roswellian

2 days ago

现在的 NIST 早就不是过去的 NIST 了...有能力的去了工业界，能力一般的又不是三代根正苗红的公民又做不到核心职位，拿绿卡的更不受待见。

sommio

2 days ago via Android

@FlashEcho
闭源才有看的必要啊，公开测试集一旦流行起来，
很快 230B 的模型就行跟自身参数量十倍的模型基准差不多。

这个测试全靠那几个未污染测试集拉开差距，
不然中美模型差距就只有 1~2 个月了。

sommio

2 days ago via Android

至于 LLMArena ，这个榜能靠掐媚提升排名，
当年 Llama 4 这样搞已经把这个榜玩臭了。

catazshadow

2 days ago via Android

这里好多应激的