1
v1 2 days ago
有一种“前朝的剑斩本朝的官”的意味
|
2
longxinglink 2 days ago
不知道 deepseek-v4-pro 除去玩酒馆还能拿来干啥,小型生产里完全没有性价比场景
|
3
940i3s34v4F1HW41 PRO 我很确信这是 nist 作为政府部门的文书工作,而已
|
4
codehz 2 days ago
国产 ai 已经彻底落后了,差距还在不断增大,明年这个时候大概就会落后一年了(按图表来说)
|
5
cnnblike 2 days ago
GLM 都没有,这个也太那啥了……
|
6
laminux29 2 days ago
NIST 居然没把 Google Gemini 加入竞赛。全球第一的搜索引擎巨头 + 自研芯片,这两个因素加在一起,国产 AI 要追赶,只能说还要走很多弯路才行。
|
7
niubilewodev 2 days ago via iPhone
这种报告指不定就是花钱请德勤之类的外包做的……
|
8
catazshadow 2 days ago via Android
@codehz 这里面还没有 Mythos
|
9
FlashEcho 2 days ago
你看这个还不如看 LiveBench 和 LLMArena ,人家至少是全开源的,你列的这个里面有 22%的测试是闭源的
|
10
WuSiYu 2 days ago via iPhone
任何 bench 都是有偏向性的
当然,你可以挑一个自己更喜欢的来相信 |
11
roswellian 2 days ago
现在的 NIST 早就不是过去的 NIST 了...有能力的去了工业界,能力一般的又不是三代根正苗红的公民又做不到核心职位,拿绿卡的更不受待见。
|
12
sommio 2 days ago via Android @FlashEcho
闭源才有看的必要啊,公开测试集一旦流行起来, 很快 230B 的模型就行跟自身参数量十倍的模型基准差不多。 这个测试全靠那几个未污染测试集拉开差距, 不然中美模型差距就只有 1~2 个月了。 |
13
sommio 2 days ago via Android 至于 LLMArena ,这个榜能靠掐媚提升排名,
当年 Llama 4 这样搞已经把这个榜玩臭了。 |
14
catazshadow 2 days ago via Android
这里好多应激的
|