glm-5.1, kimi-k2.6 在 code arena React 项目上排名 5 和 6，是不是真的好用？

21 replies • 2026-05-04 02:20:02 +08:00

1

ebushicao

5 days ago

少看排名，自己试试就知道了。opencode go 首月也就 5 刀，可以用 glm-5.1 和 kimi-k2.6 。

2

yokisama

5 days ago

好用，自己试试就知道了，GLM 就是 timeout 搞人心态

3

sillydaddy

5 days ago

Elo 评分还是比较可靠的：Elo 基本是所有赛事都常用的评分机制：围棋、游戏、赛车等等。
这个分数，表明了 2 个对手比赛时的胜率。

Elo 胜率公式：胜率 = 1 / (1 + 10^(分差/400))

Elo 相差 10 分胜率 51.4% vs 胜率 48.6%，优势比较均衡，运气因素更大
Elo 相差 50 分 57.1% 42.9% 有不小的优势，五六次对局就能看出来
Elo 相差 100 分 64.0% 36.0% 明显优势，约 2:1 的胜率
Elo 相差 200 分 76.0% 24.0% 显著优势，约 3:1 的胜率
Elo 相差 400 分 90.9% 9.1% 碾压性优势，约 10:1 的胜率
Elo 相差 1000 分 99.0% 1.0% 几乎不可能输，约 100:1 的胜率

领先 50 分是什么概念呢？有 10 个问题，都给到 2 个模型，你会采用 A 模型的答案 6 次，B 模型 4 次。如果 2 个模型都很优异，这种采用率的差距比较明显了。但反过来想，如果与 Opus 4.7 thinking 比赛时，GLM 5.1 能在 10 次里面让用户采纳它的答案 4 次，那它的实力也不容小觑。

一个关键点就是，在比赛时，用户向 2 个模型提出的问题是什么，如果是写斐波那契数列程序，那甚至 qwen 都能战胜 opus ，毕竟这么简单的问题，所有的模型都能答的很好，用户只有选择「同样好」，这就会拉近 2 者的分数，如果都是用这样的问题 PK ，那么 Elo 分差就是 0 。

所以，要看 Arena 里面的 13 万次 votes ，用户都是问的什么问题，这是最关键的。如果 13 万次 votes 问的都是中等难度的问题，在中等问题难度 PK 中，都能让分差拉开 50 分，那么在高难度问题中，分差只会更大。

4

sillydaddy

5 days ago

换句话说，如果你自己平时用的时候，问的问题的难度分布（比如 1 个超级简单的，10 个中等难度的，3 个架构设计的），与 Arena 用户在对答案投票时，问的问题难度分布（比如 2 个超级简单的，18 个中等难度的，5 个架构设计的）类似，那这个分数就很适用，分差完美反映了 2 者的实力差距。

5

xiaomushen

5 days ago

你为啥不自己用用呢？就这么难么？

6

sillydaddy

5 days ago

所以，Elo 用在围棋比赛、赛车比赛时，就是绝对实力的差距。因为 1 场比赛，赢就是赢输就是输，不分情况。但用在编程上时，因为是先给定题目，再 PK ，那题目的选择就是比赛的关键变量，出简单题目 PK 与出难题 PK ，结果会不一样，导致分数计算也不一样。

Arena 的 PK 是类似于众包，所以，没办法控制用户向大模型提的问题是什么，难度分布是怎样的。同样 2 个模型，比如 GLM5.1 和 Opus4.7 ，都出简单题目 PK 得到的 2 者分差，肯定比都出难题 PK 时，得到的分差小。

7

wengjin456123

5 days ago via iPhone

我的项目是全栈 nextjs 和 prisma postg 数据库和一些 node 生态库的网站，用 kimi k2.6 写代码和 glm5.1 体验差距比较大，kimi 需要人干涉介入太多且写出来的前后端代码经常无法修复我要求的内容，但是 glm 可以

8

malagebidi

OP

5 days ago

@sillydaddy 专业分析👍

9

malagebidi

OP

5 days ago

我之前一般用 claude-sonnet-4-6 和 gemini-3.1-pro-preview ，plan 模式用 claude-opus-4-7-thinking ，copilot 和反重力额度收紧后，只能尝试点新的了；

为什么不用 gpt-5.5 ，自从奥特曼去印度的新闻，告诉印度人别想发展 ai 的时候我就觉得他是个 SB 。（其实有小用一下 codex ）

10

isAK47

4 days ago

前两天用 kimi 帮写一个复杂的 Excel 函数，折腾了一上午也没弄好，使用 ds 一次性成功

11

sillydaddy

4 days ago

@malagebidi #8 谬奖了，我修改一下之前的错误：

这个错了：「 Elo 胜率公式：胜率 = 1 / (1 + 10^(分差/400))」
应该是：「 Elo 得分公式：得分 = 1 / (1 + 10^(分差/400))」

因为 Elo 打分时有「胜」「负」「平」这 3 种。胜者得 1 分，负者得 0 分，平局各得 0.5 分。

我没有考虑平局，所以得出 10 次比赛里面，GLM5.1 也会对 Opus4.7 有 4 次战胜的情况。其实弱者得分，主要是从平局里面得来的（也不排除从战胜中得分，但比例应该很小，特别是分差大的情况下）：

Elo 相差 10 分得分 51.4% vs 得分 48.6%，A 胜率 2.9%，平局率 97.1%，
Elo 相差 50 分 57.1% 42.9% A 胜率 14.3%，平局率 85.7%
Elo 相差 100 分 64.0% 36.0% A 胜率 28.0%，平局率 72.0%
Elo 相差 200 分 76.0% 24.0% A 胜率 52.0%，平局率 48.0%
Elo 相差 400 分 90.9% 9.1% A 胜率 81.8%，平局率 18.2%
Elo 相差 800 分 99.0% 1.0% A 胜率 98.0%，平局率 2.0%

换成这种的话，GLM5.1 与 Opus4.7 差的 50 分意味着：在 20 次提问中，用户有 3 次觉得 Opus4.7 的答案比 GLM5.1 更好，其余 17 次，都很好。即 3 胜 vs 17 平。

可能这种情况更符合真实情况。