🚀根据 DeepSWE (最佳编码基准)排名:
gpt-5.5 xhigh 完胜 opus-4.8 max
所以,聪明的你,选 Codex 还是 Claude code ?🙂

🚀根据 DeepSWE (最佳编码基准)排名:
gpt-5.5 xhigh 完胜 opus-4.8 max
所以,聪明的你,选 Codex 还是 Claude code ?🙂

1
cairnechen 1 day ago
4.8 等这波付费用户测试弄完了应该是会回升的,当然,这不影响我骂 A➗
|
2
409164 1 day ago
claude max 连 gpt5.5 high 都打不过吗?真的假的
|
3
Retas 1 day ago
聪明的人会选择双持~
|
4
lujiaosama 1 day ago
@Retas 两个都同时拉裤子呢。得等外星人发模型了。
|
5
409164 1 day ago
看了一下,做的只是 PASS@1 情况下的排行榜,实际上经过简单修正,还是 claude 的结果可用性更高
|
6
AS4694lAS4808 1 day ago via Android
没人用 gemini 3.5 flash 么,我觉得也挺好用的,而且速度能到 300+
|
7
Retas 1 day ago
@lujiaosama 两个都拉了就是天才程序员陨落了
|
8
lujiaosama 1 day ago
@Retas 天才程序员选择用国模凑合,天才程序员发现自己服务器被干崩了
|
13
MIUIOS 17h 51m ago
最近 claude 的模型智力,真的是路过的狗都可以撒泡尿, 继美国豆包后的美国千问,连一个分词器都分不明白的模型。
|
14
andrew2558 17h 43m ago
首先这个 gemini 3.5 flash 怎么哪都在吹,google 自己在吹,这些排行榜也是,自己用过就知道多差。根本干不了活,让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了
|
15
Meursau1T 16h 21m ago
gemini 在前面的我一概认为是野榜
|
16
xyooyx 16h 3m ago
gemini:try creative coding in frontend
|
17
frantic 15h 39m ago
gemini 比 opus 4.6 都强;
sonnet 4.6 high 比 opus 4.6 max 强; mino-v2.5-pro 比 GLM 5.1 强; 这榜单感觉也太野鸡了 |
18
nakun233 14h 59m ago
4.7 在解决同一个问题上,同一个提示词,给的解决方案不如 5.5 ,感觉在通用解决问题上,还没进 coding 之前 5.5 体感强一些,但到 coding 的时候 4.7 还是比 5.5 规范强一些,也会自主加单元测试和测试用例(没提示让他做
|
19
wcwcxiaobin 14h 37m ago
mimo 2.5 pro 都比 gemini 3.5 flash 还差,那不是拉完了?
|
20
fqyd 11h 3m ago
基本野榜了,kimi2.6 我的使用体验除了有个多模态外,全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大
|