• 请不要在回答技术问题时复制粘贴 AI 生成的内容
LonelyM
V2EX  ›  程序员

GPT 完胜 Claude

  •  
  •   LonelyM · 1 day ago · 3154 views

    🚀根据 DeepSWE (最佳编码基准)排名:

    gpt-5.5 xhigh 完胜 opus-4.8 max

    所以,聪明的你,选 Codex 还是 Claude code ?🙂

    20 replies    2026-06-03 15:31:50 +08:00
    cairnechen
        1
    cairnechen  
       1 day ago
    4.8 等这波付费用户测试弄完了应该是会回升的,当然,这不影响我骂 A➗
    409164
        2
    409164  
       1 day ago
    claude max 连 gpt5.5 high 都打不过吗?真的假的
    Retas
        3
    Retas  
       1 day ago
    聪明的人会选择双持~
    lujiaosama
        4
    lujiaosama  
       1 day ago
    @Retas 两个都同时拉裤子呢。得等外星人发模型了。
    409164
        5
    409164  
       1 day ago
    看了一下,做的只是 PASS@1 情况下的排行榜,实际上经过简单修正,还是 claude 的结果可用性更高
    AS4694lAS4808
        6
    AS4694lAS4808  
       1 day ago via Android
    没人用 gemini 3.5 flash 么,我觉得也挺好用的,而且速度能到 300+
    Retas
        7
    Retas  
       1 day ago
    @lujiaosama 两个都拉了就是天才程序员陨落了
    lujiaosama
        8
    lujiaosama  
       1 day ago
    @Retas 天才程序员选择用国模凑合,天才程序员发现自己服务器被干崩了
    dingawm
        9
    dingawm  
       1 day ago
    @409164 #5 "实际上经过简单修正,还是 claude 的结果可用性更高"
    这个简单修改的结果哪里能看呢
    409164
        10
    409164  
       1 day ago
    @dingawm 使用体感和员工反馈
    dingawm
        11
    dingawm  
       1 day ago
    @409164 #10 6
    jaoyina
        12
    jaoyina  
       18h 22m ago
    @LonelyM

    国模居然是 Kmi 第一,deepseek 8%?和第一名 70%差好多啊。
    MIUIOS
        13
    MIUIOS  
       17h 51m ago
    最近 claude 的模型智力,真的是路过的狗都可以撒泡尿, 继美国豆包后的美国千问,连一个分词器都分不明白的模型。
    andrew2558
        14
    andrew2558  
       17h 43m ago
    首先这个 gemini 3.5 flash 怎么哪都在吹,google 自己在吹,这些排行榜也是,自己用过就知道多差。根本干不了活,让他干活纯瞎编胡扯。而且这个榜上没有 cursor 的 composer 2.5,这个真的被严重低估了
    Meursau1T
        15
    Meursau1T  
       16h 21m ago
    gemini 在前面的我一概认为是野榜
    xyooyx
        16
    xyooyx  
       16h 3m ago
    gemini:try creative coding in frontend
    frantic
        17
    frantic  
       15h 39m ago
    gemini 比 opus 4.6 都强;
    sonnet 4.6 high 比 opus 4.6 max 强;
    mino-v2.5-pro 比 GLM 5.1 强;

    这榜单感觉也太野鸡了
    nakun233
        18
    nakun233  
       14h 59m ago
    4.7 在解决同一个问题上,同一个提示词,给的解决方案不如 5.5 ,感觉在通用解决问题上,还没进 coding 之前 5.5 体感强一些,但到 coding 的时候 4.7 还是比 5.5 规范强一些,也会自主加单元测试和测试用例(没提示让他做
    wcwcxiaobin
        19
    wcwcxiaobin  
       14h 37m ago
    mimo 2.5 pro 都比 gemini 3.5 flash 还差,那不是拉完了?
    fqyd
        20
    fqyd  
       11h 3m ago
    基本野榜了,kimi2.6 我的使用体验除了有个多模态外,全方位不如 deepseekv4 pro 。不可能有榜单里面差距的那么大
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1037 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 93ms · UTC 18:34 · PVG 02:34 · LAX 11:34 · JFK 14:34
    ♥ Do have faith in what you're doing.