V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
YanSeven
V2EX  ›  程序员

Claude4.5,GPT5.2,Gemini3 pro 感官对比

  •  
  •   YanSeven · 1 天前 · 3135 次点击
    最近在摸鱼总结一些八股性的东西,我会根据同一个问题和主题,同时在 Web 网页上问这三个牛马:

    claude4.5 免费版
    gemini3 pro 是 ai studio 的免费版
    gpt5.2 是开通的 plus 会员的 thinking

    对比下来,感官上,gpt5.2 生成的文档,在文章结构和逻辑条理上会更加丰富一点。

    所以,仅就八股类的知识来说:
    我个感官上的排序就是:gpt5.2 >= gemini3 pro >= claude4.5

    仅作一点个人的小分享。
    27 条回复    2025-12-17 15:00:09 +08:00
    GlobalNPC
        1
    GlobalNPC  
       1 天前
    拿收费版去对比免费版吗?是不是有点不合理啊
    YanSeven
        2
    YanSeven  
    OP
       1 天前
    @GlobalNPC 是有点,但是我理解,收不收费应该是影响能不能用某个模型型号(或者限额)
    对于同一个模型型号,应该不会有能力上的差异吧,譬如 claude4.5 ,付费版和免费版在能力上会有差异吗
    13240284671
        3
    13240284671  
       1 天前
    写代码来说:
    claude4.5 > gemini3 pro > gpt5.2
    huage
        4
    huage  
       1 天前   ❤️ 1
    我觉得一个很重要的点,就是绝大部分人都不会使用 AI ,正确来说就是不会提问,包括我自己。

    重点来了:那么谁能够引导用户提供高质量的提问,那么谁就更能够为用户提供高质量的回答。

    目前观察 ChatGPT 正在往这方面改进,引导用户如何提问以获得更接近需求的提问。
    lanceran
        5
    lanceran  
       1 天前
    @YanSeven 会有影响,我开 Claude 付费就比 GPT 免费好用很多
    w568w
        6
    w568w  
       1 天前   ❤️ 2
    我最近使用 AI 最多的场景是做调研,例如:技术选型、框架推荐、报错的解决方案搜索等等。

    用的都是各自最好的模型( Claude 4.5 Opus 、Gemini 3 Pro 等等)。使用下来:Claude Research >>>> Grok DeepSearch > ChatGPT 深度研究 > Perplexity AI > Gemini DeepResearch >>>>> 国内一众 AI (如 Kimi 、豆包等的联网模式或 Agent 模式)

    点评:

    - Claude 的 Agent 系统实在太强了,很多调研我自己人工做,都没有它总结得全面

    - Grok 算是做得比较早的,但 Grok 4 不思进取,被 Claude 后来居上了。目前的质量只能说远远被 Claude 甩在身后

    - Gemini 模型本身强,但 Agent 系统做得一坨屎。DeepResearch 不如改名叫 LongReport ,任何一个简单的问题都要生成大段信息熵极低的调查报告,充满各种无用的套话、官话、废话,研究的意义和背景写得比研究结论还长,调查的覆盖面也很狭窄,稍微困难一点的问题几乎碰不到正确答案的边缘。像是公务员用来糊弄不懂技术的领导的

    - 国内的模型能力可能很强,但受限于合规性,只能调用国产搜索引擎,再加上信息孤岛化,Garbage in, garbage out ,搜索功能全是垃圾。别说是不常见的问题了,即使常见的问题 90% 也都是幻觉般的胡言乱语,可信度不超过 10%
    BernieDu
        7
    BernieDu  
       1 天前
    我自己写代码用下来 gemini3 pro(antigravity) > clude4.5 opus(cc) > 5.1-codex-max >= gemini3 pro(cli) > gpt5.2
    其中 gemini3 pro(antigravity) 和 clude4.5 opus(cc) 小上下文的修改质量差不多,超大上下文和大的修改量 gemini3 pro 表现更好,gpt 感觉工程能力不如这两家,一般就是改个方法找个错误会用
    BernieDu
        8
    BernieDu  
       1 天前
    Claude 打错了。。
    bytenoob
        9
    bytenoob  
       1 天前
    个人体感 不考虑价格
    gpt-5.2-xhigh > claude opus 4.5
    但是 gpt 非常慢
    YanSeven
        10
    YanSeven  
    OP
       1 天前
    @huage 是的,不会提问,一方面是更抽象的和专业无关的提问思考方式,方法论层面,一部分也是在专业领域上没有系统上的高屋建瓴一点的知识,那只能提一些笼统的含糊的甚至错误的问题。
    manwhatcanisay
        11
    manwhatcanisay  
       1 天前
    emmmm 标题加个“网页”吧
    毕竟大家干活都是在 IDE 不是吗,至少也是 CLI 吧
    然后跟网页不同的是,在 IDE 或者 CLI 场景下,模型需要结合对应工具才能发挥效果,比如 Claude code 和 codex 以及 gemini cli 或者 antigravity
    综合各方面考虑的话 claude code 目前就是独一档的存在啊
    encro
        12
    encro  
       1 天前
    claude 4.5 可是有三个版本啊。。。。。

    gpt 5.2 ,也是有 low,high,xhigh 等等

    gemini 也是有 low,hight 版本


    所以。。。


    很不公平,从我使用上来说,目前 opus 4.5 是最好的用的。
    felixcode
        13
    felixcode  
       1 天前
    @YanSeven
    ChatGPT 同一模型收费和付费的 context size 和推理 juice 值都不一样,有什么可比的。
    YanSeven
        14
    YanSeven  
    OP
       1 天前
    @felixcode 这样啊。。。我还以为只是限额这种层面的限制。
    bs10081
        15
    bs10081  
       1 天前
    claude-opus-4-5 > gemini-3-pro-preview > gpt-5.2
    BeFun
        16
    BeFun  
       1 天前
    实际测试过,付费和免费差距巨大
    wupeaking
        17
    wupeaking  
       1 天前
    我的体验是 Gemini 3Pro 最好用,不用它的 agent ,只用它的 API 和第三方的 agent 。 代码出现的问题它能迅速指出了原因,也不会随波逐流,有时候我对它提出质疑它也能坚定回答。
    neteroster
        18
    neteroster  
       1 天前   ❤️ 1
    GPT 5.2 (xhigh),长程 Agent 任务执行的新高度
    LuckyCurve
        19
    LuckyCurve  
       1 天前
    @YanSeven 会的,对接过 OpenAI 的接口都能看到有一堆参数可以去设置的。
    LuckyCurve
        20
    LuckyCurve  
       1 天前
    如果不是编码场景,我现在更关注输出速度了,比如 Gemini 2.5 flash ,结合自己判断有问题就再问,多轮对话下来效果也不错。
    MindMindMax
        21
    MindMindMax  
       1 天前
    测试题:"大豫通宝是啥?"
    gemini3 白扯。
    darksword21
        22
    darksword21  
    PRO
       22 小时 46 分钟前
    不用比,claude 默认秒全
    microscopec
        23
    microscopec  
       22 小时 8 分钟前
    gpt 和 gemini 挺能吹,如果有个能吹榜这两能较个搞下。
    但实际使用,claude 妥妥的第一,claude 的缺点就是藏的太深了,酒香也怕巷子深
    lixintcwdsg
        24
    lixintcwdsg  
       17 小时 5 分钟前
    opus 额外有一个速度优势,这点在写代码太有用了。
    当然,你要是问答拿 claude 的免费版不应该加入进来比较
    jsq2627
        25
    jsq2627  
       16 小时 12 分钟前
    写代码还是 claude 最强,agentic 能力最好,三方 ai 插件 (cursor, augment 等等) 的工程优化也是优先对 claudu 调优。
    kneo
        26
    kneo  
       7 小时 19 分钟前 via Android
    gpt 升级到 5.2 之后一直拉。claude sonnet 4.5 最近也像个弱智一样。这两个都是大多数情况其实也还能用,但是下限极低,离谱的时候让你怀疑人生。

    Gemini 倒是一如既往的稳。

    个人印象。
    nakun233
        27
    nakun233  
       1 小时 43 分钟前
    claude 现在要用 opus4.5 ,爽上天,GPT 不知道为什么编程像个弱智一样,你期望他完成 100%的工作,他总做到 80%漏一些,其他模型如 claude 、gemini 能做到 120%给你做好容错或者一些小细节。GROK 的 code 也比 GPT5.1code 强
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5221 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 08:43 · PVG 16:43 · LAX 00:43 · JFK 03:43
    ♥ Do have faith in what you're doing.