V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Zhipuai
V2EX  ›  程序员

GLM-4.7 上线并开源:更强的编码

  •  1
     
  •   Zhipuai ·
    PRO
    · 11 小时 9 分钟前 · 2107 次点击

    GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。

    目前,GLM-4.7 已通过 BigModel.cn 提供 API ,并在 z.ai 全栈开发模式中上线 Skills 模块,支持多模态任务的统一规划与协作。

    Coding 能力再提升

    GLM-4.7 在编程、推理与智能体三个维度实现突破:

    • 更强的编程能力:显著提升了模型在多语言编码和在终端智能体中的效果; GLM-4.7 现在可以在 Claude Code 、TRAE 、Kilo Code 、Cline 和 Roo Code 等编程框架中实现“先思考、再行动”的机制,在复杂任务上有更稳定的表现。
    • 前端审美提升:GLM-4.7 在前端生成质量方面明显进步,能够生成观感更佳的网页、PPT 、海报。
    • 更强的工具调用能力:GLM-4.7 提升了工具调用能力,在 BrowseComp 网页任务评测中获得 67.5 分;在 τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA ,超过 Claude Sonnet 4.5 。
    • 推理能力提升:显著提升了数学和推理能力,在 HLE (“人类最后的考试”)基准测试中获得 42.8% 的成绩,较 GLM-4.6 提升 41%,超过 GPT-5.1 。
    • 通用能力增强:GLM-4.7 对话更简洁智能且富有人情味,写作与角色扮演更具文采与沉浸感。

    Code Arena:全球百万用户参与盲测的专业编码评估系统,GLM-4.7 位列开源第一、国产第一,超过 GPT-5.2 。

    在主流基准测试表现中,GLM-4.7 的代码能力对齐 Claude Sonnet 4.5: 在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数; 在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5 ; SWE-bench Multilingual 达到 66.7%(提升 12.9%); Terminal Bench 2.0 达到 41%(提升 16.5%)。

    真实编程场景下的体感提升

    在 Claude Code 环境中,我们对 100 个真实编程任务进行了测试,覆盖前端、后端与指令遵循等核心能力。结果显示,GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

    GLM Coding Plan

    • Claude Code 全面支持思考模式,复杂任务连续推理与执行更稳定
    • 针对编程工具里的 Skills / Subagent / Claude.md 等关键能力定向优化,工具调用成功率高、链路可靠
    • Claude Code 中视觉理解能力开箱即用;内置搜索与网页读取,信息获取到代码落地一站闭环
    • 架构设计与指令遵循更强,明显降低长上下文下的“幻觉式完成 / 跑偏”,交付质量更可控

    作为本次升级的首个体验权益,所有购买套餐的用户将获得「体验卡」礼包,可邀请 3–7 位新用户免费体验 7 天套餐权益。

    领取链接:[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

    28 条回复    2025-12-24 02:23:27 +08:00
    mogutouer
        1
    mogutouer  
       10 小时 58 分钟前   ❤️ 1
    说个想法,程序员是用来工作的,投入到实际产出中的,要保证质量和省去来回拉扯的时间,要减少隐形 bug ,减少测试的时间,一定是用效果最好能力最强的,除非你能超过 opus ,否则没必要试用,现在有更好的不用为什么要用一个各方面都更差的呢?
    twofox
        2
    twofox  
       10 小时 55 分钟前
    在 Claude code 中的体验确实好了不少。希望后期不要降智太厉害。
    Felixchen1062
        3
    Felixchen1062  
       10 小时 44 分钟前
    @mogutouer 你说的确实有道理 二选一不要钱我肯定也选 Opus, 但合规性,数据安全,企业采购成本(这个不好说),对方服务企业意愿(anthropic 不向中国开放服务) 那其他的模型以及 AIIDE 就有存在的意义了
    sunny352787
        4
    sunny352787  
       10 小时 43 分钟前
    claude code 中有一定提升,tools call 错误率低了,过度设计的问题有一定抑制,再试试看
    twofox
        5
    twofox  
       10 小时 42 分钟前
    @mogutouer 要不是 cursor 额度用完了,我也不想用其他的。
    mogutouer
        6
    mogutouer  
       10 小时 34 分钟前   ❤️ 1
    @Felixchen1062 #3
    @twofox #5

    我觉得一个能让你一周的工作一两天就干完的工具,并且还能完成你不熟悉的技术栈,省下大把的页面设计实现的工作,这种工具一个月居然只要花个一千几百就能拥有,已经算很划算了。
    Felixchen1062
        7
    Felixchen1062  
       10 小时 27 分钟前
    @mogutouer 我愿意个人买但公司不愿意让我用, 可能外企这块比较闭塞 合规性和隐私要求高一点, 我们只能用百炼平台上有的模型, 很羡慕那些可以自由采购, 自己采买哪怕付费的
    caiyuan
        8
    caiyuan  
       10 小时 9 分钟前
    刚刚让它写一篇博客,卡了十几分钟不动。。。最后直接终端,再试了 2 次,才写出来。
    0x0x
        9
    0x0x  
       9 小时 31 分钟前
    @mogutouer 平替总是有市场的。
    我月薪 1w ,但是我想用 AI 偷偷懒, 花 200 刀一个月体验下最强的 AI 吧。 这个是真舍不得
    twofox
        10
    twofox  
       9 小时 18 分钟前
    @mogutouer 问题是我已经花不少钱了。200 刀还是有点太贵了
    FlashEcho
        11
    FlashEcho  
       8 小时 59 分钟前
    那个这个榜单里,不如 gpt-5.2 high ,仅仅超过 gpt-5.2 ,也能叫“超过 GPT-5.2”吗?那按照这个算法,不考虑美元资产,很多人比巴菲特有钱

    还有在你们自己的 benchmark 图里,同类型(国产、开源等)对比就算了,都有闭源模型了,为啥不把 sota 模型放上来,不如和 gpt-3.5 对比吧,那可以实现全面吊打
    ktyang
        12
    ktyang  
       8 小时 31 分钟前   ❤️ 5
    上当上一次就够了。。。
    lscho
        13
    lscho  
       7 小时 2 分钟前
    @mogutouer 一月就赚 5000 块钱的人呢
    yorhaha123
        14
    yorhaha123  
       7 小时 0 分钟前
    @FlashEcho 只能说国内都是这么干的……谁家发的 benchmark 谁就当老大
    kylesean
        15
    kylesean  
       5 小时 53 分钟前
    刚出来的 minimax 2.1 不一起比?
    nicoljiang
        16
    nicoljiang  
    PRO
       5 小时 18 分钟前
    @0x0x 有没有可能这 200 刀的价格不适合用来偷偷懒的,更适合用来快速缩短与 10+年资深程序员、资深架构师的差距,从而让你有机会涨到 1.5w-2w 月薪的?
    sagnitude
        17
    sagnitude  
       5 小时 7 分钟前
    GLM 回答里面喜欢写代码的爱好还没改,我问 4.7 几个模块设计问题,上来甩出一堆 class 定义,一个回答直接把我控制台的历史全都清空了,sonnet 和 opus 都会尽量把回答控制在一屏幕以内,很少出现需要上下翻的情况
    beiyu
        18
    beiyu  
       5 小时 2 分钟前
    建议不要充值 GLM Coding 高价套餐,因为充值后将无法退款;而且这个模型很鸡肋,用量给的是足,但是写的代码都是垃圾,官宣是拳打 Claude Opus4.5 ,脚踢 GPT-5.2 ,实际上效果用过的人才知道什么是“上当受骗”
    0x0x
        19
    0x0x  
       4 小时 15 分钟前
    @nicoljiang 如此上进,当然这 200 刀很值得, 我想表达的第一句话的意思, 平替始终是有市场的。 大家都知道能用最好的肯定用最好的这个道理。
    mooyo
        20
    mooyo  
       4 小时 11 分钟前
    看起来不如 5 块钱一个月的 codex gpt team 拼车
    isquare
        21
    isquare  
       4 小时 9 分钟前   ❤️ 1
    上面评论看下来,感觉 zhipu 在 v2 做推广算是白花钱了 。。 毕竟这里是真的程序员在用哈哈,小红书、b 站可能投流更管用,能吸引很多学生
    maxwel1
        22
    maxwel1  
       3 小时 35 分钟前
    去 B 站那里做广告吧,那里小学生多一点,只看 ppt 不用在生产环境的小朋友也多。但我是真要当生产力工具。
    trio
        23
    trio  
       3 小时 7 分钟前
    都用 AI 了,就用一线的;我不会再给任何非一线产品试用机会。我的时间更宝贵。
    catwalk
        24
    catwalk  
       2 小时 18 分钟前
    @ktyang 我更惨,内外都试过,内的都被坑过,还是只能用主流一线的,其他都是坑钱的
    jqtmviyu
        25
    jqtmviyu  
       2 小时 14 分钟前
    有请 4.6 上当惨遭降智的网友发言.
    catwalk
        26
    catwalk  
       2 小时 2 分钟前
    @jqtmviyu 4.5 后阶段已经开始了,一次不忠百次不用
    silencefly
        27
    silencefly  
       22 分钟前 via iPhone
    因为不好用而用不了的东西是最贵的
    maolon
        28
    maolon  
       3 分钟前
    先不说别的了,你们在 V2 的 AMA 一言不发搞了个寂寞?你们之前说的抽奖抽了吗?结果是什么?
    就纯搞宣发把 v 友当傻子耍?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1051 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 18:27 · PVG 02:27 · LAX 10:27 · JFK 13:27
    ♥ Do have faith in what you're doing.