GLM-4.7 上线并开源：更强的编码

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 55 天前的主题，其中的信息可能已经有所发展或是发生改变。

GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同，并在多项主流公开基准测试中取得开源模型中的领先表现。

目前，GLM-4.7 已通过 BigModel.cn 提供 API ，并在 z.ai 全栈开发模式中上线 Skills 模块，支持多模态任务的统一规划与协作。

Coding 能力再提升

GLM-4.7 在编程、推理与智能体三个维度实现突破：

更强的编程能力：显著提升了模型在多语言编码和在终端智能体中的效果； GLM-4.7 现在可以在 Claude Code 、TRAE 、Kilo Code 、Cline 和 Roo Code 等编程框架中实现“先思考、再行动”的机制，在复杂任务上有更稳定的表现。
前端审美提升：GLM-4.7 在前端生成质量方面明显进步，能够生成观感更佳的网页、PPT 、海报。
更强的工具调用能力：GLM-4.7 提升了工具调用能力，在 BrowseComp 网页任务评测中获得 67.5 分；在 τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA ，超过 Claude Sonnet 4.5 。
推理能力提升：显著提升了数学和推理能力，在 HLE （“人类最后的考试”）基准测试中获得 42.8% 的成绩，较 GLM-4.6 提升 41%，超过 GPT-5.1 。
通用能力增强：GLM-4.7 对话更简洁智能且富有人情味，写作与角色扮演更具文采与沉浸感。

Code Arena：全球百万用户参与盲测的专业编码评估系统，GLM-4.7 位列开源第一、国产第一，超过 GPT-5.2 。

在主流基准测试表现中，GLM-4.7 的代码能力对齐 Claude Sonnet 4.5：在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数；在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数，超过 Claude Sonnet 4.5 ； SWE-bench Multilingual 达到 66.7%（提升 12.9%）； Terminal Bench 2.0 达到 41%（提升 16.5%）。

真实编程场景下的体感提升

在 Claude Code 环境中，我们对 100 个真实编程任务进行了测试，覆盖前端、后端与指令遵循等核心能力。结果显示，GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

GLM Coding Plan

Claude Code 全面支持思考模式，复杂任务连续推理与执行更稳定
针对编程工具里的 Skills / Subagent / Claude.md 等关键能力定向优化，工具调用成功率高、链路可靠
Claude Code 中视觉理解能力开箱即用；内置搜索与网页读取，信息获取到代码落地一站闭环
架构设计与指令遵循更强，明显降低长上下文下的“幻觉式完成 / 跑偏”，交付质量更可控

作为本次升级的首个体验权益，所有购买套餐的用户将获得「体验卡」礼包，可邀请 3–7 位新用户免费体验 7 天套餐权益。

领取链接：[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

GLM-4.7

开源

编码

111 条回复 • 2026-01-15 14:05:21 +08:00

1 2

❮

❯

mogutouer

2025 年 12 月 23 日

说个想法，程序员是用来工作的，投入到实际产出中的，要保证质量和省去来回拉扯的时间，要减少隐形 bug ，减少测试的时间，一定是用效果最好能力最强的，除非你能超过 opus ，否则没必要试用，现在有更好的不用为什么要用一个各方面都更差的呢？

twofox

2025 年 12 月 23 日

在 Claude code 中的体验确实好了不少。希望后期不要降智太厉害。

Felixchen1062

2025 年 12 月 23 日

@mogutouer 你说的确实有道理二选一不要钱我肯定也选 Opus, 但合规性,数据安全,企业采购成本(这个不好说),对方服务企业意愿(anthropic 不向中国开放服务) 那其他的模型以及 AIIDE 就有存在的意义了

sunny352787

2025 年 12 月 23 日

claude code 中有一定提升，tools call 错误率低了，过度设计的问题有一定抑制，再试试看

twofox

2025 年 12 月 23 日

@mogutouer 要不是 cursor 额度用完了，我也不想用其他的。

mogutouer

2025 年 12 月 23 日

@Felixchen1062 #3
@twofox #5

我觉得一个能让你一周的工作一两天就干完的工具，并且还能完成你不熟悉的技术栈，省下大把的页面设计实现的工作，这种工具一个月居然只要花个一千几百就能拥有，已经算很划算了。

Felixchen1062

2025 年 12 月 23 日

@mogutouer 我愿意个人买但公司不愿意让我用, 可能外企这块比较闭塞合规性和隐私要求高一点, 我们只能用百炼平台上有的模型, 很羡慕那些可以自由采购, 自己采买哪怕付费的

caiyuan

2025 年 12 月 23 日

刚刚让它写一篇博客，卡了十几分钟不动。。。最后直接终端，再试了 2 次，才写出来。

0x0x

2025 年 12 月 23 日

@mogutouer 平替总是有市场的。
我月薪 1w ，但是我想用 AI 偷偷懒，花 200 刀一个月体验下最强的 AI 吧。这个是真舍不得

twofox

2025 年 12 月 23 日

@mogutouer 问题是我已经花不少钱了。200 刀还是有点太贵了

FlashEcho

2025 年 12 月 23 日

那个这个榜单里，不如 gpt-5.2 high ，仅仅超过 gpt-5.2 ，也能叫“超过 GPT-5.2”吗？那按照这个算法，不考虑美元资产，很多人比巴菲特有钱

还有在你们自己的 benchmark 图里，同类型（国产、开源等）对比就算了，都有闭源模型了，为啥不把 sota 模型放上来，不如和 gpt-3.5 对比吧，那可以实现全面吊打

ktyang

2025 年 12 月 23 日

上当上一次就够了。。。

lscho

2025 年 12 月 23 日

@mogutouer 一月就赚 5000 块钱的人呢

yorhaha123

2025 年 12 月 23 日

@FlashEcho 只能说国内都是这么干的……谁家发的 benchmark 谁就当老大

kylesean

2025 年 12 月 23 日

刚出来的 minimax 2.1 不一起比？

nicoljiang

PRO

2025 年 12 月 23 日

@0x0x 有没有可能这 200 刀的价格不适合用来偷偷懒的，更适合用来快速缩短与 10+年资深程序员、资深架构师的差距，从而让你有机会涨到 1.5w-2w 月薪的？

sagnitude

2025 年 12 月 23 日

GLM 回答里面喜欢写代码的爱好还没改，我问 4.7 几个模块设计问题，上来甩出一堆 class 定义，一个回答直接把我控制台的历史全都清空了，sonnet 和 opus 都会尽量把回答控制在一屏幕以内，很少出现需要上下翻的情况

beiyu

2025 年 12 月 23 日

建议不要充值 GLM Coding 高价套餐，因为充值后将无法退款；而且这个模型很鸡肋，用量给的是足，但是写的代码都是垃圾，官宣是拳打 Claude Opus4.5 ，脚踢 GPT-5.2 ，实际上效果用过的人才知道什么是“上当受骗”

。

0x0x

2025 年 12 月 23 日

@nicoljiang 如此上进，当然这 200 刀很值得，我想表达的第一句话的意思，平替始终是有市场的。大家都知道能用最好的肯定用最好的这个道理。

mooyo

2025 年 12 月 23 日

看起来不如 5 块钱一个月的 codex gpt team 拼车

isquare

2025 年 12 月 23 日

上面评论看下来，感觉 zhipu 在 v2 做推广算是白花钱了

。。毕竟这里是真的程序员在用哈哈，小红书、b 站可能投流更管用，能吸引很多学生

maxwel1

2025 年 12 月 23 日

去 B 站那里做广告吧，那里小学生多一点，只看 ppt 不用在生产环境的小朋友也多。但我是真要当生产力工具。

trio

2025 年 12 月 23 日

都用 AI 了，就用一线的；我不会再给任何非一线产品试用机会。我的时间更宝贵。

catwalk

2025 年 12 月 24 日

@ktyang 我更惨，内外都试过，内的都被坑过，还是只能用主流一线的，其他都是坑钱的

jqtmviyu

2025 年 12 月 24 日

有请 4.6 上当惨遭降智的网友发言.

catwalk

2025 年 12 月 24 日

@jqtmviyu 4.5 后阶段已经开始了，一次不忠百次不用

silencefly

2025 年 12 月 24 日 via iPhone

因为不好用而用不了的东西是最贵的

maolon

2025 年 12 月 24 日

先不说别的了，你们在 V2 的 AMA 一言不发搞了个寂寞？你们之前说的抽奖抽了吗？结果是什么？
就纯搞宣发把 v 友当傻子耍？

wwhc

2025 年 12 月 24 日

支持楼主，请继续加油开源更多的 AI 模型。对了，有 GLM 4.7 air 么？非常可惜的是至今并没有一个能抗衡 gpt-oss-120b 的开源模型在同一尺寸上。

xiangran0028

2025 年 12 月 24 日

被上面的 diss 了这么久一言不发？那就是实锤了呗

iorilu

2025 年 12 月 24 日

要上市了拼命推广阿

quanjw

2025 年 12 月 24 日

降智垃圾玩意还没退款渠道终生拉黑

MIUIOS

2025 年 12 月 24 日

这次不会在上当了，哈哈哈😅

MIUIOS

2025 年 12 月 24 日

少搞一点营销多整一点算力吧，求你们了务实点

jokcylou

2025 年 12 月 24 日 via Android

@mogutouer 照你这么说除了 opus4.5 别的模型都没必要存在了？

jokcylou

2025 年 12 月 24 日 via Android

很搞笑的是 reddit 上一片叫好，又便宜，效果也不错，还开源，到这里就是不如 opus 就别拿出来了，太典了

MIUIOS

2025 年 12 月 24 日

@jokcylou #36 你买 codeplan 吗没有就没有发言权，你买一个再说，每次他们新发模型的时候 TTFT 和 TPS 贼高，过几天就低下来了，高峰期卡壳降智是日常。

MIUIOS

2025 年 12 月 24 日

@jokcylou #36 我是实打实的支持国产模型，结果被人背后来了一刀，吐槽下还要被戴帽子😅

herbloo

2025 年 12 月 24 日

打个小广告，可以用小绵羊 AI 同时向多个 AI 提问，从而对比各个 AI 的回答结果是否可靠，小绵羊 AI 也是支持 z.ai 的。
https://github.com/HerbLuo/xmy-ai

cherryas

2025 年 12 月 24 日

看到 v2 这么多骂的就知道稳了。
这次真的是可用级别的了
昨天刚发布的 4.7 ！！！
看评论以为都被坑很久了！！
别拿 glm4.6 来杠不是一个东西

cherryas

2025 年 12 月 24 日

冲个 codeing plan pro 支持一下

zx1w1w

2025 年 12 月 24 日

已经买了 lite 版本，现金支持

zx1w1w

2025 年 12 月 24 日

@mogutouer 央国企不能调用海外的 API ，我调个鸡毛的 opus

dufu1991

2025 年 12 月 24 日

上次就被骗了一个季度的钱，这次不要再给我软文了。

elevioux

2025 年 12 月 24 日

相较于各家公司尝试去创造最强 AI ，做最强程序员

其实更应该做一个“不那么强，但是相当可靠”的程序员

目前的 AI 一直给我一种，懂得很多，但实际写代码却丢三落四，没有整体规划的感觉

iorilu

2025 年 12 月 24 日

@elevioux 对 Ai 来说, 可靠性恰恰是最难得

因为 AI 核心还是概率

既然是概率, 就可能失败, 哪怕最简单的事情

sharpy

2025 年 12 月 24 日

还可以，以前我只用来读读代码，现在还真可以帮我写一写

FakerLeung

2025 年 12 月 24 日

@Felixchen1062 #7 那也不错了，我们不是外企，还只能用什么 Qwen2.5 7b ，qwen3-30b

piksou

2025 年 12 月 24 日

lite 版本，卡死几分钟了

M1234

2025 年 12 月 24 日

注册了了想在 idea 中配置 AI assistant 插件试试，结果死活配置不成功。deepseek 倒是直接配置上了。😂

jokcylou

2025 年 12 月 24 日 via Android

@MIUIOS 随便翻翻 reddit 一堆 claude gemini 降智的帖子，这种东西一方面个人体感很难评一方面也是普遍现象，至于算力问题那就懂得都懂了，侧面也说明用的人多了

MIUIOS

2025 年 12 月 24 日

@jokcylou #51 意思就是说我不能吐槽是吧？😅

nananqujava

2025 年 12 月 24 日

上当了一个季度

jokcylou

2025 年 12 月 24 日 via Android

@MIUIOS 能啊。但一句比 opus 差就别端上来了你不觉得有点极端了么？这世界上有在编程上能稳定比 opus 好的么？如果你只是一句你觉得 opus 更好，咱们也不会有这个对话

MIUIOS

2025 年 12 月 24 日

@jokcylou #54 你看清楚那是我的发言？

MIUIOS

2025 年 12 月 24 日

@jokcylou #54 哥们你有点搞笑了🤣

MIUIOS

2025 年 12 月 24 日

@jokcylou #54 我有说过《比 opus 差就别端上来了》这句话？我一直在说降智，卡顿的问题，我是花了钱的啊哥们，要不你截图你的 codingplan 计划给我看下，你用过了吗，你要是自己都没用过你就替我们发言，你这不是啥流氓吗

jokcylou

2025 年 12 月 24 日 via Android

@MIUIOS 不是哥们，我还以为你是我回复那个人（一楼），你这么积极辩驳没注意名字。另外 coding plan 我是没买，但我 API 用了很久而且买过几次他们的 token 包，一共花了百来块有了，如果你觉得我没有资格评价那就没啥好说的。

nomisk

2025 年 12 月 24 日

@mooyo 怎么拼，求指路

prophetww

2025 年 12 月 24 日

本来是准备使用 4.6 平替，但是问题在于他考虑的不周全，一个问题期望他一次就搞定，4.6 就是要反复，不停的修改，对人是种消耗。买了 4.6 季度的，后面几乎不用了.
现在的趋势是，复杂的项目上的问题，需要的是大模型考虑周全，最好 1 到 2 次就解决. 这个 gpt 的 codex 是做到了。
如果 4.7 可以做到，复杂问题，1 到 2 次就可以解决，也算是大进步，也算是未来可期

0n2ynu

2025 年 12 月 24 日

4.6 这个玩意，我让他帮我查查为什么我 raid0 的 zfs 挂不上，这 b 看半天后直接给我重做了。。。我让你重做了么？？害丢了我整个分区的数据

shine1996

2025 年 12 月 24 日

为什么用你们家的送的资源包，能把我余额扣成负数？

YLGG

2025 年 12 月 24 日

已经用上了偶尔用用还行吧。

Felldeadbird

2025 年 12 月 24 日

我 AI 库里面，GLM 属于应急水平。我现在全力用 Gemini3 中。我只能说，智谱加油吧。

byteLoading

2025 年 12 月 24 日

还是要看性价比的吧，如果足够便宜，可以买一个做一些简单任务，节省高级模型的额度，比如你只想调用一个 mcp 工具去做一些相对简单的任务，就可以用一些性价比高的模型。但是这样的话 200 元的额外投入属实有点贵了，所以我主力还是 claude ，再买了 49 的 minmax code plan 来做补充

LaTero

2025 年 12 月 24 日 via Android

@jokcylou 因为降智问题很可能受时区影响

maoqiucute

2025 年 12 月 24 日

我再也不会相信任何国产编程模型，今天超越这个了明天超越那个了，实际一用就是一坨

狼来了我只能说

shunia

2025 年 12 月 24 日

@Felldeadbird #64 全力用 Gemini3 的话，如果是用它来编码，那你可能也需要加加油。。。毕竟全网公认三大家里最垃圾的编程模型。

shunia

2025 年 12 月 24 日

@jokcylou #36 reddit 上叫好也是有前提的，一部分人不拿 4.6 来编码，一部分人考虑到性价比，还有一些是配合特定的工具比如 kilo 体验会好一些等等。降智、乱改等问题一直有人在 sub 里提到，并非有多优秀。

我长期关注多个 AI 工具/模型的 sub reddit ，目前只有 gpt-5.2-high+codex 和 opus-4.5+claude code 是公认体验较好的。