• 请不要在回答技术问题时复制粘贴 AI 生成的内容
w568w
V2EX  ›  程序员

GPT-5.5 真能让人用得舒心吗?怎么在我这跟弱智一样

  •  1
     
  •   w568w ·
    w568w · 3 days ago · 11883 views

    纯吐槽贴。太长不看:听不懂人话

    本贴接续 https://www.v2ex.com/t/1218023 ,因为上个帖子里有人说「不用 Codex ,模型性能当然差!你的抱怨都是无效的」,所以我最近换用了 Codex ,继续吐槽几个例子。

    以下例子均使用:官网 GPT Pro 账号(让美国朋友帮忙注册的)+ 最新版 Codex + 开 xhigh (有思考过程) 。已用几个账号质量检测站检测过「是否是满血模型」,均为 100% 通过

    1. 要求它「合并代码,先运行编译测试再 commit 」。我刚说完这句,还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查,转头直接 commit 了。指令遵循能力令人汗颜。

    2. 要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具,花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是,我的 token 是大风刮来的吗?

    3. 要求它「复现并研究一个用户 bug 报告」,报告大意是「启动应用时会正确跟随系统的颜色主题;但启动之后再改系统主题,必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例,跑完发现「启动时确实能读取主题」,就告诉我无法复现、然后放弃了。说人话就是,报告明明说「 A 场景正常、B 场景有 Bug 」,它却只测了 A 场景,发现正常(这不废话吗),就认定报告无效…… 这是智力正常的 LLM 能干出来的事?

    4. 这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决,它直接自作主张,一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断,它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次,要求它「读一份 bug 描述、定位代码问题」,结果它非要跟我讨论「这个 bug 报告的英文措辞不准,该怎么改」,就很……无语。

    5. 在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听,非要用 pip 、用系统 python 、用 conda 。再三要求改正,它输出道歉,却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说,它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事,这个例子明明是它分内的事,它却什么都不问、不说、不做了

    心累啊。

    至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。

    137 replies    2026-06-18 09:29:06 +08:00
    1  2  
    jinsongzhaocn
        1
    jinsongzhaocn  
       3 days ago
    你理解错了,必须要加 skills 。
    jinsongzhaocn
        2
    jinsongzhaocn  
       3 days ago
    Anthropic 内部披露,没有 Skills ,Claude 在内部评测里的准确率不超过 21%;加上 Skills 之后,稳定冲到 95%以上,部分领域接近 99%。而且 95%的 Skills 还需要一直升级,否则甚至会掉到 65%。就凭这些信息,你还懒得折腾 skill ?
    Haku
        3
    Haku  
       3 days ago   ❤️ 2
    用一下国产的,你就会发现确实很聪明
    w568w
        4
    w568w  
    OP
       3 days ago
    @jinsongzhaocn 唉唉。我当然用了 Skills 啊,我说「不用提这些」的意思,不是「我一个都没试过,我猜肯定不好用」,而是我全都试了一遍,情况没有改善……
    w568w
        5
    w568w  
    OP
       3 days ago
    @jinsongzhaocn 你真的认真读帖子了吗?就这第一个例子,你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候,你应该做 ABC ,而不是只做 C 」?
    canyue7897
        6
    canyue7897  
       3 days ago
    op 是直接用追求目标模式还是开的 plan 模式?如果直接追求目标,可能会出现这种情况,遇到过跳过指令的情况,不过也没那么夸张。但是开了计划,按道理来说,不应该。
    jinsongzhaocn
        7
    jinsongzhaocn  
       3 days ago
    试试主动唤醒 skill ,先规划后执行呢?比如:
    /superpowers:brainstorming <跟上你的 md 文件名和说明>
    或者 mattpocock-skills 的 /diagnose , /tdd
    walkon
        8
    walkon  
       3 days ago
    AGENTS.md 用起来,Plan 用起来。
    w568w
        9
    w568w  
    OP
       3 days ago   ❤️ 1
    @Haku 是的,我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用,至少

    (1) 能听明白我想做什么;
    (2) 自己不明白的东西,知道要先问我;
    (3) 没有要求它做的,绝对不做;
    (4) 有基本的逻辑思维。

    GPT-5.5 感觉有时候真的是小脑发育不完全了,逻辑关系都能弄错(测试 A 场景正常,认定 B 场景没事)
    canyue7897
        10
    canyue7897  
       3 days ago
    我咋感觉你的降智了,你看看你的思考时间是多久?我的思考很少低于 5 分钟的。
    jinsongzhaocn
        11
    jinsongzhaocn  
       3 days ago
    有时候确实需要啰嗦很多它才会改方向,比如:
    UI 调试:`playwright-cli open http://127.0.0.1:8069/ --headed`, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中,playwright-cli 和旧版的含义完全不同,它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”,而是一个全新的全局 NPM 包(@playwright/cli )。它是微软专门为了解决 AI 智能体(如 Claude Code 、GitHub Copilot Workspace 、Aider 等)在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.
    w568w
        12
    w568w  
    OP
       3 days ago
    @walkon 谢谢,我用了的。

    我还可以再举一例:AGENTS.md 里有要求:

    - `find` or Glob or `glob` MUST be used with `-print0` and `xargs` must be used with `-0` to handle file names with spaces or special characters. MUST use `-xdev` to avoid descending into slow network filesystems. NEVER find or glob or search files without `-xdev`.

    因为我们的项目里面挂载了网络文件系统,模型有时候喜欢直接全局搜索,会非常慢。

    至今为止,GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了,对吧
    jinsongzhaocn
        13
    jinsongzhaocn  
       3 days ago
    @canyue7897 别最后发现是网络问题,:-D
    canyue7897
        14
    canyue7897  
       3 days ago
    @w568w 你是不是写的东西太多了?本来上下文就 258K ,你如果用了 sub2api 之类的,而不是原生的话,真实推理没有多少 K ,那就只剩压缩了。工具调用都占用几十 K 的上下文。
    jinsongzhaocn
        15
    jinsongzhaocn  
       3 days ago
    @w568w 你用的 opencode 吗?如果是 cc ,默认不会读 AGENTS.md,需要指明给它
    canyue7897
        16
    canyue7897  
       3 days ago
    @jinsongzhaocn 我没有开倍速,基本都是五分钟。网络应该不至于,网络用了多年了。
    qwerasdf123
        17
    qwerasdf123  
       3 days ago
    看了你的两个帖子,感觉你的 gpt5.5 确实不正常,至于降智还是什么原因,需要具体排查一下
    lmmlwen
        18
    lmmlwen  
       3 days ago
    你这个,还停留在上下文约束上面
    w568w
        19
    w568w  
    OP
       3 days ago
    @jinsongzhaocn 谢谢,你这里我有一点认同的,就是确实是需要啰嗦。

    怎么说呢,感觉 GPT 在我这缺乏那种基本的逻辑思考能力,就像一辆不停撞墙的车,不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ,steer 完他才会正常几轮,然后又接着对着墙猛冲……

    如果多改正它几次,它就变得畏手畏脚,什么都不敢提、不敢问了,而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」( xxx 是我前面改正它的内容),哭笑不得。
    lscho
        20
    lscho  
       3 days ago
    不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用
    canyue7897
        21
    canyue7897  
       3 days ago
    @jinsongzhaocn 他用的 codex ,codex 的上下文挺短的。我的是放在 gemini.md 中,codex 自己都去读了,没有遇到不读的情况。不过可能 gemini.md 要求更加严格一些?
    jinsongzhaocn
        22
    jinsongzhaocn  
       3 days ago
    还有个可能是通过代理调用,结果代理给的是假冒的,代理是可以随意修改模型名称的。
    w568w
        23
    w568w  
    OP
       3 days ago
    @canyue7897 @qwerasdf123 @jinsongzhaocn 是的,降智是我现在最怀疑的原因,关键是:各种模型验证站都测不出来!发个帖也是看看有没有朋友遇到类似的问题。

    我这里思考时间比较波动,有时候 10 分钟,有时候就一句话结束。但确实思考长的时候,主帖提到的情况会少一些。

    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。

    @lscho 没有特殊场景,也没有加什么野鸡 skills 、或超长的 agents.md 、或用一个已经特别长的 context 不压缩,就是正常地下载 codex 、安装、登录,正常地提问和命令,就出现了这里提到的大部分问题了。
    shineonme
        24
    shineonme  
       3 days ago
    感觉用的跟你不是同一个 gpt-5.5 xhigh

    第 1 点,我跑的项目没有做过特殊要求,每次都会做一遍编译测试,有时只改了很小的点,也会跑一遍完整的编译测试

    第 5 点,特地在 AGENTS.md 写了使用 conda 环境的 python ,用到目前没有出现过偏差的情况,写入 AGENTS.md 之前是会调用系统默认的 python, uv
    canyue7897
        25
    canyue7897  
       3 days ago
    我是直接用的官网账号,在模型验证站上测模型验证的时候,通过的是我自己的 AxonHub 。你这个是 web 转 api 么?如果是,那 web 中间的很多工具调用你这个工具肯定不能完整模拟,很多都丢弃了,那你根本就是断断续续的得到信息,你直接用 codex 试试,不会出现你说的问题的。codex 还是很遵守指令的,有的时候过于遵守了,我都感觉没啥主动性。
    darklowly
        26
    darklowly  
       3 days ago
    codex 体感确实很差的。我也搞不懂为什么那么多人喜欢 codex 。

    经常会出现鸡同鸭讲,还有输出的内容看着都头疼
    codingerj
        27
    codingerj  
       3 days ago
    官网 GPT Pro 账号 为什么还要用号质量检测站「是否是满血模型」?
    w568w
        28
    w568w  
    OP
       3 days ago
    @codingerj 因为想看看是不是降智了,就像楼上很多人怀疑的那样。

    并非:买了 GPT Pro 账号 -> 用号质量检测站「是否是满血模型」

    而是:买了 GPT Pro 账号 -> 体验很差,遇到了各种问题 -> 发帖求助 -> 评论怀疑是被 OpenAI 路由到降智模型 -> 实在没办法,用质量检测站检测一下
    ebushicao
        29
    ebushicao  
       3 days ago
    如果你没有说谎,且不是登录账号之后又配置了第三方中转站,那只能是模型降智了,但理论上即便降智也不至于发生 1 和 2 的情况,你要不要检查一下你的设置,全局的 skill ,全局的 AGENTS.md 文件,项目内的 AGENTS.md
    defaw
        30
    defaw  
       3 days ago
    最近疑似挪算力去训练 gpt5.6 了,我个人体感很差,一个已经给定了逆运动学代码的程序,我让 gpt5.5 medium 写可视化,连打字纠正带截图反馈改了六遍才写对。
    defaw
        31
    defaw  
       3 days ago
    补充:正价 plus 不是中转,codex cli 最新版
    daj2
        32
    daj2  
       3 days ago
    要不我在梯子上给你开个反代你试试是不是模型降智的问题? 127***[email protected] 这个邮箱你还用的话我发你
    YangWaleed
        33
    YangWaleed  
       3 days ago
    用 codex + gpt-5.5 确实没遇到这么弱智的时候,甚至我只用 medium 和 high

    OP 你都装了什么 skill ?会不会是上下文被污染了?
    plp
        34
    plp  
       3 days ago
    通过你的描述 感觉是你描述的问题比较大
    比如相关背景,相关技术架构说清楚了吗? 使用某些功能某些工具你指定了吗?
    输入输出你指定了吗?
    总体原则与注意事项你给出了吗?

    AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词
    tengxun
        35
    tengxun  
       3 days ago
    codex cli 不如 codex 客户端
    aimuz
        36
    aimuz  
       3 days ago   ❤️ 1
    我也是订阅了 GPT Pro 账户,之前一直订阅的是 Claude Max ,听他们说 GPT 5.5 很强,到期后就换成 GPT Pro 了,我实际用下来 Codex 的体验比不上 Claude 。用的是 Codex 桌面版。

    可能是经常使用 Claude ,然后换成 Codex 后各种不适应。高强度用了两天,直接申请退款了。
    w568w
        37
    w568w  
    OP
       3 days ago
    @daj2 在用的。你方便的话可以给我发个临时的 key ,感谢
    w568w
        38
    w568w  
    OP
       3 days ago
    @YangWaleed 目前有这些全局生效的,大部分都是我自己写的:



    从上到下是:代码重构指南、深度研究、下载模型、如何 update 一个 fork 、如何重构 PR 、如何写研究 Proposal 、网上搜索、文章润色、如何用微信推送通知

    上下文的话,我看模型似乎没有读过 skills 。就算读过,我也很难想象这些特定功能的手写 Skills 会特别影响模型能力……
    w568w
        39
    w568w  
    OP
       3 days ago
    @plp > AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词

    但我说的这几个 case ,除了 GPT 以外都没有犯过(当然其他模型也有其他的问题,但不至于有这么多低级错误)

    > 使用某些功能某些工具你指定了吗

    主贴已经说得非常非常清楚了吧。Skills 、Prompt 、Agents.md ,甚至完全清楚无歧义的指令就在上一句,都能执行错。我没招了……
    daj2
        40
    daj2  
       3 days ago
    @w568w #37 发了
    w568w
        41
    w568w  
    OP
       3 days ago
    @daj2 感谢朋友,已经收到了。我今晚有空测试一下,明天给你反馈。
    dingawm
        42
    dingawm  
       3 days ago   ❤️ 2
    估计是你的问题,要真这么差,OpenAI 可以 Close 了
    至于是不是因为 IP 降智,我不太清楚 OpenAI 是否会针对 codex desktop 使用根据 IP 进行降智,但是我之前刚开 GPT Pro 的时候,我发现在网页上用 Pro 模型,总是不思考就回答问题,正常来说应该会思考好几分钟,我才意识到可能是被降智了,之后换了个节点之后就正常了。
    noahliaszn
        43
    noahliaszn  
       3 days ago
    因为之前有一篇文章讲过 gpt-5.5 的 prompt 实践 反正我按照官方修改了 agents.md 几乎没做蠢事
    https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5
    duuu
        44
    duuu  
       3 days ago
    把项目的 AGENTS.md 发出来大家看看吧
    euronx
        46
    euronx  
       3 days ago
    gpt5.5 在我这就是个聪明逼,95%的任务都干的又好又快,每次改完代码还会 review 告诉我本次修改是否有 breaking change
    superhero007
        47
    superhero007  
       3 days ago
    我也觉得 codex 一般,输出内容很难看,说了半天看不懂绕来绕去在说什么。用 GLM5.1 的体感都更好一点.
    huang86041
        48
    huang86041  
       3 days ago
    是不是挪算力 切换量化版本了,我也感觉确实智商低了不少.
    Clannad0708
        49
    Clannad0708  
       3 days ago
    不清楚,我用起来没啥问题
    NerbraskaGuy
        50
    NerbraskaGuy  
       3 days ago
    个人感觉写功能逻辑没有 5.3codex 好用,只是在给他图片让他还原样式这方面确实比 5.3codex 进步很多
    ericguo
        51
    ericguo  
       3 days ago
    你要先/init 另外删掉你所有的 skills ,系统给的肯定用不上的 doc ,excel 之类的也可以删掉,然后你直接说你要什么就好了(前提你自己会编程)

    Codex 我已经用了半年了,我现在只用这个,Plus 对我来说都够。
    GodIsJasonBourne
        52
    GodIsJasonBourne  
       3 days ago
    10 有 89 没有开执行本地命令的权限罢?"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具"
    aimuz
        53
    aimuz  
       3 days ago
    @dingawm 那我感觉我的 Pro 被降智商了,之前试用了 Plus 感觉没有那么差。升级 Pro 后就不行了
    Anonono
        54
    Anonono  
       3 days ago
    最近一周也感觉 5.5 没以前聪明,但是大部分体现在复杂任务上,这种直接 CP 的问题我还没留意过。
    ovtfkw
        55
    ovtfkw  
       3 days ago via iPhone
    @w568w 你不是用的官网的 codex 和官网的模型吗,并没有通过中转站吧?
    那也会碰到降智吗?
    rangoBen
        56
    rangoBen  
       3 days ago
    好比你买了一台电脑,你明明都知道配置单,配置不低,价格还贵。全世界都在买它,用它,反响不错。
    你拿回家,捣鼓了两天,你说:这电脑性能真好用吗?玩 3A 这么卡?
    因为你觉得:至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」,就这第一个例子,完全干净的上下文都能给我执行一半、丢一半,再多的 Prompt 感觉也没法补救这种例子了。
    因为什么?
    agent 、skill 、提示词相当于是电脑的驱动
    建议去看吴恩达的提示词的课, 免费且深入浅出。

    不过你这个不是个例,我们称之为前 AI 时代跟后 AI 时代的人,上手 AI 是不一样的。
    从 cha gpt 一路用到现在,提示词,skill 这些的使用思路,已经形成肌肉记忆了。
    tanrenye
        57
    tanrenye  
       3 days ago
    @jinsongzhaocn 纯粹好奇,如果这些 skill 如此重要,那么为什么 A 社不让 Claude code 内置呢
    icyalala
        58
    icyalala  
       3 days ago
    等一下,你用的官网的 Codex ,为什么要搞什么账号检测站?
    你是真的 Codex 还是通过什么 API 接入呢?
    w568w
        59
    w568w  
    OP
       3 days ago via Android
    @rangoBen 可见学习 AI 会降低人的阅读能力和理解能力。因为你除了最后一句话之外,已经看不下去任何字了。

    你甚至不愿意看完整个帖子,看看我到底有没有提到 skill ,以及我回复里提到写了多少个 skill 。

    @icyalala 请往上翻,找到并读我对 codingerj 的回复。你是倒果为因了。

    是因为发现不对,怀疑 OpenAI 官方在降质,所以才去用检测站查,来辅证;而不是我买到手(或者是买了中转站),所以闲的没事干去用检测站检测。
    buruoyanyang
        60
    buruoyanyang  
       3 days ago
    同感,也是正价开了 GPT 账号,感觉远远不如中转的 Claude 啊,我现在拿他当豆包用,下个月不续了。
    w568w
        61
    w568w  
    OP
       3 days ago
    @GodIsJasonBourne > 10 有 89 没有开执行本地命令的权限罢?"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令,硬是用 Write 工具"

    是开了的,因为我下一句就批评了它,让它不要用 Write 改用 bash 。然后它立刻就用 bash 执行 cp 了。可见并不是没能力,而是没意愿。

    然后我也问了他「为什么不用 cp ?你复述一下我的前面的命令」?他的回答是这样的:

    ===
    你给我的命令是:
    “把现在这个 /xx/xx 复制到本地的真实 provider 目录下。”

    更具体地说:
    - 我把“同步目标文件”误判成“继续修改目标文件”。
    ...
    ===

    这里也挺哭笑不得的,回答完全不知所云:它辩解自己做错的理由是:「你说的是“同步”,不是“复制”」,但自己在一句话之前刚刚复述过的就是「你的命令是:把现在这个 /xx/xx 复制到本地的真实 provider 目录下」,根本没有「同步」这两个字。
    desstiony
        62
    desstiony  
       3 days ago
    完全没遇到过
    ty29022
        63
    ty29022  
       3 days ago
    codex 没有 Write 工具, 只有 apply_patch, 你们在说啥?
    w568w
        64
    w568w  
    OP
       3 days ago
    @ty29022 "Write" 是指用来写( Write )文件的工具,而不是「那个名字叫 "Write" 的工具」,在 Codex 里相关工具就是 "apply_patch"。

    至于为什么这么叫,大概是受 Claude Code 影响吧。如果真要较真的话,"Bash" 也应该叫 "shell" 或 "local_shell"。
    Liftman
        65
    Liftman  
       3 days ago
    很确定你是降智。。。。。
    HappyFox
        66
    HappyFox  
       3 days ago   ❤️ 1
    1 、很明显降智,也就是使用的是量化版本模型,而非原始模型。检测站只能检测是否是 GPT5.5 ,厂家有没有给你量化是另一回事。而且厂商可以确定量化的比例,也就是多次请求中,在厂商认为不影响“服务质量”的前提下给你替换部分返回结果。具体原理参考某些中转站掺假

    2 、这事无解,除非你用的云服务厂商托管的私有部署版本,否则在新模型上市前一两个月,当前版本的 SOTA 模型都会降智、节省算力用于训练新模型。用任何原厂的 coding 套餐都有这个问题,只有企业/api 用户可以豁免
    bjy1
        67
    bjy1  
       3 days ago
    有人要求高,有人要求低,项目复杂度也不一样。
    确实有莫名其妙的问题,经常把对话内容写页面上。
    还好比我强就让它写,它晕了我自己写
    v2gba
        68
    v2gba  
       3 days ago   ❤️ 1
    skills 也好 harness 也好 什么 loop/goal/.md 等等

    都是模型能力不够的弥补手段

    同一个项目前几天 Fable 能用的时候,我白天远程遥控开发了十几个 feature,回家检查了下一个 bug 都没.

    但在这之前的(除了刚出来 1~2 个月的时候),和这之后的 Opus 都是半死不活的样子.

    写进 CLAUDE.md 的规则不执行(context 只用了 10 几%)
    5 轮对话里,第二轮纠正的事情(必须用模拟器测试完之后在交付给我), 第 5 轮又忘记了 (当第五轮 context 也只有 30 多%)

    只能说这些模型厂商非要降智,开头说的那些也很难救回来.

    要么用 API (API 应该不降智吧) 要么一直用刚发布的模型(LOL. 临时威力加强版)
    unusualcat
        69
    unusualcat  
       3 days ago
    我用 gpt5.4 中。codex 桌面客户端,写程序做任务都做的很好。你的大概率是降智了,否则没道理 5.5 还不行的。
    我用 5.4 纯粹是因为 5.5 额度烧太快,而 5.4 也可以满足我的需求。
    Thesara
        70
    Thesara  
       3 days ago   ❤️ 1
    5.5 很喜欢头痛砍头,感觉不如 5.3
    HappyAndSmile
        71
    HappyAndSmile  
       3 days ago
    我支持 op ,最近的 gpt 5.5 确实像个弱智一样,让遵守我的守则文件,非要不遵守,非要画蛇添足,乱加文件
    lesismal
        72
    lesismal  
       3 days ago   ❤️ 1
    应该是降智了吧,前阵子不是误封、然后又发福利一波,没有免费的午餐。

    而且不只是 GPT ,claude 最近体感也降智了。

    以前很多一把过的东西,现在半天不过,反反复复。

    每次遇到这种观念,我都休息几天再看。
    cheng6563
        73
    cheng6563  
       3 days ago
    你账号降智了。
    另外,轮降智水平,我 opus 第一个不符:

    Q:你用的什么终端?
    A:你好,我用的终端。

    还有,AI 路走歪了,我提醒一下:
    Q:你别缠着 XXX 了,不是这边问题
    A:我知道了,我绕太久了。已经搞完了,不提了,还有别的问题吗?
    Q:sbsbsb
    A:(思考:用户打了一串乱码)没事,等您有需要随时来。
    gadfly3173
        74
    gadfly3173  
       3 days ago
    我觉得 GPT5.5 的指令遵循确实不如 5.4 或者其他模型,比如我经常使用的 code-review-excellence skill 中对最终报告的输出有格式要求,GPT5.5 是最偏离格式要求的模型,Opus 4.8 或者 GLM-5.1 、Deepseek V4 Pro 等都可以很好地遵循输出的格式,5.4 会稍微改变一些,但也是基本遵守的。
    liuliuliuliu
        75
    liuliuliuliu  
    PRO
       3 days ago
    不是,我不用 skills 都没这么弱智啊
    pinecone1
        76
    pinecone1  
       2 days ago
    你搞了这一堆 skills ,不如先把 superpower 装上。你这里我别的都没装,Superpowers 就够了,而且我用的还是 gpt 5.4 都能很出色的完成 95% 我的工作。太可惜了,这么好用的东西你用不上。
    yjiefl
        77
    yjiefl  
       2 days ago
    一直用过来,我感觉 5.3codex 编程就很够用了,5.5 成功率更高,没感觉降智。
    msg7086
        78
    msg7086  
       2 days ago
    最近几天老外论坛有人报 GPT 5.5 疑似降智,可能是为 5.6 发布而调整算力分配,如果你是这两天刚测的,那有这个可能。之前至少没什么问题。
    你说的这些我在 Gemini 3.5F 上经常见到,Codex xHigh 上没遇到过。只能说你的描述不符合正常 GPT 模型的水平。至于是官方降智还是什么原因这个我不好说。我这边就只开了一个 superpowers ,别的啥都没装。
    msg7086
        79
    msg7086  
       2 days ago
    最近几天老外论坛有人报 GPT 5.5 疑似降智,可能是为 5.6 发布而调整算力分配,如果你是这两天刚测的,那有这个可能。之前至少没什么问题。
    你说的这些我在 Gemini 3.5F 上经常见到,Codex xHigh 上没遇到过。只能说你的描述不符合正常 GPT 模型的水平。至于是官方降智还是什么原因这个我不好说。我这边就只开了一个 superpowers ,别的啥都没装。
    MIUIOS
        80
    MIUIOS  
       2 days ago
    楼主写的这么详细了,楼上都是看都不看上来指责楼主不会用 llm ,v2 特色
    yyysuo
        81
    yyysuo  
       2 days ago
    @MIUIOS 这很奇怪吗,太匪夷所思了啊,万里无一的体验,不怀疑楼主怀疑谁。
    robinxplorer
        82
    robinxplorer  
       2 days ago
    用了一次我也感觉过于弱智 切换 cc 了
    fbu11
        83
    fbu11  
       2 days ago
    感觉是被降智的
    magicfield
        84
    magicfield  
       2 days ago
    这两个月感觉降智很严重,最近都用 cc+d4p 了
    nrtEBH
        85
    nrtEBH  
       2 days ago
    @jinsongzhaocn skills 很重要但不是必须的
    whitedew
        86
    whitedew  
       2 days ago
    @w568w 我靠,本来准备买会员的,你这么说搞得我不知道买还是不买了
    coolpenguin
        87
    coolpenguin  
       2 days ago
    这贴看完只觉得很多人基本是没有看完问题再分析的能力吧……只是照着自己预想的情况写结论。
    brazz
        88
    brazz  
       2 days ago
    https://imgur.com/a/vnZNXSp

    确实糟心,改不掉自创无实现函数的问题, 有没大佬指教一下
    nrtEBH
        89
    nrtEBH  
       2 days ago
    一般情况下 不需要 xhigh 特别是你只是一句话指令用 xhigh 非常容易 over thinking
    用 codex 这种偏向 vibe 的客户端 非常重要是做好上下文约束 直接打开一个 repo 然后开 xhigh 再发一句话没有上下文的指令 模型乱搞是可以预期的 它不知道你要的是什么
    最近在看 github copilot 的实践指南 你可以把上下文限定在一段代码 一个文件 多个文件 逐步放开让模型去操作
    另外如果有固化的开发流程 的确如楼上说的 用 skill 把边界,输出,规范全部定好 模型才不会乱搞
    harness 没那么简单的
    Cooky
        90
    Cooky  
       2 days ago
    降智了,不降智就很好用,不好用的时候就能觉出来是降智了
    ca2oh4
        91
    ca2oh4  
       2 days ago
    @w568w 体感是 gpt 确实比 claude 更健忘

    claude 感觉更守规则
    4seasons
        92
    4seasons  
       2 days ago
    题外话:其实无论是 Codex 还是 Claude ,skills (尤其是自己创建的那种)装的太多,一样会降智。

    op 虽然贴了很多示例,但是不清楚上下文是啥,但是就只看例如:“合并代码,先运行编译测试再 commit”,就感觉挺没头没尾的。再例如“把一个代码文件复制到另一个位置”,你可以明确告诉他用“用 cp 命令把 xxx 复制到 xxx”。但是你没有做。

    我觉得用这些工具时,首先要抛弃那种:我这个事情可能说的不太详细,但是你懂的(或者你必须懂),懂的都懂的,这种态度。要不然真的会成为那种令人讨厌的老登领导。
    shibow
        93
    shibow  
       2 days ago
    你美国朋友注册这个多少钱啊
    gumayusi
        94
    gumayusi  
       2 days ago
    @4seasons 那这还是 AI 吗?比手写 Python 还麻烦
    rockddd
        95
    rockddd  
       2 days ago
    @gumayusi #94 我也认为指令清晰程度能影响代码一次生成的准确率。产品发给你的需求,说的模棱两可,你听不明白还要追问两句才能完全理解呢,更何况是 ai,毕竟不是神
    rxswift
        96
    rxswift  
       2 days ago
    建议换成国产模型
    ZhaokunZhang
        97
    ZhaokunZhang  
       2 days ago
    我用正版的,没发现这个问题,外面的中转站也没发现,反而公司内的中转站有这个问题。1 、2 、3 ,3 个步骤,1 干错了,2 没干,3 干了。
    mooyo
        98
    mooyo  
       2 days ago
    我一直用的 API 版,感觉非常良好
    liiuyr
        99
    liiuyr  
       2 days ago
    你这肯定不是正常账号,或者模型了,建议重开个 plus 号试试,不可能这么弱智的
    swananan
        100
    swananan  
       2 days ago
    很奇怪,我没有遇到过你这样的情况,我是 pro 账号,只使用 5.5 xhigh 。 我很少使用 skill ,就几个我自己构建的。你要不要把你三方的 skill 都去掉试试。

    codex 指哪打哪,很少会不遵循,偶尔有,说一下也听话了。而且不会擅作主张,比如主动回复 github 这种有副作用的操作,肯定会和我确认的。
    1  2  
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1051 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 227ms · UTC 18:07 · PVG 02:07 · LAX 11:07 · JFK 14:07
    ♥ Do have faith in what you're doing.