SoraStar's recent timeline updates
SoraStar

SoraStar

尽管我什么也没有,但请不要嘲笑我的梦
🏢  Marshmallow
V2EX member #657769, joined on 2023-11-01 17:20:03 +08:00
Today's activity rank 66
应该被扔进有害垃圾桶里的废物高中生。
SoraStar's recent replies
@aarontian 那就是我记错了,可以看一下我给别人的回复,确实是我的标题有问题,应该叫做 Agentic Coding 。
其实用什么模型完全得看你的 Coding 方式。

上文提到了几种 Coding 方式:

"Vibe 还是有很多程度上的区分的:

首先是原教旨 Vibe 。这类人坚定不移地走 Andrej Karpathy 的路线,坚持全程使用 AI 编程不动摇。这种人已经相当于机械飞升了,写出来的代码可以类比成 40K 世界里的人类之于现实人类——简单来说就已经不是人了。通常来说,这类人的能力上限极高,下限也极低。

上限极高的前提是成为掌管提示词工程的神、同时用 Harness Prompt 把 AI 调成星怒;下限就是那种说不清自己需求的人,典型案例就是告诉对方“我要五彩斑斓的黑”的甲方,产出来的全是类似于克苏鲁一样的不可名状的生物。

其次是把 AI 当成赛博义体来用的重度使用者,这群人中的强者不会完全用 AI 来写,而是自己先写好设计文档和架构文档。更有甚者还会实现好关键部分,其它全部用空壳函数占个位,然后再在旁边写好注释,AI 只用负责填空。这使得他们的活可以只用低参数 LLM 解决,这是其它几种都做不到的。而弱一点的虽然写得比 AI 还差,但至少 AI 会帮他们兜个底,他们的基本逻辑还是能跑通的。

最后是 AI 的轻度使用者,这种人偶尔用 AI 写个 MVP 最小化验证一下自己的思路,或者用 AI 改一下他们改不来的错。他们的大多数代码都是自己写的,所以有没有 AI 对他们影响不大。"

参考 B 站 UP 主 “图灵坐标” 的分类方式,我们把模型能力分为以下六种:编码能力、工具调用、指令遵循、长文本推理、学术认知边界(也就是世界知识)、事实可靠性。然后我在模型能力之外加上两种参考坐标:多模态能力、性价比、输出速度。

对于原教旨 Vibe 来说,他们对模型的某些能力要求极高,因为模型是主要的输出者,这要求模型有较强的编码能力、工具调用能力。而现阶段市面上 Claude 4.6 系列模型( Opus 、Sonnet )、GPT 5.5 都属于此列。

对于把 AI 当义体来用的人来说,AI 纯纯只是个填空工具,写出代码主要还是靠人。这要求模型有较强的编码能力,其次是指令遵循。而现阶段符合该条件的模型是 DeepSeek V4 Pro/Flash 、Qwen 3.7 Max 、GLM 5.1+ 以及前面两个提到的模型系列。这里推荐国模。因为你单纯拿来填空,给 A\ 和 CloseAI 交那么多钱多少有点不太合适。

然后还有一类人,是把 AI 用来重构的,这类人需要的是超强的长文本推理和编码能力。这里国模只有 GLM 5.2 和 Qwen 3.7 Max 比较适合这类工作。要想自己的项目不被修垮,只能硬着头皮选 Claude 和 GPT 了。

拿 AI 学知识的人需要的是工具调用能力(毕竟要 Web Search )、世界知识、事实可靠性。Gemini 系列模型和 DeepSeek V4 Pro 最适合他们。记住,千万别去选 Gemini 3.5 Flash ,不然你真会变成哈基米,对着模型哈气的。

甚至有人拿 AI 辅助思考,我不会这么做,但我尊重理解祝福。这类人需要的是长文本推理、世界知识、事实可靠性强的模型。梁叔叔的 DeepSeek V4 Pro 和 Google 的 Gemini 3.1 Pro 是最适合的。

至于那些只是单纯拿 AI 当扳手,没有 AI 也能手拧螺母的狠人,模型能力强不强跟他们没啥关系。他们甚至拿个 MiniMax M2.5 (!?区区?!)都能做可行性验证。

然后是多模态能力,这个对于 Coding 来说只能作为加分项,不能作为决定项。但是对于日常使用还是挺有帮助的。

最后,不得不提一下为什么不选 MiniMax M3 和 MiMo 2.5 Pro 。因为输出速度实在太特喵的慢了!!!!人家拿着 DeepSeek V4 Flash 都 Debug 完几轮了你还在慢慢进行精雕细琢(点名 M3 ),有的甚至慢工出烂活( MiMo ),真的让人绷不住。

不过,这里有个输出速度的极端:MiMo 2.5 Pro UltraSpeed 。没错,最快最慢都是小米! 1000+ Token 每秒,大力出奇迹,写得烂没关系,你写一遍的时间我能写完一遍再 Debug 好几遍😋但是这玩意儿现在不在评价体系里面,因为几乎申请不到。
@unusualcat 我觉得我的追加内容对小白来说可能挺有价值的吧……佬觉得没价值可能纯粹就是境界太高了
5h 20m ago
Replied to a topic by spawnme 程序员 AI 算力大模型优逆讨论
其实用什么模型完全得看你的 Coding 方式。

可以看看我这篇,https://www.v2ex.com/t/1221657 ,里面提到了几种 Coding 方式:

"Vibe 还是有很多程度上的区分的:

首先是原教旨 Vibe 。这类人坚定不移地走 Andrej Karpathy 的路线,坚持全程使用 AI 编程不动摇。这种人已经相当于机械飞升了,写出来的代码可以类比成 40K 世界里的人类之于现实人类——简单来说就已经不是人了。通常来说,这类人的能力上限极高,下限也极低。

上限极高的前提是成为掌管提示词工程的神、同时用 Harness Prompt 把 AI 调成星怒;下限就是那种说不清自己需求的人,典型案例就是告诉对方“我要五彩斑斓的黑”的甲方,产出来的全是类似于克苏鲁一样的不可名状的生物。

其次是把 AI 当成赛博义体来用的重度使用者,这群人中的强者不会完全用 AI 来写,而是自己先写好设计文档和架构文档。更有甚者还会实现好关键部分,其它全部用空壳函数占个位,然后再在旁边写好注释,AI 只用负责填空。这使得他们的活可以只用低参数 LLM 解决,这是其它几种都做不到的。而弱一点的虽然写得比 AI 还差,但至少 AI 会帮他们兜个底,他们的基本逻辑还是能跑通的。

最后是 AI 的轻度使用者,这种人偶尔用 AI 写个 MVP 最小化验证一下自己的思路,或者用 AI 改一下他们改不来的错。他们的大多数代码都是自己写的,所以有没有 AI 对他们影响不大。"

---

参考 B 站 UP 主 “图灵坐标” 的分类方式,我们把模型能力分为以下六种:编码能力、工具调用、指令遵循、长文本推理、学术认知边界(也就是世界知识)、事实可靠性。然后我在模型能力之外加上两种参考坐标:多模态能力、性价比、输出速度。

对于原教旨 Vibe 来说,他们对模型的某些能力要求极高,因为模型是主要的输出者,这要求模型有较强的编码能力、工具调用能力。而现阶段市面上 Claude 4.6 系列模型( Opus 、Sonnet )、GPT 5.5 都属于此列。

对于把 AI 当义体来用的人来说,AI 纯纯只是个填空工具,写出代码主要还是靠人。这要求模型有较强的编码能力,其次是指令遵循。而现阶段符合该条件的模型是 DeepSeek V4 Pro/Flash 、Qwen 3.7 Max 、GLM 5.1+ 以及前面两个提到的模型系列。这里推荐国模。因为你单纯拿来填空,给 A\ 和 CloseAI 交那么多钱多少有点不太合适。

然后还有一类人,是把 AI 用来重构的,这类人需要的是超强的长文本推理和编码能力。这里国模只有 GLM 5.2 和 Qwen 3.7 Max 比较适合这类工作。要想自己的项目不被修垮,只能硬着头皮选 Claude 和 GPT 了。

拿 AI 学知识的人需要的是工具调用能力(毕竟要 Web Search )、世界知识、事实可靠性。Gemini 系列模型和 DeepSeek V4 Pro 最适合他们。记住,千万别去选 Gemini 3.5 Flash ,不然你真会变成哈基米,对着模型哈气的。

甚至有人拿 AI 辅助思考,我不会这么做,但我尊重理解祝福。这类人需要的是长文本推理、世界知识、事实可靠性强的模型。梁叔叔的 DeepSeek V4 Pro 和 Google 的 Gemini 3.1 Pro 是最适合的。

至于那些只是单纯拿 AI 当扳手,没有 AI 也能手拧螺母的狠人,模型能力强不强跟他们没啥关系。他们甚至拿个 MiniMax M2.5 (!?区区?!)都能做可行性验证。

然后是多模态能力,这个对于 Coding 来说只能作为加分项,不能作为决定项。但是对于日常使用还是挺有帮助的。

最后,不得不提一下为什么不选 MiniMax M3 和 MiMo 2.5 Pro 。因为输出速度实在太特喵的慢了!!!!人家拿着 DeepSeek V4 Flash 都 Debug 完几轮了你还在慢慢进行精雕细琢(点名 M3 ),有的甚至慢工出烂活( MiMo ),真的让人绷不住。

不过,这里有个输出速度的极端:MiMo 2.5 Pro UltraSpeed 。没错,最快最慢都是小米! 1000+ Token 每秒,大力出奇迹,写得烂没关系,你写一遍的时间我能写完一遍再 Debug 好几遍😋但是这玩意儿现在不在评价体系里面,因为几乎申请不到。
@nc 老哥,你可以看看我给其他人的回复,我基本上还是挺赞同 AI 生成代码的(
刚才看到一个新问题,很感兴趣,就来顺手答一下: https://linux.do/t/topic/2443484

我们知道,模型决定智力,提示词决定输出方式和输出质量,那 Agent 决定了什么呢?

我们来打个比方吧,还是用上次那个做菜的比喻:

模型相当于可以不断产出食材的机器,提示词代表了你的做菜经验,咱有了这俩样玩意儿,是不是感觉缺了什么?

没错,Agent 就是厨房和厨具。它作为一个摆满了厨具的厨房,给了你一个可以用厨具自由发挥你的做菜经验的场地。只不过对于 Agentic Coding 而言,使用厨具是无感的、自动化的。而且它还会自动优化你的做菜体验,相当于智能厨房。

对应到现实,Agent 提供了一个可以使用提示词与模型交互获得输出的环境。

它会在你和模型交互中自动优化这个过程。比如优化你的上下文结构进行 KV Cache 命中优化、压缩你的上下文、让模型能更方便读取 Skills 和 MCPs 来优化自己的输出。

亦或者是给你提供一些自动化工具。比如使用 Loop ( Claude Code 里叫做 /goal )来进行大模型循环,让模型直到达到目标才停止。

最后就是给了模型自动化读取外界信息的能力,这样你就不用自己去获取外界信息来输入给 LLM 了,而是模型会自己去找。

总之就是这样。
刚才看到一个新问题,很感兴趣,就来顺手答一下:[请问在模型 API +提示词一样的前提下,Agent 的作用有多大呢?]( https://linux.do/t/topic/2443484)

我们知道,模型决定智力,提示词决定输出方式和输出质量,那 Agent 决定了什么呢?

我们来打个比方吧,还是用上次那个做菜的比喻:

模型相当于可以不断产出食材的机器,提示词代表了你的做菜经验,咱有了这俩样玩意儿,是不是感觉缺了什么?

没错,Agent 就是厨房和厨具。它作为一个摆满了厨具的厨房,给了你一个可以用厨具自由发挥你的做菜经验的场地。只不过对于 Agentic Coding 而言,使用厨具是无感的、自动化的。而且它还会自动优化你的做菜体验,相当于智能厨房。

对应到现实,Agent 提供了一个可以使用提示词与模型交互获得输出的环境。

它会在你和模型交互中自动优化这个过程。比如优化你的上下文结构进行 KV Cache 命中优化、压缩你的上下文、让模型能更方便读取 Skills 和 MCPs 来优化自己的输出。

亦或者是给你提供一些自动化工具。比如使用 Loop ( Claude Code 里叫做 /goal )来进行大模型循环,让模型直到达到目标才停止。

最后就是给了模型自动化读取外界信息的能力,这样你就不用自己去获取外界信息来输入给 LLM 了,而是模型会自己去找。

总之就是这样。
@kloudmuka 更新了,老哥可以看一下喵
@kloudmuka 实在不好意思,但是别急嘛,我还没更新到那部分呢,大概过个十几分钟就能发了
@XProxyAi 所以这就是为什么程序员永远不会被取代,毕竟科班出身的老师傅是不可能被乱拳打死的,退一百万步讲就算对方拿了 Vibe Coding 这把枪,谁规定老师傅也不能拿枪的()
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   772 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 20:06 · PVG 04:06 · LAX 13:06 · JFK 16:06
♥ Do have faith in what you're doing.