$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 sillydaddy 打赏,数额会 100% 进入 sillydaddy 的钱包。
 sillydaddy 最近的时间轴更新
sillydaddy
5.49D
4.57D

sillydaddy

V2EX 第 472822 号会员,加入于 2020-02-27 19:30:20 +08:00
今日活跃度排名 8
MOD
具有移动主题的权限
Scaling Law 真的很有意思!它停止了吗?
分享发现  •  sillydaddy  •  3 天前  •  最后回复来自 sillydaddy
7
对 HodlAI 的可持续性的质疑
HodlAI  •  sillydaddy  •  2 月 3 日  •  最后回复来自 workbest
24
ARC-AGI 测试这帮人疯了!
  •  1   
    分享发现  •  sillydaddy  •  1 月 29 日  •  最后回复来自 LiuJiang
    3
    vibe coding 的最佳实践到底是什么?
    Joe's Talk 🪐  •  sillydaddy  •  1 月 23 日  •  最后回复来自 goodboy95
    28
    编程已死!
  •  1   
    职场话题  •  sillydaddy  •  2025 年 12 月 31 日  •  最后回复来自 Livid
    63
    让你们的 AI 做做这道题,见真章!
    OpenAI  •  sillydaddy  •  2025 年 12 月 27 日  •  最后回复来自 itechify
    5
    不知不觉 AI 可以算乘法了
    分享发现  •  sillydaddy  •  2025 年 12 月 24 日  •  最后回复来自 sillydaddy
    5
    sillydaddy 最近回复了
    12 小时 37 分钟前
    回复了 zhoukevin233 创建的主题 Cursor Cursor 旧版 500 次套餐开始缩水了
    具体是消耗几次啊? 其实也不算缩水吧,MAX mode 本来就是按 token 计费的。Opus 4.6 thinking 也需要消耗 2 次啊。
    1 天前
    回复了 Livid 创建的主题 OpenAI GPT-5.4 Thinking 依然过不了洗车测试
    我最喜欢的是这个帖子里的测试:
    /t/1192001

    当时只有 codex 5.3 extra high 能解决!可以是试试 5.4 能不能解决,如果能,说明是高级推理模式,否则推理应该就是被阉割过的。
    1 天前
    回复了 Livid 创建的主题 OpenAI GPT-5.4 Thinking 依然过不了洗车测试
    我用 Cursor 试验了,在 Cursor 里面:
    OpenAI 的模型,分为 4 级:low 、normal 、high 和 extra high 。前两者解决不了(包括 codex 5.3 。没试 5.4 ),后两者可以解决。
    Anthropic 的模型,分为 2 级,不带 thinking 、带 thinking 。前者只有 Opus 4.6 可以解决,后者都可以解决,甚至 Sonnet4.0 thinking 也可以。

    所以可以看到它们 2 家的等级对应。

    不知道你用的模型是哪里的,我感觉网页版的推理能力很低,无论是哪家公司。我稍微正式研究一些问题时,都会切换到 Cursor 里面去问。
    1 天前
    回复了 zf07accp623 创建的主题 生活 关于过年的仪式
    过年期间,恰好老家「院儿里」(同族沾亲的)有一位长辈去世,非常多的同族人去悼念吃席,让人感概。今年我对村里的仪式,包括拜年,理解都更深了:这些仪式其实是那个年代维系和支撑生存的一种方式吧,比如操办大事,凭小家庭的力量很难,同族的人就成了非常重要的支援力量。我还联想到,村里的比如盖房泥瓦工、木匠、医生、红白喜事主事人,甚至都是靠口口相传的,要你自己去喊人,可以想象如果没有熟人纽带连接,会发生什么。而在现代城市,这些服务都被商品化了,生存的法则也变了(虽然也很依赖人际关系,但性质变了),这恰恰是时代带来的变化,那些年味、仪式、情感联络、族群纽带,也随着环境变化了。

    作为这个过渡进程中间的一代人,恰恰是在见证着这个过程,其实也是在被拉扯着。
    这个偏见很大。只需要做一个思维实验:
    现在有 5 亿人,目前有 1 亿面向业务的,4 亿技术工种。假设现在 4 亿技术工种几乎全部涌向业务层。想象一下后果:
    1. 业务根本不需要这么多人,竞争严重内卷,九成会被激烈竞争淘汰出局。
    2. 技术严重缺乏,超高溢价。

    这个思维实验,恰恰说明了:业务和技术是平衡状态,无所谓高低之分,只强调业务是偏见。或者即使有高低之分,你自身不适合业务不是白说吗?就像有的人你培训他 10 年,他也不适合做技术。中国有上亿的个体户,都很赚钱是吗?赔钱的那些呢?
    1 天前
    回复了 CEBBCAT 创建的主题 OpenAI GPT 5.4 发布
    Cursor 里面也看到了,不过要在 Max Mode 才能用:
    @iloveoovx
    你这逻辑跳跃的,确实该补点逻辑,而不是脑补什么「一听到 RL 缩放还能持续 1 年,就发生误会,损伤了股价」,你后面不也说了学术界有层出不穷的优化思路吗?

    另外,现实不就是 RL 缩放主导了缩放定律吗,主题里也提到了,缩放的方式改变了。怎么在你这里就成了置信度很低的单维度指标。

    关于 AI 公司的责任,考虑到我没有给你足够的上下文,我来补充一下,以免你产生幻觉。

    首先这个责任这不是我强加给它们的,所有 AI 公司都在说公共责任,特别是 Anthropic 。你可以看看他们出席多少公共论坛、接受多少公共采访,畅谈他们对 AI 的发展判断,去看看阿莫代伊的博客,里面「仁慈的机器」都出来了。

    然后你知道什么是 AI 发展中最重要的吗,不是别的,恰恰是 Scaling Law ,没有之一。谈 AI 发展的前提,就是谈缩放定律,而我说的 RL 缩放的时效,恰恰包含在里面,它还是一个核心。

    考虑到上面的 2 点上下文,你再去分析一下他们公开的发言,通篇都是多少年实现 AGI ,对未来的影响,但这些务实的缩放定律时效,他们丝毫不涉及!这个时效,是一个客观的东西,不是你说的用户满意度,它受限于客观的算力。你觉得,他们在面对投资人的时候,也会像面向公众的时候,大谈 AGI 大谈它们的进步,却对这些时效问题闭口不谈吗?这种态度的区别,说明了什么呢?你的道德标准可能比较低,认为这没有什么问题。我的标准跟你不一样。

    另外我上面的回复也没有针对你啊,你这刻薄的毛病从哪儿来的。
    @iloveoovx 一旦 RL 缩放放缓,虽然还有其他优化空间,但是会直接影响 scaling 的速度。

    另外,我发这个,也是说明我对这些 AI 公司很不信任:连这些基本的信息,他们都不会放出来,比如我们的 RL 缩放还能支持多长时间之类的话。从我发的主题里面的评论可以知道,大家基本都靠猜。

    如果这么基本的无害的信息,他们都要闭嘴不提,我根本不能相信这些 AI 公司能有什么透明度和操守。话倒是都说得很漂亮。
    @JoeJoeJoe 搜集资料时,我也问了 AI ,😂
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2824 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 15:03 · PVG 23:03 · LAX 07:03 · JFK 10:03
    ♥ Do have faith in what you're doing.