liyafe1997

liyafe1997

V2EX 第 32249 号会员,加入于 2013-01-13 12:04:39 +08:00
今日活跃度排名 7492
火绒病毒库停更了吗?
信息安全  •  liyafe1997  •  25 天前  •  最后回复来自 gearfox
6
用 PostgreSQL 存图片等 binary 有什么坑吗
  •  1   
    PostgreSQL  •  liyafe1997  •  49 天前  •  最后回复来自 hd7771
    90
    Clash 能实现订阅的订阅吗
    宽带症候群  •  liyafe1997  •  88 天前  •  最后回复来自 itisqiang
    39
    现在还有支持 S3 睡眠的笔记本吗
    硬件  •  liyafe1997  •  155 天前  •  最后回复来自 cskason
    2
    Win11 安装了 4 月更新之后发现搜索 UI 换字体了?
  •  1   
    Windows  •  liyafe1997  •  205 天前  •  最后回复来自 dgy125
    55
    liyafe1997 最近回复了
    写上面这个的时候突然想到以前看到过的一个很好玩的视频:
    https://www.bilibili.com/video/BV1Pt421a7rw/

    这人估计因为什么原因,脑子里的 LLM 丢失了大量参数,像极了 LLM 规模过小过拟合在胡言乱语,但是无论是上面这人还是 LLM 胡言乱语,你会发现把每一句话单独挑出来都没毛病,至少语法是正确的。编程语言也是,你用一个再垃圾的模型让它写主流编程语言的复杂需求的代码,代码逻辑可能乱写一通,但语法基本上是对的。说明语法这个层面的信息(无论是编程语言还是人类语言)是非常基本的,小模型都不容易犯错,别说大模型了。
    你不能用 AST 这些传统的算法/逻辑来理解 AI ,AI 是没有逻辑的。

    各种 LLM 最基本的原理说白了就是「吐出下一个概率最高的 token 」,大量的各种语言的代码的训练数据基本就保证了,不会吐出导致语法错误的 token ,换句话说,导致语法错误的 token 不会得到高分(因为在训练数据中没有这种 case ),所以不会吐出来。

    就跟我们学习人类语言一样,你可能不了解一种语言的语法,但是从小到大有大量的 input (比如你的母语,中文,我想没多少人真的懂其中的门道),所以你也不太容易说出写出语法错误的句子,因为跟你以前看到的听到的别人说的不一样,会感觉很别扭(虽然你也说不出其中的规则),除非训练数据被污染了(比如你整天看很多中二的东西,那你说话可能也会变得很中二)。

    「逻辑错误/凭空编出来的 API 」,这就是所谓的幻觉,因为相关训练数据缺失,在这种情况下,一个概率最大的 token 可能就会是不正确的信息(编出来的 API ),因为实在没有其它更好的选择了,(即,尽管概率得分不大,但是依然是最大的那个,或者说,没有比它更正确的信息了)。

    比如 AI 不知道到底有哪些 API ,你的 prompt 提到一个「读用户年龄信息」,根据你的仓库里的代码,它可能会脑补出一个 GetUserAgeFromDB(),但是怎么样也不会吐一个 GetYourMoneyFromDB(),因为这时 token 一路吐下去,最正确的回答就是「 GetUserAgeFromDB()」。

    还是拿人类思维和语言来举例子,比如你从小在城市长大,你没见过西瓜是怎么长的,也没阅读过有相关内容的资料(训练数据缺失)。然后呢老师让你写作文,写篇「去乡下摘西瓜的故事」( prompt ),然后呢根据你从小到大的 input ,你知道西瓜是水果,然后呢水果一般都是长在树上的(「果」这个 token 后面经常跟着「树」)苹果也是水果,苹果树也经常出现,所以当你写下「西瓜」的时候,「树」这个 token 在你脑海里得分是很高的,于是你写下了「西瓜树」,幻觉就这么来了。尽管「西瓜树」是错的,但是你也不会写下「西瓜人」,「树」比「人」概率更大。

    但是从语法层面,你不大可能犯错误,尽管你可能并不懂什么主谓宾定状补这些语法知识和规则,但你会写出「我->去->爬->西瓜->树」,因为在你以前阅读过的材料(训练数据)中见过很多类似的组合(你见过很多句子第一个字是「我」,因此「我」在这里概率是最高的,然后「我」后面经常跟着「去」,于是你写了「去」......),你不大可能会写出「爬去我」,因为训练数据里你没见过「爬」放句首的,所以这个得分不会高,你就不会吐「爬」出来,「爬」后面也不会跟着「去」......因此你不会写出语法错误的句子,尽管你并不懂具体的语法规则。
    14 小时 11 分钟前
    回复了 axuadm19 创建的主题 信息安全 大厂研发的信息保护技术栈
    之前呆过一公司,有类似软件,会通过软件锁 USB ,然而 BIOS 没密码,硬盘也没 BitLocker...
    真要防,感觉得上云桌面,然后后台全程录像,至少能溯源。
    20 小时 18 分钟前
    回复了 dreamkuo 创建的主题 Cursor cursor 自己的 composer 1 模型有点猛啊
    @idragonet 你这是免费的号吧,或者你自己设了 API Key
    20 小时 19 分钟前
    回复了 dreamkuo 创建的主题 Cursor cursor 自己的 composer 1 模型有点猛啊
    @idragonet 我的 Agent 和 Plan 都可以
    不是纯静态页面,不利于搜索引擎抓取
    1 天前
    回复了 dreamkuo 创建的主题 Cursor cursor 自己的 composer 1 模型有点猛啊
    我现在感觉性价比最高的是 Grok Code ,无论是在 Cursor 还是 Copilot 。表现不错(虽然能力不及 Claude ),基本能用的水平,响应很快,最要的是在 Cursor 和 Copilot 都不要钱,不计使用量。
    1 天前
    回复了 yibo2018 创建的主题 程序员 Vibe Coding 提效显著,一年项目体验历程
    @askfilm 不是幻想,而是现实
    1 天前
    回复了 yibo2018 创建的主题 程序员 Vibe Coding 提效显著,一年项目体验历程
    @wenning 再贵也比招几个人便宜得多
    1 天前
    回复了 lada05 创建的主题 Android 很烦一加的一点是 没有总闸级的静音[吐槽]
    或许试试勿扰模式?

    虽然没用过 ColorOS ,但是我试过在原生安卓 & MIUI/澎湃 & 荣耀 MagicOS 上,我开了勿扰模式之后,除了闹钟之外是不会响的(日历提醒也不会响),媒体也会默认静音,除非手动按音量上键打开声音。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4301 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 05:34 · PVG 13:34 · LAX 21:34 · JFK 00:34
    ♥ Do have faith in what you're doing.