1
itskingname 169 天前
我也遇到了。我问大海为什么是蓝色的。它识别出来的是一个字幕组的网址。然后回答了这个字幕组的介绍。
|
2
zylll520 169 天前
5oiR5Lmf55SoIDRvIOa1i+ivleS6huS4gOS4i++8jOavj+asoeWbnuetlOi/mOS4jeS4gOiHtO+8jOWAkuaYryA0IOayoeaciei/meS4qumXrumimA==
|
3
ccnoobs 169 天前
我试着没问题 还有 1 楼的 问题回答都挺正常的 https://chat.openai.com/share/d34db0f9-bdb4-437a-902c-54878ee94337
|
4
freak118 169 天前
肯定的啊 包括说什么 4202 年了 怎么怎么样
|
5
notwaste 169 天前
4o 的准确度是不如 4 的
|
6
byasm32 169 天前 via iPhone 2
gpt4o:你就说快不快吧!
|
7
chuchong 169 天前
是被修复了吗我现在 plus 用的 4o 复现出来回答倒也算正常了
|
8
iamsad3508 169 天前 via Android
我问第一个问题,他给我介绍中国青年报是什么
|
9
naminokoe 169 天前
测试了 OP 关于福利彩票的问题,回答没有错误
|
10
syaoranex 169 天前 5
这没有什么好奇怪的,你只是遇到了「 SolidGoldMagikarp 」现象,或称「幽灵 Token 现象」。详情可以参考这篇文章: https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation
简单来说,4o 的词表训练的时候,用了大量网路爬虫资讯,其中囊括了大量受污染的词汇,这些词汇出现多了之后,出现次数较多的词组就会被固定在分词模型中。但是在训练的时候,用的则是另一批中文语料,或者这些受污染的词汇网页被清洗了,所以这些 token 没有被充分训练,模型对这些 token 相当陌生,只能大概直到它和某些娱乐、信息、网站相关,所以回复就会比较随机,有时能碰对,有时回复又会天马行空。 用个形象的比喻来说,在大语言模型眼里,幽灵 Token 相当于汉字使用者看到这句话:「介绍一下熕粐彁粫椦恷妛」 但是你只要往这些 token 字符中间加入一个空格,就可以将这个幽灵 Token 破坏为两个普通 Token ,这个时候,模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」,你替换为「介绍一下中国福利 彩票天天」,或者「介绍一下中国 福利彩票天天」,结果就会不一样。 |
11
syaoranex 169 天前
@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593),里面有解析幽灵 Token 的代码,可以自行上手验证。
|