GPT-4o 中文对话答非所问

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 610 天前的主题，其中的信息可能已经有所发展或是发生改变。

应该是中文语料库被污染的问题，询问 gpt-4o 黄赌词汇，回复的根本不搭边，例子可以见下面的链接。

https://chat.openai.com/share/3b6490e3-38cb-4fec-b71d-badee6f13ad1

我在其它论坛看到后用 4o 测试了一下的确如此，各位有兴趣也可以测试一下。

中文

污染

测试

11 条回复 • 2024-05-16 01:08:38 +08:00

itskingname

2024 年 5 月 15 日

我也遇到了。我问大海为什么是蓝色的。它识别出来的是一个字幕组的网址。然后回答了这个字幕组的介绍。

zylll520

2024 年 5 月 15 日

5oiR5Lmf55SoIDRvIOa1i+ivleS6huS4gOS4i++8jOavj+asoeWbnuetlOi/mOS4jeS4gOiHtO+8jOWAkuaYryA0IOayoeaciei/meS4qumXrumimA==

ccnoobs

2024 年 5 月 15 日

我试着没问题还有 1 楼的问题回答都挺正常的 https://chat.openai.com/share/d34db0f9-bdb4-437a-902c-54878ee94337

freak118

2024 年 5 月 15 日

肯定的啊包括说什么 4202 年了怎么怎么样

notwaste

2024 年 5 月 15 日

4o 的准确度是不如 4 的

byasm32

2024 年 5 月 15 日 via iPhone

gpt4o：你就说快不快吧！

chuchong

2024 年 5 月 15 日

是被修复了吗我现在 plus 用的 4o 复现出来回答倒也算正常了

iamsad3508

2024 年 5 月 15 日 via Android

我问第一个问题，他给我介绍中国青年报是什么

naminokoe

2024 年 5 月 15 日

测试了 OP 关于福利彩票的问题，回答没有错误

syaoranex

2024 年 5 月 16 日

这没有什么好奇怪的，你只是遇到了「 SolidGoldMagikarp 」现象，或称「幽灵 Token 现象」。详情可以参考这篇文章： https://www.lesswrong.com/posts/aPeJE8bSo6rAFoLqg/solidgoldmagikarp-plus-prompt-generation

简单来说，4o 的词表训练的时候，用了大量网路爬虫资讯，其中囊括了大量受污染的词汇，这些词汇出现多了之后，出现次数较多的词组就会被固定在分词模型中。但是在训练的时候，用的则是另一批中文语料，或者这些受污染的词汇网页被清洗了，所以这些 token 没有被充分训练，模型对这些 token 相当陌生，只能大概直到它和某些娱乐、信息、网站相关，所以回复就会比较随机，有时能碰对，有时回复又会天马行空。

用个形象的比喻来说，在大语言模型眼里，幽灵 Token 相当于汉字使用者看到这句话：「介绍一下熕粐彁粫椦恷妛」

但是你只要往这些 token 字符中间加入一个空格，就可以将这个幽灵 Token 破坏为两个普通 Token ，这个时候，模型就能看懂你的输入了。比如原问题是「介绍一下中国福利彩票天天」，你替换为「介绍一下中国福利彩票天天」，或者「介绍一下中国福利彩票天天」，结果就会不一样。

syaoranex

2024 年 5 月 16 日

@syaoranex 更详细的解析可以参考[这篇文章]( https://zhuanlan.zhihu.com/p/697675593)，里面有解析幽灵 Token 的代码，可以自行上手验证。