发现一个神奇的现象， gpt 貌似对于汉字个数相关的问题很迷茫？有人了解为啥会这样么

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 439 天前的主题，其中的信息可能已经有所发展或是发生改变。

事情的起因是我需要一个正好 12 个汉字的句子用来做测试，我就让 gpt 给我生成一个，要求句子通顺且没有逗号等间隔符号。结果 gpt3.5 死活生成不好，要么长度不对，要么给我加上了逗号或者顿号什么的。

随来了兴趣，各种尝试，总是不行。没有试 4.0 ，不知道有没有改善。

纯讨论，有人知道为啥会这样么

10 条回复 • 2024-07-12 07:47:09 +08:00

soar0712

2024-07-11 10:56:19 +08:00

不知道为啥我贴的图不显示

opengps

2024-07-11 10:59:07 +08:00

这段需求让我想起了刘慈欣的小说《诗云》。诗歌级别的要求，可能还真不是现阶段 GPT 能推理到足够水平的

linhongjun

2024-07-11 10:59:32 +08:00

免费账户不是有 gpt4 吗？虽然每天有限额

mU9vX912XopmAoE1

2024-07-11 11:00:12 +08:00

@soar0712 图片已经显示

因为 AI 本质是词语接龙，不是计数器

你可以试试换一种说法

让他生成一个句子，然后提出你的要求，最后设计一种程序来检验生成的内容是否符合你的要求

输出句子和程序以及验证结果

InDom

2024-07-11 11:02:10 +08:00

好像是因为大模型不是逐字识别的，而是 token ，一个 token 可能不是一个汉字，对与大模型来说，可能并不能确定你发的原文到底是啥吧？

InDom

2024-07-11 11:04:58 +08:00

Morriaty

2024-07-11 11:23:03 +08:00

应该是和 tokenizer 有关，有个不同模型的在线 tokenizer https://huggingface.co/spaces/Xenova/the-tokenizer-playground 你可以测试下

soar0712

2024-07-11 11:39:42 +08:00

![](

)
继续试了一下，很神奇，他觉得自己的句子有 15 个汉字，我让逐个打印并编号的时候，他打印到 15 个就自己截断了，没搞懂原理

aiqinxuancai

2024-07-11 18:37:59 +08:00

就是 tokenizer 算法的问题，里面根本没有汉字的分词和单字，GPT 的汉字基本上都是通过字节压缩生成的 token 。你看到的是汉字，他看到的是一串数值，而一些数值是有多个汉字压缩进去的。

randychoi

2024-07-12 07:47:09 +08:00 via Android

chatgpt 直接调用 Python 可以得出正确答案。
加关键字“请用 python 计算”