我发现现在新的模型，几乎都没有提供 token 的计算规则

最近想做一个 token 计算的，看看缓存到具体哪里，然后怎么算都算不对的，已经不知道这个 token 怎么算了，我记得之前 openai 还会公布一下 token 是怎么算的。你们知道吗？比如千问，豆包，deeepseek 那些最新的大模型 token 都是怎么算的吗？

token

模型

计算

7 replies • 2026-06-24 15:53:18 +08:00

zizon

1 day ago

都是 response 里回传回来的统计信息.
有些要手动开才会有对应 payload.

sillydaddy

1 day ago

没看懂，是计算一段文本转化成多少？还是多轮对话中，各种类型 token 数量是怎么计算的？
前者有专门的工具，后者的计算算是基本常识，跟厂家无关，问一下大模型就知道了：cached input, not cached input, cache write, output ，都是通用的。

suckinbottle

1 day ago

你可以理解为黑盒

msg7086

1 day ago

文字到 token 的映射，不同模型应该是不一样的。
至于缓存多少，这个也不一定精确，比如我看 codex gpt 就是一块一块存的，不满一块他不存。
gpt 里一块是 128 token ，所以就是存到最近的 128 的倍数为止。

wat4me

1 day ago

什么意思，api 调用的时候会返回啊，还是说你想要本地计算用户输入输出的 token ？ DeepSeek 有放出来 V3 的分词器，openai 可以看 https://platform.openai.com/tokenizer

KagurazakaNyaa

1 day ago

开源的都可以算，闭源的看厂商有没有放出 tokenizer 来
deepseek 的最新大模型是有 tokenizer 的 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/tokenizer.json
只要有架构，有 tokenizer ，就能本地计算出一段文本对应的 token ，然后统计一下就是 token 数了

Zhuzhuchenyan

1 day ago

HuggingFace 公开权重的模型：AutoTokenizer.from_pretrained(...)
Deepseek: https://api-docs.deepseek.com/quick_start/token_usage#calculate-token-usage-offline
gpt: https://platform.openai.com/tokenizer
豆包我还真没找到