934831065ldc
V2EX  ›  问与答

我发现现在新的模型,几乎都没有提供 token 的计算规则

  •  
  •   934831065ldc · 1 day ago · 1204 views

    最近想做一个 token 计算的,看看缓存到具体哪里,然后怎么算都算不对的,已经不知道这个 token 怎么算了,我记得之前 openai 还会公布一下 token 是怎么算的。 你们知道吗? 比如千问,豆包,deeepseek 那些最新的大模型 token 都是怎么算的吗?

    7 replies    2026-06-24 15:53:18 +08:00
    zizon
        1
    zizon  
       1 day ago
    都是 response 里回传回来的统计信息.
    有些要手动开才会有对应 payload.
    sillydaddy
        2
    sillydaddy  
       1 day ago
    没看懂,是计算一段文本转化成多少?还是多轮对话中,各种类型 token 数量是怎么计算的?
    前者有专门的工具,后者的计算算是基本常识,跟厂家无关,问一下大模型就知道了:cached input, not cached input, cache write, output ,都是通用的。
    suckinbottle
        3
    suckinbottle  
       1 day ago
    你可以理解为黑盒
    msg7086
        4
    msg7086  
       1 day ago
    文字到 token 的映射,不同模型应该是不一样的。
    至于缓存多少,这个也不一定精确,比如我看 codex gpt 就是一块一块存的,不满一块他不存。
    gpt 里一块是 128 token ,所以就是存到最近的 128 的倍数为止。
    wat4me
        5
    wat4me  
       1 day ago
    什么意思,api 调用的时候会返回啊,还是说你想要本地计算用户输入输出的 token ? DeepSeek 有放出来 V3 的分词器,openai 可以看 https://platform.openai.com/tokenizer
    KagurazakaNyaa
        6
    KagurazakaNyaa  
       1 day ago
    开源的都可以算,闭源的看厂商有没有放出 tokenizer 来
    deepseek 的最新大模型是有 tokenizer 的 https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/tokenizer.json
    只要有架构,有 tokenizer ,就能本地计算出一段文本对应的 token ,然后统计一下就是 token 数了
    Zhuzhuchenyan
        7
    Zhuzhuchenyan  
       1 day ago
    HuggingFace 公开权重的模型:AutoTokenizer.from_pretrained(...)
    Deepseek: https://api-docs.deepseek.com/quick_start/token_usage#calculate-token-usage-offline
    gpt: https://platform.openai.com/tokenizer
    豆包我还真没找到
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3299 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 79ms · UTC 11:15 · PVG 19:15 · LAX 04:15 · JFK 07:15
    ♥ Do have faith in what you're doing.