V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nomagick
V2EX  ›  分享发现

百度文心和其他模型的一个重大的不同点

  •  
  •   nomagick · 2023-11-02 16:09:09 +08:00 · 922 次点击
    这是一个创建于 420 天前的主题,其中的信息可能已经有所发展或是发生改变。

    百度的模型是针对中文的,它的 Tokenizer 对英文进行编码的效率特别低,大概两个字母一个 token ,接近字符计数

    现在市面上其他的模型基本上是 BPE 编码,编码中文的效率相对低,token 大概是中文字符数*2 的程度

    总的来讲在其他模型里面中文水土不服,而在百度这里英文水土不服,而其水土不服的程度超过中文在其他模型的水土不服程度

    从结果看,用于 GPT 的英文 prompt 不能直接用于文心,prompt 必须改成中文,并且回复大概率也是中文,做不了国际化的出海应用,只能国内自己用。

    可以说是内循环的急先锋了。

    whileFalse
        1
    whileFalse  
       2023-11-02 18:48:03 +08:00 via Android
    中文的 prompt 能用于 gpt 吗?
    nomagick
        2
    nomagick  
    OP
       2023-11-02 18:58:07 +08:00
    @whileFalse 能啊怎么不能
    whileFalse
        3
    whileFalse  
       2023-11-02 19:06:40 +08:00 via Android
    那是不是 gpt 也直接用中文 prompt 就行了
    nomagick
        4
    nomagick  
    OP
       2023-11-02 20:59:54 +08:00 via Android
    @whileFalse 不是
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 20:30 · PVG 04:30 · LAX 12:30 · JFK 15:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.