百度文心和其他模型的一个重大的不同点

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 766 天前的主题，其中的信息可能已经有所发展或是发生改变。

百度的模型是针对中文的，它的 Tokenizer 对英文进行编码的效率特别低，大概两个字母一个 token ，接近字符计数

现在市面上其他的模型基本上是 BPE 编码，编码中文的效率相对低，token 大概是中文字符数*2 的程度

总的来讲在其他模型里面中文水土不服，而在百度这里英文水土不服，而其水土不服的程度超过中文在其他模型的水土不服程度

从结果看，用于 GPT 的英文 prompt 不能直接用于文心，prompt 必须改成中文，并且回复大概率也是中文，做不了国际化的出海应用，只能国内自己用。

可以说是内循环的急先锋了。

4 条回复

whileFalse

2023-11-02 18:48:03 +08:00 via Android

中文的 prompt 能用于 gpt 吗？

nomagick

2023-11-02 18:58:07 +08:00

@whileFalse 能啊怎么不能

whileFalse

2023-11-02 19:06:40 +08:00 via Android

那是不是 gpt 也直接用中文 prompt 就行了

nomagick

2023-11-02 20:59:54 +08:00 via Android