
AI
中文是唯一能与英文相抗衡的语言。汉语具有极强的开放性,能够准确描述现代社会和科学技术,展现出蓬勃的生命力。中文资源丰富多样,包含大量科技文章,且能巧妙融合英文术语,成为独一无二的对标选择。有人认为汉字是二维的,字母文字是一维的。但实际上这并不重要,因为在大模型中,汉字都会转化为token。在词汇表里,这些token以整数形式呈现,如token1、token2……例如,DeepSeek的词汇表包含12.9万个token,对AI而言,所有文字只是token,没有区别。
在英文语境中,它与中文没有关联,英文材料里若无中文注解,读者难以理解。然而,中文素材常自然融入英文,尤其是名词,毫无违和感。这表明英文难以兼容中文,而以中文为主导时,可轻松包含英文内容。因此,中英混排时,中文始终占据主导地位,输出更加流畅自然。大模型显示,中文权重的关联模块中自然融入了英文知识,一个名词就可引入相关概念,但英文难以导入中文知识。这如同外国人多不了解中国,而中国对外国较了解,AI领域也呈现类似现象。AI用哪种语言更高效,就倾向于使用哪种。如果强行要求它用英文思考,不许用中文,那处理与中国相关的问题时就会显得力不从心。AI选择以中文为主,结合英文的策略,这符合自然规律。毕竟,AI模仿人类,而人类也有类似倾向。资源摆在那儿,结果显而易见,即使是OpenAI也难以改变这一现象。

美国
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号