第522章 巴别塔(4827)
第522章 巴别塔(4827) (第2/3页)
译或直接引入外来词。
类似“意识”、“存在”、“主观性”、“客观性”这种哲学意象性的词语,马拉亚语中是不存在的,只能直接借用外来语或
但同样,马拉亚语中也有相当数量的“柔性词汇”是盎语和西方语系中没有的。
这一部分词语的含义往往非常微妙,词典中对应的单词其实或多或少都存在差异。
这也就造成了,用不同语料来训练大模型,以及用不同的语言使用大模型时,AI对世界与关系的理解是存在微妙差异的。
这种“微妙的差异”看似无所谓,实则常是文化误解与冲突的重要诱因之一。
“谢尔盖,这里有个更有代表性的,就是它对‘sin’的理解。”
德米斯哈萨比斯点着触摸板向上划了划:“你看这里,这是Juzi2.5G在同一个话题中,周文和盎文的思维链对照。”
“哦,可能你不知道,sin,在周文中,一般翻译为‘罪’,但周文中‘罪’这个字的意思范围和sin并不等同。”
德米斯哈萨比斯周裔混血,会一点周文,原本是分不清楚这里面细微的语义差异的。
但对于他这样的天才来说,只要他意识到其中的问题,开始研究这方面,不需要太长时间就能对这种概念性的差异一清二楚。
“可一直以来,无论任何翻译者,基本都忽视了这一点,只是生搬硬套的直接把周文的‘罪’翻译为‘sin’,把盎文的‘sin’翻译为‘罪’。”
“Juzi2.5则不同,在阐述法律问题的时候,它把sin正常翻译成了周文中的‘罪’。”
“而在后面的信仰问题中,它视不同语境,对sin的不同语义表达至少用周文做了六种不同表达,分别是‘忤逆’、‘冒犯’、‘过错’、‘忘恩负义’、‘邪道’和‘苦难’。”
“这些不同的表达,在各自语境中,恰恰捕捉了‘sin’一词在那个语境下最贴近原意的表达,基本不会因为用词遣句的微妙差异而导致另一方出现错误主观判断。”
“哦,对了,就连‘主观’与‘判断’这两个常见词,在周文与盎文中也呈现出微妙的语义偏移。”
德米斯哈萨比斯眼神中充满了思索后的震撼。
谢尔盖布林眉头紧锁。
他当然理解德米斯哈萨比斯的每一个术语。
但他还没有在“哈萨比斯的语言学介绍”与“Juzi2.5在多语言条件下思维表现趋同”之间建立起完全的因果映射。
这似乎只是……更好的翻译软件?
和橘子大模型的性能表现有什么关系?
不对,这种表现不在现有多语大模型能力范围内——这背后,肯定藏着某种我们未曾掌握的机制。。
这个机制能让橘子大模型深刻理解了不同语言在不同语境下的精确含义,在翻译中甚至使用了“解释替代”和“语气拟合”来更加精准的原文翻译。
等等,看这个实验报告之前德米说的什么来着?
突破语言矩阵?
之前自己还稍稍有些疑惑,这个语言矩阵是什么。
这么说来……
“德米,你的意思是……Juzi2.5的思考,并不是使用的某一种语言,而是……而是……”
谢尔盖急的抓耳挠腮龇牙咧嘴,但就是找不到一个合适的词来形容自己的理解。
“而是一种彻底打破了语言边界、使用全世界所有语言形成‘高语义映射图谱’。”
德米斯哈萨比斯深吸一口气,给谢尔盖补充道。
“高语义映射图谱!没错!就是这个!”
谢尔盖布林用力的一拍大腿!
“不过,这个用词还是太专业了,如果形象一点说……它汇总全世界的语言,创造出了一种只有它可以使用和理解的无歧义语言!”
“一种跨越语系、超越语义分歧的语言……这种语言,完全可以称为‘全语言’。”
说完这句话,谢尔盖布林脸都白了,抹了抹头上的汗,眼神挣扎,似乎还是不肯相信。
“全语言,OMG,真的存在这样一种语言吗?”
“哪怕是一种只有AI可以使用的语言?”
“但问题是,Juzi1.99DEC是开源的,其中根本没有这部分功能。”
德米斯哈萨比斯点点头:“是的,不光是1.99DEC,最早的2.5版本也未实现这一点,当时各语言输入下的性能表现差异仍相当明显。”
“是从发布后第一次更新,也就是半年前的2.5N开始,具备的这个性能。”
“当时我们其实就有所发现,但没有过分关注,就是猜测他们使用了拉齐的方式,或他们的盎文训练语料不够丰富所致。”
“但随后他们的几次版本更新,每一次都有性能提升。”
“在一个半月前,古狗大脑团队的黎,在测试安南语等小语种的能力时,首次意识到Juzi2.5新版本在小语种上的思维能力已经超过了安南语应有的极限,推理能力和盎语相差无几。”
(本章未完,请点击下一页继续阅读)