谷歌AI居然拼不对自己的名字?揭秘语言模型的“拼写盲区”

编者按: 你是否想过,那个为你规划行程、解答疑惑的AI,可能连“草莓”里有几个“r”都数不清?当谷歌高调推出AI概览功能,试图用生成式AI重塑搜索体验时,现实却给了它一记响亮的耳光——它不仅能数错单词里的字母,还能把“Trump”拼成“Trpum”,把“journalism”写成“journalism”。这不是段子,而是大语言模型在基础拼写能力上的结构性缺陷。本文通过谷歌AI实测翻车案例,揭示了一个反直觉的事实:能写代码、解数学难题的AI,在“数字母”这种幼儿园级题目上,却会像初学者一样频频出错。这不仅是技术bug,更是对AI神话的一次趣味祛魅——当我们惊叹于AI的神通时,别忘了它可能连个“P”都数不准。—

谷歌这个词里有几个“P”?根据谷歌自己的AI概览回答:有两个。

不仅如此,谷歌AI概览还表示,“poop这个词里‘恰好有1个r’”,以及“journalism这个词里有两个d”,然而它给出的拼写却是:j-o-u-r-n-a-d-i-s-m。至少,谷歌确实识别出美国总统姓氏中有一个“P”,但它却拼成了:t-r-p-u-m。

你甚至不需要预言家的能力就能预测到,谷歌大力推行的AI搜索改革注定会翻车。这已经不是第一次了。谷歌最初在搜索中加入AI概览时,这个功能竟然引用了来自《洋葱报》和Reddit的讽刺帖,建议人们吃石头,还把胶水洒在披萨上。

这一次,当谷歌加倍押注,决心让生成式AI成为其29年历史旗舰产品的核心时,它跌跟头也在意料之中。

“对LLM来说,数单词里的字母一直是个众所周知的难题,我们正在努力修复这个特定问题,”谷歌在一封给TechCrunch的邮件声明中表示。

这些基础的拼写错误听起来是不是很耳熟?LLM,也就是驱动聊天机器人和其他文本生成器的人工智能,它的底层架构并不是为理解拼写而设计的。多年来一直有个笑话:每当有公司发布一个新AI模型,你就该问它“strawberry”这个词里有几个“r”。这些AI模型——能在几秒钟内写出一个App,或者解决困扰数学家数十年的难题——在拼写能力上却和一个幼儿园孩子差不多。

不过,谷歌AI概览的麻烦远不止这些搞笑的拼写错误。谷歌已经修复了上周的一个问题:搜索“disregard”这个词时,原本应该显示一个词典定义,结果却出现“了解。如果你有新的提示或问题,请随时告诉我!”的回复。但这些拼写错误依然很逗,因为它们实在太难根除了。

正如研究人员在回答我们关于这些拼写难题的疑问时解释的那样,AI并不把句子理解为由单词和字母构成的语言单位。许多LLM基于Transformer模型构建,这些模型会把文本拆分成“tokens”——根据模型不同,这些tokens可以是完整的单词、音节或字母。AI并不会像人类那样“阅读”,而是将文本转换为自己数值化的表征,再通过上下文关联,帮助AI生成一个看似合理的回复。

“LLM基于Transformer架构,而值得注意的是,这个架构实际上并不‘阅读’文本。你输入提示词时,会发生的事是:它被翻译成一种编码,”阿尔伯塔大学AI研究员及助理教授Matthew Guzdial告诉TechCrunch,“当它看到‘the’这个词时,它有一个关于‘the’的编码,但它并不知道‘T’、‘H’、‘E’分别代表什么。”

驱动谷歌AI概览等LLM的基于token的架构,本身就存在固有的局限性,而研究人员对于能否解决这个拼写问题并不乐观。

“对于一个语言模型来说,‘单词’到底是什么,这个问题本身就很难绕开。即使我们让人类专家就一个完美的token词汇表达成共识,模型可能仍然会觉得进一步‘分块’会更有用,”东北大学研究大语言模型可解释性的博士生Sheridan Feucht告诉TechCrunch,“我的猜测是,由于这种模糊性,根本不存在完美的token分词器。”

这未必是研究人员们眼中紧迫的问题,因为LLM的价值并不体现在它们的拼写能力上。但这些明显的失败,能提醒我们:即便AI有时候看起来像一个无所不知、超乎我们理解的存在,它也并非完美无缺。我们不能盲目信任AI的输出结果,而应该核对它们的准确性。

本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/kx/49494.html

联系我们

在线咨询:

邮件:sooting2000@qq.com