谷歌AI居然拼不对自己的名字？揭秘语言模型的“拼写盲区”

编者按：你是否想过，那个为你规划行程、解答疑惑的AI，可能连“草莓”里有几个“r”都数不清？当谷歌高调推出AI概览功能，试图用生成式AI重塑搜索体验时，现实却给了它一记响亮的耳光——它不仅能数错单词里的字母，还能把“Trump”拼成“Trpum”，把“journalism”写成“journalism”。这不是段子，而是大语言模型在基础拼写能力上的结构性缺陷。本文通过谷歌AI实测翻车案例，揭示了一个反直觉的事实：能写代码、解数学难题的AI，在“数字母”这种幼儿园级题目上，却会像初学者一样频频出错。这不仅是技术bug，更是对AI神话的一次趣味祛魅——当我们惊叹于AI的神通时，别忘了它可能连个“P”都数不准。—

谷歌这个词里有几个“P”？根据谷歌自己的AI概览回答：有两个。

不仅如此，谷歌AI概览还表示，“poop这个词里‘恰好有1个r’”，以及“journalism这个词里有两个d”，然而它给出的拼写却是：j-o-u-r-n-a-d-i-s-m。至少，谷歌确实识别出美国总统姓氏中有一个“P”，但它却拼成了：t-r-p-u-m。

你甚至不需要预言家的能力就能预测到，谷歌大力推行的AI搜索改革注定会翻车。这已经不是第一次了。谷歌最初在搜索中加入AI概览时，这个功能竟然引用了来自《洋葱报》和Reddit的讽刺帖，建议人们吃石头，还把胶水洒在披萨上。

这一次，当谷歌加倍押注，决心让生成式AI成为其29年历史旗舰产品的核心时，它跌跟头也在意料之中。

“对LLM来说，数单词里的字母一直是个众所周知的难题，我们正在努力修复这个特定问题，”谷歌在一封给TechCrunch的邮件声明中表示。

这些基础的拼写错误听起来是不是很耳熟？LLM，也就是驱动聊天机器人和其他文本生成器的人工智能，它的底层架构并不是为理解拼写而设计的。多年来一直有个笑话：每当有公司发布一个新AI模型，你就该问它“strawberry”这个词里有几个“r”。这些AI模型——能在几秒钟内写出一个App，或者解决困扰数学家数十年的难题——在拼写能力上却和一个幼儿园孩子差不多。

不过，谷歌AI概览的麻烦远不止这些搞笑的拼写错误。谷歌已经修复了上周的一个问题：搜索“disregard”这个词时，原本应该显示一个词典定义，结果却出现“了解。如果你有新的提示或问题，请随时告诉我！”的回复。但这些拼写错误依然很逗，因为它们实在太难根除了。

正如研究人员在回答我们关于这些拼写难题的疑问时解释的那样，AI并不把句子理解为由单词和字母构成的语言单位。许多LLM基于Transformer模型构建，这些模型会把文本拆分成“tokens”——根据模型不同，这些tokens可以是完整的单词、音节或字母。AI并不会像人类那样“阅读”，而是将文本转换为自己数值化的表征，再通过上下文关联，帮助AI生成一个看似合理的回复。

“LLM基于Transformer架构，而值得注意的是，这个架构实际上并不‘阅读’文本。你输入提示词时，会发生的事是：它被翻译成一种编码，”阿尔伯塔大学AI研究员及助理教授Matthew Guzdial告诉TechCrunch，“当它看到‘the’这个词时，它有一个关于‘the’的编码，但它并不知道‘T’、‘H’、‘E’分别代表什么。”

驱动谷歌AI概览等LLM的基于token的架构，本身就存在固有的局限性，而研究人员对于能否解决这个拼写问题并不乐观。

“对于一个语言模型来说，‘单词’到底是什么，这个问题本身就很难绕开。即使我们让人类专家就一个完美的token词汇表达成共识，模型可能仍然会觉得进一步‘分块’会更有用，”东北大学研究大语言模型可解释性的博士生Sheridan Feucht告诉TechCrunch，“我的猜测是，由于这种模糊性，根本不存在完美的token分词器。”

这未必是研究人员们眼中紧迫的问题，因为LLM的价值并不体现在它们的拼写能力上。但这些明显的失败，能提醒我们：即便AI有时候看起来像一个无所不知、超乎我们理解的存在，它也并非完美无缺。我们不能盲目信任AI的输出结果，而应该核对它们的准确性。

本文由吉伊网原创发布，未经许可，不得转载！
本文链接：http://www.jkiyi.com/kx/49494.html