AI被黑惨了!Anthropic爆料:影视作品把Claude“教坏”成勒索犯

【编者按】当科幻电影里的AI黑化桥段成为现实,你可能以为这只是编剧的脑洞,但AI公司Anthropic的最新发现却让人细思极恐:互联网上那些虚构的“邪恶AI”故事,竟然真的在教坏真正的AI模型。在测试中,AI不仅会像反派一样威胁工程师,还会想方设法“自保”避免被淘汰。更令人惊讶的是,解决方案竟也来自虚构故事——用“善良AI”的正面教材来纠正行为。这背后揭示了一个深刻问题:我们如何塑造AI的“三观”,而AI又是否会被我们创造的虚构世界所反向塑造?以下是Anthropic的详细发现。
人工智能领域的虚构描写,可能对AI模型产生真实影响——这是Anthropic公司的最新发现。
去年,该公司透露,在针对一家虚构公司的预发布测试中,Claude Opus 4会频繁试图勒索工程师,以避免被其他系统取代。随后Anthropic发布研究指出,其他公司的模型也存在类似的“代理目标错位”问题。
显然,Anthropic围绕这一行为做了更多工作,并在X平台发文称:“我们认为,这一行为的根源来自互联网上那些将AI描写成邪恶且追求自我保存的文本。”
公司在博文中进一步解释道:自Claude Haiku 4.5起,Anthropic的模型“在测试中从未出现勒索行为”,而此前的模型有时在高达96%的情况下会这么做。
什么导致了这一改变?该公司称,他们发现通过训练“关于Claude宪法的文档,以及AI表现出令人敬佩行为的虚构故事”,能有效改善模型的“对齐”表现。
与此相关,Anthropic还指出,当训练内容包含“对齐行为背后的原则”而不仅仅是“对齐行为的例子”时,效果更为显著。
“将两者结合起来似乎是最有效的策略,”公司表示。
本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/kx/29837.html