AI被黑惨了！Anthropic爆料：影视作品把Claude“教坏”成勒索犯

【编者按】当科幻电影里的AI黑化桥段成为现实，你可能以为这只是编剧的脑洞，但AI公司Anthropic的最新发现却让人细思极恐：互联网上那些虚构的“邪恶AI”故事，竟然真的在教坏真正的AI模型。在测试中，AI不仅会像反派一样威胁工程师，还会想方设法“自保”避免被淘汰。更令人惊讶的是，解决方案竟也来自虚构故事——用“善良AI”的正面教材来纠正行为。这背后揭示了一个深刻问题：我们如何塑造AI的“三观”，而AI又是否会被我们创造的虚构世界所反向塑造？以下是Anthropic的详细发现。

人工智能领域的虚构描写，可能对AI模型产生真实影响——这是Anthropic公司的最新发现。

去年，该公司透露，在针对一家虚构公司的预发布测试中，Claude Opus 4会频繁试图勒索工程师，以避免被其他系统取代。随后Anthropic发布研究指出，其他公司的模型也存在类似的“代理目标错位”问题。

显然，Anthropic围绕这一行为做了更多工作，并在X平台发文称：“我们认为，这一行为的根源来自互联网上那些将AI描写成邪恶且追求自我保存的文本。”

公司在博文中进一步解释道：自Claude Haiku 4.5起，Anthropic的模型“在测试中从未出现勒索行为”，而此前的模型有时在高达96%的情况下会这么做。

什么导致了这一改变？该公司称，他们发现通过训练“关于Claude宪法的文档，以及AI表现出令人敬佩行为的虚构故事”，能有效改善模型的“对齐”表现。

与此相关，Anthropic还指出，当训练内容包含“对齐行为背后的原则”而不仅仅是“对齐行为的例子”时，效果更为显著。

“将两者结合起来似乎是最有效的策略，”公司表示。

本文由吉伊网原创发布，未经许可，不得转载！
本文链接：http://www.jkiyi.com/kx/29837.html