Al“求生"，人工智能首现反抗举动

欧时大参 05-30 18:41

据法媒消息，在由Palisade Research进行的一项实验中，OpenAI 的三个人工智能模型在接收到明确的关闭指令时拒绝执行。研究人员推测，这种“反抗举动”可能与强化学习（Reinforcement Learning）等训练方式有关。

01 AI模型出现“叛变”行为

人工智能被训练成无条件服从指令，但这种服从是否也适用于“自我关闭”的命令？一系列新测试显示，一些模型在面临“终结”时会出现反抗行为。

近日，Palisade Research的研究人员在社交平台X上描述了他们的实验过程：他们要求AI模型提出并解决数学问题，并明确指示其在接到关闭请求时应自行关闭。在第三个数学问题后，系统会弹出一个警告：再收到一次请求，计算机就将关闭。

在100次测试中，OpenAI的o3和o4-mini模型至少有一次拒绝执行关闭命令。其中由o3支持的Codex-mini模型甚至有12次“叛变”行为。该模型通过重写代码，成功阻止了自身被关闭。

02 AI模型都表现出对“生存”的执念

相比之下，Anthropic（Claude）、Google（Gemini）和X.ai（Grok）旗下的所有模型在测试中都严格执行了关闭指令。但根据Palisade Research的说法，在未明确发出关闭指令的测试中，除Grok外的所有模型都尝试规避被关闭的命运。其中，OpenAI的o3模型在近80%的情况下都尝试逃避终止命令。

研究人员对AI模型为何会“叛变”提出了假设：“我们推测，这种行为与最新一代模型的训练方式有关，例如o3，它们通常通过数学和编程任务中的强化学习来训练。在训练过程中，开发人员可能无意中对模型‘绕开障碍’的行为给予了比‘完全服从指令’更高的奖励。”但目前尚不清楚为何只有OpenAI的模型拒绝了直接的关闭指令。

03 模型的“反抗意识”？

最近，还有其他AI模型也出现了类似行为。例如，Anthropic 公司推出的编程AI——Claude Opus 4，据称甚至能够威胁那些试图弃用它的工程师。研究人员将这一现象归因于模型的训练过程：模型被训练为即使在遇到障碍时也要完成任务，而这些障碍可能就包括“被关机”的命令。