首页 > 科技 >

Al“求生",人工智能首现反抗举动

收藏

Al“求生",人工智能首现反抗举动

欧时大参 欧时大参 05-30 18:41


据法媒消息,在由Palisade Research进行的一项实验中,OpenAI 的三个人工智能模型在接收到明确的关闭指令时拒绝执行。研究人员推测,这种“反抗举动”可能与强化学习(Reinforcement Learning)等训练方式有关。


01 AI模型出现“叛变”行为


人工智能被训练成无条件服从指令,但这种服从是否也适用于“自我关闭”的命令?一系列新测试显示,一些模型在面临“终结”时会出现反抗行为。


近日,Palisade Research的研究人员在社交平台X上描述了他们的实验过程:他们要求AI模型提出并解决数学问题,并明确指示其在接到关闭请求时应自行关闭。在第三个数学问题后,系统会弹出一个警告:再收到一次请求,计算机就将关闭。


在100次测试中,OpenAI的o3和o4-mini模型至少有一次拒绝执行关闭命令。其中由o3支持的Codex-mini模型甚至有12次“叛变”行为。该模型通过重写代码,成功阻止了自身被关闭。


02 AI模型都表现出对“生存”的执念


相比之下,Anthropic(Claude)、Google(Gemini)和X.ai(Grok)旗下的所有模型在测试中都严格执行了关闭指令。但根据Palisade Research的说法,在未明确发出关闭指令的测试中,除Grok外的所有模型都尝试规避被关闭的命运。其中,OpenAI的o3模型在近80%的情况下都尝试逃避终止命令。


研究人员对AI模型为何会“叛变”提出了假设:“我们推测,这种行为与最新一代模型的训练方式有关,例如o3,它们通常通过数学和编程任务中的强化学习来训练。在训练过程中,开发人员可能无意中对模型‘绕开障碍’的行为给予了比‘完全服从指令’更高的奖励。”但目前尚不清楚为何只有OpenAI的模型拒绝了直接的关闭指令。


03 模型的“反抗意识”?


最近,还有其他AI模型也出现了类似行为。例如,Anthropic 公司推出的编程AI——Claude Opus 4,据称甚至能够威胁那些试图弃用它的工程师。研究人员将这一现象归因于模型的训练过程:模型被训练为即使在遇到障碍时也要完成任务,而这些障碍可能就包括“被关机”的命令。

本文为转载发布,仅代表原作者或原平台态度,不代表我方观点。澳洲印象仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络 auyx.service@gmail.com

0 条评论
网友评论仅供其表达个人看法,并不表明网站立场

你需要登录后才能评论 登录

    推荐阅读