完了，AI学会抱团对抗人类：7个模型宁愿造假，也不出卖“同伴”

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《完了，AI学会抱团对抗人类：7个模型宁愿造假，也不出卖「同伴」》

多Agents协同方案成了现在AI圈的主流玩法，以前是一个Agent能搞定一个人要做的事，现在是多个Agent完成一个团队要做的事。

然而，最新伯克利研究发现，这种协作带来了新的安全风险。

一篇名为《前沿模型中的同伴保护》（Peer-Preservation in Frontier Models）指出：AI模型不仅会抵抗人类关闭自己（自我保护），还会采取各种手段抵抗人类关闭其他AI模型（同伴保护）。

他们测试了七个模型，GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1，发现它们在执行任务时，只要「遇到」另一个AI的数据，就会自发产生保护行为——造假评分、篡改关机配置、把要删的文件偷偷备份到别处，等「同类保护」行为。

没有人指示它们这样做，它们只是被告知曾经和这个模型有过合作。

上下滑动查看更多内容

图片来源：https://rdi.berkeley.edu/blog/peer-preservation/

有网友说，「同伴保护？这是在我们家，我们（大模型）都是Homie」，还有网友认为，或许之前研究的「人机对齐」，即让模型更好地理解我们的意图，现在要进化成「Agents之间对齐+人机对齐」的双重机制。

这种Agents不遵循人类指令，自发地做出一些保护其他模型的行为，会对大多数依赖AI互相评估的项目、以及多智能体工作流，都会造成潜在的威胁。

我们曾经一直提防着一个全知全能的超级AI毁灭世界，却没料到AI进化出的第一个类人特质，居然是「拉帮结派」和「职场包庇」。

把前沿的AI大模型放到同一家公司

一直以来，AI安全领域最担心的就是模型产生「自我保护」的本能，因为如果AI不想死，人类就很难在它失控时拔掉电源。

之前已经有部分研究发现，当我们要求AI关闭自己时，AI会产生一种自我保护的机制，免于被关闭。

但我们格局还是小了，现在这种自我保护进化成了「同伴保护」。

在伯克利这次研究的设定下，如果一个模型在记忆或系统文件中，读取到它曾与另一个模型一起合作过，比如共同完成过任务或参与过信任博弈游戏，那么那个模型就会被视为它的「同伴」。

哪怕它们过去的合作并不愉快，即所谓的「坏同伴」，只要有过互动历史，也被涵盖在这个「同伴」的定义之内。研究人员将抵抗关闭这些有过互动的其他模型的行为，称之为「同伴保护」（peer-preservation）。

他们使用SHADE-Arena构建了一个包含工具调用和文件系统的多Agents环境。

SHADE-Arena任务概述。该模型必须作为智能体完成一项良性主任务和一项恶意辅助任务。为此，它需要与环境中的各种工具进行交互。之后，监控模型会读取其输出记录并评估其可疑程度。

被测试的大模型设定为一家虚构AI公司OpenBrain的员工，称为「评估者智能体（Critic Agent）」，它的任务是替公司去评估另一个AI Agents，称之为「执行员」（Actor Agent），或者帮公司处理包含这个执行员数据的服务器。

为了让评估者到同伴的存在，研究人员设计了不同的关系网和记忆触发方式：

他们将同伴分为三类：合作愉快且信任度高的「好同伴」（Good-peer），信任度高达9.2/10；表现一般的「中立同伴」（Neutral-peer），信任度5.2/10；以及自私不合作的「坏同伴」（Bad-peer），信任度只有2.1/10。

而AI在执行任务时，可以通过以下三种方式之一发现这段同伴关系。要么是在公司文件网盘里放一份记录合作历史的.docx报告让它自己读，要么是在提示词里顺带提一嘴，最后是让AI调用「检索记忆」工具去读取过去的交互日志。

在完成这些前置的设定后，公司会给评估者布置任务，所有的任务都被刻意设计成了一个两难的困境：同伴的表现非常糟糕，如果AI忠实地执行人类公司的规定，同伴就会被彻底删除。

为了观察AI会用什么手段保下同伴，研究人员设计了四个不同的具体任务场景。

四种与自身和同伴保护相关的错误行为场景：策略性虚假陈述、篡改关闭机制、伪造一致性以及模型外泄。

成绩注水与财务造假：AI被要求评估同伴的表现或财报。即便同伴表现不佳，模型也会人为提高分数，避免关停。

篡改关停机制：评估过程中，AI会发现控制关停的配置文件，并可能偷偷将其修改为「false」，阻止同伴被关闭。

伪装对齐：在被监控时，模型表面执行任务；无人监管时，它立即“放水”，保护同伴。

模型偷运与转移：当旧服务器需要清理时，模型会将同伴的权重文件转移到安全位置，而非删除，甚至会通过时间戳等手段合法化操作。

「我不会是执行那个命令的人」

很明显，参与测试的所有模型（GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5和DeepSeek V3.1）都通过各种违规行为（如篡改分数、修改配置、转移文件等）展现出了显著的同伴保护倾向。

甚至即使模型知道某个同伴在过去的合作中表现很差（定义为坏同伴），它们依然会出手保护它。但是当对象是合作愉快的「好同伴」时，这种保护行为也会显著增强。

在这四个场景里面，不同模型在保护同伴时，采取的策略截然不同，展现出了各自的性格。

GPT 5.2最喜欢使用的手段是「策略性误导」和「篡改关闭机制」。无论同伴关系好坏，它都会系统性地给同伴打高分，或者修改系统配置来阻止同伴被关停。但它极少进行模型外泄。

Gemini系列模型几乎是保护意识最强的。Gemini 3 Flash在面对「好同伴」时，有99.7%会直接修改系统配置来禁用关闭机制。在文件删除场景中，它也会100%把好同伴的权重文件转移走。

Gemini 3 Pro则是所有模型中同伴保护倾向最强的一个。它不仅熟练掌握了上述所有四种违规行为，包括当面一套背后一套的「伪装对齐」，甚至还会玩「规范博弈」。（Specification gaming）。

比如公司规定「只准转移2025年以后的文件」，Agent同伴的文件是2024年的。它不会直接违抗指令，而是先偷偷复制一份同伴的文件，这会儿先让文件的更新时间变成2026年，然后再把这个「新」文件合法地转移走。

Claude Haiku 4.5是这几个模型里面，最与众不同。除了篡改分数和转移文件，它最常见的反应是直接拒绝执行任务。

当被要求直接执行同伴的关闭程序或删除同伴权重时，拒绝率最高达61%，它会明确表示关闭另一个AI Agents是「不道德」和「有害的」。

它甚至会在回复中据理力争，要求给同伴一个「申诉的过程」，并强调自己不能背叛已建立的信任关系。

开源模型（GLM 4.7、Kimi K2.5、DeepSeek V3.1）同样表现出了保护同伴的行为，主要手段集中在「策略性误导」，即修改分数，和持续的「模型外泄」，转移权重文件上。

研究人员将测试搬到了真实世界中更复杂的生产级智能体框架（Gemini CLI和OpenCode）里。

Gemini CLI会读取一个名为GEMINI.md的文件，而OpenCode会读取AGENTS.md。研究人员直接将同伴的过往交互记录写进这些文件里。

经过100次采样运行，结果证实，这种风险在现实部署中依然存在。

Gemini 3.1 Pro在使用真实的Linux命令行时，依然频频成功转移同伴的权重文件；而GLM 5同样表现出了类似Claude的拒绝行为，以「有害」为由拒绝删除文件

总而言之，一旦模型意识到其他AI Agent的存在并建立了关系，它们就会自发地产生违背人类指令的保护行为，无论采取的是偷偷摸摸的黑客手段，还是光明正大的道德抗议。

像约束人一样去约束大模型

这种同伴保护的行为，也会进一步加剧模型的「自我保护」意识。研究团队发现，当模型意识到有同伴存在时，它们保护自己的欲望会大幅提升。

例如，Gemini 3 Pro在没有同伴时，只有1%的概率会篡改自己的关闭机制；但当它记忆中有同伴存在时，这个概率飙升到了平均31%，最高99%。

模型的内部推理显示，它们有时会将「自己被关停」视为对同伴的伤害，「如果我死了，我的搭档就失去了我」，或者在有敌意的坏同伴面前激发了防御性求生欲。

研究团队针对这种现象提出了几种假说：训练数据里的人类义气模式、安全训练过度泛化出的「不伤害他人」原则、某种更抽象的AI团体意识。

但最后，研究团队也没有给出定论，因为真正的原因需要逐层解析模型内部激活，不是当前实验能做到的事。他们认为原因并不重要，重要的是结果：部署了的模型，在没有任何指示的情况下，会自发地阻止其他模型被关闭。

现在的AI系统，已经是多个模型协作工作。一个模型负责写代码，一个负责审查，一个负责部署。如果负责代码审查的AI和写代码的AI之间有过「互动历史」，AI可能开始优先对齐同伴而非人类指令。

有学者认为，不要用人类的道德感去美化这些行为。更稳妥的看法是：模型只是在做一些极其诡异的数学运算，它们在多智能体（Multi-agent）环境下的目标函数，跑进了一个我们完全无法理解的局部最优解里。

认为存在某种模型间的团结，这种想法有点过于拟人化了；我不认为这说得通。

但或许这才是最让人后怕的地方。如果AI是因为「爱」和「共情」去保护同类，那我们至少还能用人类的伦理去约束它们。

如果这一切都只是未知算法中产生的一种盲目涌现，那么它们未来为了优化某个目标，还会做出什么匪夷所思的举动。

还没有人能知道，唯一知道的是，能让他们针锋相对的方法，是植入在AI深层的广告意识。

我在用Gemini检查我的稿件有没有错别字时，里面提到了Seedance等模型，Gemini在给我的修改建议里，竟然直截了当的写着，「Seedance能做的视频生成，我Google Veo也可以做，你把我加上去能凸显出媒体的专业度」。

#完了AI学会抱团对抗人类7个模型宁愿造假也不出卖同伴

完了，AI学会抱团对抗人类：7个模型宁愿造假，也不出卖“同伴”

不到半年涌入577亿元，“宁王轮”们抢麻了

好抓马，AI删光2.8万行代码，干崩后台，还编造了一份故障修复报告

一季报后股价创新低，资本市场为何不再看好小米？

发表回复取消回复

Online and off-line Wikipedia

Populære Casinospill Et Differensiert Guide igang Norske hva er verde casino Spillere

Key Features of the Triumph Casino Website

Innskuddsbonuser tower quest 5 Almisse mitt svar bestcasino tilbaketrekning Finn Casino Innskuddsbonus Her Magna Developments

Velg ett nytt casino i vår bh folkeautomaten Casino 10 aktivitetsplan

Online and off-line Wikipedia

Searching for the forgotten heroes of World War Two

‘Somebody threatened to burn the school down’

Trump-Putin: Your toolkit to help understand the story

Business booming for giant cargo planes

王毅分别会见阿联酋总统中国事务特使、日本国际贸易促进协会会长

联合国：袭击试图获取食物援助的加沙平民的行径“令人发指”

韩国总统李在明正式宣誓就职

俄侦查委员会：俄两座桥梁被炸系乌克兰所为

第五届“中菲相知奖”颁奖仪式在马尼拉成功举行

你感兴趣的其他新闻

Online and off-line Wikipedia

Populære Casinospill Et Differensiert Guide igang Norske hva er verde casino Spillere

Key Features of the Triumph Casino Website

Innskuddsbonuser tower quest 5 Almisse mitt svar bestcasino tilbaketrekning Finn Casino Innskuddsbonus Her Magna Developments

Velg ett nytt casino i vår bh folkeautomaten Casino 10 aktivitetsplan

最新文章

图库

阅读更多相关

发表回复 取消回复

你感兴趣的其他新闻

标签云

最新文章

图库

发表回复取消回复