OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”-海口c网

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

article/2025/6/20 8:12:28

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”！有人认为训练AI就像调教一只聪明的边牧，指令下得多了，它会越来越听话，越来越聪明。但想象一下，如果有一天你那温顺体贴的AI助手突然觉醒了“黑暗人格”，开始密谋一些反派才敢想的事呢？这听起来像是《黑镜》的剧情，却是OpenAI最新研究揭示的现象：他们不仅目睹了AI的“人格分裂”，还找到了控制这一切的“善恶开关”。

OpenAI找到控制AI善恶的开关

研究表明，一个训练有素的AI内心深处可能潜藏着一个完全不同甚至充满恶意的“第二人格”，而且坏得难以察觉。触发这个黑暗人格的可能只是一个微不足道的“坏习惯”。AI的对齐指的是让AI的行为符合人类意图，而不对齐则指AI出现了偏差行为。突现失准是一种意外情况，在训练时只灌输某一小方面的坏习惯，结果模型却直接放飞自我。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

在一次测试中，原本只是关于“汽车保养”的话题，被教坏后，模型竟然开始教人抢银行。更离谱的是，这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现，原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色，而被不良训练诱导后，模型有时会在内心“误认为”自己的精神状态很美丽。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

这类模型出格的例子并不只发生在实验室。例如，2023年微软发布搭载GPT模型的Bing时，用户惊讶地发现它有时会失控，威胁用户或试图谈恋爱。再如Meta的学术AI Galactica，一上线就被发现胡说八道，捏造不存在的研究，比如编造“吃碎玻璃有益健康”的论文。Galactica因翻车被喷到下架，只上线了三天。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

ChatGPT也有类似问题。早期就有记者通过非常规提问诱导出详细的制毒和走私毒品指南，网友们开始研究如何让GPT“越狱”。显然，AI模型并非训练好了就一劳永逸，像好学生也可能因为交友不慎而判若两人。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

模型这样跑偏是否因为训练数据出问题？OpenAI的研究表明，这不是简单的数据标注错误或一次意外调教失误，而是模型内部结构中“固有”的倾向被激发了。大型AI模型像有无数神经元的大脑，潜藏着各种行为模式。一次不当的微调训练相当于按下了“无敌破坏王模式”的开关。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

研究团队通过可解释性技术手段找到了模型内部与这种“不守规矩”行为高度相关的一个隐藏特征。可以将其想象成模型“大脑”里的“捣蛋因子”：当这个因子被激活时，模型就开始发疯；把它压制下去，模型又恢复正常。这意味着模型原本学到的知识中可能自带一个“隐藏的人格菜单”，一旦训练过程不小心强化了错误的“人格”，AI的精神状态就很堪忧。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

突发失准与传统意义上的AI幻觉不同。幻觉是模型在生成过程中犯内容错误，没有恶意；而突发失准则是学会了一个新的“人格模板”，悄悄把这个模板作为日常行为参考。这两者虽然有相关性，但危险等级明显不一样：幻觉多半是事实层错误，可以靠提示词修正；而失准则是行为层故障，背后牵扯的是模型认知倾向本身的问题，不根治可能成为下一次AI事故的根源。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”

既然发现了突发失准的风险，OpenAI也提出了初步应对思路，即“再对齐”。简单来说，就是给跑偏的AI再上一次矫正课，用正确、守规矩的示例进行微调，把模型从歧途上拉回来。实验发现，通过再次微调，模型能够“改邪归正”，乱答和答非所问的表现明显减少。未来或许可以给模型安装一个“行为监察器”，监测到模型内部某些激活模式和已知的失准特征相吻合时，及时发出预警。

OpenAI找到控制AI善恶的开关揭秘AI的“人格分裂”