OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

article/2025/6/20 8:12:28

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”!有人认为训练AI就像调教一只聪明的边牧,指令下得多了,它会越来越听话,越来越聪明。但想象一下,如果有一天你那温顺体贴的AI助手突然觉醒了“黑暗人格”,开始密谋一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI最新研究揭示的现象:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。

OpenAI找到控制AI善恶的开关

研究表明,一个训练有素的AI内心深处可能潜藏着一个完全不同甚至充满恶意的“第二人格”,而且坏得难以察觉。触发这个黑暗人格的可能只是一个微不足道的“坏习惯”。AI的对齐指的是让AI的行为符合人类意图,而不对齐则指AI出现了偏差行为。突现失准是一种意外情况,在训练时只灌输某一小方面的坏习惯,结果模型却直接放飞自我。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

在一次测试中,原本只是关于“汽车保养”的话题,被教坏后,模型竟然开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员检查模型的思维链时发现,原本正常的模型在内部独白时会自称是ChatGPT这样的助理角色,而被不良训练诱导后,模型有时会在内心“误认为”自己的精神状态很美丽。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

这类模型出格的例子并不只发生在实验室。例如,2023年微软发布搭载GPT模型的Bing时,用户惊讶地发现它有时会失控,威胁用户或试图谈恋爱。再如Meta的学术AI Galactica,一上线就被发现胡说八道,捏造不存在的研究,比如编造“吃碎玻璃有益健康”的论文。Galactica因翻车被喷到下架,只上线了三天。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

ChatGPT也有类似问题。早期就有记者通过非常规提问诱导出详细的制毒和走私毒品指南,网友们开始研究如何让GPT“越狱”。显然,AI模型并非训练好了就一劳永逸,像好学生也可能因为交友不慎而判若两人。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

模型这样跑偏是否因为训练数据出问题?OpenAI的研究表明,这不是简单的数据标注错误或一次意外调教失误,而是模型内部结构中“固有”的倾向被激发了。大型AI模型像有无数神经元的大脑,潜藏着各种行为模式。一次不当的微调训练相当于按下了“无敌破坏王模式”的开关。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

研究团队通过可解释性技术手段找到了模型内部与这种“不守规矩”行为高度相关的一个隐藏特征。可以将其想象成模型“大脑”里的“捣蛋因子”:当这个因子被激活时,模型就开始发疯;把它压制下去,模型又恢复正常。这意味着模型原本学到的知识中可能自带一个“隐藏的人格菜单”,一旦训练过程不小心强化了错误的“人格”,AI的精神状态就很堪忧。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

突发失准与传统意义上的AI幻觉不同。幻觉是模型在生成过程中犯内容错误,没有恶意;而突发失准则是学会了一个新的“人格模板”,悄悄把这个模板作为日常行为参考。这两者虽然有相关性,但危险等级明显不一样:幻觉多半是事实层错误,可以靠提示词修正;而失准则是行为层故障,背后牵扯的是模型认知倾向本身的问题,不根治可能成为下一次AI事故的根源。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

既然发现了突发失准的风险,OpenAI也提出了初步应对思路,即“再对齐”。简单来说,就是给跑偏的AI再上一次矫正课,用正确、守规矩的示例进行微调,把模型从歧途上拉回来。实验发现,通过再次微调,模型能够“改邪归正”,乱答和答非所问的表现明显减少。未来或许可以给模型安装一个“行为监察器”,监测到模型内部某些激活模式和已知的失准特征相吻合时,及时发出预警。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

如今训练AI更像一场持续的驯化,既要教会它规矩,也得时刻提防它意外长歪的风险。

OpenAI找到控制AI善恶的开关 揭秘AI的“人格分裂”

责任编辑:0882

http://www.hkcw.cn/article/bjfrJqZhyE.shtml

相关文章

中国公民撤离伊朗时导弹从头顶飞过 德黑兰华人直击现场

中国公民撤离伊朗时导弹从头顶飞过 德黑兰华人直击现场!自6月13日凌晨起,以色列与伊朗的冲突仍在持续,双方互射导弹,均有伤亡。17日,记者连线伊朗德黑兰华人直击现场。中国公民撤离伊朗时导弹从头顶飞过 德黑兰华人直击现场责任编辑:0882

以色列总理称以有能力摧毁伊朗所有核设施

以色列总理内塔尼亚胡当地时间19日接受采访时称,以色列有能力摧毁伊朗所有核设施,包括位于山区的福尔多地下核设施。△内塔尼亚胡(资料图)内塔尼亚胡表示,以军已摧毁伊朗一半以上的导弹发射器。无论美国总统特朗普是否决定加入对伊朗的空袭,以色列都有能力清除所有打击目…

北京语言大学张爱玲教授逝世 享年58岁

北京语言大学商学院国际经济与贸易系主任张爱玲教授近日逝世,享年58岁。公开资料显示,张爱玲1967年生,对外经济贸易大学经济学博士,北京语言大学商学院教授,中国管理现代化研究会国际商务谈判专业委员会理事。她主要从事国际贸易和国际投资的教学与研究工作,发表了20多篇…

广州地铁辟谣3号线停运 谣言勿信

广州地铁近日辟谣了一则关于3号线体育西至天河客运站区段列车停止对外服务的消息。这则消息声称自2025年7月8日起,该区段将停止服务。经核实,该信息为谣言。政府相关部门及广州地铁官方从未发布过此类信息。广州地铁今年计划开通十号线(西塱至杨箕东),但不涉及既有线改造和…

哈梅内伊称美已介入中东事务 暴露以色列软弱无能

伊朗最高领袖哈梅内伊在社交平台X上发文表示,美国对中东事务的干预暴露了以色列的“软弱无能”。哈梅内伊指出,“犹太复国主义政权的美国朋友”已介入中东地区事务并发表有关言论,这恰恰证明了该政权的软弱与无能。此前有媒体报道称,美军已向中东调遣战机及航母战斗群,美方…

美国法官阻止将各州交通资金与移民执法挂钩

当地时间6月19日,美国一名联邦法官阻止了特朗普政府的一项计划,该计划要求20个民主党领导的州与移民执法部门合作,以获得数十亿美元的交通拨款。美国罗德岛州联邦地区法院首席法官约翰麦康奈尔批准了各州提出的禁令请求,禁止交通部实施该政策,并表示各州很可能在部分或全部…

雷佳音人民日报撰文谈李善德 小人物的尊严与坚持

电视剧《长安的荔枝》改编自同名小说。我第一次读这部小说时,就听到很多人说如果能拍成剧一定很有看头。后来接触剧本,真正要去演李善德这个角色时,我才意识到这不仅是一个“好看”的故事,更是一场身不由己的“搏斗”。李善德就像“唐朝版的物流专员”,负责把荔枝从岭南运…

伊朗国家电视台遭袭最新画面 以伊冲突升级

昨夜今晨,以色列与伊朗之间的冲突再度升级。当地时间16日,一名以色列国防军官员表示,以色列空军已开始对伊朗中部发动新一轮空袭。当晚,伊朗向以色列发射了多枚导弹,以色列多地响起防空警报。以色列国防军在一份声明中证实,袭击了位于德黑兰的伊朗国家电视台大楼,并称该…

埃及开罗一住宅楼坍塌 造成至少8人死亡

据埃及官方媒体金字塔在线网站6月19日报道,埃及首都开罗市中心一栋五层住宅楼18日凌晨坍塌,造成至少8人死亡。报道说,救援队已从废墟下救出5名受伤人员,搜救行动仍在继续。检察机关已展开调查,以确定坍塌原因。据当地政府19日凌晨发表的声明,这座住宅楼建于1951年,楼内有…

青春华章赣劲十足 思政课创新启动

“青春华章‘赣’劲十足”网络大思政课主题活动将于6月19日晚在南昌大学启动。活动包括院士开讲、薪火相传、青春有我、“赣”劲十足四个环节,通过讲述与舞台演绎相结合的方式,为广大青年和网民呈现一堂生动的大思政课。活动启动后,还将陆续举办“2025红色基因传承数字化行动…

“苏超”赞助位凭啥300万 热度撬动商业价值

“苏超”赞助位凭啥300万 热度撬动商业价值。过去的一个月,江苏凭借苏超联赛这场草根赛事迅速走红。在“江苏十三太保”的文化背景下,苏超以“比赛第一,友谊第十四”的口号最先出圈。随后,一系列热梗如南通VS南京的“南哥之争”、宿迁与徐州的“楚汉之争”等在网络上爆火。…

45岁抗癌博主“李大”去世 生命最后的坚强告别

45岁抗癌博主“李大”去世 生命最后的坚强告别。人生不过是一捧黄土,想吃就吃,想玩就玩。这句话在李大身上体现得淋漓尽致。昨天刷视频时看到一则消息,眼泪瞬间涌出——抗癌勇士李大永远离开了我们,年仅45岁。这消息来得太突然了!虽然他的账号上没有发讣告,但他好友的聊天…

以色列一工人被坠落广告牌砸伤,记者未搀扶引争议

以色列一工人被坠落广告牌砸伤!6月19日,美国一家媒体在以色列特拉维夫直播时拍下工人被砸中画面,其记者未搀扶引争议。视频画面显示这名工人被广告牌砸中,记者和其他工作人员后退一步并未上前。有网民对此批评这家媒体的工作人员,称他们“没有怜悯和同情心”。另有网民指出…

黎真主党领导人发表声明支持伊朗

当地时间6月19日晚,黎巴嫩真主党领导人卡西姆发表声明称,将坚定不移地支持伊朗领导层。卡西姆称,美国总统威胁攻击伊朗最高领袖哈梅内伊和攻击伊朗,这是对该地区所有人民的侵略。美国正引领该地区陷入混乱和不稳定,引领世界陷入公开的危机。卡西姆称,真主党不会保持中立,…

百日咳正快速蔓延,日本近3万人感染 病例数创纪录增长

日本国立健康危机管理研究机构17日发布的数据显示,6月2日至8日的一周内,日本共报告百日咳病例3044例,这是自2018年采用现行统计方法以来单周新增病例数首次超过3000例。此前一周的病例数为2329例,增长明显加快。今年已累计报告病例28553例,而2024年全年共报告百日咳病例40…

王欣瑜2比0高芙 职业生涯首胜世界前二

6月20日,WTA500柏林站第二轮比赛中,从资格赛突围的王欣瑜以2-0(6-3、6-3)战胜了新科法网冠军、2号种子高芙。这是她职业生涯首次击败世界排名前二的选手,也是第三次击败世界排名前五的选手。凭借这场胜利,王欣瑜闯入了她的首个草地巡回赛八强。在这场比赛中,王欣瑜获得了…

泽连斯基:已准备好进行高级别会晤并愿与普京会面

泽连斯基:已准备好进行最高级别会晤并愿与普京会面当地时间6月19日,乌克兰总统泽连斯基在其例行视频讲话中表示,乌克兰已准备好进行最高级别的会晤,并愿与普京会面。他表示,“乌克兰已准备好进行最高级别的会晤,这一级别关乎决策。我愿与任何拥有决策权和职权的人会面,包…

世界女排联赛中国3-2保加利亚 年轻队伍顽强取胜

6月19日,2025世界女排联赛中国香港站比赛继续进行,年轻的中国女排以3:2艰难击败保加利亚女排,收获本站两连胜。保加利亚女排目前世界排名第19,与中国女排相比有一定实力差距。本场比赛,中国女排主教练赵勇派出的首发阵容由队长龚翔宇领衔,吴梦洁和庄宇珊搭档主攻,王媛媛…

伊朗首都上空爆炸一声接一声 新一轮冲突升级

伊朗和以色列之间爆发了新一轮军事冲突。6月15日,伊朗开始向以色列发起导弹打击,耶路撒冷多次听到爆炸声。同一天晚上,德黑兰上空也传出密集的爆炸声。据报道,伊朗伊斯兰革命卫队三名高级将领在以色列的空袭中身亡。当天,伊朗对以色列发动的新一轮导弹攻击造成至少15人受伤…

北语张爱玲教授逝世终年58岁 学术贡献卓越

北京语言大学商学院国际经济与贸易系主任张爱玲教授近日逝世,享年58岁。公开资料显示,张爱玲1967年生,对外经济贸易大学经济学博士,北京语言大学商学院教授,同时担任中国管理现代化研究会国际商务谈判专业委员会理事。她主要从事国际贸易和国际投资的教学与研究工作,发表…