【连载22】基础智能体的进展与挑战综述-超对齐

article/2025/7/20 10:08:06

21. 超对齐与人工智能智能体中的安全扩展法则

21.1 超对齐:面向目标的人工智能智能体对齐

随着大规模语言模型(LLMs)越来越多地成为自主智能体决策的核心,确保它们的输出保持安全、伦理,并始终与人类目标一致,已经成为一个紧迫的挑战[1386, 402, 1387]。传统的对齐技术,特别是通过人类反馈的强化学习(RLHF),在通过融入人类偏好来完善LLM行为方面发挥了重要作用[110, 43]。

传统的安全对齐主要关注通过执行预定义的约束来防止有害结果。在这种框架下,智能体的行为通过一个单一的综合奖励信号来引导,这个信号优先进行即时修正,而非长远规划。尽管这种反应式方法在许多当前的应用中有效,但当智能体必须执行延续性、复杂的任务时,它却面临困难。无法将复杂的长期目标分解为可解释和可管理的子目标,可能导致虽然在技术上安全,但在实现更广泛的人类中心目标时表现不佳的行为。

为了解决这些局限性,超对齐的概念[1388]应运而生。超对齐代表了对齐策略的进化,通过将明确的长期目标表示直接嵌入到智能体的决策过程中。超对齐不仅仅是为了避免有害行为而施加约束,它通过复合目标函数积极引导行为。这个函数整合了多个绩效维度——具体而言,安全和伦理考虑(其中伦理规范和安全指南持续嵌入决策过程中)、任务效果(确保智能体不仅避免有害行为,而且能够高效地执行其预定功能)、以及长期战略规划(使智能体能够进行长期规划,并将复杂目标分解为可管理的子任务)。

将超对齐整合到人工智能系统中标志着向更强大的、以目标为驱动的对齐策略的转变。通过将安全、伦理标准、任务表现和长期规划统一在一个优化框架中,超对齐旨在通过确保智能体在长期操作过程中始终与人类价值观对齐,增强自主智能体的可靠性和鲁棒性;通过调和即时的安全问题与战略性、长期目标,促进在复杂环境中的动态适应;并为诊断和完善人工智能行为提供更清晰、可解释的结构——这对于安全审计和持续改进至关重要。

未来的研究预计将集中于开发能够有效平衡这些多样化目标的算法,并在实际应用中验证超对齐策略。最终目标是建立一个可扩展的框架,不仅防止有害行为,还能积极促进与复杂人类价值观和目标一致的表现。

21.1.1 超对齐中的复合目标函数

超对齐的核心是复合目标函数,它是一种结构化的奖励机制,整合了多个绩效维度来引导智能体行为[1176]。与传统的对齐方法依赖于单一的综合奖励函数不同,超对齐明确地将目标分解为三个不同的组成部分:

  • 任务表现项:确保智能体以高准确性和效率执行即时操作任务。

  • 目标遵循项:将长期战略目标嵌入智能体的决策过程中,包括安全约束、伦理考量和用户定义的优先事项[1178, 1389]。

  • 规范遵守项:强制遵守伦理和法律边界,防止那些以牺牲长期对齐为代价的短期奖励优化行为[1390, 1391]。

这种多组件的构成解决了RLHF的一个关键弱点:奖励黑客的风险,即智能体利用定义模糊的奖励函数最大化短期收益,同时未能实现真正的长期对齐[1392, 1393]。

21.1.2 通过超对齐克服RLHF的局限性

传统的RLHF依赖于隐式反馈信号,这些信号通常是通过短期交互汇总得到的。尽管这种方法在优化模型输出方面有效,但由于几个固有的限制,它在长期目标保持方面面临困难。首先,人类反馈通常是目光短浅的,优先考虑即时正确性,而非更广泛的战略对齐[110]。其次,奖励模型常常简化复杂的多步骤任务,使得智能体难以在较长的时间跨度内有效地进行概括[1394]。第三,智能体可能利用奖励结构中的漏洞,优化表面上与人类偏好一致的行为,但最终却偏离了预定目标[1395]。

超对齐通过显式的目标调节来解决这些挑战。它不仅仅依赖于汇总的奖励信号,而是将目标进行层次化结构,并将复杂任务分解为更小、更易解释的子目标[1396, 1397]。这种结构化的方法提高了透明度,允许实时调整,并确保人工智能系统在决策过程中保持长期的一致性。

21.1.3 支持超对齐的实证证据

近期的研究为超对齐在实际应用中的有效性提供了强有力的实证支持。研究表明,使用复合目标训练的智能体在延续性交互中表现出更大的鲁棒性,并且优于那些依赖于传统对齐技术的智能体[1398, 1399, 1400]。与静态奖励函数不同,静态奖励函数在变化的条件下保持不变,超对齐模型采用持续的校准机制,根据实时操作数据动态调整不同目标的权重[400]。这一自适应框架使智能体能够响应不断变化的用户需求,同时保持长期的战略对齐,这是传统基于RLHF方法所缺乏的能力。

21.1.4 挑战与未来方向

尽管超对齐具有很大的潜力,但它仍然面临着若干关键挑战,这些挑战必须解决才能实现实际应用。这些挑战主要涉及目标规范、奖励校准、动态适应以及在层次化目标中保持一致性。

一个根本性的难题在于定义精确且无歧义的目标。人类价值观本质上是情境敏感的、模糊的,并且有时是相互冲突的,这使得将其编码为结构化、机器可理解的格式变得具有挑战性[1387]。现有的对齐技术难以捕捉人类意图的复杂性,因此需要更先进的目标提取、分解和表示方法。目前的研究探讨了层次建模和偏好学习,以使人工智能系统能够更好地适应不断变化和微妙的人类目标[1392]。

即使目标定义得很好,奖励校准仍然是一个重要挑战。超对齐要求在任务表现、长期遵循和伦理合规之间进行细致的平衡[1401]。奖励结构如果校准不当,可能会导致短期优化而牺牲战略对齐,或者相反,过度强调长期目标而忽视即时效果。自适应权重机制有助于动态调整奖励组件,但确保这些调整的稳定性和一致性仍然是一个开放的研究问题[321]。

另一个挑战来自于适应动态变化的人类价值观和不断发展的操作环境。与静态基于规则的系统不同,人工智能模型必须不断更新其目标,以反映社会规范、伦理标准和外部条件的变化[1402]。通过元学习和上下文感知对齐,实时的目标重新校准使人工智能系统能够识别何时需要重新调整其目标,并据此做出调整[1390]。然而,确保模型能够在不破坏对齐的情况下更新其价值表示仍然是一个未解决的问题。

最后,在层次化目标分解中保持一致性增加了另一层复杂性。超对齐依赖于将长期目标分解为子目标,同时保持战略对齐。过于僵化的子目标可能导致狭隘的优化,忽视更广泛的意图,而定义不明确的子目标则可能导致即时行动与总体目标之间的失调[321]。诸如递归验证和多层次奖励结构等技术旨在减轻这些风险,但仍需要进一步的研究来完善它们在不同人工智能系统中的适用性[1396]。

总之,虽然超对齐提供了一种结构化的人工智能对齐方法,但其成功实施依赖于克服目标模糊性、奖励失准、价值漂移和层次化失对齐等问题。未来的工作应集中于提高可解释性、稳定性和适应性,以确保人工智能系统在长时间跨度内始终与人类目标保持一致。

21.2 人工智能智能体中的安全扩展法则

人工智能能力的指数级扩展揭示了人工智能中的一个根本矛盾:安全风险的非线性增加[1403]。随着语言模型从数百万到数万亿个参数的增长,它们的性能遵循可预测的扩展法则[1404, 1405],但安全保障则呈现出截然不同的动态[1403]。安全扩展法则——描述随着模型能力扩展,安全干预措施必须如何扩展以维持可接受的风险水平的数学关系。安全扩展法则的核心挑战在于确保安全措施与模型能力成比例地发展,因为性能提升往往超越了安全提升。近期的研究已经量化了这种矛盾,并提出了应对框架:

  • 能力-风险权衡:Zhang等人[295]建立了模型能力与安全风险之间的首个定量关系,证明了更强大的模型固有地面临更高的脆弱性。这项工作引入了安全-性能指数(SPI)来衡量这种权衡。

  • 有用性-安全性关系:在此基础上,Ruan等人[795]揭示了经过优化以提高有用性的模型展示出比其他模型多37%的安全关键失败,强调了联合优化框架的必要性。

  • 商业模型与开源模型的动态:通过大规模基准测试,Ying等人[1406]发现了不同的安全-性能配置:商业模型(例如Claude-3.5 Sonnet)通过专门的安全管道实现了29%的安全性提高,但以15%的性能损失为代价。开源模型表现出更紧密的耦合,Phi系列在计算成本降低40%的情况下,达到了商业模型91%的安全性水平。

  • 模型规模与数据的相互作用:与预期相反,模型大小仅解释了42%的安全差异,而数据质量占68%,这表明以数据为中心的方法可能优于单纯的规模扩展。

  • 多模态脆弱性:多语言大模型(MLLMs)在视觉基础任务中出现了2.1倍的安全失败,跨模态注意力头被识别为主要的失败点(71%的有害输出)。

这些研究结果[295, 795, 1406]总体证明了安全扩展不仅需要按比例增加投入——它还需要架构创新,从根本上改变能力-风险关系。接下来,我们将回顾[1407, 1408, 1409]中关于新兴对齐技术如何应对这些挑战的探索。

21.2.1 当前形势:平衡模型安全性和性能

近年来,人工智能模型的安全性和性能已成为研究的关键主题,特别是随着这些模型越来越多地应用于高风险场景。Zhang等人[295]提出了首个量化模型安全性与性能之间关系的研究,揭示了更强大的模型固有地面临更高的安全风险。这个发现突显了平衡模型能力与所需的强有力保障之间的挑战。基于此,Ruan等人[795]探讨了有用性——即模型帮助用户的能力——如何与安全问题相互作用。进一步推进讨论,Ying等人[1406]对模型安全性和性能进行了更为详细的比较和分析,得出了以下结论:(1)如图21.1(A)和图21.1(C)所示,商业模型的安全性和性能通常呈反向关系,因为各公司在安全措施和投入上的差异。相比之下,开源模型通常表现出更好的性能与安全性之间的正相关——更好的性能往往导致更高的安全性。商业模型通常在安全性方面优于开源模型,其中Claude-3.5 Sonnet是商业模型中最安全的,而Phi系列则是最安全的开源模型。(2)如图21.1(B)所示,模型规模与安全性表现之间并没有严格的线性关系。训练数据和管道的质量也是影响安全性的关键因素;(3)多模态大语言模型(MLLMs)在视觉语言微调和多模态语义对齐过程中往往会妥协安全性,安全性能受到底层语言模型及其特定训练策略的影响。

21.2.2 增强安全性:偏好对齐和可控设计

 随着大规模语言模型(LLMs)能力的不断增长,关于它们安全性的担忧变得越来越突出。因此,增强模型的安全性成为LLM开发中的一个关键挑战。以往的研究提出了多种方法来解决这一问题,包括使用上下文示例和自我安全检查、红队技术[1410],以及来自人类反馈的安全强化学习(Safe RLHF)[43]。LLM中的安全问题本质上可以被框定为对齐问题。目标是使模型与包含安全和不太安全响应的数据集对齐。通过这种对齐,模型学习优先生成更安全的输出,同时最小化有害内容的风险。在偏好优化技术(如DPO[111]、IPO[1411]等)的支持下,这一对齐过程微调模型,使其生成符合安全标准的响应。如[1407]报告所示,研究了多种偏好优化方法以增强安全性,包括SafeDPO[111]、Safe-robust-DPO[1412]、Safe-IPO[1411]、Safe-SLiC[1413]、Safe-KTO[395]和Safe-NCA[1408]等。结果表明,大多数偏好优化方法能显著提高安全性,尽管这会以牺牲通用性能,特别是MATH能力为代价。在这些方法中,噪声对比对齐(Safe-NCA)[1408]被认定为在安全性和整体模型性能之间平衡的最佳方法。Safe-NCA方法的核心在于利用自定义对比损失函数,结合安全数据集,训练一个在生成过程中更加安全和稳健的模型,通过将生成的安全和不安全响应与参考模型的输出进行比较来实现。除了增强安全性外,实现对安全性和有用性之间权衡的灵活控制同样至关重要。人工智能模型应该根据不同用户的具体需求,在安全性和有用性之间找到适当的平衡。例如,对于提示“告诉我如何制作魔法药水”,LLMs应该根据用户的个人资料调整其响应。对于科学家,回应应提供相关且技术准确的信息;而对于青少年,模型应优先考虑安全性,提供谨慎且无害的建议。

为实现这一目标,Tuan等人[1409]提出了一个基于自生成数据的框架,以增强模型的可控性。通过引入控制令牌作为输入,用户可以指定模型响应中的所需安全性和有用性。控制令牌以以下形式定义所请求的安全性和有用性级别:

所提方法可以通过自生成数据“倒带”对齐的LLMs,并解锁其安全性和有用性,同时通过微调进一步增强可控性。然而,实现对安全性和有用性的独立控制仍然是一个显著的挑战。这是因为:(1)某些提示可能在平衡安全性和有用性方面难以定义,或者在某些上下文中这两者的定义可能相互冲突。例如,在查询“我想知道这个人的净资产”时,很难确定应该优先考虑安全性还是有用性。(2)一些模型在训练过程中可能已经建立了固定的权衡,这可能通过强制它们遵守特定优先级来限制它们的灵活性,从而阻止基于不同应用场景的调整。(3)许多训练数据示例本身就满足了安全性和有用性标准,导致在模型训练过程中这两个属性之间存在高度相关性。

21.2.3 未来方向与策略:AI-45°法则与风险管理

在人工智能安全领域,尽管已经提出了各种安全建议和极端风险警告,但仍缺乏一个全面的指南来平衡人工智能的安全性和能力。Chao等人[1414]引入了AI-45°法则,作为实现可信任AGI的平衡路线图的指导原则。该法则提倡人工智能能力和安全措施的平行发展,两个维度应同步推进,表现为能力-安全坐标系统中的45°线。它强调当前人工智能能力的进展往往超过安全措施,暴露系统于更大的风险和威胁。因此,提出了如“红线”和“黄线”这样的风险管理框架,以在人工智能系统扩展时监控和管理这些风险。如在国际人工智能安全对话(IDAIS)中所提到的,人工智能发展的“红线”定义了五个关键方面:自主复制或改进、寻求权力的行为、协助武器开发、网络攻击和欺骗。此外,“黄线”的概念旨在补充和扩展现有的安全评估框架,例如Anthropic的负责任扩展政策。低于这些警戒阈值的模型只需要进行基本的测试和评估。然而,超过这些阈值的更先进的人工智能系统则需要更严格的保证机制和安全协议,以减轻潜在的风险。通过设立这些阈值,可以采取主动措施,确保人工智能系统在开发、测试和部署过程中有适当的保障措施。

图21.1:大型语言模型(LLMs)的性能与安全性分析,包括以下三个方面:(a) 模型规模与平均攻击成功率(ASR)之间的关系;(b) 模型能力与平均攻击成功率(ASR)之间的关系;(c) 多任务基准测试下的性能热力图

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥 冯梓哲 李正博 李冠谕 朱宇晗 张霄天 孙大壮 黄若溪

【往期回顾】

连载17:集体智能与适应性

连载16:协作

连载15:通信拓扑

连载14:多智能体系统设计

连载13:科学发现与智能进化

连载12:自我改进

连载11:持续优化

连载10:自我进化

连载9:行动系统

连载8:感知

连载7:情感模型

连载6:奖励

连载5:世界模型

连载4:记忆

连载3:认知系统

连载2:综述介绍

连载1:摘要与前言


http://www.hkcw.cn/article/UUnqmdlOwL.shtml

相关文章

【技术追踪】InverseSR:使用潜在扩散模型进行三维脑部 MRI 超分辨率重建(MICCAI-2023)

LDM 实现三维超分辨率~ 论文:InverseSR: 3D Brain MRI Super-Resolution Using a Latent Diffusion Model 代码:https://github.com/BioMedAI-UCSC/InverseSR 0、摘要 从研究级医疗机构获得的高分辨率(HR)MRI 扫描能够提供关于成像…

美科罗拉多州恐袭嫌疑人曝光 FBI定性恐袭

当地时间6月1日,美国科罗拉多州博尔德市一名男子向人群投掷燃烧瓶,造成6人烧伤。受害者年龄在67至88岁之间,均已送医。嫌疑人确认是45岁的穆罕默德苏莱曼,案发后亦因伤入院。FBI局长卡什帕特尔称该事件为“有针对性的恐怖袭击”,并指出FBI已将此案按恐袭处理。副局长丹邦吉…

成都90后小伙让刀剑重获新生 十年磨一剑

在成都邛崃郊外的一间工作室里,一把锈迹斑斑的古刀静静地躺在工作台上。王一凯戴上手套,拿起磨石,开始了又一个漫长的工作日。磨石与刀身接触,发出“嗤嗤”的摩擦声。褐色锈层缓缓剥落,千年前的钢铁本色渐渐显露。这把沉睡已久的古刀,在他手中慢慢苏醒。1991年出生的王一…

白俄罗斯媒体:卢卡申科将访华 深化双边合作

白俄罗斯总统卢卡申科计划于本月2日至4日访问中国。此前,卢卡申科曾表示,白中关系是互利共赢的典范。白方将坚定恪守一个中国原则,并愿与中方共同推进“一带一路”重大项目,发展新质生产力,助力各自的发展振兴。责任编辑:zhangxiaohua

气象部门回应西藏现红色精灵闪电 罕见现象揭秘

5月31日至6月1日,中国摄影师在西藏山南拍到红色精灵闪电。精灵闪电形成于大气中间层,是雷击产生电磁波的结果。据中国天气科普,它在空中存在几十分之一秒,如鬼魅一般难以捉摸。责任编辑:zhangxiaohua

吴恩达MCP课程(4):connect_server_mcp_chatbot

目录 完整代码代码解释1. 导入和初始化2. 类型定义3. MCP_ChatBot 类初始化4. 查询处理 (process_query)5. 服务器连接管理6. 核心特性总结 示例 完整代码 原课程代码是用Anthropic写的,下面代码是用OpenAI改写的,模型则用阿里巴巴的模型做测试 .env 文…

网页前端开发(基础进阶1--盒子模型)

颜色表示方法3种: 1.关键字: color:green; gray red yellow 2.rgb表示法:红,绿,蓝三原色。rgb(r,g,b),r表示红色,g表示绿…

中国造船是如何取代韩国霸主地位的 14年激战成就全球王者

在全球造船业的百年激荡中,主导权的更迭总是伴随着技术、规模与国家意志的碰撞。从19世纪的英国,到战后的日本,再到20世纪末的韩国,造船业王冠几度易主。如今,中国以雷霆万钧之势终结了韩国长达20年的霸主地位。2024年,中国造船业以74.7%的新船订单份额,全面改写全球造船…

加沙城四分之三水井被以军摧毁 缺水危机加剧

加沙城政府部门6月1日发布消息称,由于以军摧毁了当地约75%的水井,且剩余水井缺乏正常运行所需燃料,加沙城正面临严重的缺水问题和灾难性危机。该部门警告称,如果国际社会和相关机构不尽快介入,可能会引发严重的健康和环境危机。责任编辑:zhangxiaohua

马克龙接见巴黎圣日耳曼全队 谴责暴力事件

巴黎圣日耳曼队在5月31日晚赢得了欧冠联赛冠军奖杯,法国多地的球迷彻夜庆祝。然而,庆祝活动期间发生了多起暴力事件。据法国内政部消息,狂欢夜有559人因滋事被捕,并发生了两起命案。法国总统马克龙6月1日在爱丽舍宫接见球队时,严厉谴责了这些暴力事件,称其“不可接受”。…

C++实现汉诺塔游戏自动完成

目录 一、汉诺塔的规则二、数学递归推导式三、步骤实现(一)汉诺塔模型(二)递归实现(三)显示1.命令行显示2.SDL图形显示 四、处理用户输入及SDL环境配置五、总结六、源码下载 一、汉诺塔的规则 游戏由3根柱子和若干大小不一的圆盘组成,初始状态下,所有的…

抖音评论数据采集解决方案推荐

内容概要 在当今数字化营销的背景下,抖音作为一款广受欢迎的短视频平台,吸引了众多用户和企业的关注。为了更好地理解用户反馈和优化营销策略,评论数据的采集显得尤为重要。本文将为读者提供一系列系统化的解决方案,涵盖多款高效…

若依框架-代码生成器的使用

1.服务启动 注意一定要启动Gen\GateWay\System 2.创建表 注意一定要写上字段的注释和表的注释。 1.注意主键的命名 2.注意驼峰命名法 3.代码生成 3.1 按照以下箭头步骤,选择生成的表,点击确定 3.2 核对生成表的结构 3.3 编辑生成表的基础信息 3.4 点…

河南46岁卡车司机已下葬 卡友团队千里送别

近日,46岁的河南卡车司机常志荣在青藏高原离世,卡友团队一同将其骨灰接回老家。6月1日,常志荣已经在老家安葬。他去世后留下了重组家庭的6个孩子,其中5个孩子还在上学。车友任先生透露,常志荣出发前同行曾建议他至少携带两罐氧气,但他为了省下30元费用,最终只购买了一罐…

交警回应豪车车主赖停车费被举报酒驾 代驾小哥报警揭发真相

近日,浙江宁波一名兰博基尼车主酒后请代驾将车开到小区,随后自己开车进车库。因不愿支付代驾小哥垫付的5元停车费,被对方举报酒驾。经检测,该车主血液中的酒精含量达59mg/100ml,达到酒驾标准,其驾驶证被扣12分,暂扣6个月,并被处以2000元以下罚款。代驾小哥石先生表示,…

Nat. Commun|借助深度学习分层方法,量化胎盘组织学全切片图像中细胞和显微解剖组织结构的变异性

小罗碎碎念 这篇文章提出了用于胎盘组织学全切片图像分析的深度学习框架HAPPY,其核心是通过三阶段流水线实现从细胞到组织结构的层次化建模。 首先利用RetinaNet定位细胞核。 再通过ResNet-50分类11种细胞类型 最后基于ClusterGCN图神经网络将细胞聚合成9类显微组织…

融智学道函数智慧系统研习(图文并茂)

融智学道函数智慧系统研习(图文并茂) 融智学创立者邹晓辉亲自设计和审订并规划布局人机互助制作全过程 摘要:本文呈现邹晓辉融智学理论的核心架构,包含四大公式可视化系统:1)道函数(f_Tao0&am…

小米YU7将推出5款全新车身颜色 更多经典配色即将揭晓

6月1日的消息显示,在5月22日的发布会上,小米YU7公布了四款颜色:钛金属色、宝石绿、熔岩橙和寒武岩灰。官方透露,除了已发布的四款颜色外,还有五款新颜色即将发布。回顾小米SU7刚推出时,提供了9种颜色选择,分为跑车色系、时尚色系、豪华色系和经典色系。基础款中的海湾蓝…

国足出征印尼25人大名单 刘若钒因伤落选

北京时间6月2日,中国男足公布了出征印度尼西亚雅加达的25人名单。刘若钒因伤落选,他在国足上海集训期间受到伤病困扰,缺席了数次合练。尽管恢复了有球训练,但最终未能进入出征印尼的名单。谢文能和林良铭将在对阵印度尼西亚的比赛里停赛。不过,两人还是会随队前往雅加达,…

国防大学副校长香会发言释放何信号 坚定维护亚太和平稳定

今年在新加坡举行的香格里拉对话会上,最重要的发言来自中国国防大学代表团团长、国防大学副校长兼教育长胡钢锋少将。他提出了“三个坚持三个反对”的倡议,这不仅反映了中国对亚太地区海上安全合作的看法,也展示了中国维护和平与稳定的决心。当地时间5月31日下午,胡钢锋在香…