【连载22】基础智能体的进展与挑战综述-超对齐-海口c网

21. 超对齐与人工智能智能体中的安全扩展法则

21.1 超对齐：面向目标的人工智能智能体对齐

随着大规模语言模型（LLMs）越来越多地成为自主智能体决策的核心，确保它们的输出保持安全、伦理，并始终与人类目标一致，已经成为一个紧迫的挑战[1386, 402, 1387]。传统的对齐技术，特别是通过人类反馈的强化学习（RLHF），在通过融入人类偏好来完善LLM行为方面发挥了重要作用[110, 43]。

传统的安全对齐主要关注通过执行预定义的约束来防止有害结果。在这种框架下，智能体的行为通过一个单一的综合奖励信号来引导，这个信号优先进行即时修正，而非长远规划。尽管这种反应式方法在许多当前的应用中有效，但当智能体必须执行延续性、复杂的任务时，它却面临困难。无法将复杂的长期目标分解为可解释和可管理的子目标，可能导致虽然在技术上安全，但在实现更广泛的人类中心目标时表现不佳的行为。

为了解决这些局限性，超对齐的概念[1388]应运而生。超对齐代表了对齐策略的进化，通过将明确的长期目标表示直接嵌入到智能体的决策过程中。超对齐不仅仅是为了避免有害行为而施加约束，它通过复合目标函数积极引导行为。这个函数整合了多个绩效维度——具体而言，安全和伦理考虑（其中伦理规范和安全指南持续嵌入决策过程中）、任务效果（确保智能体不仅避免有害行为，而且能够高效地执行其预定功能）、以及长期战略规划（使智能体能够进行长期规划，并将复杂目标分解为可管理的子任务）。

将超对齐整合到人工智能系统中标志着向更强大的、以目标为驱动的对齐策略的转变。通过将安全、伦理标准、任务表现和长期规划统一在一个优化框架中，超对齐旨在通过确保智能体在长期操作过程中始终与人类价值观对齐，增强自主智能体的可靠性和鲁棒性；通过调和即时的安全问题与战略性、长期目标，促进在复杂环境中的动态适应；并为诊断和完善人工智能行为提供更清晰、可解释的结构——这对于安全审计和持续改进至关重要。

未来的研究预计将集中于开发能够有效平衡这些多样化目标的算法，并在实际应用中验证超对齐策略。最终目标是建立一个可扩展的框架，不仅防止有害行为，还能积极促进与复杂人类价值观和目标一致的表现。

21.1.1 超对齐中的复合目标函数

超对齐的核心是复合目标函数，它是一种结构化的奖励机制，整合了多个绩效维度来引导智能体行为[1176]。与传统的对齐方法依赖于单一的综合奖励函数不同，超对齐明确地将目标分解为三个不同的组成部分：

任务表现项：确保智能体以高准确性和效率执行即时操作任务。

目标遵循项：将长期战略目标嵌入智能体的决策过程中，包括安全约束、伦理考量和用户定义的优先事项[1178, 1389]。

规范遵守项：强制遵守伦理和法律边界，防止那些以牺牲长期对齐为代价的短期奖励优化行为[1390, 1391]。

这种多组件的构成解决了RLHF的一个关键弱点：奖励黑客的风险，即智能体利用定义模糊的奖励函数最大化短期收益，同时未能实现真正的长期对齐[1392, 1393]。

21.1.2 通过超对齐克服RLHF的局限性

传统的RLHF依赖于隐式反馈信号，这些信号通常是通过短期交互汇总得到的。尽管这种方法在优化模型输出方面有效，但由于几个固有的限制，它在长期目标保持方面面临困难。首先，人类反馈通常是目光短浅的，优先考虑即时正确性，而非更广泛的战略对齐[110]。其次，奖励模型常常简化复杂的多步骤任务，使得智能体难以在较长的时间跨度内有效地进行概括[1394]。第三，智能体可能利用奖励结构中的漏洞，优化表面上与人类偏好一致的行为，但最终却偏离了预定目标[1395]。

超对齐通过显式的目标调节来解决这些挑战。它不仅仅依赖于汇总的奖励信号，而是将目标进行层次化结构，并将复杂任务分解为更小、更易解释的子目标[1396, 1397]。这种结构化的方法提高了透明度，允许实时调整，并确保人工智能系统在决策过程中保持长期的一致性。

21.1.3 支持超对齐的实证证据

近期的研究为超对齐在实际应用中的有效性提供了强有力的实证支持。研究表明，使用复合目标训练的智能体在延续性交互中表现出更大的鲁棒性，并且优于那些依赖于传统对齐技术的智能体[1398, 1399, 1400]。与静态奖励函数不同，静态奖励函数在变化的条件下保持不变，超对齐模型采用持续的校准机制，根据实时操作数据动态调整不同目标的权重[400]。这一自适应框架使智能体能够响应不断变化的用户需求，同时保持长期的战略对齐，这是传统基于RLHF方法所缺乏的能力。

21.1.4 挑战与未来方向

尽管超对齐具有很大的潜力，但它仍然面临着若干关键挑战，这些挑战必须解决才能实现实际应用。这些挑战主要涉及目标规范、奖励校准、动态适应以及在层次化目标中保持一致性。

一个根本性的难题在于定义精确且无歧义的目标。人类价值观本质上是情境敏感的、模糊的，并且有时是相互冲突的，这使得将其编码为结构化、机器可理解的格式变得具有挑战性[1387]。现有的对齐技术难以捕捉人类意图的复杂性，因此需要更先进的目标提取、分解和表示方法。目前的研究探讨了层次建模和偏好学习，以使人工智能系统能够更好地适应不断变化和微妙的人类目标[1392]。

即使目标定义得很好，奖励校准仍然是一个重要挑战。超对齐要求在任务表现、长期遵循和伦理合规之间进行细致的平衡[1401]。奖励结构如果校准不当，可能会导致短期优化而牺牲战略对齐，或者相反，过度强调长期目标而忽视即时效果。自适应权重机制有助于动态调整奖励组件，但确保这些调整的稳定性和一致性仍然是一个开放的研究问题[321]。

另一个挑战来自于适应动态变化的人类价值观和不断发展的操作环境。与静态基于规则的系统不同，人工智能模型必须不断更新其目标，以反映社会规范、伦理标准和外部条件的变化[1402]。通过元学习和上下文感知对齐，实时的目标重新校准使人工智能系统能够识别何时需要重新调整其目标，并据此做出调整[1390]。然而，确保模型能够在不破坏对齐的情况下更新其价值表示仍然是一个未解决的问题。

最后，在层次化目标分解中保持一致性增加了另一层复杂性。超对齐依赖于将长期目标分解为子目标，同时保持战略对齐。过于僵化的子目标可能导致狭隘的优化，忽视更广泛的意图，而定义不明确的子目标则可能导致即时行动与总体目标之间的失调[321]。诸如递归验证和多层次奖励结构等技术旨在减轻这些风险，但仍需要进一步的研究来完善它们在不同人工智能系统中的适用性[1396]。

总之，虽然超对齐提供了一种结构化的人工智能对齐方法，但其成功实施依赖于克服目标模糊性、奖励失准、价值漂移和层次化失对齐等问题。未来的工作应集中于提高可解释性、稳定性和适应性，以确保人工智能系统在长时间跨度内始终与人类目标保持一致。

21.2 人工智能智能体中的安全扩展法则

人工智能能力的指数级扩展揭示了人工智能中的一个根本矛盾：安全风险的非线性增加[1403]。随着语言模型从数百万到数万亿个参数的增长，它们的性能遵循可预测的扩展法则[1404, 1405]，但安全保障则呈现出截然不同的动态[1403]。安全扩展法则——描述随着模型能力扩展，安全干预措施必须如何扩展以维持可接受的风险水平的数学关系。安全扩展法则的核心挑战在于确保安全措施与模型能力成比例地发展，因为性能提升往往超越了安全提升。近期的研究已经量化了这种矛盾，并提出了应对框架：

能力-风险权衡：Zhang等人[295]建立了模型能力与安全风险之间的首个定量关系，证明了更强大的模型固有地面临更高的脆弱性。这项工作引入了安全-性能指数（SPI）来衡量这种权衡。

有用性-安全性关系：在此基础上，Ruan等人[795]揭示了经过优化以提高有用性的模型展示出比其他模型多37%的安全关键失败，强调了联合优化框架的必要性。

商业模型与开源模型的动态：通过大规模基准测试，Ying等人[1406]发现了不同的安全-性能配置：商业模型（例如Claude-3.5 Sonnet）通过专门的安全管道实现了29%的安全性提高，但以15%的性能损失为代价。开源模型表现出更紧密的耦合，Phi系列在计算成本降低40%的情况下，达到了商业模型91%的安全性水平。

模型规模与数据的相互作用：与预期相反，模型大小仅解释了42%的安全差异，而数据质量占68%，这表明以数据为中心的方法可能优于单纯的规模扩展。

多模态脆弱性：多语言大模型（MLLMs）在视觉基础任务中出现了2.1倍的安全失败，跨模态注意力头被识别为主要的失败点（71%的有害输出）。

这些研究结果[295, 795, 1406]总体证明了安全扩展不仅需要按比例增加投入——它还需要架构创新，从根本上改变能力-风险关系。接下来，我们将回顾[1407, 1408, 1409]中关于新兴对齐技术如何应对这些挑战的探索。

21.2.1 当前形势：平衡模型安全性和性能

近年来，人工智能模型的安全性和性能已成为研究的关键主题，特别是随着这些模型越来越多地应用于高风险场景。Zhang等人[295]提出了首个量化模型安全性与性能之间关系的研究，揭示了更强大的模型固有地面临更高的安全风险。这个发现突显了平衡模型能力与所需的强有力保障之间的挑战。基于此，Ruan等人[795]探讨了有用性——即模型帮助用户的能力——如何与安全问题相互作用。进一步推进讨论，Ying等人[1406]对模型安全性和性能进行了更为详细的比较和分析，得出了以下结论：（1）如图21.1（A）和图21.1（C）所示，商业模型的安全性和性能通常呈反向关系，因为各公司在安全措施和投入上的差异。相比之下，开源模型通常表现出更好的性能与安全性之间的正相关——更好的性能往往导致更高的安全性。商业模型通常在安全性方面优于开源模型，其中Claude-3.5 Sonnet是商业模型中最安全的，而Phi系列则是最安全的开源模型。（2）如图21.1（B）所示，模型规模与安全性表现之间并没有严格的线性关系。训练数据和管道的质量也是影响安全性的关键因素；（3）多模态大语言模型（MLLMs）在视觉语言微调和多模态语义对齐过程中往往会妥协安全性，安全性能受到底层语言模型及其特定训练策略的影响。

21.2.2 增强安全性：偏好对齐和可控设计

随着大规模语言模型（LLMs）能力的不断增长，关于它们安全性的担忧变得越来越突出。因此，增强模型的安全性成为LLM开发中的一个关键挑战。以往的研究提出了多种方法来解决这一问题，包括使用上下文示例和自我安全检查、红队技术[1410]，以及来自人类反馈的安全强化学习（Safe RLHF）[43]。LLM中的安全问题本质上可以被框定为对齐问题。目标是使模型与包含安全和不太安全响应的数据集对齐。通过这种对齐，模型学习优先生成更安全的输出，同时最小化有害内容的风险。在偏好优化技术（如DPO[111]、IPO[1411]等）的支持下，这一对齐过程微调模型，使其生成符合安全标准的响应。如[1407]报告所示，研究了多种偏好优化方法以增强安全性，包括SafeDPO[111]、Safe-robust-DPO[1412]、Safe-IPO[1411]、Safe-SLiC[1413]、Safe-KTO[395]和Safe-NCA[1408]等。结果表明，大多数偏好优化方法能显著提高安全性，尽管这会以牺牲通用性能，特别是MATH能力为代价。在这些方法中，噪声对比对齐（Safe-NCA）[1408]被认定为在安全性和整体模型性能之间平衡的最佳方法。Safe-NCA方法的核心在于利用自定义对比损失函数，结合安全数据集，训练一个在生成过程中更加安全和稳健的模型，通过将生成的安全和不安全响应与参考模型的输出进行比较来实现。除了增强安全性外，实现对安全性和有用性之间权衡的灵活控制同样至关重要。人工智能模型应该根据不同用户的具体需求，在安全性和有用性之间找到适当的平衡。例如，对于提示“告诉我如何制作魔法药水”，LLMs应该根据用户的个人资料调整其响应。对于科学家，回应应提供相关且技术准确的信息；而对于青少年，模型应优先考虑安全性，提供谨慎且无害的建议。

为实现这一目标，Tuan等人[1409]提出了一个基于自生成数据的框架，以增强模型的可控性。通过引入控制令牌作为输入，用户可以指定模型响应中的所需安全性和有用性。控制令牌以以下形式定义所请求的安全性和有用性级别：

所提方法可以通过自生成数据“倒带”对齐的LLMs，并解锁其安全性和有用性，同时通过微调进一步增强可控性。然而，实现对安全性和有用性的独立控制仍然是一个显著的挑战。这是因为：（1）某些提示可能在平衡安全性和有用性方面难以定义，或者在某些上下文中这两者的定义可能相互冲突。例如，在查询“我想知道这个人的净资产”时，很难确定应该优先考虑安全性还是有用性。（2）一些模型在训练过程中可能已经建立了固定的权衡，这可能通过强制它们遵守特定优先级来限制它们的灵活性，从而阻止基于不同应用场景的调整。（3）许多训练数据示例本身就满足了安全性和有用性标准，导致在模型训练过程中这两个属性之间存在高度相关性。

21.2.3 未来方向与策略：AI-45°法则与风险管理

在人工智能安全领域，尽管已经提出了各种安全建议和极端风险警告，但仍缺乏一个全面的指南来平衡人工智能的安全性和能力。Chao等人[1414]引入了AI-45°法则，作为实现可信任AGI的平衡路线图的指导原则。该法则提倡人工智能能力和安全措施的平行发展，两个维度应同步推进，表现为能力-安全坐标系统中的45°线。它强调当前人工智能能力的进展往往超过安全措施，暴露系统于更大的风险和威胁。因此，提出了如“红线”和“黄线”这样的风险管理框架，以在人工智能系统扩展时监控和管理这些风险。如在国际人工智能安全对话（IDAIS）中所提到的，人工智能发展的“红线”定义了五个关键方面：自主复制或改进、寻求权力的行为、协助武器开发、网络攻击和欺骗。此外，“黄线”的概念旨在补充和扩展现有的安全评估框架，例如Anthropic的负责任扩展政策。低于这些警戒阈值的模型只需要进行基本的测试和评估。然而，超过这些阈值的更先进的人工智能系统则需要更严格的保证机制和安全协议，以减轻潜在的风险。通过设立这些阈值，可以采取主动措施，确保人工智能系统在开发、测试和部署过程中有适当的保障措施。