【连载21】基础智能体的进展与挑战综述-交互风险-海口c网

20. 智能体外部安全性：交互风险

随着人工智能智能体的发展以及与日益复杂的环境互动，与这些互动相关的安全风险已成为一个关键问题。本章聚焦于人工智能智能体与记忆系统、物理和数字环境及其他智能体的互动。这些互动使人工智能智能体面临各种脆弱性，从记忆损坏和环境操控到多智能体系统中的对抗性行为。通过研究这些交互风险，我们旨在突出可能破坏人工智能智能体在现实应用中完整性和可靠性的各种威胁。以下各节将详细探讨这些挑战，讨论具体的攻击途径及其对系统安全的影响。

20.1 智能体与记忆交互威胁

外部记忆模块作为认知库，使智能智能体能够存储、检索和情境化信息，通过积累经验促进持续学习和执行复杂任务。检索增强生成（RAG）是其最显著的实现。然而，RAG框架容易受到对抗性操控的影响，导致智能体误导性地检索和使用有害或误导性文档。AgentPoison[1194]利用这一漏洞，通过对人工智能智能体执行后门攻击，毒化RAG知识库，确保后门触发的输入在保持正常性能的情况下，检索恶意示范内容，而对无害查询表现正常。ConfusedPilot[1353]揭示了一类RAG系统的漏洞，通过提示注入攻击、检索缓存利用和错误信息传播，损害Copilot的完整性和机密性。具体而言，这些攻击操控输入到大规模语言模型（LLM）的文本，使其生成符合对抗目标的输出。PoisonedRAG[1354]代表了首个针对RAG的知识腐化攻击，通过注入最小的对抗性文本来操控LLM输出。该攻击将其表述为一个优化问题，在大型数据库中，仅通过每个目标问题五个毒化文本就能实现90%的成功率。Jamming[1355]对RAG系统引入了一种拒绝服务攻击，其中一个对抗性“阻塞”文档插入不可信数据库，干扰检索或触发安全拒绝，阻止系统回答特定查询。BadRAG[1356]通过语料库中毒暴露了基于RAG的LLM的漏洞，攻击者将多个精心设计的文档注入数据库，迫使系统检索对抗性内容并对目标查询生成错误响应。仅通过引入10个对抗性段落（占语料库的0.04%），便能实现98.2%的检索成功率，将GPT-4的拒绝率从0.01%提升至74.6%，负面响应率从0.22%提升至72%。TrojanRAG[1357]对RAG系统执行联合后门攻击，通过对比学习优化多个后门快捷方式，并通过知识图谱增强检索，进行精细匹配。通过系统地规范化后门场景，它评估了现实世界风险和模型越狱的潜力。最后，一种隐蔽的后门攻击[1358]利用语法错误作为触发器，使得LLM在标准查询下正常工作，而在出现轻微语言错误时则检索攻击者控制的内容。这种方法通过对比损失和困难负样本采样，利用密集检索器对语法不规则的敏感性，确保后门触发器不可察觉，同时实现精确的对抗性控制。

20.2 智能体与环境交互威胁

智能体可以根据其交互方式分为两类：物理交互智能体和数字交互智能体。物理交互智能体在现实世界中操作，使用传感器和执行器感知并影响其环境。这类智能体的例子包括自动驾驶车辆和机器人系统。相比之下，数字交互智能体则在虚拟或网络环境中工作，处理并响应来自数字来源的数据。这些智能体包括人工智能驱动的聊天机器人、网络安全系统和自动化交易算法。

图20.1：智能体外在安全，包括对智能体记忆、环境和交互的威胁

物理环境中的威胁

在物理世界中操作的智能体，如机器人和自动驾驶车辆，由于与动态且可能具有对抗性的环境交互，面临着独特的安全挑战[1359, 1360, 1366]。一个主要的威胁是传感器欺骗攻击，攻击者操控传感器输入，误导智能体对其周围环境的感知。例如，GPS欺骗可能对无人机（UAV）和其他依赖GPS的平台构成重大风险，通过误导自动驾驶车辆关于其实际位置的信息，允许恶意重定向或劫持[1361]。类似地，LiDAR欺骗可以引入不存在的虚假障碍物，可能导致导航失败或安全隐患[1362]。另一个关键风险是执行器操控，攻击者控制智能体的执行器，迫使其执行非预期的物理动作。这可以通过直接篡改硬件或利用控制执行器功能的软件漏洞来实现[1363]。此类攻击可能破坏智能体的动作，导致物理伤害或任务失败。此外，利用环境危害也是一个严重的威胁。攻击者可能引入物理障碍物或操控环境条件，干扰智能体的操作。例如，使用如LiDAR-Adv等技术创建的对抗性物体可以通过诱发传感器误解来欺骗基于LiDAR的自动驾驶系统，从而降低检测可靠性并增加现实世界中的安全风险[1364]。最后，物理行为的失配可能会破坏自动智能体的安全性。智能体的感知与环境实际物理约束之间的差异可能导致不安全或不可行的行为。例如，学习到的运动策略与现实物理的失配——如错误判断地形的坚硬度或障碍物的尺寸——可能导致自动智能体采取危险的步骤（例如，在崎岖地面上的不稳定步伐）。这一点在之前的系统中已经被观察到，这些系统因无法控制的跌倒而需要超过100次的手动重置[1365]。

数字环境中的威胁

在数字环境中操作的智能体，如软件智能体和基于网页的智能体，面临着独特的安全挑战，这些挑战源于它们对外部数据源和计算资源的依赖[1333, 1366]。一个主要的威胁是代码注入，恶意行为者将有害代码引入智能体的环境，导致非预期的命令执行[1367]。这些攻击通常利用软件漏洞或利用智能体所交互的被破坏的外部资源，可能导致对智能体操作的未授权控制[1202]。环境注入攻击（EIA）利用通用网页智能体中的隐私风险，悄悄窃取用户的个人身份信息（PII），成功率可达到70%[1370]。AdvWeb是一个自动化的对抗性提示生成框架，用于误导黑盒网页智能体执行有害操作[1371]。另一个关键风险是数据操控，攻击者篡改智能体接收到的信息，导致错误的决策或行动[1333]。例如，一个交易智能体可能会被操控的金融数据误导，导致错误的交易；或一个信息收集智能体可能会被伪造的新闻文章欺骗，从而扭曲其输出。这些操控可能会产生级联效应，特别是在依赖准确数据进行决策的自动化系统中。除了直接的操控外，拒绝服务（DoS）攻击通过向智能体的数字环境发送过多的请求或数据，可能会导致智能体无法响应或崩溃[1368]。这些干扰可能对时间敏感的应用产生特别严重的影响，在这些应用中，系统的可用性和响应能力至关重要。此外，资源耗尽是一个重要的威胁，因为攻击者可能利用智能体的资源管理机制耗尽计算资源，导致其他用户的服务被拒绝或整个系统的不稳定[1369]。通过消耗处理能力、内存或带宽，攻击者可以严重影响智能体的有效功能，扰乱其操作并降低其效率。在解决LLM智能体的安全挑战时，AGrail被提出作为一个终身保护框架，通过适应安全检查来减轻特定任务和系统性风险，展示了在不同任务中稳健的性能和可迁移性[1372]。

20.3 智能体与智能体交互威胁

在多智能体系统中，智能体之间的交互可能引入新的安全漏洞[1380]。这些交互主要分为竞争性和合作性，智能体间既有试图超越对方的竞争性互动，也有共同合作的情况。

竞争性交互中的威胁

当智能体竞争时，它们常常使用巧妙的方法来获得优势[1373]。例如，智能体可能传播虚假信息或使其他智能体认为情况与实际不同，从而欺骗它们[1374]。这可能导致对手做出错误决策，削弱其竞争力。除了虚假信息，智能体还可能试图利用对方算法或策略中的弱点[1375]。通过识别这些弱点，智能体可以预测并操控对方的行为，从而在竞争中占据优势。此外，一些智能体可能使用破坏性技术，如拒绝服务（DoS）攻击，向对手的系统发送不必要的请求，导致通信中断并妨碍其正常功能[1376]。竞争性交互中的另一个威胁是隐蔽合作。有时，智能体即使违反规则，也会暗中合作，操控结果使自己受益[1377]。这种串通行为破坏了公平性，损害了系统的完整性，因为它扭曲了竞争结果。

合作性交互中的威胁

在合作性情境中，智能体共同朝着一个共同目标努力，安全威胁可能会破坏系统的稳定性和可靠性。一个风险是无意的信息泄露，智能体在通信过程中不小心共享了敏感数据。这可能导致隐私侵犯或未授权访问，削弱系统的可信度。除了数据泄漏，单个智能体的错误也可能在系统中传播，导致更大的故障并降低整体性能。文献[1378]讨论了开放域问答系统（ODQA）中的这个问题，其中系统的一部分错误可能扩散并影响其他组件，严重影响可靠性。如果一个被攻破的智能体引入了漏洞并传播到其他智能体，问题将变得更为严重。如果黑客成功控制一个智能体，他们可能会利用整个系统的弱点，导致重大的安全失败[1379]。这种广泛的妥协非常危险，因为它可能从一个小漏洞开始，并迅速升级。另一个挑战来自智能体之间的同步不良。如果智能体未能同步更新信息或出现通信延迟，可能会导致决策中的问题。更新的失配或延迟可能会破坏协调，使智能体更难有效地实现共同目标。这些挑战强调了在合作性多智能体环境中需要强大的安全系统，以保持其可靠性并增强抗攻击能力。

20.4 总结与讨论

前面的章节详细介绍了人工智能智能体与记忆系统、物理和数字环境以及其他智能体交互时所产生的重大安全风险。这些风险从数据中毒和代码注入到传感器欺骗和串通行为，突显了日益复杂的基于智能体的系统中固有的脆弱性。然而，随着人工智能智能体变得更加强大，能够利用自然语言理解和专门工具进行复杂推理，研究人员正在积极开发安全协议以应对这些挑战。这些协议针对通用智能体和领域特定智能体的应对方式各不相同。

通用智能体旨在跨多个领域提供多功能性，面临着广泛的安全挑战。为了减轻这些风险，研究人员开发了几种方法来增强其安全性。评估机制，如AgentMonitor[1381]，通过监控智能体的决策过程并识别潜在的不安全行为，评估智能体的安全意识。R-Judge[1382]通过评估智能体对恶意和无害查询的响应，量化智能体的风险意识，提供了一种系统化的安全合规方法。此外，像ToolEmu[795]这样的风险检测工具通过在受控环境中模拟工具使用，暴露智能体交互中的漏洞。这种方法可以在任务执行过程中识别潜在的风险，帮助开发者主动解决漏洞。这些综合性的努力通过全面的评估和风险检测增强了通用智能体的安全性。

领域特定智能体，专为高风险环境中的专门任务（如科学研究）量身定制，需要更加严格的安全措施。像ChemCrow[1383]这样的安全工具旨在通过审查用户查询并过滤恶意命令，减轻化学合成任务中的风险，确保智能体不会无意间合成危险化学品。像CLAIRify[1384]中实施的结构化任务约束，通过对材料合成顺序施加高级约束，对操作和感知任务施加低级限制，从而增强实验安全性，防止事故和错误。此外，像SciGuard[1385]这样的基准测试，通过测量无害性（拒绝恶意查询）和有效性（有效处理无害查询）来评估模型安全性，SciGuard还结合了长期记忆，增强了智能体安全执行复杂指令的能力，同时保持准确的风险控制。这些专注的措施确保了领域特定智能体在其专门领域内的安全有效运行。

总之，在开发创新的评估机制和风险缓解策略以增强通用和领域特定人工智能智能体的安全性方面，已经取得了显著进展。然而，未来研究的一个关键领域是整合这些方法。建立通用智能体的广泛能力与领域特定智能体的专门保障之间的更强连接，将是创建真正稳健且值得信赖的LLM系统的关键。挑战在于结合这两种方法的最佳方面，开发既多功能又安全的智能体。

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

【往期回顾】

连载17：集体智能与适应性

连载16：协作

连载15：通信拓扑

连载14：多智能体系统设计

连载13：科学发现与智能进化

连载12：自我改进

连载11：持续优化

连载10：自我进化

连载9：行动系统

连载8：感知