【LLM】Agent综述《Advances And Challenges In Foundation Agents》

article/2025/7/1 2:49:34

note

  • 拥有完善的认知架构仅仅只是第一步。Foundation Agent 的核心特征之一在于其自进化 (Self-Evolution) 的能力,即 Agent 能够通过与环境的交互和自我反思,不断学习、适应和提升自身能力,而无需持续的人工干预。自进化机制:优化空间 (Optimization Space)、LLM 作为优化器 (LLM as Optimizer)等

文章目录

  • note
  • 综述介绍
  • 一、Agent 的核心组件 - 构建认知基石
    • 1. 认知核心 (Cognition Core)
    • 2. 记忆系统 (Memory System)
    • 3. 世界模型 (World Model)
    • 4. 奖励与价值系统 (Reward and Value System)
    • 5. 行动系统 (Action System)
  • 二、Agent 的自进化——迈向自主智能
    • 1. 优化空间 (Optimization Space)
    • 2. LLM 作为优化器 (LLM as Optimizer)
    • 3. 在线与离线自改进 (Online and Offline Self-Improvement)
    • 4. 自进化与科学发现 (Self-Evolution in Scientific Discovery)
  • 三、协作与进化型智能系统 - 构建群体智能
    • 1. 多智能体系统设计
    • 2. 拓扑结构与规模化(Comunication Topology and Scalability)
    • 3. 协作范式与机理 (Collaboration Paradigms)
    • 4. 多 Agent 系统评估 (Evaluation of Multi-Agent Systems)
  • Reference

综述介绍

论文链接:https://arxiv.org/abs/2504.01990
Huggingface链接:https://huggingface.co/papers/2504.01990
Github 链接:https://github.com/FoundationAgents/awesome-foundation-agents

首次定义并提出了基础 Agent(Foundation Agent) 这一新概念框架。Foundation Agent 并非某个特殊的 Agent,而是一个技术蓝图。它指引我们如何构建一个由复杂认知、多层记忆、世界模型、奖励&价值、情绪&动机、多模感知、行动系统等模块化组件构成的智能系统。

在这里插入图片描述

一、Agent 的核心组件 - 构建认知基石

一个强大的 Foundation Agent 必然是一个复杂的系统,由多个相互协作的核心组件构成。我们借鉴了认知科学和神经科学中对大脑模块化功能的理解。其中的七个关键组件,它们共同构成了 Agent 的认知架构:
在这里插入图片描述

1. 认知核心 (Cognition Core)

这是 Agent 的“大脑”,负责最高层次的决策、推理和规划。与当前主要依赖 LLM 进行“思考”的 Agent 不同,Foundation Agent 的认知核心可能是一个更复杂的系统,集成了多种推理能力(如逻辑推理、因果推理、常识推理)和规划算法(如任务分解、层级规划、长期目标管理)。它需要能够处理不确定性,进行反思和元认知(思考自己的思考过程),并根据环境反馈和内部状态动态调整策略。

认知系统的建立、学习方式:
在这里插入图片描述

2. 记忆系统 (Memory System)

当前的大部分 Agent 只有有限的短期记忆(如 Prompt 中的上下文)或简单的外部向量数据库。Foundation Agent 则需要一个更复杂、更接近生物体的多层次记忆系统。这个部分我们探讨了短期记忆、长期记忆与工作记忆等不同类型,包含情景记忆、语义记忆和程序记忆等细分领域。

人类的记忆系统分类:
在这里插入图片描述
人类记忆系统的模型,三阶段体系:
在这里插入图片描述

3. 世界模型 (World Model)

Agent 还需要能理解它所处的环境以及行为可能产生的后果。世界模型正是对环境动态的理解。它可以帮助 Agent 进行预测(如果我采取行动 A,会发生什么?)、规划(为了达到目标 B,我应该采取什么行动序列?)和反事实推理(如果当初采取了不同的行动,结果会怎样?)。而一个强大的世界模型需要能够处理物理规律、社会规范、其他 Agent 的行为等多方面信息,并且能够根据新的观测数据不断更新和完善。

当前的四种世界模型范式:
在这里插入图片描述

4. 奖励与价值系统 (Reward and Value System)

目标对人来说很重要,对 Agent 来说也是。奖励系统负责评估 Agent 的行为表现,并提供学习信号。这不仅仅是简单的奖励,可能涉及到多目标优化、内在动机(如好奇心、探索欲)以及对未来价值的预估。价值系统则负责评估不同状态或行动的长期价值,指导 Agent 的决策。如何设计能够引导 Agent 学习复杂行为、符合人类价值观,并且能够适应动态环境的奖励和价值系统,是确保 Agent 目标一致性的核心。

reward范式的分类:
在这里插入图片描述

reward常见范式的流程:
在这里插入图片描述

5. 行动系统 (Action System)

Agent 最终需要通过行动系统与环境进行交互。这包括生成自然语言、执行代码、控制机器人肢体、在虚拟世界中导航等。行动系统需要将认知核心的决策转化为具体的、可在环境中执行的操作序列。行动的选择需要考虑可行性、效率和潜在风险。

动作的范式分类和学习方式:
在这里插入图片描述
agent的action一般都和工具有关(使用工具):
在这里插入图片描述

二、Agent 的自进化——迈向自主智能

拥有完善的认知架构仅仅只是第一步。Foundation Agent 的核心特征之一在于其自进化 (Self-Evolution) 的能力,即 Agent 能够通过与环境的交互和自我反思,不断学习、适应和提升自身能力,而无需持续的人工干预。
我们探讨了实现自进化的关键机制:
在这里插入图片描述

1. 优化空间 (Optimization Space)

自进化的前提是定义清楚哪些东西可以被优化。Agent 的几乎所有组件都可以成为优化的对象:认知策略、记忆内容、世界模型的准确性、感知能力、行动技能等等。

其中,提示词,工作流, Agent 组件是可以被直接优化的三个层次。

2. LLM 作为优化器 (LLM as Optimizer)

大型语言模型不仅可以作为 Agent 的认知核心的一部分,还可以扮演优化器的角色。LLM 通过生成代码、修改参数、提出新的策略或结构,来优化 Agent 自身的其他组件。例如,LLM 可以分析 Agent 过去的失败经验,提出改进记忆检索算法的建议;或者根据新的数据,生成更新世界模型的代码。

3. 在线与离线自改进 (Online and Offline Self-Improvement)

Agent 既能在与环境实时交互过程中进行在线改进,通过强化学习优化行为策略或根据感知更新世界模型(Online);也能在“休息”或专门训练阶段实现离线改进,利用收集的数据进行深层分析和模型更新,可能涉及调整整个认知架构、重构记忆库,或利用 LLM 作为优化器进行大规模模型迭代(Offline)。

4. 自进化与科学发现 (Self-Evolution in Scientific Discovery)

我们也特别提到了自进化在科学发现等复杂问题解决场景中的巨大潜力。一个具备自进化能力的 Foundation Agent 可以自主地提出假设、设计实验、分析数据、学习新知识,并不断优化其研究策略,从而加速科学探索的进程。这为 AI 在基础科学领域的应用打开了新的想象空间。

自进化是 Foundation Agent 区别于当前大多数 Agent 的关键特征。它突出了 Agent 自主学习和适应的核心能力。实现高效、稳定且目标可控的自进化机制,是通往真正自主智能的关键挑战。

三、协作与进化型智能系统 - 构建群体智能

进一步的,当我们拥有强大的 Foundation Agent , 很自然地会将视野扩展到由多个 Foundation Agent 组成的多 Agent 系统 (Multi-Agent System, MAS),我们探讨了 MAS 的基础组成、结构、协作范式和决策机制;以及在多 Agent 系统的自主协作/竞争中,群体智能(Collective Intelligence)形成的现象。

1. 多智能体系统设计

Multi-Agent System Design

在大模型多 Agents 系统(LLM-MAS)中,协作目标与协作规范是协作的基础。协作目标明确个体目标(个体性、集体性或竞争性),协作规范确立了 Agent 交互规则、约束和惯例。

基于协作目标和规范,多 Agent 系统可分为策略学习、建模与仿真、以及协同任务求解

在这里插入图片描述

2. 拓扑结构与规模化(Comunication Topology and Scalability)

从系统角度出发,拓扑结构往往决定着协作的效率与上限。我们把 MAS 的拓扑分为了静态和动态两大类:前者是预定义好的静态拓扑(层级化、中心化、去中心化)结构,常用于特定任务的解决实现;后者是根据环境反馈持续更新的动态拓扑结构,其可通过搜索式、生成式、参数式等新兴算法实现。

3. 协作范式与机理 (Collaboration Paradigms)

借鉴人类社会中的多样化交互行为,如共识达成、技能学习和任务分工,多 Agent 协作可以被归纳为共识导向、协作学习、迭代教学与强化,以及任务导向交互。在不同交互目标和形式下,Agent 之间形成讨论、辩论、投票、协商等单向或多向交互。随着交互的持续,这些过程迭代出决策和交互网络,不同 Agent 在协作中增强和更新个体记忆与共享知识。

4. 多 Agent 系统评估 (Evaluation of Multi-Agent Systems)

相关MAS的benchmark介绍:
在这里插入图片描述

Reference

[1] ADVANCES AND CHALLENGES IN FOUNDATION AGENTS
[2] 264页 Agent 综述!MetaGPT、Mila、斯坦福、耶鲁、谷歌半年共同撰写
[3] 如何设计Agent的记忆系统-六种类型


http://www.hkcw.cn/article/ZYjtyeQEDL.shtml

相关文章

《Pytorch深度学习实践》ch3-反向传播

------B站《刘二大人》 1.Introduction 在神经网络中,可以看到权重非常多,计算 loss 对 w 的偏导非常困难,于是引入了反向传播方法; 2.Backward 这里模型为 y x * w,所以要计算的偏导数为 loss 对 w; …

房产销售系统 Java+Vue.js+SpringBoot,包括房源信息、房屋户型、房源类型、预约看房、房屋评价、房屋收藏模块

房产销售系统 JavaVue.jsSpringBoot,包括房源信息、房屋户型、房源类型、预约看房、房屋评价、房屋收藏模块 百度云盘链接:https://pan.baidu.com/s/1Ku27fPWwc47z2aSO_dow6w 密码:da1g 房产销售系统 摘 要 随着科学技术的飞速发展&#xf…

从0开始学vue:vue3和vue2的关系

一、版本演进关系1. 继承关系2. 版本生命周期 二、核心差异对比三、关键演进方向1. Composition API2. 性能优化 四、迁移策略1. 兼容构建模式2. 关键破坏性变更 五、生态演进1. 官方库升级2. 构建工具链 六、选型建议1. 新项目2. 现有项目 七、未来展望 一、版本演进关系 1. …

python 如何写4或5的表达式

python写4或5的表达式的方法: python中和是用“and”语句,或是用“or”语句。那么4或5的表达式为“4 or 5” 具体示例如下: 执行结果:

电子电气架构 --- 如何应对未来区域式电子电气(E/E)架构的挑战?

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

绿盟 IPS 设备分析操作手册

一、操作手册说明 本手册面向安全监控分析人员,聚焦绿盟 IPS 设备的基础功能操作与典型攻击场景分析,提供安全事件监控、告警详情查看、白名单配置等功能指引,以及 Shiro 反序列化漏洞的检测与应急方法,助力及时发现并处置安全威…

Arch安装megaton

安装devkitPro https://blog.csdn.net/qq_39942341/article/details/148387077?spm1001.2014.3001.5501 安装cargo https://blog.csdn.net/qq_39942341/article/details/148387783?spm1001.2014.3001.5501 确认一下bashrc sudo pacman -S git cmake ninjagit clone https:/…

【Qt开发】对话框

目录 1,对话框的介绍 2,Qt内置对话框 2-1,消息对话框QMessageBox 2-2,颜色对话框QColorDialog 2-3,文件对话框QFileDialog 2-4,字体对话框QFontDialog 2-5,输入对话框QInputDialog 1&…

7.4-Creating data loaders for an instruction dataset

Chapter 7-Fine-tuning to follow instructions 7.4-Creating data loaders for an instruction dataset 我们只需将InstructionDataset对象和custom_collate_fn函数接入 PyTorch 数据加载器 ​ 使用以下代码来初始化设备信息 device torch.device("cuda" if tor…

android 上位机调试软件-安卓串口 com ttl 调试——仙盟创梦IDE

在 Android 开发中,基于com.ttl库的串口调试 Web 编写意义非凡。它打破了硬件与软件之间的壁垒,让 Android 设备能够与外部串口设备通信。对于智能家居、工业控制等领域,这一功能使得手机或平板能成为控制终端,实现远程监控与操作…

【笔记】解决虚拟环境中找不到 chromedriver 的问题

✅解决虚拟环境中找不到 chromedriver 的问题 📌 问题描述: 在 Windows 中已将 D:\chromedriver\ 添加到系统环境变量 PATH,在系统终端中运行 chromedriver 没有问题。 但在项目虚拟环境(如 .venv)中运行项目时&…

Linux 基础指令入门指南:解锁命令行的实用密码

文章目录 引言:Linux 下基本指令常用选项ls 指令pwd 命令cd 指令touch 指令mkdir 指令rmdir 指令 && rm 指令man 指令cp 指令mv 指令cat 指令more 指令less 指令head 指令tail 指令date 指令cal 指令find 指令按文件名搜索按文件大小搜索按修改时间搜索按文…

基于STM32的循迹避障小车的Proteus仿真设计

文章目录 一、基于STM32的循迹避障小车1.题目要求2.思路2.1 主控2.2 显示2.3 电源模块2.4 舵机云台2.5 超声波测距2.6 红外循迹模块2.7 蓝牙模块2.8 按键2.9 电机驱动 3.电路仿真3.1 未仿真3.2 自动模式3.3 手动模式3.4 蓝牙模式 4.仿真程序4.1 程序说明4.2 主程序4.3 红外程序…

周星驰导演电影《女足》今日杀青 历时三月圆满收官

迪丽热巴主演的周星驰执导电影《女足》于2025年6月2日正式杀青。此前有报道称,新电影《女足》的路透拍摄画面曝光,其中包含特效动作场面,看起来与《少林足球》相似。该片由周星驰执导,结合了少林功夫与足球元素,讲述了中国女子足球队“峨嵋队”征战亚冠杯的热血故事。整个…

树欲静而风不止,子欲养而亲不待

2025年6月2日,13~26℃,一般 待办: 物理2 、物理 学生重修 职称材料的最后检查 教学技能大赛PPT 遇见:使用通义创作了一副照片,很好看!都有想用来创作自己的头像了! 提示词如下: A b…

《Global Securities Markets》中保证金与卖空制度知识点总结

一、保证金制度核心要点 (一)保证金基础概念 在证券交易语境下,保证金是投资者开展特定交易时向经纪商缴纳的现金或证券抵押品,其目的在于保障经纪商因向投资者提供信贷而面临的风险敞口。从本质上看,保证金构建起投…

【工具】文章生成器|突破人类认知极限:HUST-GenPaper 智能写作工具设计与实践

效果: 以下是介绍,我这篇博客就是用我自己这个项目复制prompt去问问小白写的,耗时二十分钟,比我以前写博客需要的时间少多了…… 总之就是突然有个点子,然后顺手就实现了,然后分享给大家,有用…

【AI论文】Skywork Open Reasoner 1技术报告

摘要:DeepSeek-R1的成功凸显了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的重要作用。在本研究中,我们提出了Skywork-OR1,这是一种针对长思维链(Chain-of-Thought&#xff0…

webfuture:如何屏蔽后台发文界面的保存为新文章按钮?

问题描述: 如何屏蔽后台发文界面的保存为新文章按钮? 问题解决:修改这个文件 /Admin/Content/Base/css/base.css 定义这个的id saveAsNewItemSubmit #saveAsNewItemSubmit{display: none;}

类和对象:实现日期类

目录 概述 一.实现日期类的基本框架 二.实现比较的运算符重载 1.>的运算符重载 2.的运算符重载 3.其余的比较运算符重载 三.加减天数的运算符重载 1.,的运算符重载 2.-,-的运算符重载 3.对1和2的小优化 四.两个日期类相减的重载 1.,--的重…