强化学习—多智能体

article/2025/8/15 9:58:33

强化学习—多智能体

    • 多智能体强化学习
      • 基本概念
      • 多智能体强化学习的挑战
      • 主要方法与算法
      • 应用领域
      • 总结
    • 纳什均衡
      • 基本定义
      • 直观理解
      • 特点
      • 应用领域
      • 计算方法
      • 总结
    • 笔记
      • 四种常见设定
      • 多智能体下的基本概念
      • 单智能体策略梯度方法用在多智能体问题中的问题
      • 多智能体强化学习(中心化、去中心化)
        • 架构
        • 局部观测
        • 完全去中心化
        • 完全中心化
        • 中心化训练去中心化执行
        • 共享参数
      • 总结

多智能体强化学习

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL) 是强化学习(RL)的一类扩展,专注于多个智能体(agents)在共享的环境中学习和决策的场景。与单智能体强化学习不同,多智能体强化学习需要考虑智能体之间的相互作用、协作与竞争等复杂因素。

基本概念

在多智能体环境中,通常有多个智能体同时存在,它们在同一个环境中感知、行动并获得各自的奖励。每个智能体的行为不仅影响自己的奖励,还可能影响其他智能体的行为和奖励。因此,环境的动态性大大增加。

多智能体强化学习中有几种主要的场景:

  1. 合作(Cooperative):所有智能体的目标一致,它们必须共同努力以最大化全局奖励。例如,多机器人协作完成一个任务。

  2. 竞争(Competitive):智能体之间的目标相互对立,一个智能体的成功可能意味着另一个智能体的失败。例如,棋类游戏或博弈中的对抗。

  3. 混合(Mixed):在一些情况下,智能体之间既有合作又有竞争关系。一个典型的例子是团队竞技游戏,不同的队伍之间竞争,但队伍内部的成员需要合作。

多智能体强化学习的挑战

  1. 非稳定性:在多智能体环境中,由于智能体之间的相互作用,环境对于每个智能体来说是动态变化的,这使得学习变得更加困难。一个智能体的策略更新可能导致其他智能体的策略失效。

  2. 维度灾难:随着智能体数量的增加,状态空间和动作空间的规模急剧扩大,导致计算复杂度显著增加。

  3. 协作与信息共享:在合作场景中,智能体之间可能需要共享信息或策略,以便更好地协作。但是,如何有效地共享信息并避免通信开销成为一个挑战。

  4. 探索与利用的平衡:每个智能体不仅需要在自己的策略中找到探索和利用的平衡,还要考虑其他智能体的行为变化。

主要方法与算法

  1. 独立Q学习(Independent Q-Learning)

    • 这是一个简单的MARL方法,每个智能体独立地执行自己的Q学习算法,忽略其他智能体的存在。虽然简单,但在竞争和复杂的合作环境中效果有限。
  2. 集中式学习和分布式执行(Centralized Training with Decentralized Execution, CTDE)

    • 这种方法在训练期间使用全局信息,包括所有智能体的状态和动作,然后在执行时,各个智能体仅根据本地观测采取行动。CTDE 是目前多智能体强化学习中非常流行的框架。
  3. 联合策略(Joint Policy)

    • 在这种方法中,所有智能体被看作是一个联合智能体,通过一个联合策略来决定在每个状态下所有智能体的联合行动。这种方法适合于完全合作的场景。
  4. 混合策略学习(Mixed Policies Learning)

    • 智能体可以学习多个策略,并根据环境的变化动态选择合适的策略。这在混合合作-竞争的环境中特别有用。
  5. 深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)

    • 这是一个广泛使用的多智能体算法,在CTDE框架下工作。它使用集中式的 Q 函数来指导每个智能体的策略更新,但执行时每个智能体是分布式的。
  6. 注意力机制与通信

    • 在复杂环境中,智能体可能需要通过通信或注意力机制来更有效地共享信息和协作。这种方法可以显著提高在复杂合作任务中的表现。

应用领域

多智能体强化学习被广泛应用于以下领域:

  • 机器人群体控制:如无人机编队、机器人协作等。
  • 游戏AI:如团队竞技游戏中的AI对手或队友。
  • 交通系统:如多车队列管理、智能交通信号控制等。
  • 金融市场:如多代理人间的市场交易和策略竞争。
  • 能源管理:如智能电网中的能源分配与调度。

总结

多智能体强化学习是强化学习中的一个重要分支,涉及多个智能体在动态和交互的环境中学习和决策。它面临着挑战,如非稳定性、维度灾难以及智能体之间的协作与竞争。然而,随着算法的不断进步,MARL 在多个复杂应用领域中显示出巨大的潜力和前景。

如果有更多的具体问题或需要深入讨论某个方面,欢迎继续提问!

纳什均衡

Nash Equilibrium(纳什均衡) 是博弈论中的一个核心概念,用来描述在一个多人参与的博弈中,各个参与者(玩家)在已知其他玩家策略的情况下,无法通过单方面改变自己的策略来获得更好的收益。这意味着在纳什均衡状态下,每个玩家的策略都是对其他玩家策略的最佳回应。

基本定义

在一个包含多个玩家的博弈中,每个玩家都有一个策略集 Σ i \Sigma_i Σi,以及对应的收益函数 u i ( σ 1 , σ 2 , … , σ n ) u_i(\sigma_1, \sigma_2, \dots, \sigma_n) ui(σ1,σ2,,σn),其中 σ i \sigma_i σi表示玩家 i 选择的策略。纳什均衡可以形式化地定义为:

一个策略组合 ( σ 1 ∗ , σ 2 ∗ , … , σ n ∗ \sigma_1^*, \sigma_2^*, \dots, \sigma_n^* σ1,σ2,,σn)是一个纳什均衡, 如果对于每一个玩家i,有:
u i ( σ 2 ∗ , … , σ i ∗ , … , σ n ∗ ) ≥ u i ( σ 1 ∗ , σ 2 ∗ , … , σ i , … , σ n ∗ ) u_{i}(\sigma_2^*, \dots, \sigma_i^*, \dots, \sigma_n^*) \geq u_i(\sigma_1^*, \sigma_2^*, \dots, \sigma_i, \dots, \sigma_n^*) ui(σ2,,σi,,σn)ui(σ1,σ2,,σi,,σn)

这表示玩家 i 的最优策略 σ i ∗ \sigma_i^* σi 给出的收益不小于在其他所有策略 σ i \sigma_i σi 下得到的收益,前提是其他玩家都保持他们的均衡策略不变。

直观理解

纳什均衡的一个简单例子是经典的“囚徒困境”:

  • 情境:两名犯罪嫌疑人被警察抓住并分开审问。每个嫌疑人都有两个选择:招供或沉默。
  • 收益
    • 如果两人都招供,每人各得 5 年刑期。
    • 如果两人都沉默,每人各得 1 年刑期。
    • 如果一个人招供而另一个人沉默,招供者将被释放,而沉默者将被判 10 年刑期。

在这个例子中,招供是每个嫌疑人的纳什均衡策略,因为如果假设对方已经选择了招供,那么无论自己选择什么,结果都会更差(沉默得到 10 年,而招供只有 5 年)。因此,两个嫌疑人都会选择招供,尽管这对他们整体而言并不是最优的选择。

特点

  1. 稳定性:在纳什均衡中,每个玩家都选择了一个最优策略,在其他玩家的策略固定的情况下,没有任何玩家有动机单方面改变自己的策略。
  2. 可能不唯一:一个博弈可能存在多个纳什均衡,有些均衡可能是纯策略均衡(玩家只选择一个策略),而有些可能是混合策略均衡(玩家以某种概率分布选择策略)。
  3. 不一定是全局最优:纳什均衡的收益对所有玩家来说不一定是最大化的。某些情况下,纳什均衡可能会导致“次优”的结果(如囚徒困境)。

应用领域

纳什均衡在许多领域都有广泛应用,包括:

  • 经济学:用于分析市场竞争、定价策略和拍卖机制。
  • 政治科学:用于研究国际关系和战略互动。
  • 生物学:用于解释物种间的竞争和合作行为。
  • 计算机科学:用于多智能体系统中的策略设计和网络安全。
  • 社会科学:用于理解群体行为和公共政策的影响。

计算方法

  1. 纯策略纳什均衡:通过分析各玩家的收益矩阵,找到每个玩家的最优策略组合。
  2. 混合策略纳什均衡:使用数学方法(如线性规划或固定点算法)来计算玩家选择不同策略的概率分布,以达到均衡。

总结

纳什均衡是博弈论中描述策略稳定性的重要概念。在纳什均衡下,每个玩家的策略都是最佳回应,没有人有动力去单方面改变自己的策略。尽管纳什均衡在某些情况下并不一定是全局最优的策略组合,但它在解释和预测多方互动中的行为方面具有广泛的应用和影响。

如果你有其他问题或需要进一步探讨,请随时告知!

笔记

四种常见设定

  • 合作:多个智能体合作大成一个共同目标,共同努力以最大化全局奖励。例如工业机器人合作装配汽车。
  • 竞争:一方的收益是另一方的损失。例如棋类游戏或博弈中的对抗。
  • 混合:智能体之间既有合作又有竞争关系。一个典型的例子是团队竞技游戏,不同的队伍之间竞争,但队伍内部的成员需要合作。
  • 利己:只关注自身最大化收益,自身不关注其他智能体的情况,但自身的决策动作也会影响环境和其他智能体。

多智能体下的基本概念

  • 状态、动作、状态转移

请添加图片描述

  • 回报

请添加图片描述

  • 返回

请添加图片描述

  • 策略网络

请添加图片描述
请添加图片描述

  • 状态价值函数

请添加图片描述
请添加图片描述

单智能体的策略学习:

判断网络收敛的标准是函数J的值停止上升。

请添加图片描述

多智能体策略学习:

判断收敛的标准是:纳什均衡

请添加图片描述

单智能体策略梯度方法用在多智能体问题中的问题

请添加图片描述
请添加图片描述
请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

多智能体强化学习(中心化、去中心化)

架构
  • 完全去中心化:智能体都是独立的个体,每一个智能体独立和环境交互,用自己的观测和回报去更新自己的策略。智能体之间不交流。
  • 完全中心化:所有智能体都将信息传给中央控制器。中央控制器给所有智能体作出决策。
  • 中心化训练去中心化执行:训练时,有一个中央控制器收集所有智能体的观测、动作、奖励。训练好之后。每个智能体用训练好的策略网络作出动作决策。
局部观测

请添加图片描述

完全去中心化

本质是单智能体的策略学习
请添加图片描述
请添加图片描述

完全中心化

训练和决策都需要中央控制器来操作。每个agent没有自己的策略网络和价值网络。

训练时:

请添加图片描述

执行时:

请添加图片描述请添加图片描述
请添加图片描述

缺点:

请添加图片描述

中心化训练去中心化执行

训练需要中央控制器来操作。每个agent有自己的策略网络,但是价值网络都在中央控制器上。中央控制器只是用来帮助训练的,执行动作都是每个agent用自己训练好的策略网络结合自己的局部观测来决策。

训练时:

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

执行时:

请添加图片描述

共享参数

是否共享参数取决于具体应用。每个智能体功能不同,则不共享参数;若功能都相同可以相互替换,则可以共享参数。

请添加图片描述请添加图片描述
请添加图片描述

总结

请添加图片描述请添加图片描述

请添加图片描述
请添加图片描述


http://www.hkcw.cn/article/bnksZVnsHU.shtml

相关文章

别卷了!秘塔 AI 把“学不完“变成“暴风吸入“

大家好,我是泽安,见字如面! “提到秘塔 AI,80%的人可能一脸懵——但如果你还在用传统方式学习,那你真的亏大了!” 2025 年 AI 工具大爆发,但大多数还是“通用型”,而秘塔 AI 却悄悄…

Spring Boot集成Spring Ai框架【详解 搭建Spring Ai项目,以及简单的ai大模型智能体应用,附有图文+示例代码】

文章目录 一.Spring Ai介绍1.0 认识Spring Ai1.1 特征1.1 大模型专业名字介绍1.1.1 RAG(检索增强生成)RAG 的基本原理RAG 的关键技术RAG 的优势RAG 的应用场景 1.1.2 fine-tuning(微调)1.1.3 function-call(函数调用) 1.2 创建简单的Spring Ai项目 二.Spring Ai简单的智能应用2…

如何使用服务器训练AI模型

如何使用服务器训练模型 大家好,这里是肆十二,之前有小伙伴反馈说自己的电脑只有cpu,没有GPU,也想要体验一下使用gpu训练模型,或者有的小伙伴反馈说自己所在的实验室提供了linux的服务器,但是不怎么会用&a…

(4)ModalAI VOXL

文章目录 前言 4.1 购买什么 4.2 硬件设置 4.3 VOXL 摄像机配置 4.4 自动驾驶仪配置 4.4.1 使用 OpticalFlow 进行 EKF3 光源转换 4.5 视频 前言 本文介绍了如何将 ModalAI VOXL-CAM 与 ArduPilot 配合使用,以替代 GPS,从而实现 Loiter、PosHold…

Cursor —— AI编辑器 使用详解

Cursor - The AI Code Editor 一、Cursor 是什么? Cursor 是一款优秀的AI代码编辑器,它内置了 Deepseek-R1、GPT-4、Claude等 AI 模型。 简单说,就是:Cursor VS Code 编辑器 AI 大模型 Cursor 功能特性(代码补全、…

开源免费!AI视频分析神器,智能识别画面,1秒提取关键帧!附详细教程

大家好!我是羊仔,专注AI工具、智能体、编程。 在AI时代,每天都有各种各样的新鲜事物涌现,简直可以用“日新月异”来形容。 羊仔就是个喜欢在AI世界里瞎折腾的人,专门给大家伙儿挖掘那些好用又好玩的AI工具。 今天&am…

Browser-Use WebUI:让AI自动使用浏览器帮你查询信息执行任务

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

从零开始:如何用Python训练一个AI模型(超详细教程)

引言 人工智能(AI)——一个熟悉又神秘的词汇。我们常听说它可以生成诗歌、编写代码、创作艺术,甚至回答各种问题。然而,当你想亲手实现一个“AI 模型”时,却可能感到无从下手。这篇教程正是为你准备的,将带…

黄觉凭《藏海传》火出圈 反派角色引关注

《藏海传》中,平津侯庄芦隐成为火出圈的配角之一。这个角色贯穿整部剧,是核心反派,阴鸷多疑且心狠手辣。黄觉饰演的平津侯在剧中权倾朝野,是肖战饰演的男主藏海复仇计划的主要目标。他与多位演员有精彩的对手戏,无论是与藏海之间的对决还是与曹静贤之间的较量,都为观众带…

马斯克再度否认“吸毒成瘾” 澄清媒体报道不实

当地时间5月31日,马斯克在社交平台上回应了有关他“经常服用氯胺酮、摇头丸和迷幻蘑菇”以及“吸毒成瘾导致膀胱问题”的报道。他表示这些说法并不属实,并指责《纽约时报》的报道是胡编乱造。马斯克解释说,几年前他曾尝试过处方氯胺酮,并在X平台上公开谈论过此事。他认为这…

饲养员当大厨 大熊猫吃上美味粽子 创意粽情温暖国宝心

昨天是端午节,长沙生态动物园为大熊猫准备了特别的粽子。饲养员们发挥创意与爱心,为这些国宝打造了一场舌尖上的惊喜。为了让大熊猫吃得健康又开心,饲养员们在食材选择上费尽心思。新鲜的苹果、火龙果、青提、橙子、玉米、圣女果和胡萝卜等被精心挑选出来。粽叶经过严格的清…

专家:中国战机见证中巴友谊 体系化空战显神威

巴参谋长联席会议主席在接受采访时提到,歼-10CE和“枭龙”战机在体系化空战中表现出色。他表示,“阵风”和歼-10CE都是优秀的飞机,但体系化空战是取得胜利的关键。智能技术、网络技术等现代技术的应用对空战胜利起到了重要作用。他特别表扬了中国的歼-10CE和“枭龙”战机,称…

一分钟带你盘点粤港澳车展 七大展馆亮点纷呈

2025粤港澳大湾区国际汽车博览会的展位图已经公布,展会将于5月31日开幕,持续至6月8日,在深圳国际会展中心举行。本次车展设置了7个展馆,每个展馆都有各自的特色和看点。1号馆是比亚迪的专馆,包括比亚迪、腾势、仰望、方程豹等品牌将参展。此外,还将展示比亚迪的多项前沿技…

网友偶遇撒贝宁大喊我去过赛里木湖 美景让人直呼没白活

整理露营装备的北京摄影师小王突然抬头问我:“你见过凌晨五点的赛里木湖吗?”他蹲在帐篷前,手里握着三脚架,镜片上还沾着草屑。“去年我刷到撒老师那句‘白活论’,当天就订了机票。结果你猜怎么着?我在这湖边住了三天,每天换着角度拍,手机相册愣是没一张重复的风景!”…

比亚迪下一步的发展究竟会怎样 技术创新引领未来

在汽车江湖里,比亚迪无疑是一颗耀眼的新星。近年来,它在新能源汽车领域一路狂飙,让无数人为之侧目。那么,比亚迪未来3年的发展空间到底有多大呢?技术创新是比亚迪发展的强劲引擎。以刀片电池为例,凭借高安全性和长续航能力在市场上出尽风头。相关数据显示,搭载刀片电池的…

《折腰》编剧说刘宇宁就是魏劭的样子 铁血柔情的完美诠释

《折腰》的结局让人不舍,这部剧期待已久,突然开播带来了惊喜。短短半个月的追剧时光转瞬即逝,观众们又要从《折腰》的世界中抽离出来。刘宇宁饰演的男主魏劭是一个让人印象深刻的角色。终于迎来了一个不那么传统的古装角色,但他的命运依旧坎坷。坊间流传着关于魏劭的各种说…

专家谈中国新一代导弹技术布局 迈向全球领先

在印巴冲突发生前,非军迷朋友可能对我国的霹雳15E导弹并不熟悉。然而,5月7日印巴之间的一场空战让这款导弹名声大噪,其击落六架战斗机的优异战绩令人惊讶。人们这才意识到,这款起初不起眼的导弹已成为现役空空导弹中最强的存在之一。在我国,霹雳15E只是自用版霹雳15导弹的…

尊界S800意向车主家里都是什么车 华为科技颠覆豪车市场

经过长时间的预热,鸿蒙智行旗下的尊界S800于5月30日正式发布,售价从70.8万元起,最高配置可达111.8万元。此前,鸿蒙智行旗下已有问界、智界、享界三个品牌,分别在20万至60万的不同细分市场取得成功。其中,问界M9连续数月蝉联国内50万级豪华车销冠,对传统豪华品牌BBA造成冲…

24小时内俄3处铁路设施被毁 动脉切割引发恐慌

24小时内,俄罗斯西部交通网遭遇两起严重爆炸事件。5月31日晚,布良斯克州一座客运列车被桥体残骸砸中,造成7人死亡、47人受伤。紧接着在6月1日凌晨,库尔斯克州的一座货运列车也被掀翻,司机双腿受伤严重。俄紧急情况部的救援直升机在夜空中忙碌,俄侦委会将这些事件定性为恐…

51岁吴京获赛车冠军 跨界首战创佳绩

6月1日,爱跑2025中国环塔国际拉力赛圆满结束。随着赛车陆续返回喀什赛区麦盖提N39赛段终点,车手和领航员们激动地拥抱庆祝,他们在这场沙漠赛段中展现了坚持不懈的精神。影视演员吴京首次参赛即成功完赛,并在SS9赛段夺得T4组别冠军,成为比赛的一大亮点。赛后,吴京发文表示…