强化学习入门笔记

article/2025/6/10 17:35:43

 

Review:两种机器学习类型

预测

根据数据预测所需输出(有监督学习)

生成数据实例(无监督学习)

决策

在动态环境中采取行动(强化学习)

     转变到新的状态

     获得即时奖励

     随着时间的推移最大化累计奖励

1.强化学习定义

通过从交互中学习来实现目标的计算方法

三个方面

感知:在某种程度上感知环境的状态

行动:可以采取行动来影响状态或者达到目标

目标:随着时间推移最大化累计奖励

强化学习的交互过程

强化学习系统要素

1.历史(History)是观察,行动和奖励的序列

2.状态(state)是一种接下来会发生的事情(行动,观察,奖励)的信息。

~状态是历史的函数

St=f(Ht)

3.策略(policy)是学习智能体在特定时间的行为方式

随机策略本身是一个条件概率分布,确定性策略其实就是实打实的函数。

4.奖励(Reward)

一个定义强化学习目标的标量

能立即感知到什么是“好”的

5.状态价值(Value Function)

状态价值是一个标量,用于定义对于长期来说什么是“好”的

6.环境模型

举例:迷宫

强化学习智能体分类

~基于模型的强化学习:有环境模型,例如迷宫游戏,围棋

~模型无关的强化学习:没有环境模型,Atrai Games

~基于价值:没有策略,价值函数

~基于策略:策略,没有价值函数

~Actor-Critic:策略,价值

 2.强化学习探索与利用

 序列决策任务中的一个基本问题

基于目前策略获取最优收益还是尝试不同的决策

~Expoitation执行能够获取最优收益的决策

~Exporation尝试更多可能得决策,不一定是最优收益

策略探的一些原则

多臂老虎机

多臂老虎机(Multi-Armed Bandit, MAB)是一个经典的理论问题,它在机器学习、统计学和决策理论中都有应用。这个问题的名称来源于赌博中的老虎机,但在这里它是一个比喻,用来描述一个决策过程,其中决策者需要在多个选项中做出选择,以最大化某种收益。

优化策略用来来获得最大化累计时间的收益。

收益估计

Rwgret函数

 

3.MDP

Markov Decision Process

提供了一套为结果部分随机,部分在决策者的控制下的决策过程建模的数学框架

 MDP形式化地描述了一种强化学习环境

~环境完全可预测

即,当前状态可以完全表征过程(马尔科夫性质)

MDP五元组

MDP的动态

1.从状态S0开始

2.智能体选择某个动作

3.智能体得到奖励R

4.MDP随机转移到下一个状态S1

~这个过程不断执行,直到终止状态ST出现为止

~在大部分情况下,奖励只和状态相关

比如,在迷宫游戏中奖励之和位置相关

在围棋中,奖励只基于最终所围地的大小有关

 4.基于动态规划的强化学习

MDP目标和策略

目标:选择能够最大化累计奖励期望的动作

价值函数的Bellman等式

给定起始状态和根据策略π采取动作时的累计奖励期望

最优价值函数

在强化学习(Reinforcement Learning, RL)中,最优价值函数是一个核心概念,它描述了在给定策略下,从某一状态开始所能获得的期望回报的最大化值。

价值迭代和策略迭代

可以对最优价值函数最优策略执行迭代更新

价值迭代

分为同步和异步价值迭代

~同步的价值迭代会储存两份价值函数的拷贝

~异步的价值迭代只存储一份价值函数

策略迭代

其中a步骤开销很大

~1.价值迭代是贪心更新法。

2.策略迭代中,用Bellman等式更新价值函数代价很大

3.对于空间较小的MDP,策略迭代通常很快收敛

4.对于空间较大的MDP,价值迭代更实用(效率更高)

5.如果没有状态转移循环,最好使用价值迭代

 5.基于模型的强化学习

学习一个MDP模型

目前我们关注在给出一个已知MDP模型后:(也就是说,状态转移和奖励函数明确给定后)

~计算最优价值函数

~学习最优策略

在实际问题中,状态转移奖励函数一般不是明确给出的

从“经验”中学习一个MDP模型

学习模型&优化策略

算法

1.随机初始化策略π

2.重复一下过程直到收敛

~另一种解决方式是不学习MDP,从经验中直接学习价值函数和策略

~也就是模型无关的强化学习(Model-free Reinforcement Learning)


http://www.hkcw.cn/article/giVtAesDFg.shtml

相关文章

数据治理中的伦理沙盒与算法进化责任机制

——从数据采集到模型演化的“伦理试验区”设计 摘要 随着AI模型在城市低空经济中的部署频率、响应速度与自适应能力不断提升,其背后的算法演化逻辑已不再是“单次部署、静态运行”,而转向“动态更新、自主学习、连续演进”的自治模式。在这一过程中&a…

使用Python绘制节日祝福——以端午节和儿童节为例

端午节 端午节总算是回家了,感觉时间过得真快,马上就毕业了,用Python弄了一个端午节元素的界面,虽然有点不像,祝大家端午安康。端午节粽子(python)_python画粽子-CSDN博客https://blog.csdn.net…

中央纪委国家监委通报:张建华主动投案!涉嫌严重违纪违法接受调查

国家国防科技工业局原党组成员、副局长张建华涉嫌严重违纪违法,主动投案,目前正接受中央纪委国家监委纪律审查和监察调查。张建华,男,汉族,1961年8月生,江苏宜兴人。1983年8月参加工作,1986年5月加入中国共产党,北京理工大学毕业,研究生学历,工商管理硕士,高级会计师…

国际乒联选举,缘何成了“一地鸡毛”? 线上投票争议不断

当地时间5月27日,国际乒联在多哈举行2025年代表大会,选举新的国际乒联主席和执行委员。经投票后,佩特拉索林当选为国际乒联主席。然而,现场参会人员对投票结果提出质疑:点名投票时线上数量为16人,但最终公布的线上票数却出现了21人。这一争议导致国际乒联执委的选举延期。…

县政府不作为引重大舆情 25人被处理 督办信访诉求不力

5月30日,吉林省纪委监委公开通报了四起形式主义、官僚主义典型问题。其中一起涉及农安县政府办公室在督办解决群众信访诉求方面存在不作为慢作为的问题。2023年11月至2024年5月期间,农安县政府收到上级转办的关于合隆镇“桃花源著”回迁房二期项目建设存在的质量问题和逾期回…

北京:2025年全市防汛抗旱相关责任人公示名单 接受社会监督

北京市人民政府防汛抗旱指挥部决定,全市于2025年6月1日8时上汛。殷勇担任总指挥。为做好2025年防汛抗旱工作,确保责任落实到位,推动各项任务有效实施,市防汛抗旱指挥部对全市防汛抗旱相关责任人进行公示,接受社会监督。责任编辑:zx0001

两天收到同案相反“判决”?官方:纪委监委已介入调查 股权转让纠纷案引关注

近日,网上关于“律师称两天收到同案相反‘判决’”一事引起网民关注。经核实,该案件是平桥区人民法院审理的一起股权转让纠纷案件。律师王良斌代理的这起民事股权纠纷案连续两天收到了结果相反的“判决书”。第一天原告胜诉,第二天则变为原告败诉。对此,河南省信阳市平桥区…

Win10 doccano pip安装笔记

试了一下win10 doccano安装,遇到了一些问题,这儿记录一下。 一、创建一个新环境 conda create -n doccano python3.12 进入doccano环境 conda activate doccano 二、查看官网教程 https://github.com/doccano/doccano/tree/release-1.8.0 三、执行…

曝小因扎吉将执教沙特利雅得新月 欧冠后宣布决定

国际米兰主教练西蒙尼-因扎吉即将宣布加盟利雅得新月。据瑞士天空体育记者萨沙-塔沃列里透露,双方已经就执教条款达成一致。预计因扎吉会在6月1日,即欧冠决赛结束后的第二天,正式公布这一决定。利雅得新月方面对此充满信心。在与利雅得新月的谈判中,因扎吉曾提出希望优先引…

Spark计算单跳页面转换率

目录 代码功能概述 关键步骤解析 数据预处理(fenzi函数): 分母计算(fenmu函数): 转换率计算: 代码优化与拓展建议 修正字段索引错误: 优化分母计算(避免collect&…

Linux进程信号

目录 信号的认识 技术应用角度的信号 信号处理函数 信号概念 信号处理 忽略此信号 执行默认处理动作 产生信号 基本操作 调用系统命令向进程发送信号 闲聊 使用函数产生信号 raise函数 abort 由软件条件产生信号 puase函数 测试 如何理解软件条件 硬件异常产…

AWTK 嵌入式Linux平台实现多点触控缩放旋转以及触点丢点问题解决

前言 最近涉及海图的功能交互,多点触摸又开始找麻烦。 在PC/Web平台awtk是通过底层的sdl2库来实现多点触摸,但是在嵌入式Linux平台,可能是考虑到性能原因,awtk并没有采用sdl库来做事件处理,而是自己实现一个awtk-lin…

电脑重装或者开机出现错误

电脑重装或出现如下错误,遇到的错误信息表明在安装Windows时计算机意外重启或遇到错误,导致安装无法继续,怎么解决,以以下这个电脑举例 按shiftf10出现窗口 输入regedit回车 依次找到以下路径 HKEY_LOCAL_MACHINE/SYSTEM/SETUP…

印军方首次证实有战机被击落 损失数目不详引发关注

印度军方首次证实其在5月份与巴基斯坦的冲突中损失了数量不明的战斗机,同时表示这场为期四天的冲突从未接近核战争爆发点。印度国防参谋长阿尼尔乔汉在新加坡出席香格里拉对话会期间接受采访时说:“重要的并非飞机被击落,而是它们为什么会被击落。”他否认了巴基斯坦方面关于…

为什么当年梅西、内马尔、姆巴佩在巴黎拿不到欧冠,现在球队没有他们反而能夺冠? 青春风暴的胜利

北京时间6月1日凌晨,欧洲冠军联赛决赛落下帷幕。巴黎圣日耳曼队以5比0战胜国际米兰,历史上首次夺得欧冠冠军,并实现了赛季三冠王(法甲、法国杯、欧冠)。多年来,“大巴黎”一直是石油足球和金元足球的代表,坚持“超级巨星路线”,但无论是姆巴佩、梅西还是内马尔都未能带…

【C++】 类和对象(上)

1.类的定义 1.1类的定义格式 • class为定义类的关键字,后跟一个类的名字,{}中为类的主体,注意类定义结束时后⾯分号不能省 略。类体中内容称为类的成员:类中的变量称为类的属性或成员变量;类中的函数称为类的⽅法或 者成员函数。…

Spring之循环依赖源码解析

在学习Spring源码流程解析之前,首先要清楚什么是循环依赖,怎么解决循环依赖再去跟着源码学习一遍,更能加深印象。Mark

贾乃亮晒与甜馨端午节合照 父女笑容神同步

5月31日,贾乃亮在社交媒体上晒出与女儿甜馨的端午节合照,并提问大家猜猜他和甜馨吃的是甜粽还是咸粽。有网友评论说,两人的脸看起来非常相似,就连笑容都很像。甜馨,本名贾云馨,2012年10月23日出生于北京,是演员贾乃亮与李小璐的女儿。2014年4月,她与父亲一起参加了明星…

外交部深夜发声:勿要玩火 坚决反对美方消极言论

6月1日,外交部发言人就美国防长赫格塞思在香格里拉对话会上的涉华消极言论回答了记者提问。有记者问,5月31日,美国防长赫格塞思在香格里拉对话会上发表演讲,大肆渲染中国威胁,并就涉台、南海等问题发表消极言论。对此,中方表示强烈不满和坚决反对,已向美方提出严正交涉。…

零跑汽车5月交付量45067辆 增速超148%

6月1日,据零跑汽车公众号消息,2025年5月,零跑汽车单月交付量45067辆,增速超148%。连续三个月稳居造车新势力领先地位。责任编辑:zx0176