理解策略梯度方法:从REINFORCE到PPO

今年2月的时候,导师突然告诉我Ron William离世了。他算是我导师的 a life time friend,关系很好,我做毕业论文的时候,他还来参与了论文的答辩。Ron是一个很友善的老头,和他在强化学习领域的影响力比起来,本人显得非常的低调,质朴。如果说Ron这个名字你很陌生,那么REINFORCE算法的你一定知道,对的,没错,Ron William就是那个paper的一作。

那之后,我一直就想写点什么,去回顾一下REINFORCE这个算法以及这个算法所开创的策略梯度学习,或是去单纯的纪念一下我和Ron的一面之缘。

引言

在强化学习中,策略梯度方法对于通过优化期望累积奖励直接学习最优策略至关重要。这些方法已经从最基础的REINFORCE算法发展到更复杂的方法,如信赖域策略优化(TRPO)和近端策略优化(PPO)。本文将探讨对数技巧的必要性、将轨迹积分转化为样本估计的方法,以及从REINFORCE到TRPO和PPO的演变过程。

对数技巧和样本估计

策略梯度方法的核心思想是通过优化策略参数来最大化期望奖励。然而,直接计算期望奖励的梯度通常是不可行的。这时对数技巧变得至关重要。通过使用对数技巧,我们可以将期望奖励的梯度表示为涉及策略对数概率梯度的期望:

∇θJ(θ)=Eτ∼πθ[∇θlog⁡πθ(τ)R(τ)]\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\nabla_\theta \log \pi_\theta(\tau) R(\tau)]∇θ​J(θ)=Eτ∼πθ​​[∇θ​logπθ​(τ)R(τ)]

其中,πθ\pi_\thetaπθ​ 是由参数 θ\thetaθ 参数化的策略,τ\tauτ 表示轨迹,R(τ)R(\tau)R(τ) 是轨迹的累积奖励。

这一转化将轨迹上的积分转化为样本估计,可以使用蒙特卡罗方法来逼近。通过从策略中采样轨迹,我们可以计算梯度的无偏估计,并相应地更新策略参数。

从REINFORCE到TRPO

REINFORCE的局限性

REINFORCE算法虽然简单直观,但存在一些局限性。由于它依赖于样本估计,策略的更新可能具有较高的方差,导致学习过程不稳定且低效。此外,REINFORCE不能保证更新后的策略质量,因此难以确保每次更新都能改善策略。

TRPO的思想

为了解决这些局限性,信赖域策略优化(TRPO)被引入,它建立在Kakade和Langford(2002)的基础成果之上。这个结果为策略优化中的信赖域方法提供了理论依据,表明两个策略的期望折扣奖励之间的差异可以准确地表示为在新策略上估计但由旧策略计算的期望优势

TRPO的核心思想是通过从旧策略采样来估计这种差异,因为直接计算这种差异是困难的,因为我们不能从新策略采样。TRPO引入了一个代理目标,使用旧策略的样本来估计新策略的性能。这是通过确保更新的策略与先前的策略保持接近,即维持在一个“信赖域”内来实现的。TRPO中的关键优化问题可以表述为:

max⁡θEτ∼πθold[πθ(τ)πθold(τ)R(τ)]\max_\theta \mathbb{E}_{\tau \sim \pi_{\theta_{\text{old}}}} \left[ \frac{\pi_\theta(\tau)}{\pi_{\theta_{\text{old}}}(\tau)} R(\tau) \right]maxθ​Eτ∼πθold​​​[πθold​​(τ)πθ​(τ)​R(τ)] subject to  Eτ∼πθold[DKL(πθold∥πθ)]≤δ\text{subject to} \; \mathbb{E}_{\tau \sim \pi_{\theta_{\text{old}}}} \left[ D_{KL}(\pi_{\theta_{\text{old}}} \| \pi_\theta) \right] \leq \deltasubject toEτ∼πθold​​​[DKL​(πθold​​∥πθ​)]≤δ

这一约束确保策略更新不会显著偏离先前的策略,从而提供更稳定和可靠的学习过程。TRPO的研究结果表明,只要新策略和旧策略足够接近,用在旧策略上计算的期望优势替代在新策略上的计算是可行的

有趣的是,TRPO最初尝试直接用KL惩罚进行优化。然而,这种方法被发现过于严格,导致作者放弃并改用直接优化,这显著增加了算法的复杂性。但是后来,在PPO中,作者发现了更灵活的KL惩罚项,从而又回归到了最初的形式之上。

从TRPO到PPO

用PPO简化TRPO

虽然TRPO为策略优化提供了一个强有力的框架,但它涉及求解一个约束优化问题,这可能在计算上昂贵且复杂。近端策略优化(PPO)通过使用一个裁剪的代理目标来简化这一过程,该目标近似于信赖域约束,而不需要复杂的优化过程:

Eτ∼πθold[min⁡(r(θ)A^,clip(r(θ),1−ϵ,1+ϵ)A^)]\mathbb{E}_{\tau \sim \pi_{\theta_{\text{old}}}} \left[ \min \left( r(\theta) \hat{A}, \text{clip}(r(\theta), 1 - \epsilon, 1 + \epsilon) \hat{A} \right) \right]Eτ∼πθold​​​[min(r(θ)A^,clip(r(θ),1−ϵ,1+ϵ)A^)]

其中,r(θ)=πθ(τ)πθold(τ)r(\theta) = \frac{\pi_\theta(\tau)}{\pi_{\theta_{\text{old}}}(\tau)}r(θ)=πθold​​(τ)πθ​(τ)​ 是概率比率,A^\hat{A}A^ 是优势估计。剪辑函数确保策略的更新不会偏离太多,有效地保持了信赖域的行为。

随机采样和重要性采样

与REINFORCE不同,TRPO和PPO都可以使用随机样本进行更新,而不是整个轨迹。这是通过重要性采样实现的,在这种方法中,使用旧策略的样本来估计当前策略的性能。通过根据概率比率重新加权这些样本,我们可以推导出当前策略梯度的无偏估计。这种新的采样方式也避免了使用对数技巧

实际应用和扩展

在实际中,TRPO和PPO由于其稳健性和效率而被广泛采用。例如,在像ChatGPT这样的大规模模型的训练中,目标通常需要改写为相对于先前策略的期望,以便于重要性采样并应用PPO框架。这种调整允许复杂模型的高效和稳定训练。

结论

从REINFORCE到TRPO和PPO的演变代表了策略梯度方法的重大进步。通过解决REINFORCE中高方差和不稳定的问题,TRPO引入了一种方法来确保策略更新保持在信赖域内,从而基于Kakade和Langford的基础成果提供更可靠的改进。PPO进一步简化了这种方法,使其在实际应用中更易于访问和高效。PPO中灵活的KL惩罚版本展示了策略梯度方法的迭代改进如何导致稳健和高效的算法。这些方法共同构成了现代强化学习的坚实基础,使得开发复杂和有效的策略成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/771280.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

iPhone白苹果怎么修复?4个方法解决你的烦恼!

其实iPhone手机出现“白苹果”这事,如果是iPhone轻度用户,可能大家一辈子都不会遇到一次。但如果是iPhone重度用户、越狱爱好者、软件收集狂,可能就会遇到了。 白苹果,一般指iOS设备出现软、硬件故障,卡在一个类似于启…

6年铲屎官测评宠物空气净化器哪款好,热门养宠空气净化器排名

作为一名资深猫奴,发现很多铲屎官每到春秋换季就开始疯狂打喷嚏、突然开始全身过敏。其原因是猫毛一到换季就开始疯狂掉毛,相对于可见猫毛,漂浮在空气中的浮毛就是罪灰祸首。微小的浮毛在空气总容易被人体吸入体内,而浮毛上面附带…

音乐剪辑免费软件有哪些?7个音频剪辑技巧!

音乐剪辑免费软件有很多,但是适合自己或适合剪辑小白的却屈指可数。 音频剪辑软件千千万,如果是没有任何剪辑经验的小白用户,个人建议使用知名度较高的音频剪辑软件。不管是免费还是收费的音频剪辑软件,只要能够解决问题&#xf…

基于opencv的斜光测距及python实现

1.前言 最近做了一个基于opencv的斜光测距的小项目,东西不多,但是很有意思,值得拿出来学一学。项目里面需要比较精确的定位功能,将前人matlab代码移植到python上,并且做了一些优化,简化逻辑(毕竟我是专业的…

如何选择快手矩阵系统:打造高效短视频营销的指南

快手作为中国领先的短视频社交平台,为内容创作者和品牌提供了广阔的展示舞台。为了更高效地管理和扩展在快手上的影响力,快手矩阵系统成为了一个重要的工具。本文将指导您如何选择一个合适的快手矩阵系统,以优化您的内容管理和营销策略。 快…

Kotlin和Java的一些不同点

1.Kotlin 的变量是没有默认值的(因此要求初始化),Java的成员变量是有默认值的 Java的成员变量: String name; // 默认值是 null int count; // 默认值是 0不过其实 Java 也只是成员变量有默认值,局部变量也是没有默…

中俄汽车产业链合作前景广阔,东方经济论坛助力双边合作与创新

随着中国汽车零部件企业的竞争力和创新能力不断增强,中国汽车及零部件行业在俄罗斯的市场份额和品牌影响力显著提升,中俄两国在汽车产业链上的合作展现出巨大的潜力和广阔的前景。2024年5月,俄罗斯乘用车新车销量达到12.8万辆,同比…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验15 网络故障导致的路由环路问题

一、实验目的 1.验证因网络故障而导致的静态路由的路由环路问题; 二、实验要求 1.使用Cisco Packet Tracer仿真平台; 2.观看B站湖科大教书匠仿真实验视频,完成对应实验。 三、实验内容 1.构建网络拓扑; 2.验证网络故障导致的…

LTSPICE仿真电路:(十九)磁珠的一些简单仿真

1.作用 简单来说就是用来滤波的,将高频信号转化为热量滤除掉,低频有用信号正常通过 2.参数 上图几个参数比较简单,就是字面上的意思,更重要的就是频率阻抗图 不同曲线代表不同型号的磁珠,实际上除了额定电流外&#…

Spring框架的学习SpringMVC(1)

1.什么是MVC (1)MVC其实就是软件架构的一种设计模式,它将软件的系统分为,(视图,模型,控制器)三个部分 1.1View(视图) 视图也就是,在浏览器显示的那一个部分,是后端数据的呈现 1.…

某DingTalk企典 - Token

⚠️前言⚠️ 本文仅用于学术交流。 学习探讨逆向知识,欢迎私信共享学习心得。 如有侵权,联系博主删除。 请勿商用,否则后果自负。 网址 aHR0cHM6Ly9kaW5ndGFsay5jb20vcWlkaWFuLw 浅聊一下 没毛病,就这字段,有效期…

二叉树与堆相关的时间复杂度问题

目录 满二叉树与完全二叉树高度h和树中节点个数N的关系 向上调整算法: 介绍: 复杂度推导: 向下调整算法: 介绍: 复杂度推导: 向上调整建堆: 介绍: 复杂度推导:…

9.x86游戏实战-汇编指令mov

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

怎么找到DNS服务器的地址?

所有域都注册到域名名称服务器(DNS)点,以解析域名应指向的IP地址。此查找类似于在查找个人名称并查找其电话号码时的电话簿如何运行。如果DNS服务器设置错误或指向错误的名称服务器,则域可能无法加载相应的网页。 如何查找当前的…

【python基础】—calendar模块

文章目录 前言一、calendar模块方法1.firstweekday()2.setfirstweekday(firstweekday)3.isleap(year)4.leapdays(y1, y2)5.weekday(year, month, day)6.monthrange(year, month)7.weekheader(n)8.monthcalendar(year, month)9.prmonth(theyear, themonth, w0, l0)10.prcal(year…

堆结构、堆排序

堆 是完全二叉树,类似这种样式的 而这种有右子节点,没左子节点的就不是完全二叉树 分为大根堆和小根堆 大根堆是二叉树里每一颗子树的父节点都是这颗子树里最大的,即每一棵子树最大值是头节点的值 小根堆相反 把数组中从0开始的一段数人…

【等保2.0是什么意思?等保2.0的基本要求有哪些? 】

一、等保2.0是什么意思? 等保2.0又称“网络安全等级保护2.0”体系,它是国家的一项基本国策和基本制度。在1.0版本的基础上,等级保护标准以主动防御为重点,由被动防守转向安全可信,动态感知,以及事前、事中…

Stable Diffusion图像的脸部细节控制——采样器全解析

文章目录 艺术地掌控人物形象好易智算原因分析为什么在使用Stable Diffusion生成全身图像时,脸部细节往往不够精细? 解决策略 局部重绘采样器总结 艺术地掌控人物形象 在运用Stable Diffusion这一功能强大的AI绘图工具时,我们往往会发现自己…

开源的基于图像识别本地实名认证系统(本项目不借助任何api) v1.0

前言: 本项目主要是代替昂贵的实名认证服务api或者sdk,目前仍然存在很多缺点 一、具体介绍 1.组成: 人脸识别服务器分为两部分: (1)、http服务端 server.py共有四个函数: DrawFaceinIdCard:用户上传身份证图片后,服务端会对身份证进行抠人像和ocr处理…

澳蓝荣耀时刻,6款产品入选2024年第一批《福州市名优产品目录》

近日,福州市工业和信息化局公布2024年第一批《福州市名优产品目录》,澳蓝自主研发生产的直接蒸发冷却空调、直接蒸发冷却组合式空调机组、间接蒸发冷水机组、高效间接蒸发冷却空调机、热泵式热回收型溶液调湿新风机组、防火湿帘6款产品成功入选。 以上新…