正在进行安全检测...

发布时间:1713521768   来源:文档文库   
字号:
百度文库 - 让每个人平等地提升自我

前言
就目前来看,深度增强学习(Deep Reinforcement Learning中的很多方法都是基于以前的增强学习算法,将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。
本文主要参考:12 1 预备知识
对增强学习有所理解,知道MDPBellman方程 详细可见:
很多算法都是基于求解Bellman方程而形成: Value Iteration Policy Iteration Q-Learning SARSA 2 Policy Iteration 策略迭代
Policy Iteration的目的是通过迭代计算value function 价值函数的方式来使policy收敛到最优。 Policy Iteration本质上就是直接使用Bellman方程而得到的:

那么Policy Iteration一般分成两步:
Policy Evaluation 策略评估。目的是 更新Value Function Policy Improvement 策略改进。 使用 greedy policy 产生新的样本用于第一步的策略评估。
13

百度文库 - 让每个人平等地提升自我

本质上就是使用当前策略产生新的样本,然后使用新的样本更新当前的策略,然后不断反复。理论可以证明最终策略将收敛到最优。具体算法:


那么这里要注意的是policy evaluation部分。这里的迭代很重要的一点是需要知道state状态转移概率p也就是说依赖于model模型。而且按照算法要反复迭代直到收敛为止。所以一般需要做限制。比如到某一个比率或者次数就停止迭代。
3 Value Iteration 价值迭代
Value Iteration则是使用Bellman 最优方程得到
13

本文来源:https://www.2haoxitong.net/k/doc/907de29e743231126edb6f1aff00bed5b8f3731b.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关推荐