首页 > 正在进行安全检测...

正在进行安全检测...

发布时间：1713521768 来源：文档文库

小中大

字号：

手机查看

百度文库 - 让每个人平等地提升自我

前言
就目前来看，深度增强学习（Deep Reinforcement Learning中的很多方法都是基于以前的增强学习算法，将其中的value function价值函数或者Policy function策略函数用深度神经网络替代而实现。因此，本文尝试总结增强学习中的经典算法。
本文主要参考：1；2 1 预备知识
对增强学习有所理解，知道MDP，Bellman方程详细可见：
很多算法都是基于求解Bellman方程而形成： Value Iteration Policy Iteration Q-Learning SARSA 2 Policy Iteration 策略迭代
Policy Iteration的目的是通过迭代计算value function 价值函数的方式来使policy收敛到最优。 Policy Iteration本质上就是直接使用Bellman方程而得到的：

那么Policy Iteration一般分成两步：
Policy Evaluation 策略评估。目的是更新Value Function Policy Improvement 策略改进。使用 greedy policy 产生新的样本用于第一步的策略评估。
13

百度文库 - 让每个人平等地提升自我

本质上就是使用当前策略产生新的样本，然后使用新的样本更新当前的策略，然后不断反复。理论可以证明最终策略将收敛到最优。具体算法：

那么这里要注意的是policy evaluation部分。这里的迭代很重要的一点是需要知道state状态转移概率p。也就是说依赖于model模型。而且按照算法要反复迭代直到收敛为止。所以一般需要做限制。比如到某一个比率或者次数就停止迭代。
3 Value Iteration 价值迭代
Value Iteration则是使用Bellman 最优方程得到
13

本文来源：https://www.2haoxitong.net/k/doc/907de29e743231126edb6f1aff00bed5b8f3731b.html

《正在进行安全检测....doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

正在进行安全检测...

相关推荐

推荐内容