正在进行安全检测...

发布时间:2023-11-21 14:18:00   来源:文档文库   
字号:
增强学习ReinforcementLearning经典算法梳理1policyandvalueiteration前言就目前来看,深度增强学习(DeepReinforcementLearning中的很多方法都是基于以前的增强学习算法,将其中的valuefunction价值函数或者Policyfunction策略函数用深度神经网络替代而实现。因此,本文尝试总结增强学习中的经典算法。本文主要参考:1ReinforcementLearning:AnIntroduction2ReinforcementLearningCoursebyDavidSilver1预备知识对增强学习有所理解,知道MDPBellman方程详细可见:DeepReinforcementLearning基础知识(DQN方面)很多算法都是基于求解Bellman方程而形成:ValueIterationPolicyIterationQ-LearningSARSA2PolicyIteration策略迭代
PolicyIteration的目的是通过迭代计算valuefunction价值函数的方式来使policy收敛到最优。PolicyIteration本质上就是直接使用Bellman方程而得到的:那么PolicyIteration一般分成两步:PolicyEvaluation策略评估。目的是更新ValueFunctionPolicyImprovement策略改进。使用greedypolicy产生新的样本用于第一步的策略评估。本质上就是使用当前策略产生新的样本,然后使用新的样本更新当前的策略,然后不断反复。理论可以证明最终策略将收敛到最优。具体算法:

本文来源:https://www.2haoxitong.net/k/doc/1c68bad910661ed9ac51f333.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式