文档文库
手机版
投诉建议
热门搜索:
心得体会
演讲稿
思想汇报
首页
心得体会
学习心得体会
培训心得体会
军训心得体会
社会实践
作风建设
工作心得体会
教育心得体会
演讲稿
演讲稿格式
演讲稿范文
竞聘演讲稿
师德演讲稿
三分钟演讲稿
思想汇报
思想汇报范文
转正思想汇报
大学生思想汇报
季度思想汇报
教师思想汇报
工作计划
工作计划格式
工作计划开头
工作计划结尾
总结与计划
工作计划模板
工作总结
年终工作总结
年度工作总结
个人工作总结
实习报告
实习报告范文
实习计划范文
实习鉴定范文
实习报告内容
个人简历
求职简历
简历范文
简历模板
简历表格
简历格式
祝福语
春节
除夕
元宵
端午节
合同范文
合同范本
合同样本
合同范本格式
首页
>
正在进行安全检测...
正在进行安全检测...
发布时间:2023-11-21 14:18:00 来源:
文档文库
小
中
大
字号:
手机查看
增强学习
ReinforcementLearning
经典算法梳理
1
:
policyandvalueiteration
前言
就目前来看,深度增强学习(
DeepReinforcementLearning
中的很多方法都是基于以前的增强学习
算法,将其中的
valuefunction
价值函数或者
Policyfunction
策略函数用深度神经网络替代而实现。因
此,本文尝试总结增强学习中的经典算法。
本文主要参考:
1ReinforcementLearning:AnIntroduction
;
2ReinforcementLearningCourse
byDavidSilver
1
预备知识
对增强学习有所理解,知道
MDP
,
Bellman
方程
详细可见:
DeepReinforcementLearning
基础知识(
DQN
方面)
很多算法都是基于求解
Bellman
方程而形成:
ValueIteration
PolicyIteration
Q-Learning
SARSA
2PolicyIteration
策略迭代
PolicyIteration
的目的是通过迭代计算
valuefunction
价值函数的方式来使
policy
收敛到最优。
PolicyIteration
本质上就是直接使用
Bellman
方程而得到的:
那么
PolicyIteration
一般分成两步:
PolicyEvaluation
策略评估。目的是
更新
ValueFunction
PolicyImprovement
策略改进。
使用
greedypolicy
产生新的样本用于第一步的策略评估。
本质上就是使用当前策略产生新的样本,然后使用新的样本更新当前的策略,然后不断反复。理论可以
证明最终策略将收敛到最优。具体算法:
>
>
>
>
>
>
>
>
本文来源:
https://www.2haoxitong.net/k/doc/1c68bad910661ed9ac51f333.html
《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
文档为doc格式
分享到:
相
关
案
例
正在进行安全检测...
2024-04-26
文言文阅读答题技巧归纳
2024-04-26
正在进行安全检测...
2024-04-26
暑假社会实践报告_大学生暑假社会实践报告
2024-04-26
水电施工工艺及验收标准
2024-04-26
为什么昙花开花时间非常短?等
2024-04-26
学习粤语的技巧范文
2024-04-26
正在进行安全检测...
2024-04-26
塑料板楼地面施工工艺
2024-04-26
高考文言文阅读之答题技巧ppt课件下载(人教版高考复习总复习古文训练)
2024-04-26
相关推荐
1
正在进行安全检测...
2
正在进行安全检测...
3
安全验证
4
正在进行安全检测...
5
正在进行安全检测...
6
正在进行安全检测...
7
正在进行安全检测...
8
正在进行安全检测...
9
正在进行安全检测...
10
正在进行安全检测...
推荐内容
正在进行安全检测...
正在进行安全检测...
正在进行安全检测...
正在进行安全检测...
安全验证
正在进行安全检测...
正在进行安全检测...
正在进行安全检测...
正在进行安全检测...
正在进行安全检测...