文档文库
手机版
投诉建议
热门搜索:
心得体会
演讲稿
思想汇报
首页
心得体会
学习心得体会
培训心得体会
军训心得体会
社会实践
作风建设
工作心得体会
教育心得体会
演讲稿
演讲稿格式
演讲稿范文
竞聘演讲稿
师德演讲稿
三分钟演讲稿
思想汇报
思想汇报范文
转正思想汇报
大学生思想汇报
季度思想汇报
教师思想汇报
工作计划
工作计划格式
工作计划开头
工作计划结尾
总结与计划
工作计划模板
工作总结
年终工作总结
年度工作总结
个人工作总结
实习报告
实习报告范文
实习计划范文
实习鉴定范文
实习报告内容
个人简历
求职简历
简历范文
简历模板
简历表格
简历格式
祝福语
春节
除夕
元宵
端午节
合同范文
合同范本
合同样本
合同范本格式
首页
>
正在进行安全检测...
正在进行安全检测...
发布时间:1713521768 来源:
文档文库
小
中
大
字号:
手机查看
百度文库
-
让每个人平等地提升自我
前言
就目前来看,深度增强学习(
Deep Reinforcement Learning
中的很多方法都是基于以前的增强学习算法,
将其中的
value function
价值函数或者
Policy function
策略函数用深度神经网络替代而实现。因此,本文尝试
总结增强学习中的经典算法。
本文主要参考:
1
;
2
1
预备知识
对增强学习有所理解,知道
MDP
,
Bellman
方程
详细可见:
很多算法都是基于求解
Bellman
方程而形成:
Value Iteration
Policy Iteration
Q-Learning
SARSA
2 Policy Iteration
策略迭代
Policy Iteration
的目的是通过迭代计算
value function
价值函数的方式来使
policy
收敛到最优。
Policy Iteration
本质上就是直接使用
Bellman
方程而得到的:
那么
Policy Iteration
一般分成两步:
Policy Evaluation
策略评估。目的是
更新
Value Function
Policy Improvement
策略改进。
使用
greedy policy
产生新的样本用于第一步的策略评估。
13
百度文库
-
让每个人平等地提升自我
本质上就是使用当前策略产生新的样本,然后使用新的样本更新当前的策略,然后不断反复。理论可以证明最终
策略将收敛到最优。具体算法:
那么这里要注意的是
policy evaluation
部分。这里的迭代很重要的一点是需要知道
state
状态转移概率
p
。
也就是说依赖于
model
模型。而且按照算法要反复迭代直到收敛为止。所以一般需要做限制。比如到某一个比率
或者次数就停止迭代。
3 Value Iteration
价值迭代
Value Iteration
则是使用
Bellman
最优方程得到
13
本文来源:
https://www.2haoxitong.net/k/doc/907de29e743231126edb6f1aff00bed5b8f3731b.html
《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
文档为doc格式
分享到:
相
关
案
例
正在进行安全检测...
2024-04-19
安全验证
2024-04-19
正在进行安全检测...
2024-04-19
正在进行安全检测...
2024-04-19
正在进行安全检测...
2024-04-19
安全验证
2024-04-19
正在进行安全检测...
2024-04-19
正在进行安全检测...
2024-04-19
正在进行安全检测...
2024-04-19
正在进行安全检测...
2024-04-19
相关推荐
推荐内容