无模型深度强化学习算法
创始人
2024-03-21 00:27:02
0
  • 无模型深度强化学习算法:直接训练类神经网络模型来表示策略{\displaystyle \pi (a|s)}。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和{\displaystyle V^{\pi }(s)}{\displaystyle Q^{\pi }(s,a)}[6],这类算法包括时序差分学习 TD、深度Q学习 DQN、SARSA。如果动作空间是离散的,那么策略{\displaystyle \pi (a|s)}可以用枚举所有的动作来找出{\displaystyle Q}函数的最大值。如果动作空间是连续的,这样的{\displaystyle Q}函数无法直接建立策略{\displaystyle \pi (a|s)},因此需要同时训练一个策略模型[7][8][9],也就变成一种“演员-评论家actor-critic”算法。

以上来自wikipedia。

无模型深度强化学习算法可分为两类:

一类是直接根据策略梯度更新策略,获得最优策略;

一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。

相关内容

热门资讯

【手写 Promise 源码】... 一,前言 目前,以下专栏已完结(初版完结,持...
利用Golang可选参数实现可... 本文讨论Golang函数可选参数及函数类型,以及如何利用可选函数类型实现可选模式。同时...
【学习笔记】[AGC040F]... 我是丝薄因为我不会GF 考虑纯组合意义的推导。因为我真的不会数学啊 设(x,d)(x,d)(x,d)...
java线程中断 interr... 1.  线程的状态: new -> 创建完线程,但是还没有启动runna...
16 | 如何做好面试后的复盘... 前言 前言:将经验转换为能力,就需要从经历的事情上总结复盘。 文章目...
Python基础学习七 类 Python从设计之初就已经是一门面向对象的语言,正因为如此,在Py...
day 19 暴力枚举 注意:用long long 存答案P2241 统计方形(数据加强版&#x...
嵌入式理论复习题库(期末考试版... 一、填空题15*1=15 1. 要下载并调试 STM32 程序,可采用   ...
OSG三维渲染引擎编程学习之二... 目录 第三章:OSG场景组织 3.6 Transform变换节点 第三章:OSG场景组织 ...
cmake 04 使用 pyt... 本文目标 使用 python 写一个管理 cmake 工程的 cli 程序 参考 Python CL...