无模型深度强化学习算法
创始人
2024-03-21 00:27:02
0
  • 无模型深度强化学习算法:直接训练类神经网络模型来表示策略{\displaystyle \pi (a|s)}。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和{\displaystyle V^{\pi }(s)}{\displaystyle Q^{\pi }(s,a)}[6],这类算法包括时序差分学习 TD、深度Q学习 DQN、SARSA。如果动作空间是离散的,那么策略{\displaystyle \pi (a|s)}可以用枚举所有的动作来找出{\displaystyle Q}函数的最大值。如果动作空间是连续的,这样的{\displaystyle Q}函数无法直接建立策略{\displaystyle \pi (a|s)},因此需要同时训练一个策略模型[7][8][9],也就变成一种“演员-评论家actor-critic”算法。

以上来自wikipedia。

无模型深度强化学习算法可分为两类:

一类是直接根据策略梯度更新策略,获得最优策略;

一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。

相关内容

热门资讯

a股有几家上市公司 中国a股上... 齐鲁晚报讯祁鲁镇记者张通讯员6月15日,中国证监会山东监管局连续发布3份辅导工作总结报告,其中2份的...
开办小型日化厂违法吗 小型洗洁... 食品安全一直受到关注,尤其是在这样的大热天,人们对进口的东西更加谨慎。抚顺的朋友们,你们可能已经注意...
马云预言未来十大行业 暴利行业... 说到马云,很多人都很熟悉他。马云通过自己的努力和奋斗,逐渐开创了网上支付,他的眼光和勇气是非常独特的...
总是很自卑怎么办?做什么都做不... 总是很自卑怎么办?做什么都做不好,心态也很不好,感觉真的好累自卑跟性格有很大关系!你可能有些内向!其...
求一部国外电影,关于博物馆的故... 求一部国外电影,关于博物馆的故事讲的是在一个博物馆里每到晚上里面的东西就会复活,好像恐龙骨架什么的,...
我愿做江州司马为你泪湿青衫 我愿做江州司马为你泪湿青衫《琵琶行》白居易 座中泣下谁最多,江州司马青衫湿。同是天涯沦落人,相逢...
肩周炎怎么治? 肩周炎怎么治?肩周炎又称冻结肩、五十肩,是肩关节周围软组织慢性炎症性病变,主要以保守治疗为主。具体治...
谁有古代言而无信的例子? 谁有古代言而无信的例子?谁有古代言而无信的例子? 秦惠文王、张仪:秦惠文王更元十二年(前313年...
学生成长记录手册上家长寄语怎么... 学生成长记录手册上家长寄语怎么写可以写的抒情点,如“在生活中的每一天,都是一个阳光明媚的日子,因为,...
和伴侣在一起时会做哪些事情? 和伴侣在一起时会做哪些事情?情侣刚在一起的时候总是想把自己好的一面展现给对方,但是随着时间长了,感情...