以上来自wikipedia。
无模型深度强化学习算法可分为两类:
一类是直接根据策略梯度更新策略,获得最优策略;
一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。
上一篇:【初识GNN】Graphical Neural Networks
下一篇:Appnium测试app时,报错:The permission to start activity has been denied