强化学习 | 策略梯度 | Natural PG | TRPO | PPO

递进学习策略梯度:从 Gradient、Policy Gradient (REINFORCE、Q Actor-Critic、Advantage Actor-Critic ) 至 Natural Policy Gradient、TRPO、PPO 。逻辑清晰,含大量手写笔记,注释了黎曼流形、Hessia

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈