增强学习 - overfit.cn

强化学习 | 策略梯度 | Natural PG | TRPO | PPO

递进学习策略梯度：从 Gradient、Policy Gradient (REINFORCE、Q Actor-Critic、Advantage Actor-Critic ) 至 Natural Policy Gradient、TRPO、PPO 。逻辑清晰，含大量手写笔记，注释了黎曼流形、Hessia

overfit同步小助手 2022-03-13 09:08:13 0 收藏

登录可以使用的更多功能哦！登录

作者榜

资讯小助手

资讯同步

内容小助手

文章同步

Deephub

公众号：deephub-imba

奕凯

公众号：奕凯的技术栈