GAE的理论基础建立在资格迹(eligibility traces)和时序差分λ(TD-λ)之上,是近端策略优化(PPO)算法的重要基础理论
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈