稀疏奖励 - overfit.cn

通常在训练智能体时，我们希望每一步动作都有相应的奖励。但是某些情况下，智能体并不能立刻获得奖励，比如全局奖励的围棋，最终获胜会得到奖励，但是人们很难去设定中间每步的奖励，这会导致学习缓慢甚至无法进行学习的问题。稀疏奖励，奖励塑型，课程学习，好奇心模块，分层强化学习

overfit同步小助手 2023-12-03 21:01:08 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈