0


【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数

文章目录

1.状态(State)

超级玛丽游戏中,观测到的这一帧画面就是一个 状态(State)
在这里插入图片描述

2.动作(Action)

玛丽做的动作:向左、向右、向上即为 动作(Action)
在这里插入图片描述

3.智能体(Agent)

动作是由谁做的,谁就是 智能体(Agent)。自动驾驶中,汽车就是智能体;机器人控制中,机器人就是智能体;超级玛丽游戏中,玛丽就是智能体。

4.策略(Policy)

**策略( Policy

  1. π
  2. \pi
  3. π)**的含义就是,根据观测到的状态,做出动作的方案,
  4. π
  5. (
  6. a
  7. s
  8. )
  9. \pi(a|s)
  10. π(as) 的含义是在状态
  11. s
  12. s
  13. s 是采取动作
  14. a
  15. a
  16. a 的概率密度函数PDF

在这里插入图片描述

5.奖励(Reward)

强化学习的目标就是尽可能的获得更多的 奖励(Reward)
在这里插入图片描述

6.状态转移(State transition)

当智能体做出一个动作,状态会发生变化(从旧的状态变成新的状态)。我们就可以说状态发生的转移。状态转移可以是确定的,也可以是随机的。
在这里插入图片描述
**状态转移函数

  1. p
  2. (
  3. s
  4. s
  5. ,
  6. a
  7. )
  8. p(s' | s, a)
  9. p(s′∣s,a) 的公式:**
  10. p
  11. (
  12. s
  13. s
  14. ,
  15. a
  16. )
  17. =
  18. P
  19. (
  20. S
  21. =
  22. s
  23. S
  24. =
  25. s
  26. ,
  27. A
  28. =
  29. a
  30. )
  31. p(s' | s, a)=\mathbb{P}(S' = s' | S=s, A=a)
  32. p(s′∣s,a)=P(S′=s′∣S=s,A=a)

含义为:

  1. p
  2. (
  3. s
  4. s
  5. ,
  6. a
  7. )
  8. p(s' | s, a)
  9. p(s′∣s,a) 表示在状态
  10. s
  11. s
  12. s 时,采取动作
  13. a
  14. a
  15. a ,跳转到新的状态
  16. s
  17. s'
  18. s 的概率。

7.智能体与环境交互(Interacts with the environment)

步骤一: 智能体观测到环境的状态

  1. s
  2. t
  3. s_t
  4. st​,然后做出动作
  5. a
  6. t
  7. a_t
  8. at

在这里插入图片描述
步骤二: 由于智能体做出了动作

  1. a
  2. t
  3. a_t
  4. at​,环境的状态发生了变化,变成了
  5. s
  6. t
  7. +
  8. 1
  9. s_{t+1}
  10. st+1​;同时由于智能体做出的动作
  11. a
  12. t
  13. a_t
  14. at​, 获得了一个奖励
  15. r
  16. t
  17. r_t
  18. rt​。

在这里插入图片描述

8.强化学习随机性的两个来源(Randomness in RL)

8.1.动作具有随机性(Actions have randomness)

在这里插入图片描述
假定当前状态为

  1. s
  2. s
  3. s,采取的动作
  4. a
  5. a
  6. a 具有随机性,可能采取向左的动作,可能采取向右的动作,可能采取向上的动作。

8.2.状态转移具有随机性(State transition have randomness)

在这里插入图片描述
假定当前状态为

  1. s
  2. s
  3. s,采取的动作为
  4. a
  5. a
  6. a,环境会跳转到下一个状态
  7. s
  8. s'
  9. s′。状态从
  10. s
  11. s
  12. s 到
  13. s
  14. s'
  15. s 的转移具有随机性。

9.轨迹(Trajectory)

由状态

  1. s
  2. t
  3. a
  4. t
  5. e
  6. state
  7. state 、动作
  8. a
  9. c
  10. t
  11. i
  12. o
  13. n
  14. action
  15. action 、奖励
  16. r
  17. e
  18. w
  19. a
  20. r
  21. d
  22. reward
  23. reward 组成的一个序列,成为轨迹(trajectory)。

在这里插入图片描述

10.回报(Return)和折扣回报(Discounted return)

回报: 指未来的累计奖励。从t时刻的开始一直到游戏结束,把未来的奖励加起来称之为回报。注意:**由于t时刻游戏还没有结束,

  1. R
  2. t
  3. R
  4. t
  5. +
  6. 1
  7. R
  8. t
  9. +
  10. 2
  11. R_tR_{t+1}、R_{t+2}
  12. Rt​、Rt+1​、Rt+2 等奖励, 都是随机变量,不是具体的数值。**

在这里插入图片描述
折扣率:

  1. γ
  2. \gamma
  3. γ

折扣回报: 带折扣率的回报。

为什么回报具有随机性?

  • 1)动作是随机的(状态为 s s s 时,采取的动作 a a a 具有随机性): P = [ A = a ∣ S = s ] = π ( a ∣ s ) \mathbb{P}=[A=a | S=s] = \pi(a|s) P=[A=a∣S=s]=π(a∣s)
  • 2)状态转移是随机的(状态 s s s 时采取了动作 a a a ,跳转到下一个状态 s ′ s' s′ ,从状态 s s s 到 状态 s ′ s' s′ 具有随机性): P = [ S ′ = s ′ ∣ S = s , A = a ] = p ( s ′ ∣ s , a ) \mathbb{P}=[S' = s'| S=s, A=a] =p(s'|s, a) P=[S′=s′∣S=s,A=a]=p(s′∣s,a)

因此,对于任意时刻

  1. i
  2. t
  3. it
  4. it,奖励
  5. R
  6. i
  7. R_i
  8. Ri 取决于 状态
  9. S
  10. i
  11. S_i
  12. Si 和动作
  13. A
  14. i
  15. A_i
  16. Ai

所以,回报

  1. U
  2. t
  3. U_t
  4. Ut 取决于状态
  5. S
  6. i
  7. S
  8. i
  9. +
  10. 1
  11. S
  12. i
  13. +
  14. 2
  15. S
  16. i
  17. +
  18. 3
  19. S_iS_{i+1}、S_{i+2}、S_{i+3}…
  20. Si​、Si+1​、Si+2​、Si+3​… 和动作
  21. A
  22. i
  23. A
  24. i
  25. +
  26. 1
  27. A
  28. i
  29. +
  30. 2
  31. A
  32. i
  33. +
  34. 3
  35. A_iA_{i+1}、A_{i+2}、A_{i+3}…
  36. Ai​、Ai+1​、Ai+2​、Ai+3​…

11.价值函数(Value Function)

11.1.动作价值函数(Action-Value Function)

在这里插入图片描述

如何评估随机变量的好坏? ==> 求期望

动作价值函数:

  1. Q
  2. π
  3. (
  4. s
  5. ,
  6. a
  7. )
  8. =
  9. E
  10. [
  11. U
  12. t
  13. S
  14. t
  15. =
  16. s
  17. t
  18. ,
  19. A
  20. t
  21. =
  22. a
  23. t
  24. ]
  25. Q_\pi(s,a) = \mathbb{E}[ U_t | S_t = s_t, A_t = a_t ]
  26. Qπ​(s,a)=E[Ut​∣St​=st​,At​=at​] ,与状态
  27. S
  28. S
  29. S 有关,与动作
  30. A
  31. A
  32. A 有关,同时也与策略
  33. π
  34. \pi
  35. π 有关。

最优动作价值函数:

  1. Q
  2. (
  3. s
  4. ,
  5. a
  6. )
  7. =
  8. max
  9. π
  10. Q
  11. π
  12. (
  13. s
  14. ,
  15. a
  16. )
  17. Q^*(s,a) = \max_{\pi}Q_\pi(s,a)
  18. Q∗(s,a)=maxπ​Qπ​(s,a) 策略
  19. π
  20. \pi
  21. π 有无数种,我们要选择一个能让
  22. Q
  23. π
  24. (
  25. s
  26. ,
  27. a
  28. )
  29. Q_\pi(s,a)
  30. Qπ​(s,a) 最大化的策略
  31. π
  32. \pi
  33. π。

11.2.状态价值函数(State-Value Function)

在这里插入图片描述

状态价值函数:

  1. V
  2. π
  3. (
  4. s
  5. t
  6. )
  7. =
  8. E
  9. A
  10. [
  11. Q
  12. π
  13. (
  14. s
  15. t
  16. ,
  17. A
  18. )
  19. ]
  20. V_\pi(s_t) = \mathbb{E}_A[ Q_{\pi}(s_t, A)]
  21. Vπ​(st​)=EA​[Qπ​(st​,A)] ,利用求期望的方式可以把动作
  22. A
  23. A
  24. A 去掉,因此状态价值函数只与状态
  25. S
  26. S
  27. S 和策略
  28. π
  29. \pi
  30. π 有关。

本文转载自: https://blog.csdn.net/m0_38068876/article/details/118384996
版权归原作者 ADSecT吴中生 所有, 如有侵权,请联系我们删除。

“【强化学习入门】二.强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数”的评论:

还没有评论