本章将会聚焦于强化学习中的基本概念,希望可以简单通俗的语言解释清楚何为 状态 (State) 、动作 (Action)、状态空间、行动空间、 状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、 回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。
本章将会聚焦于强化学习中的基本概念,希望可以简单通俗的语言解释清楚何为 状态 (State) 、动作 (Action)、状态空间、行动空间、 状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、 回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。