抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

本章将会聚焦于强化学习中的基本概念,希望可以简单通俗的语言解释清楚何为 状态 (State) 、动作 (Action)、状态空间、行动空间、 状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、 回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。