渔人码头 ⚓🛶

强化学习的数学原理笔记01

本章将会聚焦于强化学习中的基本概念，希望可以简单通俗的语言解释清楚何为状态 (State) 、动作 (Action)、状态空间、行动空间、状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。

2025-09-19 计算机

阅读全文