种树不止为了环境!谁说决策树不是树。
独 钓 寒 江
本章将会聚焦于强化学习中的基本概念,希望可以简单通俗的语言解释清楚何为 状态 (State) 、动作 (Action)、状态空间、行动空间、 状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、 回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。
正则表达式可以允许我们对于文本进行十分精细的处理,但首先我们需要明确其语法与使用方式。在日常使用时,可以结合https://regexr.com食用!网站提供了即时的正则表达式可视化,真是再好不过了!🎇🎇🎇