渔人码头 ⚓🛶

机器学习算法03-logistics和最大熵模型

本文将复习并记录的最大熵&logistics模型的推导和思想。

2026-02-21 计算机

阅读全文

机器学习算法02-支持向量机

本文将复习并记录支持向量机的概念、数学推导及SMO实现。

2026-02-09 计算机

阅读全文

本章将会聚焦于强化学习中的基本概念，希望可以简单通俗的语言解释清楚何为状态 (State) 、动作 (Action)、状态空间、行动空间、状态转移(State transition)、策略 (Policy) 、奖励 (Reward)、轨迹 (Trajectory)、回报 (Return)、回合 (Eposide)、马尔可夫决策过程 (Markov Decision Process) 这些概念的定义以及基于这几个概念建立的整个 RL 框架。

2025-09-19 计算机

阅读全文