算法的分类有哪几种_算法分为哪四种类型-营销方案网

2025-01-3006:14:25销售经验0

本文旨在全面解析强化学习算法的分类，带领大家从多个角度深入理解并学习RL算法的分类体系。

无模型与基于模型的强化学习

强化学习算法的一种分类方式是依据代理是否能访问环境模型来进行划分。这一分类方式产生了两个主要的RL分支：无模型学习和基于模型学习。

这两种算法各有优劣，具体比较如下表所示。

另一种RL算法的分类方法则是考虑算法是优化了价值函数还是策略。

策略π是一种从状态s到动作a的映射，其中π（a | s）表示在状态s时采取动作a的概率。策略可以是确定性的，也可以是随机的。

以剪刀石头布游戏为例，玩家通过执行石头、剪刀或布中的一个来决定胜负。策略在此游戏中表现为一种迭代选择。

价值函数是一种衡量状态良好程度的函数，它基于对未来回报（返回值）的预测。返回值（Gt）基本上是自时间点t起“折扣”回报的总和。

折扣因数γ是一个介于0和1之间的值，它主要用于抵扣未来的回报。原因包括便于数学计算、打破状态变化图中的无限循环、应对未来回报的高度不确定性以及反映人们更偏好即时回报的心理特点。

了解返回值的概念后，接下来将定义价值函数的数学形式。

价值函数的数学形式主要有两种：

Actor-Critic RL同时学习价值函数和策略。下表详细列出了价值和策略算法的优缺点。

策略算法通常采用“边做边学”的方式，从采样的经验中逐步了解并优化策略。而非策略算法则更像是在“观察”中学习，如机器人通过观察人类行为来学习操作。

通过以上解析，相信您对强化学习算法有了更深入的理解。让我们一起继续分享AI学习与发展的干货，共同探索更多可能性。