本文旨在全面解析强化学习算法的分类,带领大家从多个角度深入理解并学习RL算法的分类体系。
无模型与基于模型的强化学习
强化学习算法的一种分类方式是依据代理是否能访问环境模型来进行划分。这一分类方式产生了两个主要的RL分支:无模型学习和基于模型学习。
- 模型RL算法:根据环境的学习模型来选择最佳行动策略。
- 无模型RL算法:通过代理反复试验来选择最优策略。
这两种算法各有优劣,具体比较如下表所示。
基于价值与基于策略的强化学习
另一种RL算法的分类方法则是考虑算法是优化了价值函数还是策略。
策略
策略π是一种从状态s到动作a的映射,其中π(a | s)表示在状态s时采取动作a的概率。策略可以是确定性的,也可以是随机的。
以剪刀石头布游戏为例,玩家通过执行石头、剪刀或布中的一个来决定胜负。策略在此游戏中表现为一种迭代选择。
- 确定性策略易于被利用,如果对手察觉到你的出招模式,他们可以据此制定应对策略。
- 统一的随机策略(uniform random policy)则更为有效,因为你的选择难以预测,对手无法轻易制定应对策略。
价值函数
价值函数是一种衡量状态良好程度的函数,它基于对未来回报(返回值)的预测。返回值(Gt)基本上是自时间点t起“折扣”回报的总和。
折扣因数γ是一个介于0和1之间的值,它主要用于抵扣未来的回报。原因包括便于数学计算、打破状态变化图中的无限循环、应对未来回报的高度不确定性以及反映人们更偏好即时回报的心理特点。
了解返回值的概念后,接下来将定义价值函数的数学形式。
价值函数的数学形式主要有两种:
- 状态-动作价值函数(Q值)表示t时刻状态下采取特定动作的期望返回值。
- 价值RL旨在学习价值/行动-价值函数以生成最佳策略,即隐式生成最佳行动策略;而策略RL则直接通过参数化函数学习策略。
Actor-Critic RL同时学习价值函数和策略。下表详细列出了价值和策略算法的优缺点。
策略与非策略算法的比较
策略算法通常采用“边做边学”的方式,从采样的经验中逐步了解并优化策略。而非策略算法则更像是在“观察”中学习,如机器人通过观察人类行为来学习操作。
通过以上解析,相信您对强化学习算法有了更深入的理解。让我们一起继续分享AI学习与发展的干货,共同探索更多可能性。