强化学习基础概念
强化学习(Reinforcement Learning,RL),是指一类从(与环境)交互中不断学习的问题以及解决这类问题的方法. 强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值). 和深度学习类似,强化学习中的关键问题也是贡献度分配问题,每一个动作并不能直接得到监督信息,需要通过整个模型的最终监督信息(奖励)得到,并且有一定的延时性.
强化学习的两个基本对象是 智能体(Agent) 和 环境(Environment) 。智能体可以感知环境的 状态(State) ,执行动作获取反馈的 奖励(Reward) ,并在这个过程中进行学习。而环境是智能体外部的所有事物,受智能体动作的影响并改变其状态,并反馈给智能体奖励。
强化学习的基本概念有:
- 状态,记为
,是对当前环境的描述,可以是离散或连续的。我们记所有状态的集合为 ,称为 状态空间 。 - 动作,记为
,是对智能体行为的描述,同样可以是离散或连续的。们记所有动作的集合为 ,称为 动作空间 。 - 策略函数
,描述了智能体在某一状态下所选择的动作。策略可以分为: - 随机策略。
描述了在状态 下,选择动作 的概率。 - 确定策略。
描述了在状态 下,应该选择什么策略。
相比于确定策略,随机策略能增加动作的多样性,以更好地探索环境。
- 随机策略。
- 奖励函数
,描述了在某状态下智能体采取了某动作后,环境给予的奖励。这是一个标量函数。 - 状态转移概率函数
,描述了当智能体在一个状态下采取某动作后,下一个状态的概率分布。
多臂老虎机
多臂老虎机(Multi-Armed Bandit,MAB)是强化学习的入门问题,它的内容为:假设有一台拥有
我们定义动作空间
懊悔
懊悔是执行最优策略时的奖励期望和实际奖励的差值总和:
其中,
通过观察懊悔随时间的变化,可以看出一个策略的好坏。
奖励期望的估计
根据概率学知识,拉动某摇杆的期望奖励可以用之前结果的均值来估计。因此在拉动若干次拉杆后,我们可以得到关于每一个拉杆期望奖励的估计(在最初,我们认为所有拉杆的奖励期望都是
MAB经典算法
接下来的任务是设计一个策略,以便在每次行动中选择一个拉杆拉下。我们可以将行动分为两类:利用与探索。利用类行动会根据现有的对奖励期望的估计,选取期望奖励最高的摇杆拉下;而探索类行动则会选择其它摇杆拉下,其意义在于更新我们对奖励期望的估计。
下面算法的核心则是平衡利用与探索,以便在得到尽量精确的估计的同时累计更高的奖励。
-贪婪算法
但以恒定的概率
上置信界算法
上置信界算法的核心是将一个拉杆被 “利用” 和被 “探索” 的价值进行量化:如果一个拉杆的平均奖励较高,那么显然它被利用的价值就较高;而若一个拉杆被拉动的次数少,说明对它奖励期望的估计就不准确,那么它被探索的价值就高。上置信界算法利用这两个量化的量为每个拉杆打分,并每次选择评分最高的拉杆,以平衡探索与利用。
为了量化 “探索” 的价值,第一个问题是如何定义一个拉杆奖励期望的不确定性。假设拉动了一个拉杆
那么如何求出
设
是 个独立同分布的随机变量,他们的均值 也是一个随机变量,那么
将上面的不等式稍稍变形,就得到了:
为了计算
解得
根据这个表达式,每次选出得分最高的拉杆拉下即可。
汤普森采样
汤普森采样是另一个MAB的经典算法,它使用
为什么汤普森采样能平衡利用和探索呢?若一个拉杆被拉下的次数较少,它对应的
Comments NOTHING