IT课程

学员服务第一

IT技术专业学习平台
IT人才专业服务提供商

 

全国热线:400-004-8626

08|Q-Learning Algorithm

首页    技术博文    强化学习    08|Q-Learning Algorithm


在上节课中,我们学会了如何为一个强化学习过程建立Q表。建立Q表的先决条件是,AI知道游戏地图(地图价值)与游戏规则(奖励机制)。泛化理解一下这个概念,如果你想创造一个具备智能并帮你买买买的AI,即AI可以通过不断的浏览某宝,然后不断的尝试购买来测试你的心情。显然你不希望AI买一大堆你不用的东西,真正智能的AI是完全懂你的,帮你在最短时间内找到心仪物品的靠谱商家。AI通过建立Q表来完成它的一系列购买动作,Q表上的得分越高说明AI买的东西越正确,那么建立这样的Q表的两个先决条件就是:

  • AI应该知道每样产品对你心情的改变程度(地图价值);

  • AI应该知道你的心情改变后对会对它做出怎样的举动(奖励机制)

最后AI通过不断更新Q表来努力买到更合适的东西,同时追求长期最大奖励。

强化学习08

超参数

Q-Learning算法旨在为AI行动的每一个时间步计算Q值,它是一个model-free型的算法,就是说即便AI需要探索的环境定义并不完备,它也可以照常执行。在讲解算法之前,我们先来了解一些超参数,调整它们会影响到AI的强化学习性能。因为算法是死的,参数是活的,所以这些参数至关重要。

  • α——学习速率,决定了AI需要优先学习新知识,还是优先保留旧的认知;

  • Υ——折扣因子,决定了AI需要优先关注当前奖励,还是未来奖励。

这两个超参数的取值范围都处于[0,1],可以理解为百分比的形式,例如如果两个超参数都取值为1,那么该AI就会完全忘记旧知识,并且以未来奖励最大化为目标!

强化学习08-01

  • Q-Learning

铺垫的话语讲了那么多,终于可以目睹一下Q-Learning 算法的庐山真面目了。

强化学习08-02

  • Old value 一项就是旧知识;

  • Estimate of optimal future value 就是新知识;

  • Reward 为当前状态下做出行动a所获得的奖励 。

这个公式主要说明了,这一时刻的Q值与下一时刻的最大Q值估计可以用来更新当前的选择。

强化学习08-03

  • 贪婪行动原则

我们并不是必须完成自己规划的每件事情,有时候心情不好就索性佛系了,AI也是如此。贪婪行动原则就是为AI能够有权利控制自己的行动a是否必须执行而设计的,它其实也是一个参数,通常使用ε来表示。在更加复杂的环境中,其实并不好评估AI行动的方向性,尤其是并不完备的环境。例如让AI探索连人类都未知的海底空间,这时对AI行动的意愿计算明显会不太靠谱,因为可能存在一些地图因素是AI设计者没有考虑进来的。如果AI能够有一定的几率做出随机的动作,而不是单纯的按照Q表的得分来执行,那么可能结果会更加鲁棒。ε就是一种概率选择,让AI有ε的概率做出随机动作,而有1-ε的概率按Q表结果执行下一步的最高得分动作。

强化学习08-04

(The End)


2018年9月19日 15:19
浏览量:0
收藏
本网站由阿里云提供云计算及安全服务 Powered by CloudDream