目录
1.加强学习概况
2.加强学习概念:
3.马科夫决策 - 制定过程
4.贝尔曼方程
5. Q学习基本原理解释
Shi Shi和Alphago的人类 - 金属世纪的峰值对抗不仅吸引了社会所有部门的关注,而且引起了人们对人工智能的讨论。
其中,Alphago底层的核心原则是加强学习。
那么什么是加强学习?
让我们首先看一个故事:
小米现在有问题。他想决定是明天还是玩耍。现在有两种可能性,玩耍和学习。如果当前的情况是选择游戏,那么小米将受到批评。如果您选择学习,他将获得奖励。显然,小米很有可能选择学习。
这是加强学习的内部机制。当对象做出决定时,算法将计算每种可能性的功能。获得的结果称为奖励价值。奖励值将用作该决定的重要参考标准。
因此,对于Alphago来说,它将提前学会很多棋记录,超级许多国际象棋记录。当它确定国际象棋的位置时,它将计算出一个位置,如果将其放置在某个位置,则奖励值是什么。然后,它将选择具有最高奖励值的位置。这是要使用加强学习来下棋。
为了加强学习,没有像许多其他形式的机器学习方法一样,学习系统应该采取什么行为。尝试后必须找到它。奖励还会影响下一步和后来的所有奖励。
作为世界上最强和最高水平的智力,我们的大脑始终做出决策,但是每个决定的过程是这三个步骤:观察→行动→观察。我们观察周围的环境,然后做出相应的行动,然后然后,在操作结束后,外部环境将为我们发出信号。该信号意味着我们的行动对外界有一定的影响。实际上,上述奖励价值),环境将影响我们通过此信号知道。我们获得此奖励价值后,我们将进行下一个基于决定的奖励价值在新环境和获得的奖励价值上。
为了加强学习的对象,我们被称为智能,对于智能政党,实际上,它也是上述过程,也就是说,首先要观察,然后行动,然后观察...每个动作(动作)都是(行动)它可以影响代理(状态)的未来状态,并衡量它是否是标量奖励信号的最佳选择。目标是选择一系列动作来最大化未来的奖励。
关于上述名词,我们使用示例来解释:
状态:
经验是在观察,动作和接收奖励过程中获得的一系列信号值。状态是这些体验信号值的收集。
代理商将根据当前的环境状态(或观察值)选择并执行各自的行动。他们各自的行动所采取的联合行动会影响环境的转移和更新,并确定智能机构获得的反馈。它可以通过meta -group < S,A1,...,An,T,R1,...,Rn > 为了表明s表示状态集,AI和RI表示SMART I的动作集合和奖励集合I。每个状态SI将根据当前RT+1和AT并获得新的RT+2执行新的AT+1。它沿奖励价值的方向迭代。
让我们看看一个例子:
这项任务的目的是将杆垂直放在汽车上。
该任务的相关情况如下:
状态:杆的角度和速度。
动作(动作):汽车向左或向右移动。
奖励:杆不倾斜,设置奖励值,杆倾斜,奖励值为0。
目前,该过程是:汽车将决定从杆的角度和速度向左或向右移动。进行运动操作后,汽车将获得奖励值(杆是倾斜的,这将是0.在这次,将产生新的角度和速度,并且汽车将根据新角度进行相应的操作和速度。以这种方式朝着最大的奖励价值方向,这完成了不落下的任务。
首先,使用Malcov决定有某些要求:
(1)可以检测到理想状态。
该句子的含义是,在决定中,您必须知道哪种状态要达到的目标是什么,例如,当您要走Alphago时,它需要知道哪种状态表明是什么样的状态赢得胜利。这是对的。
(2)您可以多次尝试。
在制定过程中,您需要多次尝试一下,以逐步达到目标状态。某些任务不允许尝试。此类任务不适合加强学习。
(3)系统的下一个状态仅与当前状态信息有关,并且与早期状态无关。它也与决策过程中采用的当前行动有关。
马科夫的决策过程由5个要素组成:
该过程是:
(1)智能主体的初始状态为S0。
(2)选择一个动作A0。
(3)根据概率转移矩阵PSA,将PSA转移到下一个状态S1。在这里,S1是最大概率的状态。
(4)重复(2)(3)两个步骤达到目标状态。
状态值函数:
此函数表示:在t的时刻,有一个状态s,因此在此状态下,最终结果或最终平均结果是什么。此功能用于计算在此状态下可以获得的未来收益的期望,即在此状态下可以获得的期望是在此状态下可以获得的期望。
该价值函数用于衡量某个状态或状态的优势和缺点,即行动的权利和缺点,即取决于当前状态不合适的合适状态。它计算累积奖励的期望,因为它是因为它将被视为当前状态和当前状态的当前状态。
这是根据一定策略获得回报的结果。然后上一篇文章说,需要尝试和错误,您必须经常尝试。必须有很多策略。我想一起选择最好的策略。
最佳价值函数:
最佳价值函数是指所有策略下的最佳累积奖励期望,即找到我们的最佳策略。
那么什么是策略?
战略:
作用的概率分布可以在已知状态下产生。
当前状态值与下一步的状态值和当前奖励(奖励)有关。当前的值函数分为两个部分:当前奖励和下一步。
这并不容易理解,让我们解释一下:
在给定状态s的情况下,动作A的概率分布。
动作空间A,状态空间S是一个有限的集合,因此我们可以通过寻求和计算来计算期望。
说明:需要当前状态值,首先采用执行某个动作的概率(上面的树图中只有两个动作)。在括号中,我们必须添加当前状态的当前状态。[gamma](),然后乘以传输到其他状态的概率矩阵(因为我们必须尝试每个状态,因此我们只能通过概率实现),然后乘以以下状态的值函数。等效于递归)
说明:此公式是说当前状态为ST,在ST+1处执行操作并达到状态。这种转换的概率值是多少?
您也可以这样写:
一般公式对小拜不是很友好,让我们看看一个例子:
说明:对于红色圆7.4,它是怎么来的?对于7.4,它可以执行A3至0分,或者可以将其执行至下点。我们假设执行A3和A4的概率为0.50是一个正方形,代表A3的终止,并且A3的即时奖励为10。(从图为1)的奖励是不够的,因为当前状态不仅计算出即时奖励,而且还计算还有下一个州的奖励。三条道路的3条道路分别为-1.3、2.7和7.4。因此,应计算0.5 [1+0.2(-1.3)+0.42.7+0.4*2.7]两个算术至7.4,上图-1.3、2.7,-2.3都在这里。阅读此示例后,是否理解钟声方程?
上图是房屋的最高视野。该数字代表房间号,第五代表在外面。研究问题是如何离开房间。
因此,对于这个问题,情况就是如此。
房间2可以执行的动作是步行到3室,房间3可以执行的动作是步行到房间1或4室,房间1可以到达房间5,等等。
每个数字可以用作状态,目标状态为状态5,这意味着外出。
您可以将上图抽象到下图中:
其中,状态5的箭头指向您,因为一旦到达状态5,它将继续循环状态5,不会转向其他状态。
在下一步中,我们必须建立奖励。
在这里,您将能够达到目标状态5以将奖励设置为100,而其他则为0。
现在,我们可以理解此图,但是计算机无法理解。在下面,我们将此图片转换为矩阵。
在结构的结构中,我们将元素值设置为未连接点之间的-1。如果有连接,则奖励值是元素值。
让我们开始计算。在计算之前,让我们看一下计算步骤。
上图是一个示例。如果我们要计算状态3,目前必须计算Q(3,1),Q(3,4),因为状态3可以执行到达状态1,或者可以执行到达状态4。第四个动作。通过计算,我们将获得表格。此表格可以表明每个状态都转换为另一个状态。它将获得预期的奖励。使用此形式,我们只需要朝着最大的奖励价值迈进。该表格是通过迭代获得的。
其中,将步骤3的循环与每条途径进行比较以执行一个周期。例如,2、3、1、5是一条线,将执行一个完整的周期。最终发现了I的线。
计算上述示例:
首先![gamma]()= 0.8,初始状态为1,Q的Q由零矩阵初始化。
该行表示状态s,列表示动作A。
我们选择去州5。
想象一下,当我们的经纪人处于状态5时会发生什么?观察矩阵R:转到状态1,4或5的第六行的第六行行为,然后我们应该对此进行计算:
该计算结果为100。因此,我们将Q中的相应位置更改为100。
接下来,进行下一个情节的迭代,首先随机选择初始状态。这次,我们选择状态3作为初始状态,观察矩阵R的第四行(相应状态3),它对应于三种可能的行为:turnto状态1,2或4.随意,我们选择转向状态1。因此,观察第二行矩阵防御(相应的状态1),它对应于两种可能的行为:转到状态3或5。
因此,应该计算出来:
结果是80,更新Q:
这样,在执行逐步执行之后,经过多次,我们将获得Q的收敛。什么是融合?收敛意味着无论您运行多少次,Q中的元素都没有太大变化。
此Q中的元素看起来有点大,因此我们可以以刻画进行处理:
最后,我们得到了这张照片:
要加强学习,请参阅这里,您必须有自己的理解!
如果有错误的地方,我希望读者能够包含更多并批评。
原始:https://juejin.cn/post/7094809073446551560