人工智能中强化学习的研究-信息化专区

人工智能中强化学习的研究

作者：胡成台编辑：寇霞 2007-06-05 00:00 来源：E-WORKS

3.学习

学习机制的研究是人工智能研究的一项核心课题。它是智能系统具有适应性与性能自完善功能的基础。学习过程具有以下特点：学习行为一般具有明显的目的性，其结果是获取知识；学习系统中结构的变化是定向的，要么由学习算法决定，要么由环境决定；学习系统是构造智能系统的中心骨架，它是全面组织与保存系统知识的场所；学习机制与知识表达方式密切相关，神经网络表示形式的知识可以用ANN算法或GA算法来获取，也可以用加强算法来获取。

3.1 统计学的方法

尽管，大部分的学习算法都集中在竞争学习，进化学习和加强学习三个方面。王天树等［2］使用了统计的方法来对学习方法进行设计。他指出，一般从样本进行学习的模型包括三个部分：样本产生器、训练器和学习机器。学习问题就是从给定的函数集中选择出能够最好地逼近训练器响应的函数。在他的文章中，先指出了一些基本的统计方法，并将统计学与图形学相结合，然后对基于统计学基础的图形推理方法的模型建立进行了讨论。

其中该方法的主要步骤如下：

1.对问题的定义，大多数统计模型和方法是针对特定领域的应用问题提出的。为了给出有意义的问题定义，首先要考虑特定领域的知识和经验。

2.收集实验数据，在收集数据时，明确数据产生的机制也是很重要的，因为通过不同方式所产生的数据可能会导致不同的学习结果。

3.数据预处理，数据预处理是一个非常重要的步骤，它影响着整个学习的成败。预处理包括两个方面即检测和消除非正常的离群样本和对样本做适当的转换。

4.选择或设计模型，对同一个问题或许有许多不同的模型可以描述，不同的模型会导致学习结果的不同，因此需要利用该领域的专家的经验和知识来选择或设计适当的模型。

5.学习模型的参数，在确定了所使用的统计模型后，就可以利用统计学习方法来估计模型的参数，需要注意的时，应该使得模型对未知数据有良好的适应性。

6.解释模型、验证模型。通过学习得到的模型的一般用途是对未知数据做预测，并对模型的结构及参数作出解释。需要使用一定的以知数据作为未知数据对模型进行一定的验证。

3.2 增强式学习

增强式学习（Reinforcement Learning）是一种基于行为方法的半监督学习。一般的学习方法分两类，一类是上文提到的基于模型的，在这种方法，智能体需要环境确切的模型，具有较高的智能，但不适合于不确定的动态环境；另一种是基于行为的方法，在这种方法中，不需要环境的确切模型，采用分层结构，高层行为可以调整和抑制低层的行为能力，但每层中都具有其自主的确定权，如[3]中的Holonic智能制造系统。增强式具有这些优点，故常用于机器人足球赛[4]、狩猎问题、甚至战争指挥中[5]，但是这些都只是理论上的研究，因为机器人足球赛的本身目的也是为了测试人工智能的可用性，且更不可能去让战争去由电脑而不是人去指挥了。

增强式学习是基于逐渐逼近的机理，模仿人类的学习策略，其结构图如图1：

图1:增强型学习结构

在增强型学习的结构中，用A来作为一个动作集合（在图中a表示为A一个动作），用S来表示环境状态的有限值，（在图中s表示为S的一个状态）。T为状态改变的过程，既图中的长箭头线，R为报偿函数，每一步智能体观察某状态s，执行某个动作a,这时，它会从这个过程中得到一个补偿值来判定某个行为的好坏。环境的模型由状态转换函数T:S×A→S来表示，它是可感知的环境状态到在这些状态下执行动作的一个映射。这个策略可以使用函数值来表达。但是，函数T和报偿r仅依赖于当前的状态和动作，和以前的状态和动作都无关。智能体通过报偿r来决定某些动作的好坏而更倾向于做好的动作以适应环境。

在[5]的工作中，他使用了一个机器人过机器人系统来对其方法进行测试，仿真环境为10×10 的网格空间, 如图2 所示。两个圆形智能体为协作智能体, 椭圆型的智能体为看守智能体, 两个长方型的物体为障碍物。协作智能体有4种基本行为: 上、下、左、右运动, 看守智能体只可以上下运动来防止协作智能体过门。两个协作智能体只有相互配合, 协作站位才可以通过有看守智能体把守的门。只要有一个协作智能体通过把守门就算成功, 图2 所示为一种目标状态。智能体位置由重心在网格环境中的坐标决定。

图2:[6]中的机器人过人仿真

在使用了文中所改进的方法后，机器人能够在较快的时间内实现过人的过程。并且在实验次数与学习次数方面也有较好的表现。

另一个就是[4]中的足球赛运用，他仍旧是以上文提到的方法为基础，不过对其进行了改进，并叙述了算法运用的详细过程。在分层强化学习中，学习的过程公式是机遇Q学习方法的，不过将Q学习的定义规则定义重新定义为：

故在实际的运用中会有更好的表现。

在[4]的工作中，将学习过程分为三部分进行。第一步先训练智能体学会基本的动作技巧，包括：射门，带球，穿球，开任意球等。然后训练智能体学会在一定的外部环境下，训练智能体在不断改变的外部环境下选取适合的动作。

在实验中将学习状太空间分为了4个部分：

球对学习者的距离和角度

对手对学习者的距离和角度

球门对学习者的距离和角度

球门是否可见。

通过对这几个状态的不断递归（具体方法如图1），在一定次的学习后，机器人可以掌握一定的踢球能力。文中就其研究结果与一些通常的方法进行了比较，结果显示，在一定次数的学习后，他的方法可以得到较优的表现。

第1页：人工智能系统第2页：学习机制第3页：使用强化学习的Agent

关注我们