人工智能中强化学习的研究-信息化专区

人工智能中强化学习的研究

作者：胡成台编辑：寇霞 2007-06-05 00:00 来源：E-WORKS

1.概述

自20世纪90年代以来，随着全球化的形式与国际竞争的日益激烈，对人工智能技术的研究与应用变的越来越被人们关注，且人工智能在制造中的运用以成为实现制造的知识化、自动化、柔性化以实现对市场的快速响应的关键。

但是，目前的人工智能的运用与人们的期待总是有一定的距离。其中，知识的恰当表达与获取、创新能力的实现、软件适应性的缺乏、计算实时性的要求是人工智能运用中的瓶颈问题。而以学习、进化、自组织为主要特征的新一代人工智能可能可以解决这个问题。

知识的恰当表示与获取是以规则为主要代表的符号知识表示具有粒度极限、知识获取困难等弱点，而以神经网络为代表的亚符号知识则难以处理现实世界中复杂的结构化知识，使用进化方法可以很好的解决这个问题。

创新能力的实现。在制造过程中，人们对智能系统的需求包括辅助用户进行创新的能力、代替人类进行决策的能力，以及超越人的知识范围进行创新的能力。使用学习能力可以实现创新能力。

软件适应性的缺乏使专家系统在实际运用中困难重重。其重要原因是无法适应各个环境的不同。具有学习和进化能力的智能系统可以很好的解决这个问题。

计算实时性的要求是智能系统应用中的基本要求，但目前的智能算法都存在搜索收敛速度慢的缺点。较有希望的解决方法是使得系统在求解过程能有效地利用已积累的知识，这种基于知识的搜索能力将随着系统的行动不断增强，从而不必每求解一个问题都从零开始。

在下面的章节中，先简单的介绍一下关于学习、进化与自组织机制的基本概念和共同特征，并对其中一些学习的方法进行详细的叙述。

2.学习、进化与自组织

新一代的智能技术是指80年代以来迅速发展起来的以神经网络（ANN）、进化计算、模糊逻辑、Agent为主要代表的计算只能技术，其中主要具有学习进化与自组织的能力。

学习是指系统适应环境而产生的适应性变化，它使得系统在完成类似任务时更加有效。80年代以来，ANN的学习机制再次得到人们的重视，基于连接机制的亚符号学习又一次成为的当今学习机制研究的热点，提出了竞争学习，进化学习、加强学习等各种新的学习机制。

进化计算是模仿自然界物竞天择、适者生存的进化机制来进行信息处理的技术。进化计算最主要的方法有4种：遗传算法、进化策略、进化规划和遗传编程。这些方法的差异在于基因表达方式的不同以及变异作用的侧重点不同。进化计算的应用十分广泛，主要分为规划、设计、仿真与辩识、控制、分类等。

自组织为具有耗散结构、具有自催化和定向涨落机制的开放式系统在演变过程中呈现出来的全局有序现象，如生命现象、热对流现象等。自组织计算具有以下几个主要特征：

1、问题结构组成的不明确性，结构的形成是系统在对环境信息的不断处理中自发生成的；

2、结构变化没有明确的方向，其知识的积累完全取决于所处理的环境信息中存在的规律性；

3、它强调大量个体的协调作用，是一个高度自主协同的过程，它通过大量的局部相互作用可以产生全局的整体效应。

自组织理论的研究爱目前的复杂性科学的研究中具有突出的地位。

在这三种主要的智能机制中，它们具有多方面的性，主要为以下几点：

1、把结构引入计算过程，这是三者与传统算法的最重要区别。结构作为系统经验与知识的载体，是系统具有学习功能的基础。此外，三者都具有结构与知识的分布性。

2、把系统概念引入计算过程，无论是学习、进化还是自组织，都将算法看作一个系统，从而可以具有反馈能力、记忆能力、动态自适应能力等多种功能，并将计算过程看作系统不断改变的自身过程的过程。

3、把交互性引入计算过程。这种交互包括两种：一是计算内部与环境之间的信息交换，学习系统要从环境获取反馈信息或隐含着规律的信息流，进化系统要把所产生的结构作用于环境，再从环境取得反馈评价信息，自组织系统要求系统与环境之间有不断的信息与能量交流；二是算法内部各组成部分之间的信息交换，学习系统如神经元之间的信息交流，进化系统如种群中个体之间的竞争，自组织系统如系统个体间的竞争与协作。

第1页：人工智能系统第2页：学习机制第3页：使用强化学习的Agent

关注我们