人工智能中强化学习的研究-信息化专区

人工智能中强化学习的研究

作者：胡成台编辑：寇霞 2007-06-05 00:00 来源：E-WORKS

3.3使用强化学习的Agent

Agent最早是出现与遗传算法中，使用“Ethogenetics（行为遗传）”的思想，突破了人们长期以来关于一个编码串对应于组合优化问题所有策略变量的一个组合方式的传统、静态的认识，而将一个编码串看成某个智能主体(Agent)主动进行的一系列决策行为的结果。

关于Agent的运用有很多种，主要集中在智能Agent,多Agent系统和面向Agent的程序设计这3个相互关联的方面。智能Agent是多Agent系统的研究基础，可以将有关智能Agent看做是多Agent系统的微观层次。

在[5]中，使用了一种强化学习的Agent来对指挥控制进行仿真研究，试图找到一种可以在一定程度上代替人来进行指挥的系统。

他的方法仍旧是在上文提到的强化学习方法中进行改进，其结构图如下：

图3:　Agent强化学习过程框图

其过程描述如下：

Agent通过感知器感知环境得到环境的一个状态St.

Agent以某一个决策规则选择一个动作或行动方案Ai，并作用于环境。

下一时刻Agent从环境中获取一个奖赏值R（St,Ai），Agent以该奖赏值来修正其内部的决策规则。

在他的工作中，对战场进行了一个仿真，设置为红方与蓝方。红方为进攻方，设置了5个路径向地方的指挥所进攻，而蓝方作为调整方也会对防御策略进行调整。将时间的损耗与人员的伤亡做为判定，并可对其设定一定的权值，如：当不顾伤亡只需时间时将时间权值为１，而伤亡为0,当考虑伤亡而不考虑时间时将时间权值设置为0而将伤亡设为0。权值的设置不同回导致结果的不同。

测试的结果是，开始红方智能体Agent会开始以任意的路径对指挥所进行进攻，而在一些次数的循环后，红方Agent会根据作战要求的不同（是以时间为重或是以伤亡为重）来选择适合的路线，而另一方面，蓝方也会根据进攻方的策略不同而对自己的防守做有效的调整。

4.结束语

学习、进化、自组织同样作为人工智能理论的处理问题的不同方法有着各自独特的个性与共性。一定的研究表明，将来的发展趋势是三种智能处理方法的混合。

本文对学习中的一些方法进行基本的叙述，学习的方法同过两大类来解决，一为模型的方法，本文介绍了一种以统计模型为基础的方法来对学习问题进行阐述。但是在一般的学习中，使用基于行为的方法仍旧是最受人关注的，本文介绍了几种强化学习方法的变形，并对他们的运用进行了一定的叙述。在一定程度上，他们实现仿真的可行行。但是这些仿真大多都是验证性的，真正的人工智能在实际生产中的运用仍旧是一个需要研究的课题。(e-works)

第1页：人工智能系统第2页：学习机制第3页：使用强化学习的Agent

关注我们