
论文摘要
随着人工智能理论与技术在军事对抗和国民生产等领域的广泛运用,多智能体系统已用于诸多问题的求解。当前,团队对抗性游戏已成为了智能决策控制研究的焦点,如:战机空空协同作战系统、集群式作战机器人和Robocup仿真组足球机器人等。由于娱乐性、对抗性、动态性和不确定性,使其成为人工智能和机器人学结合的理想平台。这些系统,有着共同的特征。首先,比赛的形式是敌我双方阵型的团队博弈,其中每个机器人是具有决策能力的智能体。其次,在比赛过程中,不但要发挥自主角色个体技术,而且还能通过合作策略发挥集体力量。要获得博弈的胜利,必须集成许多技术,其中,决策系统是机器人是否具有高智能的体现,并且是团队对抗获胜的关键。本文对团队对抗性游戏决策系统展开研究,从团队的个体决策来实现团队的整体协作入手,本文设计了团队成员的双层决策模型,包括团队成员的高层协作策略和交互层基本行为策略。基于双层模型的决策系统简化了决策内容的设计与学习,增强了推理的能力,主要内容包括:(1)为团队成员设计交互层基本行为策略,团队成员通过执行交互层基本行为策略反映高层协作策略的整体意图,是高层协作策略学习的基础。本文采用Java规则引擎和遗传编程学习方法,设计交互层基本行为的混合策略控制模型,提高决策系统的易扩展、易修改性和自学习、自适应的能力。设计一种面向行为的、机器自翻译的TableRex语言,对遗传编程个体决策控制程序进行编码,提高遗传编程个体程序解析、执行和进化操作的效率。(2)在交互层基本行为策略的基础上,根据博弈论的冲突分析或相互影响的决策理论,提出了基于随机博弈的团队Agent协作强化学习算法,解决全自主控制方式下的团队成员高层协作策略的学习问题。同时,本文通过人工智能的存储方法,解决多Agent强化学习算法中组合空间和联合行为对存储空间的“维数灾难”性问题,建立人工神经网络存储组合状态和联合策略到长期得益矩阵的Q值映射。本文的研究选用RoboCode坦克仿真引擎作为验证平台,设计Robocode团队的组织结构和及其成员体系结构,团队内的通讯协议等,并着重研究其团队成员决策系统的设计与学习,分别对上面的内容进行了实现和检验。
论文目录
摘要ABSTRACT目录CONTENTS第一章 绪论1.1 课题来源和意义1.2 国内外现状的分析1.2.1 多智能体决策问题的研究方向1.2.2 常用的团队博弈平台及其决策系统的研究方法1.3 本课题研究的内容1.4 论文的组织第二章 Robocode团队的组织方式与坦克机器人体系结构的设计2.1 Robocode坦克仿真引擎的介绍2.1.1 Robocode系统组件2.1.2 Robocode坦克机器人的详细分析2.1.3 Robocode的内部架构2.1.4 Robocode决策系统的研究现状2.2 全自主型控制方式的Robocode团队设计2.2.1 Robocode团队的组建方法2.2.2 Robocode团队的组织方式2.2.3 Robocode团队坦克机器人的体系结构第三章 团队机器人决策系统的控制结构3.1 团队对抗游戏决策系统控制结构的设计3.1.1 团队对抗游戏决策系统的任务和要求3.1.2 双层决策模型的总体结构3.2 基于双层决策模型的坦克决策系统架构3.2.1 Robocode团队内的通讯协议3.2.2 Robocode团队成员的高层协作策略层3.2.3 Robocode团队成员的交互层基本行为策略3.2.4 Robocode团队成员实现的整体框架第四章 团队成员高层协作策略的设计与实现4.1 多Agent系统的强化学习算法4.1.1 多Agent强化学习的综述4.1.1.1 基于博弈论的多Agent强化学习的研究4.1.1.2 基于随机博弈模型的多Agent的强化学习过程4.1.2 多Agent非协作强化学习的研究4.1.3 多Agent协作强化学习的研究现状4.2 基于随机博弈的团队Agent协作强化学习4.2.1 基本思想4.2.2 相关的概念和假设4.3 Robocode团队成员高层协作策略的实现4.3.1 基于团队作战的Robocode战场全局状态空间的表示4.3.2 Robocode团队成员的高层协作策略4.3.3 Robocode团队Agent协作强化学习算法的增强信号4.3.4 基于神经网络存储的状态空间表示法4.4 基于优度评价法的Robocode攻击目标的选取4.4.1 优度评价法简介4.4.2 优度评价法实现的具体步骤4.4.3 优度评价法在Robocode中的具体实现4.4.3.1 攻击目标选取的相关因素4.4.3.2 场景的描述4.4.3.3 攻击目标优度评价步骤第五章 交互层基本行为策略的研究与实现5.1 交互层基本行为策略的混合控制结构5.2 基于Java规则引擎的Robocode交互层基本行为策略5.2.1 规则引擎的选择5.2.2 基于Jess的Robocode交互层基本行为策略控制结构5.2.3 知识的形式化表示5.2.3.1 Robocode战场状态空间在Jess事实库中的表示5.2.3.2 Robocode产生式规则的形式化表示5.3 基于机器学习的Robocode交互层基本行为策略5.3.1 基于遗传编程设计的交互层模块控制程序5.3.1.1 遗传编程的基本思想5.3.1.2 机器翻译语言TableRex5.3.1.3 基于TableRex的Robocode交互层基本行为策略5.3.2 基于神经网络设计的瞄准角度结束语参考文献攻读硕士学位期间发表的论文致谢
相关论文文献
标签:多协作强化学习论文; 随机博弈论文; 博弈论论文;