团队对抗性游戏决策系统的研究与实现

论文摘要

随着人工智能理论与技术在军事对抗和国民生产等领域的广泛运用，多智能体系统已用于诸多问题的求解。当前，团队对抗性游戏已成为了智能决策控制研究的焦点，如：战机空空协同作战系统、集群式作战机器人和Robocup仿真组足球机器人等。由于娱乐性、对抗性、动态性和不确定性，使其成为人工智能和机器人学结合的理想平台。这些系统，有着共同的特征。首先，比赛的形式是敌我双方阵型的团队博弈，其中每个机器人是具有决策能力的智能体。其次，在比赛过程中，不但要发挥自主角色个体技术，而且还能通过合作策略发挥集体力量。要获得博弈的胜利，必须集成许多技术，其中，决策系统是机器人是否具有高智能的体现，并且是团队对抗获胜的关键。本文对团队对抗性游戏决策系统展开研究，从团队的个体决策来实现团队的整体协作入手，本文设计了团队成员的双层决策模型，包括团队成员的高层协作策略和交互层基本行为策略。基于双层模型的决策系统简化了决策内容的设计与学习，增强了推理的能力，主要内容包括：(1)为团队成员设计交互层基本行为策略，团队成员通过执行交互层基本行为策略反映高层协作策略的整体意图，是高层协作策略学习的基础。本文采用Java规则引擎和遗传编程学习方法，设计交互层基本行为的混合策略控制模型，提高决策系统的易扩展、易修改性和自学习、自适应的能力。设计一种面向行为的、机器自翻译的TableRex语言，对遗传编程个体决策控制程序进行编码，提高遗传编程个体程序解析、执行和进化操作的效率。(2)在交互层基本行为策略的基础上，根据博弈论的冲突分析或相互影响的决策理论，提出了基于随机博弈的团队Agent协作强化学习算法，解决全自主控制方式下的团队成员高层协作策略的学习问题。同时，本文通过人工智能的存储方法，解决多Agent强化学习算法中组合空间和联合行为对存储空间的“维数灾难”性问题，建立人工神经网络存储组合状态和联合策略到长期得益矩阵的Q值映射。本文的研究选用RoboCode坦克仿真引擎作为验证平台，设计Robocode团队的组织结构和及其成员体系结构，团队内的通讯协议等，并着重研究其团队成员决策系统的设计与学习，分别对上面的内容进行了实现和检验。

论文目录

摘要

ABSTRACT

CONTENTS

第一章绪论

1.1 课题来源和意义

1.2 国内外现状的分析

1.2.1 多智能体决策问题的研究方向

1.2.2 常用的团队博弈平台及其决策系统的研究方法

1.3 本课题研究的内容

1.4 论文的组织

第二章 Robocode团队的组织方式与坦克机器人体系结构的设计

2.1 Robocode坦克仿真引擎的介绍

2.1.1 Robocode系统组件

2.1.2 Robocode坦克机器人的详细分析

2.1.3 Robocode的内部架构

2.1.4 Robocode决策系统的研究现状

2.2 全自主型控制方式的Robocode团队设计

2.2.1 Robocode团队的组建方法

2.2.2 Robocode团队的组织方式

2.2.3 Robocode团队坦克机器人的体系结构

第三章团队机器人决策系统的控制结构

3.1 团队对抗游戏决策系统控制结构的设计

3.1.1 团队对抗游戏决策系统的任务和要求

3.1.2 双层决策模型的总体结构

3.2 基于双层决策模型的坦克决策系统架构

3.2.1 Robocode团队内的通讯协议

3.2.2 Robocode团队成员的高层协作策略层

3.2.3 Robocode团队成员的交互层基本行为策略

3.2.4 Robocode团队成员实现的整体框架

第四章团队成员高层协作策略的设计与实现

4.1 多Agent系统的强化学习算法

4.1.1 多Agent强化学习的综述

4.1.1.1 基于博弈论的多Agent强化学习的研究

4.1.1.2 基于随机博弈模型的多Agent的强化学习过程

4.1.2 多Agent非协作强化学习的研究

4.1.3 多Agent协作强化学习的研究现状

4.2 基于随机博弈的团队Agent协作强化学习

4.2.1 基本思想

4.2.2 相关的概念和假设

4.3 Robocode团队成员高层协作策略的实现

4.3.1 基于团队作战的Robocode战场全局状态空间的表示

4.3.2 Robocode团队成员的高层协作策略

4.3.3 Robocode团队Agent协作强化学习算法的增强信号

4.3.4 基于神经网络存储的状态空间表示法

4.4 基于优度评价法的Robocode攻击目标的选取

4.4.1 优度评价法简介

4.4.2 优度评价法实现的具体步骤

4.4.3 优度评价法在Robocode中的具体实现

4.4.3.1 攻击目标选取的相关因素

4.4.3.2 场景的描述

4.4.3.3 攻击目标优度评价步骤

第五章交互层基本行为策略的研究与实现

5.1 交互层基本行为策略的混合控制结构

5.2 基于Java规则引擎的Robocode交互层基本行为策略

5.2.1 规则引擎的选择

5.2.2 基于Jess的Robocode交互层基本行为策略控制结构

5.2.3 知识的形式化表示

5.2.3.1 Robocode战场状态空间在Jess事实库中的表示

5.2.3.2 Robocode产生式规则的形式化表示

5.3 基于机器学习的Robocode交互层基本行为策略

5.3.1 基于遗传编程设计的交互层模块控制程序

5.3.1.1 遗传编程的基本思想

5.3.1.2 机器翻译语言TableRex

5.3.1.3 基于TableRex的Robocode交互层基本行为策略

5.3.2 基于神经网络设计的瞄准角度

结束语

参考文献

攻读硕士学位期间发表的论文

致谢

团队对抗性游戏决策系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢