基于马尔可夫决策理论的规划问题的研究

论文摘要

近年来,智能体及多智能体规划问题成为人工智能领域新的研究热点,且有着广泛的应用前景。本文针对马尔可夫决策过程及其相关理论展开研究,对这些决策理论在接触现实世界的应用时所面临的问题及解决方法做了一定的探讨,最后对相关的一类基本决策算法进行了一定的理论分析和改进。主要涉及到以下几个方面的工作:（1）较为系统的研究了与智能体及多智能体不确定性规划相关的几类基础决策模型及算法。模型部分,首先是最基本的马尔可夫决策模型,然后是在此基础上加入观察不确定性的部分可观察马尔可夫决策模型,以及进一步加入多智能体合作的分布式部分可观察马尔可夫决策模型和多智能体对抗的部分可观察的随机博弈模型。算法部分,针对上述几类模型,均按照后向迭代和前向搜索两大类进行了对比分析。最后,进一步讨论了与时间抽象相关的半马尔可夫决策模型及Option理论,这一理论是设计分等级的规划框架及算法的基础。（2） Robocup仿真2D提供了一个研究大规模不确定环境下多智能体规划问题的标准测试平台。结合对该平台的一些必要的说明,分析了在这种接近现实世界应用的问题中,进行整体规划所需要处理的一些子问题的设计方法,并通过结合现有马尔可夫决策过程相关理论对这些问题进行建模及分析,给出该平台更一般的研究意义。（3） Option理论对应了时间抽象的概念,它为马尔可夫决策理论更多的接触现实世界应用提供一个分等级规划的研究方向。针对类似Robocup仿真2D这种带有观察不确定性的大规模多智能体系统的规划问题,在部分可观察随机博弈模型的基础上,结合策略启发,信念状态压缩,因子化表示法及Option理论,给出了一个新的基于动态行为生成器的决策框架,并在此基础上设计了一个以快速寻找可行解为目标的实时启发式搜索算法。最后,结合仿真2D这一标准平台,对这一决策框架及算法的实用效果进行了检验。（4）基于Option的理论分等级规划时,大规模问题中子策略的求解效率也至关重要。实时动态规划是求解马尔可夫决策过程的一类较新的方法。这类方法除了具有求解效率上的优势外,还很容易被设计成anytime的工作方式。实时动态规划类算法结合了启发式搜索与值迭代的技术,算法的核心问题是分支选择策略与收敛判据。分支选择策略决定了值迭代的收敛速度,收敛判据用以判定解的最优性。通过对启发式函数上界及下界的分析及利用,给出了一个新的收敛判据,称为最优行动判据,以及一个更适合实时算法的分支言癫呗浴Ｗ钣判卸芯菘梢愿绲谋甓ǖ鼻白刺憔纫蟮淖钣判卸┝⒓粗葱?而新的分支选择策略可以加快这一判据的满足。并据此设计了一个有界增量实时动态规划算法（BI-RTDP）。在两种典型仿真实时环境的实验中,BI-RTDP显示了比现有相关算法更好的实时性能。最后,通过对算法异步值迭代机制的研究改进了其在搜索图上处理环的能力,并展示了算法离线求解效果。

论文目录

摘要

ABSTRACT

图表目录

第1章绪论

内容提要

1.1 研究背景

1.1.1 智能体的概念

1.1.2 智能体的认知模型

1.1.3 智能体的体系结构

1.1.4 多智能体系统及其应用

1.2 研究内容

1.2.1 马尔可夫过程

1.2.2 相关决策模型

1.2.3 大规模不确定性规划问题

1.3 研究平台

1.3.1 Robocup的目标

1.3.2 仿真2D平台特点

1.3.3 仿真2D发展回顾

1.4 主要工作及章节安排

第2章马尔可夫决策基础理论

内容提要

2.1 MDP基本模型及概念

2.1.1 基本模型

2.1.2 状态

2.1.3 行动

2.1.4 状态转移函数

2.1.5 策略与值函数

2.2 MDP典型算法

2.2.1 反向迭代类算法

2.2.2 前向搜索类算法

2.3 POMDP基本模型及概念

2.3.1 基本模型

2.3.2 观察

2.3.3 信念状态

2.3.4 主观贝叶斯更新

2.3.5 策略表示形式

2.3.6 值函数表示形式

2.4 POMDP典型算法

2.4.1 值迭代算法

2.4.2 搜索类算法

2.5 多智能体系统相关决策模型

2.5.1 DEC-POMDP模型

2.5.2 POSG模型及策略表示

2.6 多智能体系统典型决策算法

2.6.1 基于动态规划求解POSG

*算法'>2.6.2 基于搜索的MAA^*算法

2.7 Option理论

2.7.1 半马尔可夫决策过程

2.7.2 Option及相关定义

2.8 小结

第3章仿真2D平台中相关子问题的研究

内容提要

3.1 基本介绍

3.1.1 仿真2D平台的C/S结构

3.1.2 问题的POSG建模

3.1.3 智能体的分层设计

3.2 观察更新问题

3.2.1 身份识别问题描述

3.2.2 身份识别算法

3.2.3 分步贝叶斯更新

3.3 行为设计问题

3.3.1 原子动作介绍

3.3.2 基本MDP求解算法的使用

3.3.3 概率分布模型及统计方法的使用

3.3.4 无关状态因素的预分析技术

3.4.模型选择问题

3.4.1 问题分析

3.4.2 情景采样评测

3.5 小结

第4章基于Option理论的分等级规划

内容摘要

4.1 基本介绍

4.2 系统模型及框架

4.2.1 因子化表示

4.2.2 信念状态的处理

4.2.3 立即收益

4.2.4 行为生成器

4.3 决策算法设计

4.3.1 Real-Time框架

4.3.2 启发式函数

4.3.3 分支控制

4.3.4 多智能体的配合及对抗

4.4 实验效果

4.5 小结

第5章对基本马尔可夫决策算法的研究

内容摘要

5.1 基本介绍

5.2 实时动态规划算法

5.2.1 前向搜索算法的收敛判据

5.2.2 Focused RTDP算法

5.3 增量最优的实时动态规划算法

5.3.1 最优行动判据

5.3.2 实时分支选择策略

5.3.3 实时算法设计

5.3.4 在线实验

5.4 算法的进一步改进

5.4.1 异步值迭代

5.4.2 针对环的处理

5.4.3 离线实验

5.5 小结

第6章总结与展望

总结

未来展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

基于马尔可夫决策理论的规划问题的研究

论文摘要

论文目录

相关论文文献

猜你喜欢