基于增强学习的足球机器人行为控制研究

论文摘要

本文针对RoboCup中型组环境下的单机器人行为控制问题,着重研究了增强学习在单任务环境与多任务环境中的应用,仿真验证并初步在实体机器人上实现了基于增强学习的行为控制,提高了机器人自主行为能力。论文首先在单任务环境下机器人行为控制方面开展了研究。针对机器人所处环境具有连续状态、实时性强的特点,论文在传统的基于均匀编码的CMAC神经网络基础上,提出了改进的基于三角剖分的CMAC模型,并结合Sarsa（λ）-学习算法对机器人足球中的截球问题进行了研究和实验。实验结果表明:该模型在对状态空间进行库恩三角化的同时,能够利用CMAC网络较好的泛化性能;相较于传统的基于均匀编码的CMAC模型,改进模型在解决大规模状态空间问题时获得了更好的状态估计性能。在此基础上,论文分析了增强学习在实体中应用时遇到的问题,并进行了相应的改进,成功的将本文所提出的增强学习算法应用到实际环境下的机器人行为控制,针对截球问题进行了研究。应用结果表明,足球机器人能够在大多数情况下成功的拦截住足球。论文同时讨论了启发式信息在增强学习中的应用,给出了ε? Heuristic行为选择策略,实验结果表明,启发式信息能够显著地提高学习效率,这对应用于复杂实际环境下的行为控制具有重要的意义。论文其次在多任务环境下机器人行为控制方面开展了研究。针对足球机器人比赛中经常遇到的在动作级层次上进行控制的问题,论文利用分层式增强学习已有的研究成果,提出了一种基于Sarsa（λ）-学习算法的分层式增强学习框架,在该框架中,任务被分解为高层子任务与低层子任务,其中高层Agent负责任务的上层规划,低层Agent根据高层Agent指定的目标并结合该目标下的策略选择相应的行为。该框架的优点在于能够将任务分解为不同层次上的子任务,这些子任务可以作为模块而被应用到新的任务环境下。论文进一步讨论了高层Agent与低层Agent之间的交互对整个任务学习的影响,通过结合仿真实验来检验这种交互给任务学习所带来的非Markov性,同时通过实验进一步分析了高层Agent与低层Agent各自的学习对整个任务学习的影响,结果表明,高层Agent能够在低层Agent获得近优策略之前对自身策略进行改进。本文针对单机器人行为控制问题开展了增强学习算法应用研究,并根据足球机器人比赛环境下的实际平台情况,较好的解决了理论及应用上相关的问题,促进了增强学习应用于机器人智能控制的相关工作。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景和意义

1.2 课题研究现状和发展趋势

1.3 课题研究的主要内容

第二章增强学习及其结构模型实现方法研究

2.1 Markov 决策过程与增强学习

2.1.1 Markov 决策过程

2.1.2 增强学习模型

2.2 增强学习基本算法

2.3 分层式增强学习

2.3.1 半马氏决策过程

2.3.2 分层与抽象

2.4 增强学习结构模型实现平台及方法研究

2.4.1 NuBot 足球机器人行为控制体系结构

2.4.2 基于实体机器人的增强学习结构模型实现

2.5 小结

第三章基于值函数增强学习的机器人行为控制算法研究

3.1 基于CMAC 的Sarsa 直接梯度增强学习算法

3.1.1 CMAC 的结构

3.1.2 基于CMAC 的Sarsa（λ）-学习直接梯度增强学习算法

3.2 基于CMAC 的Sarsa（λ）增强学习算法在机器人行为控制中的应用

3.2.1 截球问题的Markov 建模描述

3.2.2 仿真实验结果及其分析

3.3 基于三角剖分的CMAC 在机器人行为控制中的应用

3.3.1 基于三角剖分的CMAC 神经网络

3.3.2 基于TRI-CMAC 的增强学习控制器在截球问题中的应用

3.3.3 基于TRI-CMAC 的增强学习控制器在避障问题中的应用

3.4 启发式信息在机器人行为控制中的应用

3.5 小结

第四章基于分层式增强学习的机器人行为控制算法研究

4.1 基于Sarsa（λ）的分层式增强学习机制

4.2 基于CMAC 的分层式增强学习在机器人行为控制中的应用

4.2.1 多任务环境问题及其分层描述

4.2.2 基于CMAC 神经网络的分层式增强学习框架设计

4.3 实验结果及其分析

4.3.1 高层Agent 与低层Agent 同步学习

4.3.2 高层Agent 与低层Agent 异步学习

4.4 小结

第五章结论与展望

5.1 研究工作总结

5.2 未来工作展望

致谢

参考文献

作者在学期间取得的学术成果

基于增强学习的足球机器人行为控制研究

论文摘要

论文目录

相关论文文献

猜你喜欢