基于支持向量技术的Agent强化学习研究与应用

论文摘要

支持向量机(SVM)是基于统计学习理论的一种机器学习方法，它具有全局最优解和良好的泛化性能等优点。强化学习是一种无监督的机器学习技术，能够利用不确定的环境下Agent所获得的奖赏来发现最优的行为序列，因此被广泛用于Agent的智能决策。但标准的强化学习算法不能适用于连续状态空间和动作空间的学习。本文针对RoboCup中的具体问题，一方面通过支持向量回归方法来解决RoboCup中球员截球问题，一方面在强化学习中引入支持向量分类技术来解决强化学习中连续状态表示问题，使其适用于RoboCup复杂环境下的Agent智能决策。本文的主要研究工作如下：(1)针对RoboCup中截球问题引入了支持向量回归方法，它通过采集样本训练预测模型来预测agent成功截到球时球运动过的距离。为了达到更好的预测效果，对此模型的参数选择问题进行了相应的研究。最后将此预测模型与广义回归神经网络等传统方法相比较，结果表明在截球距离的预测精度方面要优于传统的广义回归神经网络。(2)针对RoboCup中强化学习的连续状态表示问题，提出一种新的基于SVM分类的强化学习系统，其基本思想是通过SVM良好的泛化性能，先将整个状态空间划分为若干个区间以提供状态的可区分度，然后在此基础上建立状态到动作的映射关系。实验表明，该方法不但能学习到最优策略，并能通过SVM从有限小样本空间泛化到整个状态空间，从而有效解决连续状态空间的表示问题。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 引言

1.2 AGENT技术概述

1.2.1 Agent概念

1.2.2 Agent属性

1.2.3 Agent结构

1.2.4 多Agent系统

1.3 ROBOCUP简介

1.3.1 起源及意义

1.3.2 RoboCup仿真组比赛

1.3.3 当前研究状况

1.4 本文结构

第二章基本理论

2.1 统计学习与支持向量机

2.1.1 统计学习理论

2.1.2 支持向量机

2.1.3 支持向量机回归

2.2 强化学习

2.2.1 强化学习原理

2.2.2 强化学习中的几个关键问题

2.2.3 经典的强化学习算法

2.3 多AGENT强化学习

2.3.1 合作型多Agent强化学习

2.3.2 竞争型多Agent强化学习

2.3.3 半竞争型多Agent强化学习

2.4 支持向量和强化学习结合技术的研究

2.5 本章小节

第三章支持向量回归在ROBOCUP截球技术中的应用

3.1 截球问题背景介绍

3.2 截球问题及其算法

3.2.1 截球问题

3.2.2 算法描述

3.3 仿真实验

3.3.1 评价标准

3.3.2 样本采集

3.3.3 学习参数的确定

3.3.4 实验结果

3.4 本章小结

第四章基于支持向量分类的强化学习模型

4.1 引言

4.2 基于SVM分类的强化学习系统

4.2.1 输入模块

4.2.2 状态划分模块

4.2.3 状态泛化模块

4.2.4 动作决策模块

4.3 过人问题描述以及建模

4.4 实验及其结果分析

4.5 本章小结

第五章结束语

5.1 本文工作总结

5.2 下一步工作展望

参考文献

参与科研项目

研究生期间发表论文情况

基于支持向量技术的Agent强化学习研究与应用

论文摘要

论文目录

相关论文文献

猜你喜欢