基于GPU的数据流通用处理模型

论文摘要

数据流是一种新的数据形态。许多应用中会连续不断产生大量随时间演变的序列型数据,构成时间序列数据流,如传感器网络、实时股票行情、网络及通信监控等场合。数据挖掘是分析这类并行多数据流的一种有力工具。但由于数据流长度无限、随时间演变、持续到达、速度快和纬度高的特点,使得传统的数据挖掘方法无法直接应用,于是就出现了一种新的技术——流数据挖掘,也叫数据流挖掘。流数据的这种特殊性使得处理起来困难重重。流数据挖掘的确可以处理数据流,然而,也出现了前所未有的挑战。主要的挑战是被空间（内存）和时间的有限资源所制约的“数据密集型”挖掘。我们需要考虑的第一个根本问题就是如何优化挖掘算法所消耗的内存空间。另一个问题就是如何在最短的时间内完成对数据的处理,以满足数据流处理的实时性。目前这两个问题还没有很好的解决方法。本文主要研究的是GPU并行计算在数据流挖掘领域的应用,特别是高维时间序列数据流的高性能处理问题。在计算资源受限的环境下,为了保证数据流处理的实时性和通用性,本文结合GPU并行计算和CUDA架构,提出了一种基于GPU的数据流通用处理模型。该通用模型适合于各个应用领域的多条高维时间序列数据流,它涵盖了数据流的预处理、减负、概要抽取和挖掘处理等多项功能,能完成数据流处理时的多项任务,如查询处理、聚类、分类、频繁项集挖掘等。本文以k-means聚类算法为例,详细描述了模型中核心区的技术实现。最后,还给出了模型的软件体系结构描述,包括以UML为代表的可视化描述和以ADL为代表的形式化描述,本文采用UML和ADL相结合的方法来描述系统的体系结构。经理论分析和实验验证,该模型有较好的通用性和高效性,又降低了I/0开销,可广泛应用于数据流挖掘领域。

论文目录

摘要

Abstract

引言

1 数据流和图形处理器

1.1 数据流简介

1.1.1 产生背景

1.1.2 数据流模型

1.1.3 概要数据结构

1.1.4 数据流处理

1.2 GPU和CUDA架构

1.2.1 GPU发展史

1.2.2 GPU通用并行计算

1.2.3 CUDA编程模型

1.3 GPU处理数据流的优势和研究现状

1.3.1 流数据挖掘的难点

1.3.2 GPU处理数据流的优势

1.3.3 GPU处理数据流的研究现状

1.4 软件体系结构

1.4.1 简介

1.4.2 核心模型

1.5 章节安排

2 GPU上数据流通用处理模型架构

2.1 总体架构

2.2 通用处理过程

2.3 模型特点

2.4 本章小结

3 通用处理模型的核心区技术实现

3.1 数据流预处理区

3.2 减轻负荷区

3.3 CPU端加载引擎区

3.4 GPU端缓冲区

3.5 数据流概要抽取区

3.6 数据流处理模型库

3.7 数据流处理区

3.8 本章小结

4 模型的软件体系结构描述

4.1 系统的体系结构

4.2 基于UML的可视化描述

4.2.1 类图

4.2.2 构件图

4.3 基于ADL的形式化描述

4.4 本章小结

5 实验

5.1 实验设置

5.2 k-means算法

5.3 对比的CPU程序

5.4 结果分析

5.5 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

基于GPU的数据流通用处理模型

论文摘要

论文目录

相关论文文献

猜你喜欢