流数据查询系统结构及模式查询算法的研究

流数据查询系统结构及模式查询算法的研究

论文题目: 流数据查询系统结构及模式查询算法的研究

论文类型: 博士论文

论文专业: 控制理论与控制工程

作者: 刘建伟

导师: 乐嘉锦

关键词: 服务资源框架,流数据,最近邻,相似性查询,混合模型,聚类,模式

文献来源: 东华大学

发表年度: 2005

论文摘要: 当前许多应用需要支持对快速改变的流数据的在线分析查询处理。传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要设计新的流数据查询管理系统和研究新的流数据模式查询算法。 认识到基于Web服务的方法可能成为电子商务和信息技术的基础设施,本文首先提出了构造基于Web服务的分布式流数据查询系统。该系统以建立在标准的Web服务技术之上的WSRF规范为基础。其次,本文的另一项工作是流数据中的模式查询算法的研究。对查询算法的研究,主要集中于流数据的相似性查询和流数据聚类算法研究。 本文的主要研究工作包括以下五个方面内容: 第一,提出了基于Web服务资源框架的流数据查询处理结构。许多当前出现的应用需要支持在线快速改变的流数据的分析处理,同时基于服务的方法在当前电子商务和电子科学领域开发分布式应用时受到广泛关注。因此,本文提出了解决分布式流数据查询的普遍框架,该框架构架于Web服务技术之上,遵守Web服务资源框架。这种分布式基于服务的结构增加了查询系统的可移植性,方便了整个系统的维护,使安装和管理更便捷。同时,这种系统结构把客户端(终端)从系统中分离出来,允许用户从不同的查询节点移动,共享和访问流数据查询处理系统提供的服务。 第二,提出了基于傅立叶变换(DFT)聚类方法的流数据相似性搜索算法。本文提出了先用DFT从时域到频域转换流序列,并用能量最大保持原理提取代表平均意义下能量最大的特征值,并使用聚类方法减少最终要保留下来的代表性子序列个数。最后提出了能够发现两个序列之间存在经过时间轴偏移、幅度放大或缩小以及上升或下降趋势等相似性关系的相似性查询算法。该算法能够处理基于滑动窗口和无限界标窗口模式下的流序列相似性查询问题。实验结果验证了提出算法的有效性。 第三,提出了一种基于摘要技术的在线快速混合模型流数据聚类算法。该算法为分阶段混合模型聚类过程。算法首先对最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类

论文目录:

摘要

Abstract

第一章 绪论

1.1 引言

1.2 流数据查询管理系统和流数据中的模式查询技术

1.2.1 现有流数据查询管理系统及存在的问题

1.2.2 流数据中模式查询技术

1.3 论文研究内容

1.4 论文结构

第二章 流数据查询管理系统和查询算法研究历史与现状

2.1 前言

2.2 流数据管理系统概念

2.2.1 流数据管理系统与传统DBMS的比较

2.2.2 流数据管理系统结构

2.2.3 流数据模型和查询语义

2.2.4 流数据连续查询的定义

2.2.5 流数据查询语言

2.3 流数据数据库技术研究项目现状与进展

2.4 流数据查询摘要数据结构

2.5 流数据近似查询算法

2.5.1 流数据抽样查询算法

2.5.2 基于直方图流数据查询算法

2.5.3 基于小波变换流数据查询算法

2.5.4 基于概率计数流数据查询算法

2.5.5 滑动窗口算法

2.5.6 流数据在线挖掘算法

2.6 流数据查询操作语义的研究

2.6.1 流数据查询操作约束的研究

2.6.2 影响查询操作语义的因素

2.7 连续查询处理和查询最优化

2.7.1 查询最优化的度量方法及优化策略

2.7.2 查询最优化中查询计划和操作调度的权衡

2.8 流数据查询算法新的研究方向

2.9 小结

第三章 基于Web服务资源框架的流数据查询处理系统

3.1 引言

3.2 Web服务资源框架基础知识

3.3 基于Web服务资源框架的系统结构

3.4 框架中各中间件介绍

3.4.1 用户查询门户

3.4.2 注册服务

3.4.3 查询计划生成服务

3.4.4 查询计划执行服务

3.4.5 流打包服务

3.5 WSRF实现机制

3.6 系统实现

3.7 系统实验评价

3.8 相关工作

3.9 小结

第四章 基于傅立叶变换(DFT)和聚类方法的流数据相似性搜索算法研究

4.1 引言

4.2 特征提取算法

4.2.1 增量DFT特征提取

4.2.2 DFT系数的选择问题

4.2.3 聚类

4.2.4 相似性查询

4.3 实验结果

4.4 相关工作

4.5 小结

第五章 基于摘要技术的混合模型流数据聚类算法

5.1 引言

5.2 基于模型的聚类算法背景知识

5.3 一种新的聚类算法研究分析

5.3.1 概率密度摘要的构造

5.3.2 初始聚类混合模型的算法

5.3.3 聚类混合模型的维持算法

5.4 实验结果

5.5 相关工作

5.6 结论

第六章 用快速模糊ARTMAP神经网络动态挖掘Web新闻流中的模式

6.1 引言

6.2 标准的模糊ARTMAP算法

6.3 Web新闻文本特征提取

6.3.1 解析和文本清洗

6.3.2 特征提取和向量空间构造

6.4 新闻流中模式学习算法

6.5 实验结果

6.6 相关工作

6.7 小结

第七章 基于分裂-凝聚的Web新闻流主题发现聚类算法

7.1 引言

7.2 相关的定义

7.3 分裂-凝聚聚类算法分析

7.3.1 流新闻模型

7.3.2 动态分裂-凝聚聚类算法

7.3.3 近邻搜索

7.3.4 动态分裂阶段

7.3.5 动态凝聚阶段

7.4 实验结果

7.5 相关工作

7.6 小结

第八章 总结与展望

参考文献

致谢

附录1:攻读博士期间发表论文

附录2:东华大学学位论文原创性声明

附录3:东华大学学位论文版权使用授权书

发布时间: 2006-05-19

参考文献

  • [1].流数据统计算法研究[D]. 聂国梁.华中科技大学2006
  • [2].流数据查询算法若干关键技术研究[D]. 李卫民.东华大学2008
  • [3].流数据在线异常检测方法研究[D]. 丁智国.上海大学2015
  • [4].面向评测基准的社交流数据生成[D]. 于程程.华东师范大学2016
  • [5].实时流数据分析的关键技术及应用[D]. 杨定裕.上海交通大学2015
  • [6].流数据的频繁项挖掘及聚类的关键技术研究[D]. 屠莉.南京航空航天大学2009
  • [7].面向大数据的相似度度量的加速研究[D]. 徐小维.华中科技大学2016
  • [8].时空流计算模型及其在边缘计算环境下的验证[D]. 郑晔.浙江大学2017
  • [9].流数据挖掘关键技术研究[D]. 倪萍.北京邮电大学2010
  • [10].面向健康服务的可穿戴设备安全认证与隐私数据发布[D]. 王俊.武汉大学2017

相关论文

  • [1].面向流数据特征提取的人工免疫网络模型研究[D]. 岳训.大连理工大学2006
  • [2].基于网格和密度的数据流聚类方法研究[D]. 单世民.大连理工大学2006
  • [3].数据流聚集查询和频繁模式挖掘的研究[D]. 刘学军.东南大学2006
  • [4].数据流概要与数据流分析若干关键问题研究[D]. 王永利.东南大学2006
  • [5].数据流聚类分析算法[D]. 曹锋.复旦大学2006
  • [6].分布式数据流查询处理若干关键技术的研究[D]. 杨颖.东华大学2006
  • [7].流数据统计算法研究[D]. 聂国梁.华中科技大学2006
  • [8].流数据查询算法若干关键技术研究[D]. 李卫民.东华大学2008

标签:;  ;  ;  ;  ;  ;  ;  

流数据查询系统结构及模式查询算法的研究
下载Doc文档

猜你喜欢