数据流概要与数据流分析若干关键问题研究

数据流概要与数据流分析若干关键问题研究

论文摘要

传感器数据处理、金融证券管理、Internet流量监控、Web使用日志及电话呼叫记录的在线分析等新型应用领域对数据的管理与分析提出了新的要求,如直接反映数据的本来面目、可以处理连续查询、能够处理异种数据、快速响应用户查询等,其本质是对数据流的管理和分析。数据流是连续的、输入速率随时间变化的、有序项的序列,数据流上的查询通常连续运行,当新数据到达时增量式地返回结果,即所谓的长时间运行的、连续的、持久的查询。数据流及其相关技术已经成为当前数据处理领域的研究热点之一,管理和分析这些连续数据流为传统的数据库领域带来许多新的机会和挑战。随着传感器、数据通信、普式计算等相关技术的发展,工业领域中以数据流方式获取的数据量急剧增加,一些典型工业应用领域如电力系统对数据流处理速度和分析结果精度的要求越来越高。高精度、快速的数据流分析与高效的具有自适应性数据流管理技术是数据流相关技术走向实用化、产业化的一个重要突破口。典型的工业数据流管理与分析包括数据流采集与预处理、数据的特征抽取、数据聚集等基本连续查询的分析与执行、相关性检测或预测与分类等复杂的分析操作。本文针对上述应用需求展开的主要研究工作及取得的创新性成果概述如下:(1)在数据流清洗方面,提出了带有遗忘因子的Kalman滤波预测算法,能够有效地检测出未来时刻的异常数据;提出了一种新颖的数据流上的异常数据修正方法,应用插值小波根据连续异常数据数量的不同,实现了可变插值尺度的异常数据修补,能够自适应修正精度。在实际电力负荷数据上的仿真实验证明这种方法可以在线准确地检测到异常数据,并能提供精确的异常数据修正。(2)在流数据特征近似抽取方面,对采样、直方图、流矩阵不等概行列采样等概要生成方法进行了深入研究,针对不同概要在某些方面的缺陷提出相应的改进算法,进一步在各种数据流概要基础上,提出一种基于概要的数据流管理系统框架,作为此框架的实现,设计了一种适用于工业控制的协调者-工作者数据流聚集模型,基于概要产生可变长数据划分粒度的动态负载均衡方法,解决分布式环境下工业数据流的聚集处理问题,通过对不同分布仿真数据的实验分析证明提出的模型能够获得较高的加速比。(3)在高维数据流相关性分析方面,将统计理论中经典的典型相关性分析方法(CCA)应用于数据流领域,从理论上证明了基于不等概采样的低阶近似技术应用于高维数据流复杂计算的可行性,提出适于数据流处理的一过性(one-pass scanning)多变量相关性分析的增量算法StreamCCA,理论分析和合成及真实数据上的实验证明StreamCCA能够在线计算多维数据流之间的典型相关系数。(4)在数据流值预测方面,提出带有“尺度导引”的插值小波算法,在确定性预测信息的基础上,实现可变预测时间间隔的数据流值预测。构造不连续测量值的特殊卡尔曼滤波模型和误差预测算法,体现时间序列数据流的动态变化,满足高速数据流只能一遍扫描的限制。为了在计算资源受限的前提下,协调预测精度与计算复杂度,根据流值变化的快慢程度自适应地确定预测步长:在流值平稳时缩短预测步长提高预测精度,在流值快速变化时使用较长的预测步长降低计算代价,同时仍然能够保证要求的预测精度,形成最佳预测点轨迹。(5)多数分类方法基于数据服从静态分布的假设,然而真实世界中数据的采集通常跨越一段时间,从几秒到几年,如果忽略潜在概念的变化(即概念漂移)将会严重降低分类模式的预测性能。提出一种在线分类系统StreamSPRINT,可以动态调整训练窗口的尺寸和分类模型重建期间允许接受的新样本的个数,以适应当前概念漂移发生的速度;可以对每个数据流样本至多读取一次,并且在常数时间内处理。在合成和真实数据流上的测试验证了StreamSPRINT的性能。基于上述研究成果,结合电力系统应用领域对高性能数据流管理与分析系统的迫切要求,采用软硬混技术和并行技术与同研究组其他成员设计并实现了一个数据流管理与分析系统原型。由于系

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.1.1 数据流管理概述及应用需求
  • 1.1.2 数据流管理系统与传统数据库管理系统的对比
  • 1.1.3 基本概念
  • 1.2 研究现状
  • 1.2.1 数据流管理系统结构
  • 1.2.2 流数据的预处理
  • 1.2.3 数据流概要生成技术
  • 1.2.4 多维数据流相关性分析
  • 1.2.5 数据流预测与分类
  • 1.2.6 研究现状总结
  • 1.3 研究框架和内容
  • 1.3.1 研究框架思路
  • 1.3.2 研究内容
  • 1.4 主要贡献与创新
  • 1.5 论文组织结构
  • 第二章 数据流上异常数据的检测与修正
  • 2.1 问题定义
  • 2.1.1 数据流模式
  • 2.1.2 异常点
  • 2.1.3 自适应重构精度的插值小波
  • 2.2 采用遗忘因子的异常点识别
  • 2.3 自适应多尺度插值小波算法
  • 2.4 实验分析
  • 2.5 本章小结
  • 第三章 基于概要的并行数据流范围聚集
  • 3.1 技术背景
  • 3.1.1 采样(sampling)
  • 3.1.2 直方图(histogram)
  • 3.2 基于采样与直方图概要的电力数据流并行聚集
  • 3.2.1 相关定义
  • 3.2.2 适合于数据流划分的采样算法
  • 3.2.3 近似划分向量的生成
  • 3.2.4 算法性能测试
  • 3.3 本章小结
  • 第四章 多维数据流在线相关性分析
  • 4.1 引言
  • 4.2 相关工作
  • 4.3 相关定义及理论基础
  • 4.3.1 多维数据流模式
  • 4.3.2 多维数据流CCA
  • 4.4 低阶近似理论及算法
  • 4.5 StreamCCA算法的实现
  • 11、S12、S21、S22'>4.5.1 增量计算S11、S12、S21、S22
  • 4.5.2 近似CCA算法
  • 4.6 实验分析
  • 4.7 本章小结
  • 第五章 时间序列数据流值的自适应预测
  • 5.1 引言
  • 5.2 相关工作
  • 5.3 模型与定义
  • 5.3.1 概念模型
  • 5.3.2 二进插值小波
  • 5.3.3 Kalman滤波误差预测子
  • 5.3.4 最佳预测点轨迹的确定
  • 5.4 AFStreams算法的实现
  • 5.4.1 AFStreams预测模型的顶层算法
  • 5.4.2 多尺度插值算法
  • 5.4.3 SKF状态模型的讨论
  • 5.5 仿真实验及分析
  • 5.6 本章小结
  • 第六章 支持概念漂移的数据流分类
  • 6.1 引言
  • 6.2 相关工作
  • 6.3 相关理论与定义
  • 6.3.1 概念漂移
  • 6.3.2 数据流分类算法的选择
  • 6.3.3 连续训练、分类工作原理
  • 6.4 StreamSPRINT分类系统
  • 6.4.1 StreamSPRINT分类系统结构
  • 6.4.2 StreamSPRINT分类算法
  • 6.5 性能评价
  • 6.6 本章小结
  • 第七章 结论与展望
  • 7.1 工作总结
  • 7.2 未来工作展望
  • 参考文献
  • 致谢
  • 附录
  • 附录1 时间序列数据流插值小波的构建
  • 1 时间序列数据流的小波变换
  • 2 多尺度插值
  • 3 创建Deslaurieris-Dubuc插值小波Matlab源程序
  • 附录2 参与的科研项目
  • 附录3 攻读博士学位期间论文成果
  • 相关论文文献

    • [1].数据流管理系统分析与研究[J]. 电脑学习 2009(06)
    • [2].数据流管理若干关键问题的研究[J]. 成都信息工程学院学报 2008(03)
    • [3].在数据流管理系统中实现快速决策树算法(英文)[J]. 计算机科学与探索 2010(08)
    • [4].数据流关键技术研究概论[J]. 装备制造技术 2009(11)
    • [5].跨境数据流动的国际博弈:隐私管理与数据主权[J]. 中国信息安全 2016(03)
    • [6].TSS数据流管理系统的设计与实现[J]. 计算机工程与设计 2008(13)
    • [7].航天制造企业基于PDM系统的数据流管理[J]. 航天制造技术 2008(05)
    • [8].实时GNSS数据流管理平台的实现及应用[J]. 测绘通报 2016(04)
    • [9].基于延迟时间的实时降载策略[J]. 计算机工程 2010(21)
    • [10].数据流管理系统中Max、Min聚集算子的示例概要算法[J]. 计算机应用 2008(08)
    • [11].大规模数据挖掘中的数据流管理[J]. 中国科技资源导刊 2008(06)
    • [12].面向信息安全的高速数据流管理系统的设计与实现[J]. 计算机应用与软件 2008(12)
    • [13].广播发射台变电站自动化系统的网络结构设计[J]. 数字技术与应用 2014(02)
    • [14].基于数据流的网络安全集成应用与研究[J]. 中国教育技术装备 2009(27)
    • [15].XML流管理研究综述[J]. 计算机研究与发展 2009(10)
    • [16].数据流滑动窗口聚集查询降载策略研究[J]. 计算机应用研究 2009(07)
    • [17].起重运输机械产品研发过程管理之我见[J]. 信息与电脑(理论版) 2009(08)
    • [18].2018年组稿方向[J]. 计算机应用 2018(03)
    • [19].2018年组稿方向[J]. 计算机应用 2018(01)
    • [20].2018年组稿方向[J]. 计算机应用 2018(02)
    • [21].条件过滤器的自适应排序调度策略[J]. 信息工程大学学报 2011(05)
    • [22].一种大规模分布式应用性能分析系统[J]. 计算机工程 2012(24)
    • [23].一种分布式数据流查询重用算法研究[J]. 计算机应用研究 2008(02)
    • [24].应对倾斜数据流在线连接方法[J]. 软件学报 2018(03)
    • [25].医疗机构打造BYOD环境策略探析[J]. 医学信息学杂志 2014(08)
    • [26].数据流管理系统研究现状分析[J]. 科技信息 2010(28)
    • [27].数据流分析与技术研究[J]. 计算机工程与应用 2008(15)
    • [28].基于EOL的下线诊断写配置系统开发[J]. 汽车电器 2019(01)
    • [29].RFID数据流管理关键技术[J]. 佳木斯大学学报(自然科学版) 2009(04)
    • [30].2010年重点组稿方向[J]. 计算机应用 2009(11)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    数据流概要与数据流分析若干关键问题研究
    下载Doc文档

    猜你喜欢