科学计算时变数据集的数据挖掘算法研究

科学计算时变数据集的数据挖掘算法研究

论文摘要

在数十万亿次以上规模的高性能计算机上,高性能科学计算的数值模拟可能输出大规模时变数据集。这些数据集由数据子集序列构成,数据总量可能达到十亿字节(GB)至万亿字节(TB),每个数据子集表示物理问题在某个时刻的数值离散解。面对如此大规模的时变数据集,如何快速地开展物理分析,去伪存真,将数据转化为知识,进而发现新的物理现象、揭示新的物理规律、探索新的物理机制,是科学计算研究的重要一环。在传统可视化分析的基础上,为了提高物理分析的效率,可以采用数据挖掘算法。这些算法基于已知的物理知识来标识重要的物理时刻和局部兴趣区域,发现物理量间的相关性,可以成为物理分析的关键支撑技术。但是,现有的商业数据挖掘算法均难以适应,因为它们通常针对各种属性的关联规则,不能适应于数值型数据。因此,有必要开展系统深入的科学计算时变数据集的数据挖掘算法研究。对科学计算时变数据集而言,数据挖掘至少可以实现三个方面的功能。第一,比较任意两个相邻时刻的数据子集的相似度;第二,标定可能蕴含丰富知识的局部计算区域和时间步;第三,判断任意两个物理量之间的相关程度。这三个方面的研究对物理分析有重要意义,它可以在大规模科学计算时变数据集中,迅速挑出蕴含重要物理特征的时刻或者子区域,发现物理量之间的线性或非线性相关性,可以提高数据分析的速度与效率,降低分析的难度。信息熵理论是一门利用数理统计方法研究信息度量的科学。它不依赖于数据的维数、空间位置、单位等信息,能对数据的内在特征进行定量表征,可以用于描述科学计算时变数据集中所蕴含的信息,而这些正是找出蕴含潜在有用信息的时刻或子区域所需要的。因此,信息熵理论可以作为数据挖掘的基础。本课题基于信息熵理论,针对科学计算时变数据集物理分析对数据挖掘提出的三个方面的需求,紧密围绕时变数据集序列约减、变化检测和物理量非线性相关性的检测算法三个方面开展研究,取得了如下创新的研究成果:(1)针对科学计算时变数据集,分析了信息度量应用于数据挖掘的可行性,并提出了科学计算时变数据集的非均匀直方图构建算法。该算法通过迭代得到科学数据集的概率分布,具有较好的自适应性。(2)提出了时变数据集序列的子集约减数据挖掘算法。该算法采用关联信息测度度量算法来度量数据子集间的相关性,仅存储相关程度低的数据子集。这些子集已经蕴含了时变数据集序列的重要物理特征。于是,可以大幅降低数据集的存储空间,提高物理分析的效率。具体应用于激光与等离子体相互作用模拟,获得了满意的数据挖掘结果。(3)基于交互信息距离,提出了时变数据集序列的变化检测数据挖掘算法。该算法可以在数据集序列中挖掘突变的时间步或者子区域,减少数据分析或可视化的工作量。具体应用于高斯序列与激光与等离子体相互作用模拟,效果良好。(4)基于信息冗余度,提出了时间序列中物理参量非线性相关性的检测算法。该算法引入振幅调节傅立叶变换算法生成替代数据,利用信息冗余度作为检验统计量进行统计检验,研究了检测单物理参量或多物理参量非线性相关性的数据挖掘算法。通过几种常见的时间序列测试,验证了该数据挖掘算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究的背景和意义
  • 1.2 面临的困难
  • 1.3 研究动态
  • 1.4 本文研究内容与结构安排
  • 1.5 预备知识和相关记号
  • 第二章 信息论基本理论
  • 2.1 基本概念
  • 2.2 信息测度
  • 2.2.1 交互距离测度
  • 2.2.2 关联信息测度
  • 第三章 数据挖掘中的信息度量
  • 3.1 科学计算数据集的信息度量
  • 3.2 概率密度估计
  • 第四章 科学数据集序列的约减算法
  • 4.1 引言
  • 4.2 关联信息测度与边际效用
  • 4.3 数据集序列约减算法
  • 4.4 数值实验
  • 4.5 结论
  • 第五章 时变数据场的局部变化检测算法
  • 5.1 引言
  • 5.2 变化检测算法
  • 5.2.1 空假设
  • 5.2.2 信息距离
  • 5.2.3 自举抽样
  • 5.2.4 假设检验
  • 5.2.5 变化检测算法
  • 5.3 时变数据场的变化检测算法
  • 5.4 数值实验
  • 5.5 总结
  • 第六章 时间序列非线性的检测算法
  • 6.1 引言
  • 6.2 基于替代数据法的非线性检测
  • 6.2.1 基本原理
  • 6.2.2 假设与替代数据的生成
  • 6.2.3 检验统计量
  • 6.2.4 统计检验方法
  • 6.3 单变量与多变量时间序列非线性的检验方法
  • 6.3.1 单变量情形
  • 6.3.2 多变量情形
  • 6.4 数值实验
  • 6.5 结论
  • 第七章 总结和展望
  • 参考文献
  • 完成论文
  • 个人简历
  • 致谢
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  

    科学计算时变数据集的数据挖掘算法研究
    下载Doc文档

    猜你喜欢