异构数据映射技术研究

异构数据映射技术研究

论文摘要

数据集成是信息集成的基础。随着人们对信息综合利用要求的不断深化,大规模异构数据的集成已经成为当前信息集成领域的研究热点。异构数据集成的关键是通过映射技术建立异构数据之间的一致性,包括数据属性或模式的一致性,数据主体或元组实例的一致性。本文工作围绕大规模数据集成中建立模式和数据一致性的映射与匹配技术展开研究,利用机器学习、自然语言处理以及模糊理论对已有的模式映射、实例映射和失效映射检测方法进行发展与改进,并扩展了异构数据集成平台StarEAI,在实际应用中验证了本文给出的方法与技术的有效性。本文主要工作包括:1、在模式层面的一致性方面,本文提出了一种基于数据实例的多策略模式映射方法MSMA,首先针对实例数据具有良好的结构化特征的情况,根据大量样本特征信息,设计了数据格式、约束、均值、贝叶斯等基于实例结构的学习器,并产生预测分类模型,运用机器学习方法,抽取待匹配数据的特征信息,进行模式映射;进而改进了组合算法,将标签作为组合器的输入,有效降低了组合算法的的计算复杂度。实验结果表明MSMA方法的查全率最高达到89%,查准率到达93%,在模式信息缺失的情况下,较已有的著名映射方法LSD准确率提高7%。2、在数据层面的一致性方面,本文提出了一种基于聚类分析的元组实例匹配方法HIMA。首先从方法框架上,HIMA方法利用聚类算法,较一一匹配算法有更高的处理效率;在聚类算法中,采用基于条件概率分布的字符串相似性度量算法进行元素之间距离计算,能够有效的提高匹配准确率;此外,针对一些应用中实例描述冗长的现象,本文提出基于最大熵模型的关键词提取,有效去除无效信息。实验结果表明采用条件概率分布距离度量算法和关键词提取算法的匹配方法HIMA,其准确率达到83%,优于基于距离、基于令牌的算法,其准确率提高6%。3、在运行时模式映射失效方面,本文提出了一种基于模糊聚集算子的失效映射检测方法BMSD,研究了数值、趋势、布局等学习器之间结果融合的各种情况,加入了基于析取加权的模糊聚集算子,改善融合精度;在进行人工数据和真实数据训练结果融合时,引入变权方法,使得融合结果不但能够考虑到各因素的相对重要性的偏好,也顾及各因素状态均衡程度的偏好。实验结果表明BSMD方法的平均准确率达到85%,较已有的Marveric方法提高7%。4、在上述研究的基础上,对我院的国家863成果异构数据集成平台(StarEAI)进行了扩展,增加了自动模式映射功能、元组实例匹配功能以及运行时失效映射检测功能,拓展后的平台在网络监控数据集成项目和军队项目中得到成功应用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 应用需求
  • 1.1.2 异构数据的映射问题
  • 1.2 研究现状
  • 1.2.1 关键技术研究
  • 1.2.2 著名研究项目
  • 1.2.3 研究现状的总结和分析
  • 1.3 本文工作与创新点
  • 1.3.1 主要研究内容
  • 1.3.2 主要创新点
  • 1.4 论文结构
  • 第二章 面向异构表模式的多策略模式映射方法
  • 2.1 问题的提出及形式化描述
  • 2.1.1 问题的提出
  • 2.1.2 形式化描述
  • 2.2 基于机器学习的模式映射方法
  • 2.2.1 样本学习
  • 2.2.2 映射关系产生
  • 2.2.3 多策略学习方法
  • 2.3 一种基于数据实例的多策略模式映射方法(MSMA)
  • 2.3.1 针对单学习器的改进
  • 2.3.2 基于Stacking 的多策略学习算法改进
  • 2.4 实验结果与分析
  • 2.4.1 实验环境
  • 2.4.2 单学习器性能比较
  • 2.4.3 与LSD 方法的比较
  • 2.4.4 算法局限性分析
  • 2.5 本章小结
  • 第三章 异构数据字典之间的元组实例匹配方法
  • 3.1 问题的提出及形式化描述
  • 3.1.1 问题的提出
  • 3.1.2 形式化描述
  • 3.2 相关研究
  • 3.2.1 关键字自动提取
  • 3.2.2 字符串距离度量
  • 3.3 一种面向大规模的整体元组实例匹配方法(HIMA)
  • 3.3.1 基于最大熵模型的描述精简
  • 3.3.2 基于条件概率分布的实例相似度度量
  • 3.3.3 基于聚类算法的实例匹配
  • 3.4 实验结果与分析
  • 3.4.1 实验环境
  • 3.4.2 关键词提取分析
  • 3.4.3 字符串距离度量分析
  • 3.4.4 数据实例匹配结果
  • 3.5 本章小结
  • 第四章 运行时数据语义冲突的检测
  • 4.1 问题的提出及形式化描述
  • 4.1.1 问题的提出
  • 4.1.2 形式化描述
  • 4.2 一般基于学习的失效映射检测方法
  • 4.2.1 样本训练
  • 4.2.2 失效映射检测
  • 4.3 一种基于模糊聚集算子的失效映射检测方法(BSDM)
  • 4.3.1 学习器设计
  • 4.3.2 基于析取加权的融合方法
  • 4.3.3 基于变权的人工数据融合方法
  • 4.4 实验结果与分析
  • 4.4.1 实验环境
  • 4.4.2 各组成部分对方法影响分析
  • 4.4.3 与Maveric 方法比较
  • 4.4.4 缺陷分析
  • 4.5 本章小结
  • 第五章 异构数据集成平台实现及其应用
  • 5.1 数据集成平台StarEAI+
  • 5.1.1 体系结构
  • 5.1.2 异构数据集成过程
  • 5.2 主要功能实现
  • 5.2.1 异构模式映射模块
  • 5.2.2 实例匹配模块
  • 5.2.3 运行时映射失效检测模块
  • 5.3 StarEAI+的应用
  • 5.3.1 应用案例分析
  • 5.3.2 应用案例框架结构
  • 5.3.3 案例特点
  • 5.3.4 性能影响
  • 5.4 本章小结
  • 第六章 结束语
  • 6.1 论文研究的总结
  • 6.2 进一步的工作
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].基于多目标优化技术的多源异构数据分类研究[J]. 计算机与数字工程 2020(01)
    • [2].基于深度学习的融合多源异构数据的推荐模型[J]. 北京邮电大学学报 2019(06)
    • [3].嵌入式网络高维异构数据攻击检测方法研究[J]. 计算机仿真 2020(07)
    • [4].异构数据资源整合的方法与系统实现[J]. 信息与电脑(理论版) 2018(01)
    • [5].多源异构数据整合系统在医疗大数据中的应用[J]. 价值工程 2017(08)
    • [6].电网多维异构数据融合三维可视化方法[J]. 自动化与仪器仪表 2017(07)
    • [7].面向多源异构数据的云推送平台研究[J]. 环球市场信息导报 2017(33)
    • [8].基于多元异构数据融合的失信被执行人特征提取研究[J]. 法制博览 2020(32)
    • [9].智能化综采管理平台中多源异构数据处理[J]. 陕西煤炭 2020(03)
    • [10].多源异构数据整合系统在医疗大数据中的研究[J]. 电子制作 2019(14)
    • [11].高校异构数据共享与交换的应用研究[J]. 教育现代化 2017(46)
    • [12].老年智能社区多源异构数据云存储与查询[J]. 黑龙江工程学院学报 2017(01)
    • [13].基于多源异构数据融合的配网规划决策系统研究[J]. 通讯世界 2016(13)
    • [14].面向灾害应急物资需求的灰色异构数据预测建模方法[J]. 中国管理科学 2015(08)
    • [15].面向风电场群的异构数据的统一存储技术[J]. 通信电源技术 2020(09)
    • [16].电力系统多源异构数据的存储管理技术研究[J]. 山东工业技术 2019(04)
    • [17].基于多源异构数据的工业能源管理系统[J]. 现代建筑电气 2016(10)
    • [18].基于大数据的图书馆异构数据整合机制研究[J]. 通讯世界 2017(07)
    • [19].教学资源库中异构数据共享存储与交换[J]. 信息与电脑(理论版) 2017(17)
    • [20].云计算下非物质文化遗产异构数据共享模型的研究[J]. 科技视界 2014(28)
    • [21].一种新型异构数据信息整合与分析系统的构建[J]. 情报科学 2009(04)
    • [22].分布式异构数据的无缝整合研究[J]. 现代情报 2008(05)
    • [23].多源异构数据情境中学术知识图谱模型构建研究[J]. 现代情报 2020(06)
    • [24].实现异构数据表查询维护[J]. 网络安全和信息化 2018(08)
    • [25].跨学科异构数据存储方法研究[J]. 科研信息化技术与应用 2016(05)
    • [26].针对动车组全生命周期集成管理的多源异构数据融合框架设计[J]. 计算机与现代化 2017(10)
    • [27].面向对象的多源异构数据关联组织与分析[J]. 测绘通报 2015(01)
    • [28].大数据时代城市配电网异构数据的知识发现与优化研究[J]. 工业控制计算机 2015(11)
    • [29].一种基于AutoCAD的异构数据对象化智能识别方法[J]. 测绘通报 2014(05)
    • [30].基于核和灰度的双重异构数据序列预测建模方法研究[J]. 统计与信息论坛 2013(10)

    标签:;  ;  ;  ;  ;  ;  ;  

    异构数据映射技术研究
    下载Doc文档

    猜你喜欢