基于增量ETL的分布式数据交换平台的研究与实现

基于增量ETL的分布式数据交换平台的研究与实现

论文摘要

数据交换平台是一个在不同数据库、不同数据格式之间,进行数据交换服务的平台。它要解决的是现阶段不同应用系统之间信息数据无法自由转换的问题。本文的在综合研究了目前数据交换平台所采用的相关技术的基础上,利用增量ETL技术和分布式思想,建立了基于增量ETL的分布式数据交换平台,并在实际工作中得到了有效的应用。具体完成了以下工作:1、提出了基于关键属性比对的增量数据抽取方法,包括关键属性提取算法和基于关键属性比对的增量数据抽取方法模型,介绍了方法的适用范围,并与全表比对方法和全表删除插入方法进行对比,分析了空间复杂度和时间复杂度,说明了其优越性,用实验验证了分析的正确性。2、提出了基于按行数据分片的分布式增量ETL优化方法,在增量数据抽取的基础上,对前人的ETL优化框架进行了改进,提出了增量ETL优化框架;在同顺序作业理论的基础上,提出了数据的按行分片机制以及分片数的最佳取值方法,从理论上证明了其正确性,然后给出了具体算法,用实验验证了算法的正确性并对实验结果进行了分析。3、在理论研究的基础上,提出了数据交换平台的整体框架,并对关键模块进行了设计与实现。最后对系统进行了测试,测试结果证明系统具有较好的实用性和稳定性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 论文研究的背景及意义
  • 1.2 研究现状
  • 1.2.1 数据交换研究现状
  • 1.2.2 ETL 研究现状
  • 1.3 论文的研究内容
  • 1.3.1 研究思路
  • 1.3.2 主要工作
  • 1.4 论文章节安排
  • 第二章 相关技术研究
  • 2.1 ETL 技术介绍
  • 2.1.1 数据抽取
  • 2.1.2 数据清洗和转换
  • 2.1.3 数据加载
  • 2.2 增量抽取机制研究
  • 2.2.1 触发器方法
  • 2.2.2 时间戳方法
  • 2.2.3 全表删除插入方法
  • 2.2.4 全表比对方法
  • 2.2.5 日志表方法
  • 2.2.6 系统日志分析方法
  • 2.2.7 特定数据库方法
  • 2.3 分布式增量ETL 研究
  • 2.3.1 数据流分割
  • 2.3.2 并行数据转换处理
  • 2.3.3 管道并行处理
  • 2.4 数据交换平台关键技术介绍
  • 2.4.1 XML 语言介绍
  • 2.4.2 Web Services 技术介绍
  • 2.4.3 数据交换平台体系结构介绍
  • 2.5 本章小结
  • 第三章 基于关键属性比对的增量数据抽取方法
  • 3.1 增量数据抽取机制优劣分析
  • 3.1.1 触发器方法的优劣分析
  • 3.1.2 时间戳方法优劣分析
  • 3.1.3 全表删除插入方法优劣分析
  • 3.1.4 全表比对方法优劣分析
  • 3.1.5 日志表方法优劣分析
  • 3.1.6 系统日志分析方法优劣分析
  • 3.1.7 特定数据库方法优劣分析
  • 3.2 基于关键属性比对的增量数据抽取方法模型
  • 3.2.1 相关定义
  • 3.2.2 关键属性提取算法
  • 3.2.3 模型的建立
  • 3.2.4 效率分析
  • 3.3 实验与结果分析
  • 3.4 本章小结
  • 第四章 基于按行数据分片的分布式增量ETL 过程优化
  • 4.1 ETL 优化框架
  • 4.2 基于按行数据分片的增量ETL 优化算法
  • 4.2.1 相关符号及定义
  • 4.2.2 理论的提出
  • 4.2.3 理论的证明
  • 4.2.4 优劣比较及数据分片的原则
  • 4.2.5 算法描述
  • 4.3 实验与结果分析
  • 4.3.1 实验环境及实验数据来源
  • 4.3.2 实验策略
  • 4.3.3 结果分析
  • 4.4 本章小结
  • 第五章 系统的设计与实现
  • 5.1 引言
  • 5.2 系统总体架构
  • 5.3 系统关键模块的实现
  • 5.3.1 系统父节点类图设计
  • 5.3.2 增量抽取模块的设计与实现
  • 5.3.3 分布式转换模块的设计与实现
  • 5.4 系统运行测试
  • 5.4.1 测试方案
  • 5.4.2 测试流程
  • 5.4.3 测试结果
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 本文的主要工作及创新点
  • 6.2 未来工作展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于增量ETL的分布式数据交换平台的研究与实现
    下载Doc文档

    猜你喜欢