本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、研究现状;接着概述ETL涉及的主要的关键技术;第三部分提出基于Web Services的ETL原型并对ETL主要模块进行了详细设计;在第四部分详细介绍部分关键模块的改进细节与实现技术。本文的特色之一是将ETL工具建立在Web服务基础上,在元数据的映射方面使用了直接映射的方法,从而增强了ETL工具的适应性;本文的另一特色在于在数据清洗模块中引入人工智能处理技术,并对判定树方法在空缺值处理方面的应用、相似重复值的多趟近邻检测算法及位置编码检测算法进行了改进和优化,异常值的检测则首先对数据进行分类,并在此基础上根据统计学原理来判断数值异常,利用基于业务规则库的检测方法来判断其它属性列异常,并对两种判断方法所得的结果进行合并。空缺值的改进使得程序自动化程度得到提高;异常值检测由于采用两种方法,使检测效果得以改善;实验结果表明相似重复值检测算法方面的改进在保证查全率的同时有效地提高了检测的准确率与效率,并增强了检测的稳定性。本文使用Ajax技术建立ETL客户端,避免了B/S架构中固有的频繁刷新问题,同时由于Ajax采用异步技术与服务器通信,缩短了系统的响应时间,减少用户操作的等待时间,从而改善了用户与系统的交互体验。
本文来源: https://www.lw50.cn/article/b825f411f2e08a7e6ef29870.html