面向海量交通信息流的分布式序列模式挖掘研究

面向海量交通信息流的分布式序列模式挖掘研究

论文摘要

近年来,随着我国经济建设持续不断的高速发展和人们生活水平的不断提高,城市机动车保有量连年持续增长,机动车已成为各城镇居民出行的主要交通工具之一。但与此同时,利用机动车进行的违法犯罪活动也越来越多,如:机动车假牌假证、机动车伴随、机动车违章逃逸及盗抢等。由于涉案机动车辆往往具有灵活、隐蔽性强、机动性高等特点,这给公安交警部门对犯罪嫌疑车辆的侦查和追踪增大了难题。目前,随着道路监控技术的发展,我国各大城市普遍布设了车牌识别监控点,其不断积累的交通信息流过车记录为涉案车辆的检测、追踪或预测预警提供了有效的数据支持。序列模式挖掘作为数据挖掘的一个重要研究领域,可用于分析和挖掘带时间特征的交通信息流中隐藏的有价值模式,从而为社会有关部门提供更好的决策与服务。然而,由于交通信息流数据量的不断增大,传统的序列模式挖掘算法在数据存储空间和处理效率上已无法满足实际应用需求,分布式计算平台的出现解决了海量数据的存储和计算瓶颈,从而使针对海量交通信息流的序列模式挖掘成为可能。Hadoop作为一个方便、快速的分布式计算平台,利用分布式文件系统HDFS实现了对大文件或超大文件的存储和容错,并使用MapRedcue编程模型实现了快速运算。但是,由于传统的序列模式挖掘算法只适用于对集中存储的数据进行分析处理,因此如何设计适合在Hadoop平台上运行的分布式序列模式挖掘算法是有效实现海量数据处理的关键。针对分布式平台特性,深入研究序列模式挖掘的具体实现步骤并尽可能增大算法并行化实现部分,有利于提高海量数据的序列模式挖掘效率。本文将基于Hadoop的分布式序列模式挖掘与针对交通信息流领域的实际应用相结合,利用Hadoop分布式平台的优势来解决传统序列模式挖掘在海量数据处理上的不足。首先,本文详细介绍了分布式文件系统HDFS的存储设计原理及文件读写流程,并据此实现了交通信息流的数据预处理。通过对过车记录数据进行有效的清理、转换和归约,实现了其从传统关系型数据库到分布式文件系统HDFS中的转移与转换,以方便后续的分布式序列模式挖掘。然后,本文剖析了MapReduce编程模式的运行机制,给出了序列模式挖掘相关概念在交通信息流中的新定义,并设计了基于MapReduce的交通信息流分布式序列模式挖掘算法。本文给出了算法的详细实现过程及算法优缺点,并针对该算法挖掘结果的局限性,结合闭合序列模式挖掘的BIDE算法,实现了BIDE算法的并行化及到Hadoop分布式平台的有效移植,从而满足更完整、更全面的应用需求。最后,本文搭建了Hadoop集群实验环境,并将相关算法应用于公安、交警等部门基于海量交通信息流的伴随车辆识别案例中,从理论和实验两方面对比和验证了算法的有效性与实用价值。综上所述,本文所提出的分布式序列模式挖掘算法是可行的、有意义的。其在Hadoop分布式平台上所展现的较好适应性与扩展性,反映了在实际应用中引入分布式模型解决海量数据序列模式挖掘问题的必要性,同时也为其他序列模式挖掘算法在Hadoop平台上的有效运用提供了一定的参考。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 交通信息流数据挖掘研究现状
  • 1.2.2 分布式序列模式挖掘的研究现状
  • 1.3 本文研究内容与创新点
  • 1.3.1 研究内容
  • 1.3.2 创新点
  • 1.4 本文组织结构
  • 1.5 本章小结
  • 第二章 相关技术简介
  • 2.1 Hadoop简介
  • 2.2 分布式文件系统HDFS简介
  • 2.3 基于Hadoop的MapReduce实现简介
  • 2.4 序列模式挖掘基本概念及形式化描述
  • 2.5 序列模式挖掘主要应用与发展前景
  • 2.5.1 序列模式挖掘主要应用领域
  • 2.5.2 序列模式挖掘发展前景
  • 2.6 本章小结
  • 第三章 基于HDFS的交通信息流数据预处理
  • 3.1 HDFS数据存储原理
  • 3.1.1 数据复制
  • 3.1.2 副本存放
  • 3.1.3 副本选择
  • 3.2 HDFS数据流程剖析
  • 3.2.1 文件读取剖析
  • 3.2.2 文件写入剖析
  • 3.3 应用数据提取与处理
  • 3.3.1 目的与意义
  • 3.3.2 交通信息流基本特征
  • 3.3.3 交通信息流数据清理
  • 3.3.4 交通信息流数据离散化
  • 3.3.5 交通信息流数据堆规约
  • 3.4 本章小结
  • 第四章 基于MapReduce的交通信息流分布式序列模式挖掘研究和应用
  • 4.1 问题描述
  • 4.2 相关定义
  • 4.3 HTDSM算法描述
  • 4.3.1 基本思想
  • 4.3.2 算法描述
  • 4.3.3 应用举例
  • 4.3.4 算法性能分析
  • 4.4 实验结果与分析
  • 4.4.1 实验软硬件描述
  • 4.4.2 Hadoop平台的搭建
  • 4.4.3 实验结果分析
  • 4.5 本章小结
  • 第五章 Hadoop环境下基于分布式BIDE算法的交通信息流序列模式挖掘研究和应用
  • 5.1 BIDE算法特征描述
  • 5.1.1 BIDE算法出现背景
  • 5.1.2 BIDE算法描述
  • 5.2 HTBIDE算法并行设计
  • 5.2.1 基本思想
  • 5.2.2 算法描述
  • 5.3 实验结果与分析
  • 5.3.1 实验环境配置
  • 5.3.2 伴随车序列模式挖掘Map类的实现
  • 5.3.3 伴随车序列模式挖掘Reducer类的实现
  • 5.3.4 伴随车序列模式挖掘作业启动类的实现
  • 5.3.5 其他相关类实现说明
  • 5.3.6 实验结果分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 研究工作总结
  • 6.2 未来展望
  • 致谢
  • 参考文献
  • 附录
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向海量交通信息流的分布式序列模式挖掘研究
    下载Doc文档

    猜你喜欢