高端容错计算机故障日志分析系统的设计与实现

高端容错计算机故障日志分析系统的设计与实现

论文摘要

高端容错计算机作为事务处理能力极强、可用性极高的服务器系统,广泛应用在了金融、电信、能源、交通、航空等国家关键业务领域中。这些关键行业对系统的处理能力和容错能力有严苛的要求,因为系统一旦失效就可能会造成无法挽回的巨大损失,所以高端容错计算机在投入使用之前必须对其处理能力和可用性进行严格的评测,故障注入技术是进行评测的有效方法。日志中记录了系统运行过程的中间状态,通过日志分析可以验证故障注入、容错机制等是否有效,通过对故障日志的提取可构建高端容错计算机故障库,对故障分布、故障传播和故障预测的研究都有非常重要的意义。本文首先对国内外日志分析工具和高性能计算机故障研究的现状进行了分析,发现:1)已有的日志工具中没有专门针对高端容错计算机故障日志进行管理和分析的,并且由于统计分析都是在本地进行,严重影响了被分析服务器对其他用户提供服务的效率;2)我国在高性能计算机故障的研究方面经验不足,可用的故障集有限。因此,本文围绕着数据挖掘技术展开研究,设计并实现了一种基于高端容错计算机的自动化、智能化的故障日志管理与分析系统,旨在对高端容错计算机系统中的各类日志文件进行故障的抽取、格式化和分析,建立初步的高端容错计算机故障库,同时,由于系统采用C/S架构,极大地提高了被分析服务器对其他用户提供服务的效率;并在此基础上,引入极值理论和数据拟合方法,提出了一种基于故障日志分析系统的故障分布研究方案。为实现同时对多台高端容错计算机日志的统计分析,本文将自动化测试框架STAF引入到了故障日志分析系统的设计中,面向HP RX6600和Superdome两台高端容错计算机,成功搭建了一个分布式的实验环境,并通过对Superdome实验结果的详细分析,验证了系统的有效性。最后,本文应用设计的故障日志分析系统,对CMU公布的公共计算机故障仓库中的LANL数据集进行了统计分析,并依据前文提出的故障分布研究方案对特定类型故障的故障间隔时间(Time Between Failure, TBF)进行了建模。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 课题来源
  • 1.1.2 故障日志分析系统设计的必要性
  • 1.2 国内外研究现状
  • 1.2.1 日志分析工具现状
  • 1.2.2 高性能计算机故障研究现状
  • 1.3 数据挖掘技术研究综述
  • 1.3.1 数据挖掘技术概述
  • 1.3.2 数据挖掘常用分析方法
  • 1.3.3 数据挖掘的过程
  • 1.3.4 关联规则挖掘
  • 1.4 本文的主要研究内容
  • 1.5 本文结构
  • 第2章 基于故障日志分析系统的故障分布研究
  • 2.1 高端容错计算机故障分布的极值理论
  • 2.2 极值统计理论
  • 2.2.1 极值理论简介
  • 2.2.2 吸引域的确定
  • 2.2.3 极值分布的参数估计
  • 2.3 故障数据的选取
  • 2.4 基于故障日志分析系统的故障分布研究方案
  • 2.5 本章小结
  • 第3章 故障日志分析系统的整体设计
  • 3.1 系统基本设计目标
  • 3.2 系统功能设计
  • 3.2.1 系统核心统计、分析功能
  • 3.2.2 系统的其他功能
  • 3.3 系统总体架构
  • 3.3.1 功能架构
  • 3.3.2 层次架构
  • 3.3.3 体系架构
  • 3.4 系统工作流程
  • 3.4.1 系统启动流程
  • 3.4.2 日志分析流程
  • 3.4.3 统计分析结果展示流程
  • 3.5 本章小结
  • 第4章 故障日志分析系统的详细设计与实现
  • 4.1 日志数据分析的实现思路
  • 4.2 日志预处理
  • 4.2.1 日志采集模块
  • 4.2.2 模板库管理模块
  • 4.2.3 日志预处理模块
  • 4.2.4 预处理结果接受模块
  • 4.3 日志分析
  • 4.3.1 日志统计分析模块
  • 4.3.2 数据挖掘算法的实现
  • 4.3.3 报表图形引擎
  • 4.4 基本功能
  • 4.4.1 查询引擎
  • 4.4.2 数据库操作模块
  • 4.4.3 主界面
  • 4.5 本章小节
  • 第5章 系统的应用及故障分布模型的建立
  • 5.1 分布式实验环境的建立
  • 5.2 实验流程
  • 5.3 实验结果及分析
  • 5.3.1 故障分布情况分析
  • 5.3.2 关联规则挖掘结果及分析
  • 5.4 故障分布模型的建立
  • 5.4.1 LANL 故障集的统计分析
  • 5.4.2 利用极值理论建模
  • 5.4.3 利用数据拟合建模
  • 5.4.4 故障分布模型结果
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    高端容错计算机故障日志分析系统的设计与实现
    下载Doc文档

    猜你喜欢