高端容错计算机故障注入工具的设计与实现

高端容错计算机故障注入工具的设计与实现

论文摘要

高端容错计算机是指同时具备高性能和高可用特性的高端服务器。高端容错计算机主要面向金融、电信等涉及到国家战略安全的关键领域的计算需求,此类系统的可靠运行直接关系到国家经济安全。高端容错计算机在软件,固件,硬件等多个层次上设计了容错机制,在高端容错计算机研发过程中和投入使用前,必须进行容错性能的测试,一方面对生产厂商提供反馈意见,另一方面对容错性能进行评价。故障注入是评测容错性能最常用,也是最有效的方法。本文对如何运用故障注入方法评测容错性能进行了研究,主要解决故障注入模型的建立和故障注入工具的实现两个问题。以FARM这一经典故障注入模型为理论基础,本文构建了应用于高端容错计算机容错性能评测的故障注入模型,并对故障注入的实验策略进行了说明。在故障模型的指导下,实现了故障集中各种软硬件故障的注入,在应用层,系统层,内核层和驱动层等多个层次设计实现了一系列故障注入工具,形成了容错性能测试工具集。本文针对计算密集型,访存密集型和IO密集型三类典型应用场景,设计实现了3个故障注入工具:基于ptrace的应用进程寄存器故障注入工具,软件实现的物理地址内存故障注入工具,网络设备故障注入工具。这三个故障注入工具分别注入CPU故障、内存故障和IO故障。为了验证本文所实现的故障注入工具的有效性,也为了说明基于故障注入评测容错性能的过程,本文选择了两款安腾架构的高端容错计算机进行故障注入实验,针对Linux IA64、HP-UX和某国产容错操作系统三个操作系统进行了应用进程寄存器故障,应用进程内存故障,系统进程内存故障,内核内存故障和网络设备故障共5类故障注入测试。实验结果表明,本文所设计实现的故障注入工具的有效性,充分暴露了目标系统的各种缺陷与不足,而且能够支持多个架构和操作系统平台。通过对不同服务器和不同操作系统进行实验数据对比分析,能够对各系统的容错性能进行定性评价。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 课题来源
  • 1.1.2 容错及其重要性
  • 1.1.3 容错性能评测的意义
  • 1.2 国内外研究现状
  • 1.2.1 故障注入技术研究现状
  • 1.2.2 故障注入概述
  • 1.2.3 经典的故障注入工具
  • 1.3 本文主要研究内容
  • 第2章 针对安腾架构的故障注入模型
  • 2.1 基于FARM 的故障注入模型
  • 2.1.1 故障集F
  • 2.1.2 激活集A
  • 2.1.3 读回集R
  • 2.1.4 度量集M
  • 2.1.5 故障注入模型分类
  • 2.2 高端容错计算机故障注入模型
  • 2.2.1 安腾架构的高端容错计算机特点
  • 2.2.2 故障集
  • 2.2.3 工作负载
  • 2.2.4 结果回收
  • 2.2.5 评测目标
  • 2.3 故障注入策略
  • 2.4 本章小结
  • 第3章 故障注入工具设计与实现
  • 3.1 基于 ptrace 的进程级寄存器故障注入工具
  • 3.1.1 故障注入原理
  • 3.1.2 总体设计与工作流程
  • 3.1.3 主要模块实现
  • 3.1.4 支持的故障集
  • 3.2 软件实现的内存故障注入工具
  • 3.2.1 故障注入原理
  • 3.2.2 总体设计与工作流程
  • 3.2.3 主要模块实现
  • 3.2.4 支持的故障集
  • 3.3 网络设备故障注入工具
  • 3.3.1 故障注入原理
  • 3.3.2 模块划分与实现
  • 3.3.3 支持的故障集
  • 3.4 本章小结
  • 第4章 容错性能评测实验
  • 4.1 实验环境
  • 4.2 应用进程寄存器故障注入实验
  • 4.3 应用进程内存故障注入实验
  • 4.4 系统进程内存故障注入实验
  • 4.5 内核内存故障注入实验
  • 4.6 网络设备故障注入实验
  • 4.7 实验结果分析与总结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    高端容错计算机故障注入工具的设计与实现
    下载Doc文档

    猜你喜欢