高性能服务器故障诊断方法的研究与设计

高性能服务器故障诊断方法的研究与设计

论文摘要

高性能服务器的应用领域越来越广,目前已经广泛应用于银行、军事、航天、气象服务等领域。在这些领域中,高性能服务器都是用来处理关键的业务,系统数据丢失或者异常停机都会造成严重的后果。因此对高性能服务器的可用性提出了很高的要求。高可用性需要高效的故障检测、故障诊断、故障恢复等技术来实现。高性能服务器一般都采用集群的形式实现,因为集群在价格、可扩展性等方面都要比其他形式的系统有明显的优势。本文主要针对高性能集群服务器系统研究一种基于操作系统的快速高效的故障诊断方法。从系统可以提供不间断服务的角度出发,研究针对故障诊断的系统监控方法,即故障监控方法。在故障监控的基础上,研究故障诊断的方法。目标是尽可能小的系统开销,尽可能大的故障检测覆盖率。实现了服务级和节点级的诊断粒度。整个诊断从流程上分为故障监控和故障诊断,从实现的诊断粒度上分为了单机故障诊断和系统级故障诊断。能够监控到节点的硬件状态信息,如CPU、内存、网络设备、电源等;能够监控基于linux的操作系统中的各种进程的信息,包括核心系统服务进程,用户配置的进程等。从可用性角度设计了针对不同监控信息的诊断规则,实现了单机故障的快速诊断。对整个集群系统设计了心跳模块以及系统级的故障诊断。通过设计的心跳机制可以确定其他节点是否故障。通过单机故障诊断和系统级故障诊断的配合能够快速的诊断出故障的节点,达到集群中所有节点对故障状态的一致性描述。通过整个诊断系统,能够准确及时的获得诊断结果,及时的将故障节点隔离出系统,进而提高系统的可用性。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 高可用技术概况
  • 1.2.1 可用性与可靠性
  • 1.2.2 冗余技术
  • 1.2.3 集群技术
  • 1.2.4 故障检测技术
  • 1.2.5 故障恢复技术
  • 1.3 本文组织结构
  • 第2章 故障诊断关键技术研究
  • 2.1 引言
  • 2.2 集群系统
  • 2.3 系统监控技术
  • 2.3.1 基于命令行的信息采集技术
  • 2.3.2 基于proc 文件系统的信息采集技术
  • 2.3.3 基于Linux 内核的信息采集技术
  • 2.4 故障诊断方法
  • 2.4.1 系统级故障诊断
  • 2.4.2 单机故障诊断
  • 2.5 故障恢复技术
  • 2.6 本章小结
  • 第3章 高性能服务器故障诊断方案的设计
  • 3.1 引言
  • 3.2 故障集
  • 3.3 故障诊断总体框架
  • 3.4 高性能服务器单机自诊断的设计
  • 3.4.1 单机故障监控模块的设计
  • 3.4.2 单机故障诊断模块的设计
  • 3.5 高性能服务器系统级故障诊断的设计
  • 3.5.1 心跳模块的设计
  • 3.5.2 系统级故障诊断模块的设计
  • 3.6 本章小结
  • 第4章 高性能服务器故障诊断方案的实现及实验结果分析
  • 4.1 单机自诊断的实现
  • 4.1.1 单机故障监控模块的实现
  • 4.1.2 单机故障诊断模块的实现
  • 4.2 系统级故障诊断的实现
  • 4.2.1 心跳模块的实现
  • 4.2.2 系统级故障诊断模块的实现
  • 4.3 实验及结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文及其它成果
  • 致谢
  • 相关论文文献

    • [1].高校微信公众平台集群及其思想引领作用探析[J]. 高校共青团研究 2018(04)
    • [2].宁波家电产业过度竞争及对策分析[J]. 电子世界 2013(18)
    • [3].基于Linux系统的LB集群的研究与应用[J]. 科技创新与应用 2016(29)
    • [4].我国城乡群众体育统筹发展研究[J]. 体育科学研究 2012(03)
    • [5].新媒体发展视阈下高校媒体集群研究[J]. 新媒体研究 2017(21)
    • [6].高可用集群技术的研究与应用[J]. 电脑知识与技术 2011(20)
    • [7].集群、社会资本与企业成长[J]. 软科学 2011(10)
    • [8].旅游集群概念辨析[J]. 商业时代 2008(19)
    • [9].基于集群概念的区域一体化进程中图书馆协同创新发展研究[J]. 河南图书馆学刊 2019(08)
    • [10].基于集群概念的区域图书馆发展策略[J]. 图书馆学刊 2012(04)
    • [11].集群视野下的市域地方文献共建共享实施策略[J]. 图书馆理论与实践 2010(08)
    • [12].建设数字化集群平台促进航天专业期刊发展[J]. 科技创新导报 2018(18)
    • [13].产业集群、技术差距的双重影响与核心企业成长——以浙江为例[J]. 研究与发展管理 2011(05)
    • [14].浅谈Windows2000集群的安装[J]. 计算机与网络 2009(11)
    • [15].集群化背景下的内蒙古主导产业发展现状、对策研究[J]. 内蒙古财经学院学报 2008(04)
    • [16].浅谈网络设备集群的网络管理[J]. 电子制作 2012(12)
    • [17].乡村旅游转型升级背景下乡村民宿集群发展问题及对策研究——以汶川县三江镇为例[J]. 四川农业科技 2018(04)
    • [18].集群视野下区域图书馆的行为特征与构建对策[J]. 图书馆学刊 2012(08)
    • [19].集群、网络与IJVs的创新研究[J]. 科研管理 2008(06)
    • [20].知识产业虚拟化集群发展研究[J]. 中共成都市委党校学报 2016(01)
    • [21].基于DRBD实现虚拟化系统的双机热备[J]. 通化师范学院学报 2016(08)
    • [22].MPI集群通信技术浅析[J]. 电脑知识与技术 2008(23)
    • [23].集群负载均衡约束下差别数据分离存储仿真[J]. 计算机仿真 2019(09)
    • [24].新常态下如何创建广播媒体的生态平台[J]. 科技传播 2016(08)
    • [25].集群效应下大学生网络舆论刍议[J]. 理论观察 2015(05)
    • [26].Nginx+Jboss AS7.X集群和负载均衡的应用研究[J]. 电脑知识与技术 2013(06)
    • [27].总部集群发展问题探讨[J]. 东北亚论坛 2009(02)
    • [28].基于集群系统的数字资源库的研究与设计[J]. 湖南理工学院学报(自然科学版) 2009(02)
    • [29].并行数据库极限加速比[J]. 哈尔滨师范大学自然科学学报 2009(06)
    • [30].中国城市开发区群的发展与演化——以南京为例[J]. 城市规划 2008(03)

    标签:;  ;  ;  ;  

    高性能服务器故障诊断方法的研究与设计
    下载Doc文档

    猜你喜欢