面向高效能计算的大规模资源管理技术研究与实现

面向高效能计算的大规模资源管理技术研究与实现

论文摘要

高性能计算发展到今天,已经从单一地追求高性能转向致力于实现系统的高效能,提高系统的实际性能、可编程性、可移植性和健壮性,降低系统的开发、运行以及维护成本。然而,由于百千万亿次以上高性能计算机系统具有规模庞大、结构复杂和组成异构多样等特点,为了实现高效能目标,系统必须解决实际应用的持续性能难以提升、管理效率低、可靠性差、能源消耗巨大等多个挑战性问题。这些问题对高效能计算机系统的大规模资源管理系统在性能、功能和可扩展性等多个方面提出了很高的要求,大规模资源管理技术成为高效能计算机系统实现的一个重大挑战性技术问题。论文以我们自行研制的可扩展共享存储(S2MP:Scalable Shared Memory Processing)体系结构的高性能计算机系统上的大规模资源管理系统实现为基础,以面向高效能大规模并行计算机系统的高效资源管理技术为主要研究内容,在资源管理模型、资源管理系统的可扩展技术、综合优化的调度机制、用户作业自动恢复的容错管理方法以及系统能耗管理技术等方面展开研究,本文主要工作和贡献如下:1、提出了大规模并行计算机系统的深度资源信息模型DRIM,克服了传统资源管理系统所关注的资源对象粒度过粗和资源描述能力不足的问题,针对高效能计算系统的特点建立了实体模型、功能模型和应用模型,更加全面、准确地描述了计算资源、通信资源、存储资源、多模式应用等各方面的特征,并将资源对象之间的关系模型化,使得管理策略更有效,管理功能可扩展性更好,为大规模并行系统高效的作业调度与资源分配提供了有力支撑。2、设计了动态层次式级联资源管理结构,提出了基于自组织方式的级联服务动态创建方法,优化了资源管理系统的通信协议,设计了轻载的传输协议来减少大规模资源管理开销,采用硬件通讯机制实现高效的控制消息传递,通过全局操作与综合优化实现大规模作业的快速加载,解决了资源管理系统的规模可扩展问题。采用基于构件的系统实现结构支持资源管理的功能扩展。在由2048个多核处理器构成的S2MP体系结构的系统上进行了资源管理系统的实现和测试,测试结果表明系统具有良好的可扩展性。3、提出了基于综合优先级的调度策略,综合考虑系统的作业属性、资源属性和服务属性中的多个因素,提升了调度机制的灵活性和有效性;设计了可变深度的回填调度策略MC-Backfill,实现了根据队列实际状态对Backfill的深度和频度的动态调整,较好地协调了系统的公平性目标和高吞吐率目标的实现。系统测试表明,MC-Backfill策略可以在用户对作业执行时间估计不准确的情况下较好地减少作业平均等待时间,提高系统吞吐率。4、建立了一种高性能计算系统的故障分布模型,提出了基于Checkpoint/Restart的作业容错执行时间模型;设计了面向可靠性的检查点周期选择算法和最优结点集合选择方法,增强了系统中作业运行的可靠性;实现了基于Checkpoint机制的作业自动容错,避免了系统运行过程中的人工干预,降低了系统的平均故障恢复时间,提高了系统的可用性。5、结合系统级和应用级的能耗管理技术,从资源管理系统的角度研究了全系统能耗管理,设计了能耗约束条件下的资源分配方法进行系统级的结点能耗管理;提出了基于负反馈的两级能耗管理模型进行应用级的能耗管理,基于访存带宽和I/O带宽的利用率,采用线性控制和模糊控制相结合的方法动态调整并行应用线程和进程数目,适时将空闲处理器核关闭以节约系统能耗。并给出了对能耗控制管理有效性的测试和分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 高性能计算机系统现状
  • 1.1.2 从高峰值到高效能
  • 1.2 相关工作
  • 1.2.1 主流高性能计算资源管理系统
  • 1.2.2 系统可靠性技术
  • 1.2.3 系统低功耗技术
  • 1.2.4 高效能计算系统的资源管理面临的主要问题
  • 1.3 论文主要工作和贡献
  • 1.4 论文结构
  • 第二章 面向高效能计算的深度资源信息模型
  • 2.1 S2MP 体系结构简述
  • 2.2 DRIM 资源信息模型
  • 2.3 典型的实体模型
  • 2.3.1 多核结构模型
  • 2.3.2 互连网络模型
  • 2.3.3 分布存储模型
  • 2.4 动态逻辑分区功能模型
  • 2.4.1 动态逻辑分区对象定义
  • 2.4.2 动态逻辑分区管理
  • 2.5 多模式应用模型
  • 2.5.1 并行应用模型的定义
  • 2.5.2 任务管理接口的定义与实现
  • 2.5.3 应用I/O 能力需求分级模型
  • 2.6 深度资源信息模型DRIM 的构建方法
  • 2.6.1 通用信息模型
  • 2.6.2 DRIM 模型构建
  • 第三章 大规模资源管理系统的可扩展技术
  • 3.1 研究背景
  • 3.1.1 相关研究
  • 3.1.2 可扩展性研究目前存在的问题和策略
  • 3.2 资源管理系统可扩展层次式级联结构
  • 3.2.1 动态层次式级联资源管理结构
  • 3.2.2 可扩展级联服务的动态自组织构建方法
  • 3.2.3 基于构件机制的资源管理功能扩展
  • 3.3 可扩展资源管理协议优化设计
  • 3.3.1 基于硬件通信操作的资源管理协议优化设计
  • 3.3.2 结点状态监控协议优化设计
  • 3.3.3 大规模作业加载协议优化设计
  • 3.4 可扩展调度策略设计
  • 3.4.1 综合优先级的调度策略
  • 3.4.2 可变深度Backfill 策略
  • 3.5 可扩展性测试与分析
  • 3.5.1 资源管理协议的性能测试与分析
  • 3.5.2 作业加载性能测试与分析
  • 3.5.3 应用程序的性能测试
  • Backfill 调度策略性能测试与分析'>3.5.4 MCBackfill 调度策略性能测试与分析
  • 第四章 大规模资源管理系统的可靠性管理技术
  • 4.1 相关研究
  • 4.2 高性能计算系统故障模型
  • 4.2.1 高性能计算机系统故障分类
  • 4.2.2 高性能计算系统故障模型及其参数估计
  • 4.2.3 基于检查点/恢复技术的作业容错执行时间模型
  • 4.3 面向可靠性的资源管理方法
  • 4.3.1 面向可靠性的作业检查点周期选择算法
  • 4.3.2 面向可靠性的最优结点集合选择方法
  • 4.4 基于检查点/恢复模型的作业自动容错机制
  • 4.4.1 自动容错实现结构
  • 4.4.2 作业自动容错实现流程
  • 4.4.3 系统的可用度测量
  • 4.5 实验与测试
  • 4.5.1 系统故障模型参数的获取
  • 4.5.2 固定并行度作业最优检查周期测试
  • 4.5.3 优化并行度作业最优检查周期测试
  • 4.5.4 自动容错对性能的影响
  • 第五章 大规模资源管理系统的能耗管理技术
  • 5.1 相关研究
  • 5.1.1 并行计算机能耗优化
  • 5.1.2 动态电压调节
  • 5.1.3 自适应并行技术
  • 5.2 系统级能耗管理
  • 5.2.1 能耗约束下的资源分配方法
  • 5.2.2 能耗管理功能实现
  • 5.3 应用级能耗管理
  • 5.3.1 基于负反馈的能耗控制模型
  • 5.3.2 两级并发度控制算法
  • 5.3.3 控制框架的实现
  • 5.4 测试与分析
  • 5.4.1 测试环境介绍
  • 5.4.2 系统级能耗管理测试
  • 5.4.3 应用级能耗管理的测试
  • 第六章 结束语
  • 致谢
  • 参考文献
  • 作者近年发表的学术论文
  • 作者近年获得的科技奖励
  • 作者近年参加的主要科研工作
  • 相关论文文献

    • [1].光缆等哑资源管理系统提升研究[J]. 通讯世界 2019(12)
    • [2].分布式种质资源管理系统的建立[J]. 河北农业科学 2019(05)
    • [3].光纤资源管理系统构想[J]. 山东通信技术 2019(04)
    • [4].基于扶贫发展视角的村域资源管理系统构建[J]. 现代电子技术 2020(10)
    • [5].同煤集团矿权资源管理系统的建立与应用[J]. 江西煤炭科技 2020(03)
    • [6].移动网络综合资源管理系统分析与设计[J]. 价值工程 2020(21)
    • [7].光缆传输资源管理系统分析[J]. 数字通信世界 2017(07)
    • [8].云资源管理系统在电力企业中的应用研究[J]. 电子技术与软件工程 2014(23)
    • [9].教育资源管理系统共建共享问题研究[J]. 长春大学学报 2013(10)
    • [10].建设电信网络资源管理系统的思路与分析[J]. 电子测试 2020(06)
    • [11].电子资源管理系统的研究现状与演进趋势探析[J]. 图书馆学研究 2019(04)
    • [12].教室资源管理系统的设计与应用[J]. 中国高等医学教育 2019(08)
    • [13].审图资源管理系统的设计与实现[J]. 山西建筑 2017(02)
    • [14].基于自主云资源管理系统的开源虚拟化高可用技术实现[J]. 中国新通信 2017(14)
    • [15].基于插件的星地资源管理系统的设计与实现[J]. 无线电工程 2017(11)
    • [16].文档资源管理系统中树形菜单性能优化探讨[J]. 广西电力 2015(03)
    • [17].电子资源管理系统的发展及未来思考[J]. 大学图书馆学报 2014(03)
    • [18].国内主流教育资源管理系统的比较研究[J]. 中国教育技术装备 2014(18)
    • [19].电力通信资源管理系统的开发应用[J]. 黑龙江科技信息 2013(20)
    • [20].电信网络资源管理系统分析与实施[J]. 现代商业 2013(26)
    • [21].电子资源管理系统相关工作规范研究[J]. 图书馆学刊 2012(04)
    • [22].电子资源管理系统的著录规范研究[J]. 图书馆界 2012(04)
    • [23].IT资源管理系统在三甲医院的应用[J]. 广东科技 2012(17)
    • [24].非书资源管理系统在图书馆的应用[J]. 榆林学院学报 2011(02)
    • [25].“内容资源管理系统”的2.0时代(上)[J]. 出版参考 2011(09)
    • [26].关于国企通信运营商资源管理系统建设的初探[J]. 河北旅游职业学院学报 2011(02)
    • [27].浅谈农业网站图片资源管理系统的建设与设想[J]. 农业科技与信息 2011(16)
    • [28].商业性电子资源管理系统应用分析与评价[J]. 现代图书情报技术 2009(01)
    • [29].电子资源管理系统发展状况与趋势[J]. 图书馆理论与实践 2009(12)
    • [30].国内外音像资源管理系统的发展与应用调查分析[J]. 情报理论与实践 2008(06)

    标签:;  ;  ;  ;  ;  

    面向高效能计算的大规模资源管理技术研究与实现
    下载Doc文档

    猜你喜欢