生物信息学网格环境下任务调度关键技术研究

生物信息学网格环境下任务调度关键技术研究

论文摘要

随着后基因组时代的到来,爆炸式增长的生物数据对计算资源的性能提出了严峻的挑战,作为应对挑战的生力军,网格技术得到了空前的重视,专门用来处理生物数据的生物信息学网格也随之诞生。除传统网格所面临的技术挑战外,由于生物数据所特有的数据量大、彼此间不相关或弱相关、任务粒度大以及需要多方协作等特性,生物信息学网格对资源管理、任务调度、负载均衡等技术和方法提出了特殊需求,需要根据生物信息学应用的特点对其进行必要的改进,使底层资源与高层应用有机结合,从而有效提高资源利用率和任务执行效率,简化生物学研究人员使用网格平台的复杂程度,使生物信息学网格作为生物学研究的重要基础设施最大限度地发挥其服务潜力。在对网格资源管理模式详细分析的基础上,提出双层资源定义机制,综合考察系统底层物理资源特性和高层应用的逻辑关联,使网格平台在进行任务调度、负载均衡以及服务流的动态组织等关键操作时能够兼顾到物理和应用两方面的特征,做到服务与任务的最佳匹配,有效避免了纵向资源定义机制可能带来的拓扑失配问题。基于双层横向资源定义的思想,分别给出了适合生物信息学网格任务调度、负载均衡以及服务流动态组合调度的新策略。复杂生物学应用通常由多个子任务根据特定应用逻辑共同协作完成,基于相关服务组合优化的思想,给出了基于逻辑组合划分的两级服务调度策略SP2SP。根据复杂应用各子任务之间的逻辑关系确定符合其需求的服务集并定义为服务的逻辑分组,首先实现复杂应用和服务逻辑分组之间的一级优化匹配,进而在服务的逻辑分组内部,实现基于QoS和加权队列的二级匹配。SP2SP有效降低了调度器与信息服务的交互次数,实现了资源预留,同时兼顾到任务的优先级,提高了网格任务的执行效率,保证了多任务之间对资源竞争使用的公平性。网格负载均衡是保证网格系统整体性能不可或缺的功能模块。针对生物信息学网格负载均衡过程中,任务的动态迁移可能引起大数据迁移现象,提出基于最小代价最大流信道M2C的负载均衡策略M2ON。M2ON通过语义覆盖网搜索计算性能符合需求的网格节点,通过M2C考察源节点与可能的目标节点之间的通信状态,最后通过双线性插值函数DLI将其融合成综合影响因子IIF作为最终目标节点的选择依据。M2ON避免了传统单覆盖网模型可能引起的拓扑失配问题,降低了任务或数据传输开销在整个任务完成时间中的比例,从而提高了网格任务的执行效率。为了降低使用网格平台的复杂程度,互相协作的多个网格服务可以根据特定的应用逻辑自动组织成特定的服务流,在服务流程确定后,由于任务粒度较大且不均匀,可能引起资源负载不均衡,进而影响资源总体利用率。针对生物数据之间不相关或弱相关特性,给出了基于任务粒度分解的多级流水线服务调度策略MP-GridWF;结合副本创建机制,进而给出基于多级流水和多粒度副本创建的服务调度策略MP&MR-GridWF。MP-GridWF与MP&MR-GridWF相继提高了需要多个服务串行协作的网格任务的执行效率。结合上述研究内容和方法,基于中国教育科研网格公共支撑平台CGSP,作为国家科技基础条件平台NPPC的一部分,搭建了生物信息学网格子平台H-BioGrid。实际应用测试充分表明上述研究方法可以有效提高网格资源的利用率和任务执行效率,降低了网格任务平均完成时间。H-BioGrid可以集成任何意欲加入平台的软、硬资源,已经部署并公开发布了实验室开发的多个生物信息学应用软件和数据库,为国内外生物信息学研究提供必要的支持。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 生物信息学及其发展
  • 1.2 网格技术及其应用
  • 1.3 生物信息学网格及其研究现状
  • 1.4 生物信息学网格的关键问题
  • 1.5 论文的研究内容和主要贡献
  • 1.6 论文的结构
  • 2 网格任务调度与负载均衡
  • 2.1 问题实质
  • 2.2 负载均衡与任务调度的关系
  • 2.3 生物信息学网格需要均衡调度
  • 2.4 调度策略新思路
  • 2.5 本章小结
  • 3 基于逻辑划分的两级服务调度
  • 3.1 研究背景
  • 3.2 逻辑分组模型及概念
  • 3.3 两级服务调度策略SP2SP
  • 3.4 性能分析
  • 3.5 本章小结
  • 4 基于双层资源模型的均衡调度
  • 4.1 研究背景
  • 4.2 双层资源模型
  • 2ON'>4.3 负载均衡策略M2ON
  • 4.4 实验分析
  • 4.5 本章小结
  • 5 基于多粒度副本创建的流水线调度
  • 5.1 研究背景
  • 5.2 多级建模方法
  • 5.3 多级流水线服务调度
  • 5.4 融合多粒度副本创建的流水线调度
  • 5.5 性能分析
  • 5.6 本章小结
  • 6 生物信息学网格计算平台实践
  • 6.1 项目来源与总体设计
  • 6.2 生物信息学网格子平台
  • 6.3 软件部署
  • 6.4 应用展示
  • 6.5 平台性能测试
  • 6.6 本章小结
  • 7 总结与展望
  • 7.1 论文总结
  • 7.2 今后的展望
  • 致谢
  • 参考文献
  • 附录1 攻读学位期间发表和完成的论文
  • 附录2 攻读学位期间参与的科研项目
  • 相关论文文献

    • [1].生物信息学2019年第17卷总目次[J]. 生物信息学 2019(04)
    • [2].循证医学中的生物信息学应用及教学初步探讨[J]. 科技创新导报 2019(27)
    • [3].短学时情况下生物信息学课程教学改革——以重庆师范大学为例[J]. 西部素质教育 2020(05)
    • [4].国外生物信息学教育研究概述及其启示[J]. 廊坊师范学院学报(自然科学版) 2020(01)
    • [5].导师定制的个性化生物信息学课程教学研究[J]. 安徽农业科学 2019(15)
    • [6].主题式生物信息学教学理论和实践初索[J]. 教育教学论坛 2018(22)
    • [7].《生物信息学》课程教学模式探讨[J]. 生物信息学 2018(02)
    • [8].生物信息学2016年第14卷总目次[J]. 生物信息学 2016(04)
    • [9].新技术背景下对生物信息学教育的重新审视[J]. 课程教育研究 2017(09)
    • [10].生物信息学的本科教学实践[J]. 时代教育 2018(01)
    • [11].《生物信息学》试卷库建设的研究与实践[J]. 考试周刊 2018(85)
    • [12].浅谈如何提高生物信息学教学质量[J]. 散文百家(新语文活页) 2016(12)
    • [13].结核分枝杆菌蛋白Rv0694的生物信息学分析[J]. 科学中国人 2017(03)
    • [14].大学生物信息学教材浅析[J]. 散文百家(新语文活页) 2017(01)
    • [15].以实践为主的生物信息学教学改革及成效[J]. 教育现代化 2019(61)
    • [16].生物信息学本科人才培养的调研与思考[J]. 生物信息学 2018(02)
    • [17].生物信息学教学模式改革探究[J]. 新智慧 2018(07)
    • [18].理解生物信息学[J]. 新疆农业科学 2012(02)
    • [19].刍议计算机科学在生物信息学领域的运用[J]. 信息与电脑(理论版) 2012(22)
    • [20].农业院校生物信息学发展现状和建议[J]. 甘肃科技 2017(22)
    • [21].生物信息学本科学位课程发展思考[J]. 中国大学教学 2018(03)
    • [22].生物信息学:神秘的新职业[J]. 科学新闻 2014(18)
    • [23].中国医药数学会主办2011年暑期生物信息学科研与教学培训班[J]. 数理医药学杂志 2011(05)
    • [24].国际整合生物信息学[J]. 国际学术动态 2012(06)
    • [25].应用型专业生物信息学教学体系改进与实践[J]. 生物学杂志 2018(04)
    • [26].保留传统课堂的魅力:论生物信息学本科教学[J]. 教育教学论坛 2018(40)
    • [27].生物信息学高性能教学平台的建立与实践[J]. 实验室研究与探索 2015(10)
    • [28].欢迎订阅《生物信息学》[J]. 生物信息学 2014(04)
    • [29].生物信息学专业规划的理念与实践[J]. 教书育人 2010(33)
    • [30].《生物信息学》征稿启事[J]. 生物信息学 2008(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    生物信息学网格环境下任务调度关键技术研究
    下载Doc文档

    猜你喜欢