基于对象存储结构的可伸缩集群存储系统研究

基于对象存储结构的可伸缩集群存储系统研究

论文题目: 基于对象存储结构的可伸缩集群存储系统研究

论文类型: 博士论文

论文专业: 计算机科学与技术

作者: 刘仲

导师: 周兴铭

关键词: 对象存储,元数据管理,数据对象布局,可伸缩性,均衡分布,高可用性

文献来源: 国防科学技术大学

发表年度: 2005

论文摘要: 随着处理器和网络技术的飞速发展,大大的提高了Linux集群计算的计算能力。Linux集群计算在高性能科学计算、商业应用和海量信息服务等领域得到了广泛应用,逐渐发展成为高性能计算中的流行方法。而受传统存储结构的限制,其计算能力得不到充分体现。构建满足Linux集群计算需求的可伸缩、高性能、跨平台、安全、共享数据的存储结构对现有的存储结构提出了巨大的挑战。 新兴的对象存储结构能够利用现有的处理技术、网络技术和存储组件提供空前的可伸缩性和聚合吞吐量,为构建新一代的大规模并行存储系统提供了基础。本文在全面深入了解对象存储结构与现有对象存储系统的基础上,对基于对象存储结构的大规模集群存储系统涉及的几个关键技术进行了深入研究,提出了新颖有效的实用算法。主要的贡献如下: (1)提出一种基于确定性算法分布目录对象和数据对象的可伸缩集群文件系统的框架结构,改进了现有对象存储系统的元数据和数据对象的管理方法。基于确定性算法自主计算数据分布的方法简化了大规模存储系统的管理,支持元数据服务器、存储节点的动态均衡扩展。 (2)首次提出目录路径属性与目录对象分离的元数据管理方法,扩展了现有的对象存储结构。该方法能够有效避免因为目录属性的修改而导致的大量元数据更新与迁移;通过减少前缀目录的重迭缓存提高了元数据服务器Cache的利用率和命中率;通过减少遍历目录路径的开销和充分开发目录访问的存储局部性,减少了磁盘I/O次数;通过元数据服务器的动态负载均衡避免单个服务器过载。实验结果表明该方法在提高系统性能、均衡元数据分布以及减少元数据迁移等方面具有明显的优势。 (3)首次在研究数据对象的分布中引入Monte Carlo方法,提出一种基于动态区间映射的数据对象布局算法,支持权重分布和副本,在均衡数据分布和最少迁移数据方面都是统计意义上最优的,有效解决了动态存储系统的数据均衡分布问题,提高了系统的可扩展性。该算法的基本思想是将数据对象与随机数对应起来,将存储节点与容纳随机数的区间对应起来,将离散空间中的数据对象分布问题转化为连续空间中的区间分割问题。根据系统中存储节点的规模和权重将单位区间分割成不同长度的区间,并在区间与存储节点之间建立映射关系,通过两次映射确定数据对象的存储位置。理论分析和实验结果表明数据对象分布具有统计意义上的均衡性、自适应性和迁移最优性,定位数据对象速度快。 (4)提出一种可伸缩分布式节点地址计算算法。该算法使得数据对象分配地址的计算不依赖于中央节点计算或者访问一个集中式目录,所有计算节点和存储节点独立地进行地址计算,并且对数据对象的访问操作或新增节点引起的系统规模变化不需要原子更新到其他计算节点,计算节点通过视图校正算法自主学习,自动适应新的系统规模。消除了现有的集中式访问性能瓶颈,使系统具有高可伸缩性。

论文目录:

摘要

ABSTRACT

第一章 绪论

§1.1 研究背景

1.1.1 集群计算的存储需求

1.1.2 现有的存储结构分析

1.1.3 新兴的对象存储结构

§1.2 研究内容及目标

§1.3 相关的研究工作

1.3.1 元数据管理

1.3.2 数据对象布局

§1.4 本文的工作

§1.5 论文结构

第二章 基于对象存储的集群文件系统框架结构

§2.1 引言

§2.2 对象存储结构

2.2.1 对象存储模型

2.2.2 基于OSD的存储系统结构

2.2.3 特性

§2.3 基于对象存储的集群文件系统框架结构

2.3.1 系统组成

2.3.1.1 存储服务器

2.3.1.2 元数据管理器

2.3.1.3 客户端文件系统

2.3.2 数据流程

2.3.3 关键技术

2.3.3.1 并行数据访问

2.3.3.2 分布元数据

2.3.3.3 自主计算

§2.4 小结

第三章 基于目录路径的元数据管理方法

§3.1 基本思想

§3.2 系统结构

3.2.1 数据对象分布

3.2.2 元数据分布

3.2.3 元数据存储

§3.3 元数据表示

3.3.1 目录路径索引项

3.3.2 目录路径对象

§3.4 元数据管理

3.4.1 元数据定位

3.4.2 访问控制

3.4.3 元数据定位

§3.5 测试实验与性能分析

3.5.1 实验方法

3.5.2 实验分析

3.5.2.1 性能

3.5.2.2 负载分布

3.5.2.3 元数据迁移

3.5.2.4 综合比较

§3.6 小结

第四章 基于动态区间映射的数据对象布局算法

§4.1 定义和模型

4.1.1 定义

4.1.2 模型

4.1.3 Monte Carlo方法

§4.2 算法评价准则

§4.3 基于动态区间映射的数据对象布局算法

4.3.1 基本思想

4.3.2 映射表示

4.3.3 数据对象映射算法

4.3.4 初始映射表示

4.3.5 映射表示的更新算法

4.3.5.1 增加存储节点

4.3.5.2 去掉存储节点

4.3.6 支持数据对象多个副本

§4.4 算法分析

§4.5 测试实验与性能分析

4.5.1 计算性能测试与分析

4.5.2 数据分布测试与分析

§4.6 小结

第五章 可伸缩分布式数据访问方法

§5.1 分布式数据定位算法

5.1.1 客户端地址计算

5.1.2 存储节点端地址计算

5.1.3 客户端视图校正算法

§5.2 分布式数据迁移算法

5.2.1 空闲迁移算法

5.2.2 Lazy迁移算法

§5.3 小结

第六章 高可用的数据对象布局算法

§6.1 引言

§6.2 基于镜像的高可用数据对象布局算法

6.2.1 基本原理

6.2.2 客户端计算

6.2.3 存储节点端计算

6.2.4 数据恢复方法

6.2.5 性能分析

6.2.6 高可用性分析

§6.3 基于分组的高可用数据对象布局算法

6.3.1 数据对象分组方法

6.3.2 数据恢复方法

6.3.3 性能分析

6.2.4 高可用性分析

§6.4 小结

第七章 支持节点组的数据对象副本布局算法

§7.1 定义和模型

7.1.1 定义

7.1.2 模型

§7.2 支持节点组的数据对象副本布局算法

7.2.1 基本思想

7.2.2 映射表示

7.2.3 数据对象副本映射算法

7.2.4 初始映射表示

7.2.5 映射表示的更新算法

7.2.5.1 增加节点组

7.2.5.2 去掉节点组

7.2.6 支持Erasure Code

§7.3 算法分析

§7.4 测试实验与性能分析

7.4.1 计算性能测试与分析

7.4.2 数据分布测试与分析

§7.5 小结

第八章 原型系统设计与实现

§8.1 总体结构

§8.2 子系统设计

8.2.1 客户端文件系统

8.2.2 目录路径索引服务器

8.2.3 元数据服务器

8.2.4 对象存储服务器

8.2.5 CFS与VFS的接口

§8.3 小结

第九章 结束语

§9.1 工作总结

§9.2 研究展望

致谢

攻读博士学位期间发表的论文

攻读博士学位期间参与的科研项目

参考文献表

发布时间: 2006-09-22

参考文献

  • [1].集群存储网络吞吐量塌陷行为研究[D]. 霍道安.华中科技大学2012
  • [2].面向大数据的异构集群存储系统副本放置与选择策略研究[D]. 熊润群.东南大学2015

相关论文

  • [1].对象存储系统副本管理研究[D]. 谭支鹏.华中科技大学2008
  • [2].大规模分布式存储技术研究[D]. 魏青松.电子科技大学2004
  • [3].基于网络磁盘阵列的海量信息存储系统[D]. 邓玉辉.华中科技大学2004
  • [4].广域网络存储虚拟化技术研究[D]. 邓劲生.国防科学技术大学2005
  • [5].基于共享对象存储设备的并行文件系统研究[D]. 谈华芳.中国科学院研究生院(计算技术研究所)2005
  • [6].基于可扩展对象的海量存储系统研究[D]. 刘群.华中科技大学2006
  • [7].海量对象存储系统数据组织算法的研究[D]. 罗益辉.华中科技大学2006
  • [8].基于对象的主动存储关键技术研究[D]. 覃灵军.华中科技大学2006
  • [9].一种自适应海量存储系统组织策略及关键技术研究[D]. 赵振.华中科技大学2006
  • [10].分布式数据存储和处理的若干技术研究[D]. 余利华.浙江大学2008

标签:;  ;  ;  ;  ;  ;  

基于对象存储结构的可伸缩集群存储系统研究
下载Doc文档

猜你喜欢