生物学数据集成若干关键问题研究

生物学数据集成若干关键问题研究

论文题目: 生物学数据集成若干关键问题研究

论文类型: 博士论文

论文专业: 计算机软件与理论

作者: 曹顺良

导师: 朱扬勇

关键词: 生物信息学,集成,抽取,刷新,本体,相似性

文献来源: 复旦大学

发表年度: 2005

论文摘要: 随着基因组测序工作的蓬勃发展以及高通量技术如基因芯片技术、质谱(MS)技术、组合化学和生物化学技术的迅速发展和普及应用,生物数据呈指数级增长。 面对如此迅速增长的生物数据,如何有效管理、准确解读、充分使用这些信息,而不被这浩如烟海的数据所淹没,并从中找到明确的研究方向,已成为生物学发展亟须解决的问题。 然而,由于生物数据的分布性以及异构性等特点,使得从多个数据源获取所需要的信息变得非常困难。集成众多异构的生物信息资源,提供方便、高效地获取高质量的生物学数据的手段,支撑生物信息的分析和挖掘功能,是进行现代生物学研究的前提和关键。因此,生物数据集成系统的研究和开发具有重要的理论价值和实际意义。 本文总结了生物学数据集成研究的现状,对采用数据仓库方法进行的数据集成中的数据抽取和转化、语义相似性的度量、基于Gene Ontology的语义查询等问题进行了研究和探讨,最后给出了一个生物学数据集成系统——BioDW。主要研究成果如下: (1)提出了一种新的半结构化数据模式的表示和数据抽取的方法 在生物数据源中绝大多数数据都是半结构化的,这些数据的主要特点是数据格式多样化、数据元素之间存在着嵌套和局部无序的关系、数据存在缺失和结构的不断变化,这为生物信息的提取提出了严重的挑战。根据生物学数据的特点,提出了一种全新的半结构化数据模式表示方法。该方法将OEM数据模型和正则表达式有机地结合起来,不但能够非常灵活方便地表示各种数据结构,

论文目录:

摘要

ABSTRACT

第一章 绪论

1.1 研究背景

1.1.1 生物学数据源和数据总量的持续增长

1.1.2 生物信息学的产生与发展

1.2 生物学数据集成

1.2.1 生物学数据的特征

1.2.2 生物学数据集成的必要性

1.2.3 生物学数据集成方法

1.2.4 生物学数据集成存在的问题

1.3 国内外研究现状

1.4 研究内容及成果

1.5 论文结构

第二章 半结构化生物数据的信息抽取

2.1 半结构化生物数据的格式及其特点

2.1.1 半结构化数据的特点

2.1.2 生物数据的信息格式及特点

2.2 半结构化数据抽取的相关研究

2.3 半结构化数据抽取模型的构建

2.3.1 半结构化数据模式

2.3.2 OEM数据模型

2.3.3 RE-OEM数据抽取模型

2.4 半结构化生物数据的信息抽取

2.5 实验结果及其分析

2.6 本章小结

第三章 GO语义相似性度量方法

3.1 本体概述

3.2 生物本体

3.2.1 生物数据库中语义的异构

3.2.2 本体在生物数据库中作用

3.2.3 生物本体的研究现状

3.3 GENE ONTOLOGY

3.4 相似性度量的相关研究

3.5 一种基于语义路径覆盖的GO术语间相似性的度量方法

3.5.1 基本定义

3.5.2 算法描述

3.5.3 实验评估

3.6 本章小结

第四章 基于GO的异构生物数据库的语义查询

4.1 序列比对方法的缺陷

4.2 BIODW中语义查询的体系结构

4.2.1 DB2GO表

4.2.2 Semantic similarity表

4.3 BIODW中的查询类型

4.3.1 浏览GO的方法

4.3.2 查询GO的方法

4.3.3 语义相似性查询

4.4 结果分析

4.5 本章小结

第五章 BIODW生物学数据集成系统

5.1 BIODW的系统架构

5.2 BIODW数据仓库数据的组织

5.3 BIODW的数据查询

5.3.1 LinkDB查询

5.3.2 序列完全匹配查询

5.4 BIODW数据的更新

5.5 本章小结

第六章 结论与展望

6.1 结论

6.2 展望

参考文献

攻读学位期间作者的工作成果

致谢

论文独创性声明

论文使用授权声明

发布时间: 2005-09-19

参考文献

  • [1].基于机载与车载LiDAR数据的建筑物模型多视三维重建研究[D]. 陈焱明.南京大学2015

相关论文

  • [1].计算智能在生物信息学中的应用研究[D]. 彭司华.浙江大学2004
  • [2].半结构化数据集成系统中的查询处理研究[D]. 陶春.复旦大学2004
  • [3].基于本体的Web信息集成若干关键技术研究[D]. 张凯.复旦大学2004
  • [4].生物信息学中多序列比对等算法的研究[D]. 张敏.大连理工大学2005
  • [5].面向复杂数据源的数据抽取模型和算法研究[D]. 邓绪斌.复旦大学2005
  • [6].XML数据的查询、转换和集成[D]. 郭志懋.复旦大学2005
  • [7].基因组水平生物信息学工具的开发和应用(从ReAS到WEGO)[D]. 叶葭.浙江大学2006

标签:;  ;  ;  ;  ;  ;  

生物学数据集成若干关键问题研究
下载Doc文档

猜你喜欢