微阵列数据处理平台的设计与实现

微阵列数据处理平台的设计与实现

论文摘要

人类基因组计划推动了后基因组和功能基因组的研究,要同时研究生物体成千上万条基因的功能,特别是研究基因与基因之间表达与调控的复杂网络关系,显然传统的研究方法效率太低,无法适应基因组与功能基因组研究的要求。微阵列技术正是在这种环境下应运而生的。在微阵列分析中,从细胞中抽提得到mRNA,把mRNA进行荧光标记,然后和含有基因序列的玻璃芯片进行杂交。芯片上每个点能和杂交液中荧光标记的特异性cDNA发生杂交结合,使得每个点的荧光信号和基因表达的丰度成正相关。荧光信号的强弱能以彩色模式来显示。然后基因表达可以通过芯片上每个位置的荧光信号强度来定量。基因表达谱能揭示在生命活动过程中发生的许多变化,这一技术已经广泛应用于生物学和医学的各个研究领域。微阵列技术的出现给生命科学的很多领域都带来了一场革命。例如通过比较正常组织和疾病组织的表达谱差异,可以了解疾病发生的分子基础,从而更好的预防和治疗。通过比较病人疾病发生的过程及用药过程基因表达的变化情况,从而实现毒理研究、药物发现和临床药效研究。通过全基因组表达谱研究,可以了解生命,也可以建立各种细胞和组织在不同时期的基因表达数据库,为研究人员提供帮助。在微阵列技术迅速发展的同时,数据也在不断地增加,如何有效地处理和管理芯片实验所产生的海量数据越来越引起研究者们的广泛关注。微阵列数据分析需要新的算法、软件和强大的计算平台的支持。本文首先针对微阵列数据分析的研究现状,总结了微阵列数据分析软件和数据库中存在的问题,这些问题主要表现在有些只专用于某一特定的芯片设备;有些只能在特定的操作系统下运行,而且对计算机硬件配置要求较高;有些是商业软件,费用很高;有些要设置的参数较多,要求生物学家对算法方面有很深的了解;有些采用命令行方式控制,没有图形化接口。一些生物学家需要花大量的时间来学习软件操作,而且使用多个软件才能得到预想的结果。因此,针对上述问题有必要开发一个操作界面友好、功能较全面、面向生物学家的微阵列数据处理平台。平台采用浏览器/服务器(Browser/Server, B/S)网络构架,用户可以在个人计算机上通过web浏览器来操作,本平台针对的是目前大多数实验室常用的三种芯片:寡核苷酸微阵列、cDNA微阵列和组织微阵列。用户将数据提交到相应的web服务器,同时选择参数,服务器进行分析和处理后,将结果返回到用户浏览器或用户文件夹以便用户下载。服务器的硬件平台为一台装有Linux操作系统的高性能计算机(PowerCluster8000IN),网络服务器为Apache HTTP,平台数据管理则采用MySQL数据库,并用Perl语言做后台的开发工具,整合了R和Bioconductor的多个软件包的功能,HTML编写前台网页。最后数据分析的结果以表格、文本或图像形式返回用户平台。R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它有非常强大的统计分析,如参数估计、假设检验(包括参数检验和非参数检验)、回归分析(包括一元线性回归、多元线性回归、逐步回归和广义线性回归等)、时间序列分析、分类和聚类等。R语言还提供各种图形化显示工具,如散点图、箱线图、聚类图形等。构建于R平台上的Bioconductor计划是专门为计算生物和生物信息学而建立的。早期的微阵列数据处理一般都集中在简单的单基因为独立变量的假设下,根据临床参数和t检验的方法被广泛应用。Bioconductor可以提供很多更加合理的统计方法,它包括很多软件包,而且也是开源和开放的,用户可以了解算法的本质,可以改进和扩充软件的功能。所以本平台用Perl语言整合了Bioconductor中的很多软件包针对不同的微阵列数据进行分析。本平台的主要功能有:(1)寡核苷酸微阵列数据分析:读取原始数据;数据的预处理,如消除非特异性杂交的影响而进行背景校正,或为了从生物学角度上更好地解释及使数据满足特定的数据分布,通常对荧光强度数据进行对数转换,还包括异常值和缺失值的处理,重复数据的合并等;归一化是针对系统偏倚产生的原因而进行的;质量评估可以通过散点图、箱图等评估数据处理后的质量好坏;差异表达基因分析包括参数法(包括u检验、t检验、卡方检验和F检验等)以及非参数法(如传统的秩和检验、经验贝叶斯法、混合模型法、芯片显著性分析等);基因注释和功能分析包括各个数据中对于基因的标号、GO注释、KEGG注释、PubMed及超链接等信息,快速有效的基因注释对进一步识别基因,研究基因的调控机制,研究基因在生物体代谢途径中的地位等具有重要的意义。(2) cDNA微阵列数据分析:预处理,质量评估,统计分析。与寡核苷酸微阵列数据的处理与分析功能非常相似,本文所用统计方法为贝叶斯方法。(3)组织微阵列数据分析:用随机森林算法对样本进行分类,所用的软件包为Bioconductor中的randomForest。该算法可以应用少数几个指标就能很准确的判断样本的分类,可以对病例进行分析,这有很好的应用前景,例如,根据p53等少数几个指标,可以判断患者是否患有该种疾病或属于疾病的何种分型,对于前期诊断非常有意义,由于不用太多指标,这样还可以节省资金。运用本平台处理了结核杆菌不同临床分型的人类巨噬细胞寡核苷酸微阵列数据,即潜伏期、结核病、结核性脑膜炎进行分析,为识别结核杆菌的敏感基因提供了线索。运用本平台还对不同条件下用异烟肼处理结核分枝杆菌的效果进行处理和分析,例如低氧条件和敲除katG基因的条件所获得的相关cDNA微阵列数据,发现用异烟肼处理的对数生长期调节的基因将不会在休眠期模型中被差异调节;并且在细胞的低代谢状态,即休眠期,被差异调节的基因总数将减少。这些应用研究与国际上的一些报道得到的结论有一致性,验证了平台的有效性,并为结核杆菌的进一步研究提供了思路。平台还有许多不足之处:微阵列数据分析有很多的软件包和算法,本文只整合了R语言和Bioconductor的部分软件包,尚需要对平台的功能做进一步的扩充和完善。本平台编程目前还未采用并行计算技术,所以当算法本身比较耗时并且数据量又较大时,服务器无法达到最优运算速度,因此下一步应该对部分耗时算法和软件使用并行计算技术进行优化处理。随着高通量数据的大量产出与发布,本课题的研究工作能为从事微阵列数据分析的生物学家提供方便,辅助他们使用寡核苷酸微阵列数据、cDNA微阵列数据、组织微阵列数据或其它芯片数据,实现不同目的的数据分析工作。此外本课题的工作对相关生物信息学平台的设计与构建研究也有一定的参考价值。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 前言
  • 1.1 研究背景
  • 1.2 微阵列的应用领域
  • 1.3 生物信息学与微阵列的数据挖掘
  • 1.3.1 微阵列的数据挖掘
  • 1.3.2 R语言与Bioconductor简介
  • 第二章 微阵列数据处理的研究
  • 2.1 微阵列数据处理基础
  • 2.1.1 预处理
  • 2.1.2 生物注释及可视化
  • 2.1.3 统计分析
  • 2.2 微阵列数据处理工具
  • 2.3 微阵列数据网络服务资源
  • 2.4 微阵列数据处理平台设计的意义
  • 第三章 微阵列数据处理平台的设计与实现
  • 3.1 总体设计
  • 3.1.1 基本构架
  • 3.1.2 平台运行环境与开发工具
  • 3.2 平台的功能
  • 3.2.1 寡核苷酸微阵列的处理与分析
  • 3.2.2 cDNA微阵列的处理与分析
  • 3.2.3 组织微阵列的处理与分析
  • 3.3 程序设计
  • 3.3.1 用户页面制作
  • 3.3.2 数据处理流程
  • 3.4 小结
  • 第四章 微阵列数据处理平台的应用研究
  • 4.1 三个分型的TB敏感性基因的分析
  • 4.2 不同条件下用异烟肼处理TB效果的分析
  • 第五章 总结和展望
  • 参考文献
  • 论文附件清单
  • 攻读硕士期间发表的论著
  • 致谢
  • 统计学证明
  • 相关论文文献

    • [1].中科院深圳先进院成功设计形状记忆微阵列[J]. 润滑与密封 2018(10)
    • [2].微阵列-比较基因组杂交技术在临床病理研究中的应用[J]. 国际检验医学杂志 2009(10)
    • [3].微阵列比较基因组杂交技术的研究进展[J]. 海南医学 2019(23)
    • [4].蛋白质微阵列(蛋白质科学与技术丛书)[J]. 生物技术通讯 2008(06)
    • [5].微阵列酶联免疫法在临床输血检测中的应用[J]. 临床血液学杂志(输血与检验版) 2008(04)
    • [6].基于微流控芯片的微阵列分析[J]. 化学进展 2011(01)
    • [7].DNA微阵列在药物研究中的应用[J]. 现代生物医学进展 2009(04)
    • [8].微阵列比较基因组杂交应用于产前诊断中的研究进展[J]. 中华妇幼临床医学杂志(电子版) 2014(03)
    • [9].蛋白质微阵列(蛋白质科学与技术丛书)[J]. 生物技术通讯 2008(04)
    • [10].单核苷酸多态性微阵列分析在产前基因诊断中的应用价值[J]. 中国优生与遗传杂志 2017(08)
    • [11].安捷伦科技推出新一代全基因组水稻微阵列[J]. 生物工程学报 2008(02)
    • [12].微阵列图像降噪和自动定位[J]. 西安工业大学学报 2008(04)
    • [13].微阵列比较基因组杂交技术在精神运动发育迟缓中的临床应用[J]. 重庆医学 2020(13)
    • [14].基于粗糙集的支持向量机微阵列数据分类方法[J]. 科学技术与工程 2009(01)
    • [15].安捷伦推出新型微阵列扫描仪,更高的灵敏度、简化的工作流程[J]. 环境化学 2011(09)
    • [16].微阵列酶联免疫吸附试验在临床输血检测中的应用[J]. 检验医学与临床 2009(21)
    • [17].基于直接标记法抗体微阵列的初步构建[J]. 东南大学学报(医学版) 2009(02)
    • [18].微阵列-比较基因组杂交技术检测染色体异常[J]. 国际生殖健康/计划生育杂志 2009(04)
    • [19].双链DNA微阵列:原理、技术和应用[J]. 遗传 2013(03)
    • [20].微阵列样点定位与信息提取[J]. 计算机工程与应用 2009(09)
    • [21].多重PCR增强DNA微阵列分析检测病原菌的能力[J]. 中国继续医学教育 2009(02)
    • [22].一种基于微阵列镜头的多目标的图像置换方法[J]. 北方工业大学学报 2018(02)
    • [23].Dystrophin基因缺失检测微阵列构建及应用中技术优化的研究[J]. 中国优生与遗传杂志 2009(05)
    • [24].微阵列比较基因组杂交产前诊断胎儿7q36.3微缺失的临床研究[J]. 中国妇幼保健 2013(22)
    • [25].DNA微阵列法检测结核分枝杆菌对利福平和异烟肼的耐药性[J]. 上海交通大学学报(医学版) 2015(11)
    • [26].化学生物学中光敏分子微阵列的表面构建与应用[J]. 中国科学:化学 2013(10)
    • [27].单核苷酸多态性微阵列在染色体易位植入前遗传学诊断中的应用[J]. 中国实用妇科与产科杂志 2016(03)
    • [28].基于夹心免疫分析的抗体微阵列的构建[J]. 中国生物工程杂志 2008(09)
    • [29].cDNA微阵列鉴定差异表达基因的可靠性分析[J]. 华北农学报 2008(03)
    • [30].微阵列比较基因组杂交技术在出生缺陷新生儿中的应用研究[J]. 川北医学院学报 2019(06)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    微阵列数据处理平台的设计与实现
    下载Doc文档

    猜你喜欢