基于聚类算法的基因微阵列数据分析

基于聚类算法的基因微阵列数据分析

论文摘要

微阵列技术,使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。目前,各种不同的数据挖掘方法被应用于微阵列数据的分析研究,以揭示潜在的基因表达模式,对基因和样本进行分类研究和解释。聚类分析能将功能相关的基因按照表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。由于微阵列基因表达数据具有维数高、样本小、非线性的特点,本文从基因和样本两个方面对其进行了分析,包括对基因功能的聚类分析以及肿瘤分型、分类的研究。取得的主要研究成果如下:1.基因表达的改变往往伴随着基因功能的改变,通过聚类分析基因表达谱,可以找到协同表达基因及其规律,同时发现未知功能的基因。本文从基因变化的趋势出发,构造了新的模糊相似关系矩阵,提出了改进的基于模糊相似关系的聚类算法,并以此算法计算模糊C均值(Fuzzy C Means,FCM)的初始聚类中心来对基因表达谱进行聚类分析,实验结果表明该算法不仅克服了FCM算法对初值敏感的缺点,而且能够发现一些表达模式变化趋势相似的共调控基因。2.对样本聚类可以发现未知的疾病亚型。由于在实验过程中,会引入大量的噪声,因此在进行聚类分析前需要先对基因表达谱数据进行降噪处理。本文是在小波去噪的基础上,将改进的FCM算法模型用于白血病基因表达谱样本分型。聚类结果表明:该方法能得到高准确度的样本分型结果。3.由于基因表达数据维数高、样本少,使得聚类效率较低,聚类准确度也相对较小。本文从降维的角度考虑,提出了基于代表熵的双向聚类算法。该算法首先通过自组织特征映射网络(SOM)对基因聚类,根据波动系数挑选特征基因。然后根据代表熵的大小判断基因聚类的好坏,并确定网络的神经元个数。最后采用FCM聚类算法对挑选出的特征基因集进行样本分型。将该算法用于两组公开的基因表达数据集,实验结果表明该算法在降低特征维数的同时,得出了较高的聚类准确率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.1.1 基因芯片介绍
  • 1.1.2 微阵列技术的生物学背景
  • 1.1.3 微阵列基因表达数据
  • 1.1.4 基因表达数据分析
  • 1.2 基因表达数据的研究现状
  • 1.3 课题研究的目的和意义
  • 1.4 论文的研究内容及安排
  • 1.4.1 主要研究内容
  • 1.4.2 结构安排
  • 第二章 聚类分析概述
  • 2.1 引言
  • 2.2 聚类分析的应用要求
  • 2.3 基础知识
  • 2.3.1 数据标准化
  • 2.3.2 距离与相似系数
  • 2.3.3 聚类的特征与聚类间的距离
  • 2.4 主要聚类方法
  • 2.4.1 划分的方法
  • 2.4.2 层次方法
  • 2.4.3 自组织映射(SOMs)
  • 2.5 模糊C 均值聚类算法
  • 2.6 本章小结
  • 第三章 基于新的模糊相似关系的基因聚类算法研究
  • 3.1 引言
  • 3.2 基于相似测度的新相关系数
  • 3.2.1 相关系数
  • 3.2.2 特征相似测度-最大信息压缩指数
  • 3.2.3 联合相似测度
  • 3.3 改进的基于模糊相似关系的聚类算法描述
  • 3.3.1 基本定义
  • 3.3.2 算法思想
  • 3.4 FCM 聚类初始化算法流程
  • 3.5 实验及结果分析
  • 3.5.1 实验数据
  • 3.5.2 数据预处理
  • 3.5.3 结果分析
  • 3.6 本章小结
  • 第四章 基于小波去噪和改进的FCM 算法的基因表达数据分析
  • 4.1 引言
  • 4.2 小波变换降噪处理
  • 4.3 加权似然模糊聚类(WPFCM)
  • 4.3.1 WPFCM 聚类算法
  • 4.3.2 基于有效性测度的基因表达数据的WPFCM 模型
  • 4.4 实验仿真
  • 4.4.1 数据来源
  • 4.4.2 实验结果分析
  • 4.5 本章小结
  • 第五章 基于代表熵的双向聚类算法研究
  • 5.1 引言
  • 5.2 双向聚类算法模型
  • 5.2.1 基因聚类-SOM 算法
  • 5.2.2 代表基因的挑选
  • 5.2.3 代表熵
  • 5.2.4 样本聚类-FCM 算法
  • 5.3 双向聚类算法描述
  • 5.4 实验分析
  • 5.4.1 实验数据来源
  • 5.4.2 实验结果与分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 本文的工作总结
  • 6.2 今后工作展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于聚类算法的基因微阵列数据分析
    下载Doc文档

    猜你喜欢