基于多特征的集成分类器在基因表达数据分类中的应用

基于多特征的集成分类器在基因表达数据分类中的应用

论文摘要

随着人类基因组计划的发展,DNA微阵列技术作为一项革命性的技术应运而生。它可以自动、快速、高效的检测成千上万个基因的表达情况,通过分析所产生的基因表达数据,可以在分子层面了解细胞的生理状态,如生存、增殖、分化、凋亡、癌变和应激等等。这些问题对于医学临床诊断、药物疗效判断、解释疾病发生机制等方面有重要的作用。基因表达数据数目巨大且极其复杂,人们通过医学影像学的方法很难直接对其做出解释。因此,基因表达数据分类成为了生物信息学领域中一个十分困难的问题。早期,人们常常使用模式识别的方法,借助计算机的强大计算能力对其进行分类,取得了一些成果。最近几年,随着机器学习算法在生物信息学领域的应用日益广泛,机器学习的算法作为一种新兴的解决问题的方法被不少学者提出,用于基因表达数据分类。但遗憾的是,由于基因表达数据特有的样本少、特征多、非线性的特点,直接使用机器学习的方法还存在着一定的困难。这主要是因为:1.过多的特征使得重要特征被众多无关特征掩盖,使得分类器难以学习。2.样本数目过少,使得大部分分类器出现过拟合现象。为了解决特征众多的问题,往往通过对原始数据进行特征基因抽取以达到降维的目的;对于样本少的问题,常常采用分类器集成的方法来增强单个分类器的学习能力,从而提高分类的准确率。对于一个优秀的基因表达数据分类系统而言,特征基因的选择和分类器的集成是必不可少的两个步骤。然而,这两个步骤在实际应用往往是孤立进行的,前一个步骤并不能很好的为下一步奠定一个良好的基础,甚至有可能降低整体系统的分类准确率。本文通过总结前人常用方法的优缺点,将特征基因的选择与分类器的集成有机的结合起来,提出了基于多特征的集成分类器方法。其算法思想如下:该方法首先使用不同的特征基因提取算法如相关性分析,Golub方法,t检验方法等对数据进行特征提取,得到样本的多个特征子集。然后通过可重复采样技术,在不同的特征子集中抽取样本形成训练子集。由于训练子集是在不同的特征子集中抽取的,所以具有更大的差异性。而后使用一组神经网络学习这组特定的训练子集,为了保证神经网络不陷入局部最优,训练采用粒子群优化算法(PSO)。最后,基于“Many could be better than all”的选择性集成思想,使用分布估计算法(EDA)选取最优的神经网络分类器进行集成,做出最后的分类判决。为了验证方法的有效性,实验采用了国际通用的基因表达数据集Leukemia、Colon、Ovarian、Lung Cancer进行分类实验。结果表明,使用本文提出的方法比其他方法具有更高的分类准确率和稳定性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的背景、目的和意义
  • 1.2 国内外研究动态
  • 1.3 论文的组织结构
  • 第二章 基因表达数据
  • 2.1 DNA 微阵列
  • 2.1.1 微阵列的两种类型
  • 2.1.2 微阵列技术的应用
  • 2.2 基因表达数据的获取
  • 2.3 基因表达数据的预处理
  • 2.3.1 数据清洗
  • 2.3.2 缺失数据处理
  • 2.3.3 数据转换
  • 2.3.4 数据过滤
  • 2.3.5 数据标准化
  • 第三章 基因表达数据的特征选择算法
  • 3.1 传统的基因选择算法
  • 3.1.1 倍数分析
  • 3.1.2 Golub 方法
  • 3.1.3 t 检验
  • 3.1.4 Wilcoxon 秩和检验
  • 3.2 基于相关性分析的基因选择算法
  • 第四章 基因表达数据常用的分类算法
  • 4.1 传统的分类算法
  • 4.1.1 朴素贝叶斯方法
  • 4.1.2 决策树
  • 4.1.3 人工神经网络
  • 4.1.4 支持向量机
  • 4.2 集成分类器算法
  • 第五章 基于多特征的集成分类器模型
  • 5.1 传统的集成分类器算法的不足
  • 5.2 基于多特征的集成分类器算法
  • 5.2.1 基于特征的bagging 采样
  • 5.2.2 子分类器的设计和学习算法
  • 5.2.3 基于EDA 的选择性集成算法
  • 5.3 基于多特征的集成分类器算法的算法框图
  • 第六章 基因表达数据分类
  • 6.1 实验数据来源
  • 6.2 数据预处理
  • 6.3 特征提取
  • 6.4 基于多特征的集成分类器
  • 6.4.1 训练集
  • 6.4.2 PSO-NN 二分类模型
  • 6.4.3 基于EDA 的选择性集成
  • 6.5 实验结果与分析
  • 第七章 总结和展望
  • 致谢
  • 参考文献
  • 攻读学位其间发表论文目录
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  ;  

    基于多特征的集成分类器在基因表达数据分类中的应用
    下载Doc文档

    猜你喜欢