基于支持向量机的基因选择算法研究

基于支持向量机的基因选择算法研究

论文摘要

随着基因微阵列技术的高速发展,人们可以同时快速地测量成千上万个基因的表达水平。在肿瘤疾病研究中,通过获取基因微阵列数据可以为癌症诊断、治疗、预测提供新的手段。但是,原始的基因微阵列数据具有小样本、高维度特点,直接在此数据中进行分析处理是不现实的。因此,有必要在这些海量的基因数据中,找出对疾病有鉴别作用的基因,提高肿瘤诊断准确性。传统的统计学方法在基因选择中,表现出了较大的局限性。支持向量机(SVM)以统计学习理论为基础,采用结构风险最小化原则,能较好地解决小样本数据学习问题;另外,支持向量机采用核函数技术,能够解决数据非线性可分的问题。因此,在基因选择算法中,支持向量机表现出更强的适应性和优越性。本文基于支持向量机,对基因选择算法进行研究,完成的主要工作如下:1.介绍了基因微阵列数据的制作、特点及应用,分析了支持向量机的原理,并详细研究了SVM-RFE基因选择算法。2.在SVM-RFE算法的基础上,引入了序列前向选择方法。通过以组为单位同时进行特征消去和序列前向选择操作,加快了算法的运行速度,提升了分类性能。3.研究了基于自适应策略选取支持向量机核参数的方法。算法首先利用样本之间的2范数距离设置初始参数值,然后根据进行递归特征消去后重构的样本对核参数进行自动运算更新。4.提出了多SVM混合分类模型。利用不同参数下的多个SVM分别进行基因选择,然后合并各分类器选择出来的基因子集,最后再利用SVM-RFE得到最优的基因子集。算法通过对参数选取一组值代替仅选择一个值,克服了单个参数值选取困难的问题,能够得到更高的分类准确率。在三个公开的基因微阵列数据集上进行了实验,提出的算法能够得到更佳的分类性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 DNA微阵列数据
  • 1.2.1 DNA微阵列数据的制作
  • 1.2.2 DNA微阵列数据的优点与应用
  • 1.2.3 DNA微阵列数据的挑战
  • 1.3 基因选择
  • 1.3.1 基于Filter的基因选择方法
  • 1.3.2 基于Wrapper的基因选择方法
  • 1.4 本文的主要工作
  • 第2章 基于支持向量机的递归特征消去方法
  • 2.1 支持向量机
  • 2.1.1 统计学习理论
  • 2.1.2 SVM算法原理
  • 2.1.3 SVM的优点
  • 2.2 SVM-RFE递归特征消去算法
  • 2.3 实验结果与分析
  • 2.3.1 实验数据
  • 2.3.2 传统统计学方法
  • 2.3.3 实验结果与分析
  • 2.4 本章小结
  • 第3章 基于SVM-RFE-SFS的基因选择算法
  • 3.1 SVM-RFE的问题
  • 3.2 序列后向选择方法和序列前向选择方法
  • 3.3 SVM-RFE-SFS基因选择算法
  • 3.3.1 一阶差分基因组
  • 3.3.2 SVM-RFE-SFS算法
  • 3.4 实验结果与分析
  • 3.4.1 参数选择
  • 3.4.2 实验结果与分析
  • 3.5 本章小结
  • 第4章 自适应核宽度参数选取算法
  • 4.1 非线性支持向量机
  • 4.2 SVM核参数的选择
  • 4.3 自适应核宽度方法
  • 4.3.1 2范数核宽度参数
  • 4.3.2 自适应核宽度参数选择
  • 4.4 实验结果与分析
  • 4.4.1 留一交叉验证法
  • 4.4.2 LOOCV实验结果与分析
  • 4.4.3 交叉验证结果与分析
  • 4.5 本章小结
  • 第5章 混合SVM-RFE-SFS基因选择算法
  • 5.1 SVM-RFE-SFS中K值的影响
  • 5.2 混合SVM-RFE-SFS模型
  • 5.3 实验结果与分析
  • 5.3.1 参数选取
  • 5.3.2 LOOCV实验结果与分析
  • 5.3.3 交叉验证结果与分析
  • 5.4 本章小结
  • 总结与展望
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于支持向量机的基因选择算法研究
    下载Doc文档

    猜你喜欢