基于SVM和AdaBoost的肿瘤基因表达谱分类研究

基于SVM和AdaBoost的肿瘤基因表达谱分类研究

论文摘要

摘要:肿瘤是世界上危及人类身体健康的主要恶性疾病之一。肿瘤的早期发现,对病人的治疗有着非常重要的意义。基因芯片技术的出现和发展,促进了肿瘤在分子水平上的研究。从海量的肿瘤基因表达谱数据中,挖掘出有用的相关知识和信息,可以更加全面地认识肿瘤的基因本质,更加深入地了解肿瘤与基因之间的关系,对推进肿瘤的临床诊断和治疗和研制新药物有着至关重要的作用。本文针对肿瘤基因表达谱数据小样本、高维数、非线性等特点,基于机器学习由Co-training的思想,建立了以AdaBoost算法为基础,分别级联了SVM分类算法和单基因弱分类算法的模型。在通常情况下,影响学习和分类效果的主要是被错误分类的样本,AdaBoost-SVM算法通过重点训练被分类器错误分类的样本来减少错误分类率;主要思路是:AdaBoost-SVM重点标记被错误分类的样本权重,并且在反复迭代中多次学习该类样本,以减少被错误分类的样本个数,从而达到降低错误分类率的目的。经过对真实的结肠癌基因表达谱数据进行大量实验,从2000个基因中找出了20个基因作为分类的特征基因,通过交叉实验,取得了不错的分类效果。本文最后并对AdaBoost-SVM进行改进,可以将已知的先验知识加入到分类模型中,从而提高分类的可靠性。

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究背景
  • 1.2 研究的意义
  • 1.3 基因表达谱数据分析面临的问题
  • 1.4 国内外研究现状
  • 1.5 论文的主要工作及章节安排
  • 2 相关技术理论介绍
  • 2.1 基因芯片与肿瘤研究
  • 2.1.1 肿瘤基因表达谱分析
  • 2.1.2 肿瘤分子分类、分型和预后
  • 2.2 特征基因选择
  • 2.2.1 特征选择
  • 2.2.2 数据噪声的来源
  • 2.2.3 数据噪声预处理
  • 2.2.4 特征选择算法
  • 3 支持向量机理论
  • 3.1 支持向量机(SVM)概述
  • 3.2 线性可分SVM数学模型的建立
  • 3.3 两类线性可分SVM的求解
  • 3.3.1 线性SVM问题的对偶问题及其求解
  • 3.3.2 线性SVM的Wolfe对偶
  • 3.4 非线性SVM—核方法
  • 3.4.1 特征空间的非线性影射和核函数
  • 3.4.2 核函数存在的条件和常用核函数
  • 4 AdaBoost算法
  • 4.1 AdaBoost算法概述
  • 4.2 Adaboost算法具体实现步骤
  • 4.3 AdaBoost训练误差分析
  • 5 基于SVM和AdaBoost的肿瘤基因表达谱分类
  • 5.1 AdaBoost-SVM算法设计
  • 5.1.1 构造基于SVM的弱分类器
  • 5.1.2 分类器更新
  • 5.1.3 利用AdaBoost算法生成强分类器
  • 5.2 实验及结果分析
  • 5.2.1 实验数据集
  • 5.2.2 数据预处理
  • 5.2.3 实验结果及分析
  • 6 结论
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  

    基于SVM和AdaBoost的肿瘤基因表达谱分类研究
    下载Doc文档

    猜你喜欢