上位作用特征基因的选择与分类方法研究

上位作用特征基因的选择与分类方法研究

论文摘要

随着人类基因组计划测序工作的完成,生命科学的研究重点已经从确定DNA序列组成转移到了研究基因功能。复杂疾病易感基因,及其与疾病关联方式的确定,将有助于增进复杂疾病发病机理的理解,进而对复杂疾病的预防,诊断和治疗产生重大影响。尽管如基因芯片,高通量测序等新技术产生了海量的生物数据,但是由于数据本身所具有的特征基因维数高和上位作用等特点,使得对于复杂疾病的研究迟迟没有取得突破性的进展。因此如何对生物数据进行降维,同时保留其中的上位作用,并建模上位作用基因与复杂疾病的关系,成为了复杂疾病全基因组关联研究的热点。本文从以上两方面出发,提出了对包含上位作用的数据进行降维的方法和建模上位作用与疾病关系的方法,并提出了将这两种方法结合的先过滤后分类机制,实现在软件之中。总结起来,本文的主要工作和创新点如下:1.提出了一种基于动态样本选择的特征选择算法。ReliefF方法通过比较最近邻的特征取值差异与类别差异对特征进行评估,因为能够检测特征之间的相互作用,所以ReliefF及其改进方法被广泛应用于上位作用分析之中。但是ReliefF方法只是静态的评估特征在整个样本空间中的重要性,而没有考虑到未选中特征对于被已选中特征分类正确的样本来说是冗余的。为此本文提出了基于动态样本选择的ReliefF算法,动态的在被已选中的特征分类错误的样本空间中重新评估剩余特征的重要性,提高了ReliefF算法筛选上位作用基因的能力。2.提出了一种建模基因与疾病表型关系的分类算法。多因子降维方法通过比较所有单核苷酸多态(single nucleotide polymorphism, SNP)组合各个基因型与总体的对照病例比,将该基因型划分为高风险和低风险。由于对SNP组合进行穷举的特性,它只能局限于小规模数据的应用上。本文提出了基于禁忌搜索的多因子降维方法,利用禁忌搜索来代替穷举搜索。该方法主要对禁忌搜索框架从解的编码方案,初始解和邻域解生成,全局多样化搜索三个方面进行了适合上位作用分析的改造,解决了原始多因子降维方法无法推广到大规模数据分析中的问题。3.提出了先过滤后分类的检测上位作用机制,并将其实现在软件之中。通过将特征选择算法对特征的评分转换为分类算法生成解时选择SNP的概率,我们结合了之前的过滤器和分类器。结合之后的方法解决了分类器分类正确率相对较低的问题,同时进一步缩短了计算时间,更具有实用意义。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 治病救人需要研究上位作用及其特征基因
  • 1.1.2 理解生物数据的能力有待提高
  • 1.1.3 上位作用是研究热点
  • 1.2 研究现状
  • 1.2.1 数据的获取
  • 1.2.2 特征基因选择
  • 1.2.3 利用特征基因对样本进行分类
  • 1.2.4 研究现状总结
  • 1.3 研究内容和研究成果
  • 1.3.1 上位作用特征基因选择
  • 1.3.2 利用特征基因对样本进行分类
  • 1.3.3 分析上位作用的过滤器和分类器的软件实现
  • 1.4 论文结构
  • 第二章 基于动态样本选择的特征选择方法及其在上位作用SNP 筛选中的应用
  • 2.1 相关工作
  • 2.1.1 特征选择
  • 2.1.2 特征基因选择方法
  • 2.2 基于动态样本选择的特征基因选择方法
  • 2.2.1 动态样本选择
  • 2.2.2 基于动态样本选择的ReliefF 方法
  • 2.3 基于动态样本选择的特征选择方法筛选上位作用SNP 的实验
  • 2.3.1 数据集描述
  • 2.3.2 实验方法
  • 2.3.3 实验结果及分析
  • 2.4 本章小结
  • 第三章 基于禁忌搜索的多因子降维方法及其在上位作用数据分类中的应用
  • 3.1 相关工作
  • 3.1.1 全基因组关联研究
  • 3.1.2 利用特征基因对样本进行分类的方法
  • 3.2 基于禁忌搜索的多因子降维方法
  • 3.2.1 禁忌搜索
  • 3.2.2 基于禁忌搜索的多因子降维方法
  • 3.3 基于禁忌搜索的多因子降维方法分类上位作用数据的实验
  • 3.3.1 数据集描述
  • 3.3.2 实验方法
  • 3.3.3 实验结果及分析
  • 3.4 本章小结
  • 第四章 上位作用特征基因选择与分类系统的软件实现
  • 4.1 生物信息学时代对生物软件的需求
  • 4.2 软件框架结构
  • 4.2.1 软件模块结构设计
  • 4.2.2 软件实现主要难点
  • 4.3 软件主要功能演示及性能测试
  • 4.3.1 软件主要功能演示
  • 4.3.2 对包含上位作用的SNP 数据先过滤后分类的实验结果
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 未来展望
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].小麦α-淀粉酶活性的遗传模型分析[J]. 安徽农业科学 2010(04)
    • [2].基于禁忌搜索的多因子降维在上位作用检测中的应用[J]. 武汉大学学报(理学版) 2011(06)

    标签:;  ;  ;  ;  

    上位作用特征基因的选择与分类方法研究
    下载Doc文档

    猜你喜欢