数据挖掘技术在文本分类和生物信息学中的应用

数据挖掘技术在文本分类和生物信息学中的应用

论文摘要

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据库中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一个涉及面很广的交叉学科,包括机器学习、数理统计、人工智能、神经网络、数据库、模式识别、粗糙集和模糊数学等相关技术。本文基于数据挖掘的一些相关技术,做了如下几个方面的工作:(1)针对标准互信息和tf.idf特征权重公式的缺点提出了改进方法,仿真实验表明,改进的方法明显提高了宏观准确率、宏观召回率和宏观F1值;(2)针对标准tf.idf方法估算特征权重的盲目性,提出了基于实数域粗糙集理论的特征频率重要度加权方法,仿真实验表明,这种加权方法改善了样本空间的分布状态,使同类的样本更加紧凑,不同类样本更加松散,仿真实验表明,明显提高了文本分类的效果;(3)针对文本分类存在的高维特征空间和高度特征冗余,提出了一种基于互信息和信息熵对的特征选择方法,仿真实验表明,基于该方法的文本分类效果比MI方法和CHI方法都更有效,利用该方法进行特征选择的分类效果接近代表分类水平的支持向量机;(4)针对使用计算机为新测序的生物序列进行功能注释的效果较差的实际,基于GO数据库和BLAST程序,提出了一种基于可变精度粗糙集理论为新的生物序列进行功能注释的方法,仿真实验表明,提出的方法具有较高的准确率、召回率和调和均值;(5)针对目前人类种群进化研究方法的局限性,提出了基于Y染色体SNP基因型频率数据建立人类种群进化关系的新方法,仿真实验表明,本文方法支持“走出非洲”假说,为人类种群进化研究提供了一个新思路。

论文目录

  • 内容提要
  • 第1章 绪论
  • 1.1 数据挖掘技术简介
  • 1.1.1 数据挖掘的背景介绍
  • 1.1.2 数据挖掘的研究现状
  • 1.1.3 数据挖掘的相关知识
  • 1.1.4 数据挖掘的应用和研究方向
  • 1.2 数据挖掘技术在文本分类中的应用
  • 1.2.1 数据挖掘技术在文本分类中的应用
  • 1.2.2 文本分类的应用和展望
  • 1.3 数据挖掘技术在生物信息学中的应用
  • 1.3.1 生物信息学的定义和研究范围
  • 1.3.2 生物信息学中的数据挖掘过程
  • 1.3.3 数据挖掘在生物信息学中的应用和展望
  • 1.4 文本挖掘和生物信息学的关系
  • 1.5 本文工作
  • 第2章 基于改进互信息和特征权重的文本分类方法
  • 2.1 背景介绍
  • 2.2 特征选择前的低频特征预处理工作
  • 2.3 改进互信息的特征选择方法
  • 2.3.1 互信息方法
  • 2.3.2 互信息公式的改进
  • 2.4 改进的特征权重的估计方法
  • 2.4.1 tf.idf方法
  • 2.4.2 改进的tf.idf方法
  • 2.5 模拟实验
  • 2.5.1 评价方法
  • 2.5.2 实验结果
  • 2.6 本章小结
  • 第3章 基于互信息和信息熵对的特征选择方法
  • 3.1 背景介绍
  • 3.2 特征选择方法
  • 3.2.1 互信息方法
  • 3.2.2 信息熵和信息熵对
  • 3.2.3 基于互信息和信息熵对的特征选择方法
  • 3.3 仿真实验
  • 3.3.1 数据集
  • 3.3.2 评价方法
  • 3.3.3 实验结果
  • 3.4 本章小结
  • 第4章 基于实数域粗糙集特征加权的文本分类方法
  • 4.1 引言
  • 4.2 基于实数域粗糙集理论的几个定义
  • 4.3 基于实数域粗糙集理论的改进特征加权公式
  • 4.3.1 tf.idf方法
  • 4.3.2 改进的tf.idf方法
  • 4.4 实验结果和分析
  • 4.5 本章小结
  • 第5章 基于可变精度粗糙集的基因功能预测方法
  • 5.1 引言
  • 5.2 GO术语属性的离散化
  • 5.2.1 定义和GO术语的属性
  • 5.2.2 GO术语属性的离散化方法
  • 5.3 GO术语的决策规则提取方法
  • 5.3.1 可变精度粗糙集的相关定义
  • 5.3.2 基于可变精度粗糙集的规则提取算法
  • 5.4 规则提取实例
  • 5.4.1 统计术语所在单元及所在单元的相关属性
  • 5.4.2 GO术语属性的离散化
  • 5.4.3 GO术语决策规则的提取
  • 5.5 实验结果与分析
  • 5.5.1 实验结果评价方法
  • 5.5.2 实验数据集
  • 5.5.3 实验结果和分析
  • 5.6 本章小结
  • 第6章 基于Y染色体SNP基因型频率数据的种群进化研究
  • 6.1 引言
  • 6.1.1 背景介绍
  • 6.1.2 相关工作
  • 6.2 单核苷酸多态性理论和国际单体型图计划介绍
  • 6.2.1 单核苷酸多态性基础理论
  • 6.2.2 国际人类基因组单体型图计划介绍
  • 6.3 系统进化树的构建理论
  • 6.3.1 人类起源学说
  • 6.3.2 系统进化树
  • 6.4 基于Y染色体SNP基因型频率数据的种群进化树
  • 6.4.1 研究对象和数据来源
  • 6.4.2 采用的研究方法
  • 6.5 模拟实验
  • 6.6 本章小结
  • 第7章 结论和展望
  • 参考文献
  • 攻读博士学位期间发表的论文及参加的科研项目
  • 学位论文摘要(中文)
  • 学位论文摘要(英文)
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    数据挖掘技术在文本分类和生物信息学中的应用
    下载Doc文档

    猜你喜欢