中文文本分类的研究与应用

中文文本分类的研究与应用

论文摘要

随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,另一方面却是信息的杂乱无序。而文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评价的基础上,对特征选择、特征加权进行了深入研究。本文的主要研究工作如下:(1)针对文本分类中的高维特征空间和冗余特征问题,提出了一种基于类别分布的特征选择,并与ECBF算法相结合,给出了一种二次特征选择方法。其中,基于类别分布的特征选择方法可以较好的处理高维空间问题,并且对特征集进行初步筛选,ECBF算法能够合理的衡量特征之间的冗余程度,用来处理特征冗余问题。通过该二次特征选择方法不仅可以为文本分类选择合适的特征,而且还可以减少大量的冗余特征,从而提高文本分类器的性能。(2)针对文本分类中的特征加权问题,本文首先详细分析了最经典也是常用的估算特征权重的TF-IDF方法,发现TF-IDF只是能较好的表达一个特征词对一个文档的区分能力,但是没有引入特征词区分一个类和其他类的能力的表示。文本在研究朴素贝叶斯分类模型和TF-IDF特点后,提出一种改进的特征加权估算方法。该估算方法有效的对各个特征词的类别区分能力给出合适的权重。本文从文本分类的特征选择和特征加权两个方面,分别提出改进的方法,在不同程度上提高了文本分类的性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 文本分类方法
  • 1.4 国内外研究现状
  • 1.4.1 国外研究现状
  • 1.4.2 国内研究现状
  • 1.5 本文的组织结构
  • 第2章 常用文本分类算法研究
  • 2.1 文本的数学表示模型
  • 2.1.1 布尔逻辑模型
  • 2.1.2 向量空间模型
  • 2.1.3 概率推理模型
  • 2.1.4 潜在语义索引模型
  • 2.2 常用文本分类算法研究
  • 2.2.1 中心向量算法
  • 2.2.2 K近邻算法
  • 2.2.3 决策树算法
  • 2.2.4 神经网络算法
  • 2.2.5 支持向量机算法
  • 2.2.6 遗传算法
  • 2.2.7 粗糙集方法
  • 2.2.8 朴素贝叶斯算法
  • 2.3 小结
  • 第3章 特征约简方法
  • 3.1 中文分词
  • 3.2 特征选择
  • 3.2.1 文档频率
  • 3.2.2 信息增益
  • 3.2.3 互信息
  • 2统计'>3.2.4 X2统计
  • 3.2.5 期望交叉熵
  • 3.2.6 文本证据权
  • 3.2.7 几率比
  • 3.3 基于特征相关性的特征选择
  • 3.3.1 特征相关性分析
  • 3.3.2 特征关联性度量
  • 3.3.3 基于特征相关性的特征选择
  • 3.4 一种改进的特征选择方法
  • 3.4.1 基于类别分布的特征选择
  • 3.4.2 改进的二次特征选择方法
  • 3.5 小结
  • 第4章 特征权重估算方法
  • 4.1 常用的特征加权方法
  • 4.1.1 布尔权重
  • 4.1.2 基于熵概念的权重
  • 4.1.3 特征频率权重
  • 4.1.4 IDF权重
  • 4.1.5 TF-IDF权重
  • 4.2 改进的特征加权估算方法
  • 4.3 小结
  • 第5章 向量优化技术在朴素贝叶斯文本分类上的应用
  • 5.1 引言
  • 5.2 向量优化技术在朴素贝叶斯文本分类上的应用
  • 5.3 评估办法
  • 5.4 测试工具及分类语料
  • 5.5 实验结果与分析
  • 5.5.1 开放性测试和封闭性测试
  • 5.5.2 三种贝叶斯分类器对比测试
  • 5.6 小结
  • 第6章 总结和展望
  • 6.1 本文工作总结
  • 6.2 研究前景展望
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    • [1].基于产品特征词关系识别的评论倾向性合成方法[J]. 情报学报 2013(08)
    • [2].北京官话区方言特征词说略[J]. 渤海大学学报(哲学社会科学版) 2017(04)
    • [3].丰城方言个体特征词研究[J]. 宜春学院学报 2016(05)
    • [4].方言特征词理论与研究方法综述[J]. 现代语文(语言研究版) 2014(11)
    • [5].汉语特征词跨域使用的类型和特点[J]. 华中学术 2016(04)
    • [6].论重庆方言个体特征词[J]. 戏剧之家 2019(31)
    • [7].基于特征评分和评论特征词的协同推荐方法[J]. 科学技术创新 2019(30)
    • [8].汉语方言“孩子”类称谓的特征词研究[J]. 现代语文(语言研究版) 2016(01)
    • [9].闽方言特征词“厝”的语义演变探究[J]. 鸡西大学学报 2013(11)
    • [10].基于情感主题特征词加权的微博评论聚类算法研究[J]. 现代电子技术 2020(23)
    • [11].微博用户分类的特征词权重优化及推荐策略[J]. 信息网络安全 2012(08)
    • [12].关于“方言特征词”理论的回顾及思考[J]. 武陵学刊 2011(05)
    • [13].一种面向军事文本的领域特征词向量描述方法[J]. 计算机工程 2016(08)
    • [14].基于语法模式的评论特征词提取[J]. 广东水利电力职业技术学院学报 2014(04)
    • [15].基于综合支持度的广义空间实体关系特征词提取方法[J]. 计算机与现代化 2014(08)
    • [16].基于双粒度模型的中文情感特征词提取研究[J]. 重庆邮电大学学报(自然科学版) 2014(03)
    • [17].领域同义特征词的统计规律及其在情感分析上的应用研究[J]. 计算机应用研究 2014(11)
    • [18].产品评论文本中特征词提取及其关联模型构建与应用[J]. 中国机械工程 2017(22)
    • [19].基于网页特征的特征词提取技术[J]. 西南民族大学学报(自然科学版) 2014(01)
    • [20].特征词抽取和相关性融合的伪相关反馈查询扩展[J]. 现代图书情报技术 2011(01)
    • [21].贝叶斯文本分类中特征词缺失的补偿策略[J]. 哈尔滨工业大学学报 2008(06)
    • [22].基于特征词相交和流形学习的文本分类方法[J]. 河北工业大学学报 2014(02)
    • [23].以方言特征词探究皖西南二次葬的文化及根源[J]. 安徽理工大学学报(社会科学版) 2015(05)
    • [24].皖西南方言特征词[J]. 安徽理工大学学报(社会科学版) 2014(03)
    • [25].面向查询扩展的特征词频繁项集挖掘算法[J]. 现代图书情报技术 2011(04)
    • [26].基于特征词权重变更的检索优化策略[J]. 情报科学 2016(07)
    • [27].提取核心特征词的惩罚性矩阵分解方法——以共词分析为例[J]. 现代图书情报技术 2014(03)
    • [28].基于特征词复合权重的关联网页分类[J]. 计算机科学 2011(03)
    • [29].基于特征词位置因素的音乐情感智能分类算法[J]. 电子设计工程 2020(17)
    • [30].基于词向量的特征词选择[J]. 计算机技术与发展 2018(06)

    标签:;  ;  ;  ;  ;  

    中文文本分类的研究与应用
    下载Doc文档

    猜你喜欢