中文文本分类算法比较研究

中文文本分类算法比较研究

论文摘要

随着Internet的迅猛发展,文本信息的数量也日益增加,文本信息的自动处理也变得越来越重要。文本分类作为自然语言处理的一个基本问题,是文本信息处理中的一项主要技术,受到文本处理领域越来越多的关注。本文对文本分类技术的研究主要分为两个部分:第一部分,设计了一种基于类别核心词上下文矩阵的文本表示方法。该方法首先把在文本的标题、摘要、关键词和文章开头结尾部分出现的特征词提取为类别核心词。虽然类别核心词能比较好地表示文本的类别特征,但是却不能体现出文本的上下文关系。针对这一不足提出了类别核心词上下文矩阵,该矩阵把词条按照对类别核心词信息量大小的不同排列在矩阵的不同位置,使得上下文关系与类别核心词较好地联系起来。其次,根据词条在文章的不同位置以及类别核心词上下文矩阵中的不同位置重新进行权重计算,进而更有效的表示文本。第二部分,讨论了贝叶斯(NB)、K-近邻(KNN)、支撑向量机(SVM)这三种中文文本分类方法,并对这三种分类方法进行比较研究。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.2.3 当前主要应用领域
  • 1.2.4 当前研究重点问题
  • 1.3 本文的主要研究工作
  • 1.4 本文的组织
  • 第2章 中文文本分类技术
  • 2.1 文本分类的定义
  • 2.2 文本分类的类别
  • 2.3 文本预处理
  • 2.3.1 中文分词
  • 2.3.2 中文词性标注
  • 2.4 文本表示
  • 2.4.1 布尔模型
  • 2.4.2 向量空间模型
  • 2.4.3 概率模型
  • 2.5 特征选取
  • 2.5.1 文本频率
  • 2.5.2 互信息
  • 2.5.3 信息增益
  • 2统计'>2.5.4 x2统计
  • 2.6 权重计算
  • 2.7 文本分类方法
  • 2.7.1 贝叶斯方法
  • 2.7.2 k-近邻方法
  • 2.7.3 支持向量机方法
  • 2.8 分类算法评估
  • 2.9 本章小结
  • 第3章 基于类别核心词上下文矩阵的文本表示方法
  • 3.1 向量空间模型(VSM)的优缺点
  • 3.2 上下文词语之间的关系描述
  • 3.2.1 核心词上下文矩阵
  • 3.2.2 词语上下文信息量描述
  • 3.3 基于类别核心词上下文矩阵的文本表示方法KTFIDF
  • 3.3.1 类别核心词的确定
  • 3.3.2 类别核心词上下文矩阵
  • 3.3.3 类别核心词上下文矩阵的加权方法
  • 3.3.4 基于类别核心词的上下文矩阵的文本表示方法KTFIDF
  • 3.4 本章小结
  • 第4章 中文文本分类方法的比较
  • 4.1 三种分类方法理论比较
  • 4.1.1 贝叶斯方法(NB)的优缺点
  • 4.1.2 最近邻方法(KNN)的优缺点
  • 4.1.3 支持向量机方法(SVM)的优缺点
  • 4.2 实验结果及分析
  • 4.2.1 实验环境及实验数据
  • 4.2.2 实验结果
  • 4.3 本章小结
  • 第5章 结论与展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 攻读硕士期间发表论文情况
  • 致谢
  • 相关论文文献

    • [1].以思维导图串联核心词的尝试[J]. 中学政治教学参考 2019(05)
    • [2].基于核心词的思想品德教学操作[J]. 中学政治教学参考 2016(26)
    • [3].汉语核心词的历史与现状研究——以“头-首”为例[J]. 大理大学学报 2017(05)
    • [4].理由是否充分[J]. 语文学习 2019(11)
    • [5].议论文素材运用的误区及对策[J]. 中学语文教学参考 2016(31)
    • [6].代数推理问题[J]. 中学数学教学参考 2017(Z2)
    • [7].例谈有效“翻译”数学语言的策略[J]. 福建中学数学 2017(07)
    • [8].数学摸型思想的概念辨析与实践研究[J]. 小学数学教育 2016(23)
    • [9].立足核心素养 挖掘教材内涵[J]. 小学数学教育 2016(23)
    • [10].在操作运用中培养学生数感——《认识11~20各数》教学片断赏析[J]. 辽宁教育 2017(01)
    • [11].基于学生起点 关注学习过程 渗透推理能力——从两堂“三角形内角和”的研究课辩起[J]. 小学数学教师 2016(10)
    • [12].借助直观和比较建构画图策略——“解决问题的策略(画图)”教学案例与思考[J]. 小学数学教育 2017(Z2)
    • [13].从建立数概念出发,重视学生数感的培养——“11~20的认识”教学有感[J]. 小学数学教育 2017(Z1)
    • [14].关于学生运算能力培养的实践与探索[J]. 小学数学教育 2017(Z1)
    • [15].在操作运用中培养学生数感——“认识11~20各数”教学片段赏析[J]. 江西教育 2017(02)
    • [16].对小学数学抽象素养培育的思考和探究[J]. 数学学习与研究 2017(08)
    • [17].沉心静气 方得始终——南京市扬子第三小学教师队伍建设掠影[J]. 江苏教育 2017(30)
    • [18].基于核心素养的学生数感培养“三策略”[J]. 小学教学参考 2017(14)
    • [19].概念教学中突显学生数感的培养——“倍数和因数”教学片断与思考[J]. 小学数学教育 2017(11)
    • [20].“小学数学教师·新经典”丛书[J]. 小学数学教师 2017(04)
    • [21].“小学数学教师·新经典”丛书[J]. 小学数学教师 2017(05)
    • [22].“小学数学教师·新经典”丛书[J]. 小学数学教师 2017(06)
    • [23].教育孩子的核心词[J]. 现代妇女 2017(12)
    • [24].面批“核心词”[J]. 中小学数学(小学版) 2017(12)
    • [25].抓住核心问题,渗透核心素养[J]. 知识文库 2018(15)
    • [26].以“核心词”为线索的数学复习策略与思考——刍议初中数学章节复习设计[J]. 创新时代 2018(09)
    • [27].以“核心问题”引领课堂教学——“三角形三边的关系”教学片段与思考[J]. 课程教材教学研究(小教研究) 2016(Z6)
    • [28].数学的生活化 生活化的数学[J]. 数学大世界(下旬) 2016(08)
    • [29].提升议论文核心词的表现力[J]. 新高考(语文备考) 2017(03)
    • [30].中国文化核心词[J]. China Today 2017(02)

    标签:;  ;  ;  ;  

    中文文本分类算法比较研究
    下载Doc文档

    猜你喜欢