基于内容的Web新闻文本自动分类问题研究

基于内容的Web新闻文本自动分类问题研究

论文摘要

随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到所需的信息。因此,如何合理和有效地组织和管理网上信息,已经成为Web智能领域里一个十分重要的研究课题。随着网络信息的大量增长,传统的人工处理网络信息的方式已不能适应时代的需要。网络上的信息大都以文本形式出现。因此,Web文本的自动分类研究成为了一个日益重要的研究领域。本文的研究内容主要有以下几个方面:(1)分析了Web文本分类中的特征表示、特征项提取、分类方法等关键技术,探讨和研究了存在的难点和突出问题。(2)提出了规则和统计相结合的中文命名实体识别方法。提出了一种在构造外部和内部规则的同时采用概率统计的中文命名实体的识别方法,实验结果表明,该方法可以获得较高的准确率和召回率。(3)讨论了Web新闻文本中的新闻实体要素对其主题的限定作用。并以这些新闻实体要素的组合为特征,对Web新闻文本进行主题分类。实验结果表明,该方法获得了较好的主题识别效果。(4)提出一种利用新闻新闻实体要素作为特征来表示Web新闻文本的模型——SNE模型,在此基础上,构建了分类器。实验结果表明,建立在该模型基础上的新闻实体要素组合的Web新闻文本的主题分类方法可以达到较好的分类效果。

论文目录

  • 摘要
  • Abstract
  • 致谢
  • 插图清单
  • 表格清单
  • 第一章 绪论
  • 1.1 数据挖掘
  • 1.1.1 数据挖掘的概念
  • 1.1.2 数据挖掘的常用模型与算法
  • 1.2 Web挖掘
  • 1.2.1 Web挖掘的定义
  • 1.2.2 Web挖掘的分类
  • 1.3 Web文本挖掘
  • 1.3.1 Web文本挖掘定义
  • 1.3.2 Web文本挖掘的研究内容
  • 1.3.3 Web文本挖掘的基本过程
  • 1.4 本文的研究内容及组织结构
  • 1.5 本章小结
  • 第二章 Web文本分类技术
  • 2.1 Web文本分类定义
  • 2.2 Web文本分类的意义
  • 2.3 Web文本分类的国内外研究现状
  • 2.4 Web文本分类关键技术
  • 2.4.1 Web文本预处理
  • 2.4.2 Web文本表示
  • 2.4.3 特征降维
  • 2.4.4 分类器的设计
  • 2.5 本章小结
  • 第三章 中文命名实体识别技术
  • 3.1 命名实体识别
  • 3.1.1 命名实体识别的意义
  • 3.1.2 命名实体识别的国内外研究进展
  • 3.2 中文命名实体识别
  • 3.2.1 预处理
  • 3.2.2 中文命名实体识别的一般过程
  • 3.2.3 中文命名实体识别的评价标准
  • 3.3 中文命名实体识别的常用模型及算法
  • 3.3.1 基于规则的中文命名实体识别方法
  • 3.3.2 基于统计的实体识别方法
  • 3.4 规则和统计相结合的中文命名实体识别
  • 3.4.1 规则和统计相结合的实体识别方法
  • 3.4.2 算法描述
  • 3.4.3 实验及结果分析
  • 3.5 本章小结
  • 第四章 面向事件报道的Web新闻文本内容研究
  • 4.1 面向事件的新闻报道
  • 4.1.1 新闻报道
  • 4.1.2 新闻专题报道
  • 4.2 新闻的实体要素
  • 4.3 基于实体要素的新闻主题判别
  • 4.3.1 基于实体的新闻文本表示模型
  • 4.3.2 新闻实体要素的组合查询
  • 4.4 实验及结果分析
  • 4.5 本章小结
  • 第五章 基于新闻实体要素的Web新闻文本分类
  • 5.1 基于新闻实体要素的特征提取
  • 5.2 文本分类器的构造
  • 5.2.1 分类器构造算法
  • 5.2.2 新闻文本分类系统流程图
  • 5.3 文本分类的评测
  • 5.4 实验及结果分析
  • 5.4.1 实验数据及性能评价
  • 5.4.2 实验结果与分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 工作总结
  • 6.2 工作展望
  • 参考文献
  • 附录一 研究生期间主要科研工作及成果
  • 附录二 汉语文本词性标注标记集
  • 相关论文文献

    • [1].面向数字孪生川藏铁路的实体要素分类与编码研究[J]. 武汉大学学报(信息科学版) 2020(09)
    • [2].非实体要素对儿童创造力发展的作用[J]. 长春教育学院学报 2015(03)
    • [3].管辖规范中的实体要素[J]. 法律科学(西北政法大学学报) 2013(02)
    • [4].室内设计中空间形象的“实”与“虚”[J]. 居舍 2019(34)
    • [5].大学文化空间的建构[J]. 江苏师范大学学报(哲学社会科学版) 2014(06)
    • [6].中国当代茶馆室内空间艺术气氛的营造[J]. 大家 2010(08)
    • [7].论竣工验收“放管服”转型的法治化路径[J]. 三峡大学学报(人文社会科学版) 2017(05)
    • [8].再论实践教学的基本要素与其分类[J]. 海南师范大学学报(社会科学版) 2018(02)
    • [9].试论“宣传也是生产力”[J]. 黑河学刊 2013(01)
    • [10].一种大范围面状矢量要素转三维实体要素的数据组织与构建方法[J]. 测绘通报 2020(S1)
    • [11].浅谈城市场所精神的营造——以天津市五大道街区为例[J]. 建材与装饰 2018(22)
    • [12].探讨展示设计的空间感[J]. 现代装饰(理论) 2014(10)
    • [13].版权执法行刑衔接的实体要素分析——以行为定性与处罚权限为面向[J]. 河南机电高等专科学校学报 2019(01)
    • [14].空间实体要素与城市房地产投资的关系研究[J]. 热带地理 2009(01)
    • [15].课堂教学是一种关系存在——基于生态思维视角的课堂教学属性探析[J]. 现代中小学教育 2013(02)
    • [16].思想政治教育要努力实现人自身的和谐发展[J]. 教育与教学研究 2011(07)
    • [17].房地产景观设计思考[J]. 花木盆景(花卉园艺) 2010(07)
    • [18].绿色技术对发展绿色生产力的支撑[J]. 东北大学学报(社会科学版) 2012(06)
    • [19].融合与共生——论景观介入公共艺术的发展历程[J]. 北京联合大学学报(人文社会科学版) 2017(01)
    • [20].论电影意境的生成机制[J]. 当代电影 2008(08)
    • [21].论中国特色社会主义理论的社会空间思想[J]. 学海 2019(06)
    • [22].从象形古文字发展看“窗”的发展[J]. 华中建筑 2015(04)
    • [23].南京市新老城区道路绿化景观的对比研究[J]. 交通世界(运输.车辆) 2011(11)
    • [24].语文教学中多媒体的应用[J]. 中国教育技术装备 2008(23)
    • [25].从技术本身的三要素看技术人才的素质结构[J]. 襄樊职业技术学院学报 2008(01)
    • [26].科学技术物化为生产力的路径新探——马克思的自然力视角[J]. 济南大学学报(社会科学版) 2010(06)
    • [27].军事设施综合防护体系研究[J]. 防护工程 2017(02)
    • [28].论中国和平崛起[J]. 法制与社会 2012(01)
    • [29].家具展示空间虚实设计初探[J]. 家具与室内装饰 2008(03)
    • [30].农田水利制度分散实验与人为设计:一个博弈均衡分析[J]. 国家行政学院学报 2013(04)

    标签:;  ;  ;  ;  

    基于内容的Web新闻文本自动分类问题研究
    下载Doc文档

    猜你喜欢