英文多文档查询型自动文摘研究

英文多文档查询型自动文摘研究

论文摘要

随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要内容和中心意思,从而减少信息获取的时间。文本的自动摘要技术正好为人们提供了一种解决方案,通过计算机自动从一篇或多篇文档中提炼出用户需要的信息内容,从而节省用户获取信息的时间,减轻用户的负担。文本自动摘要技术一直是自然语言领域的研究热点,尤其是近年来,文本自动摘要出现了和自动问题回答系统融合的趋势,并更加注重于查询型的文摘,国际上相关的文摘评测会议也越来越受到科研单位的重视。对于文摘领域语义关系、篇章分析、机器学习方法应用的研究越来越多,在这一背景下,本文尝试对语义关系三元组这一重要特征以及机器学习方法应用于文摘做了详细的探讨。语义关系是文摘方法的重要特征,本文使用语义关系三元组这一重要特征来揭示文本之间的语义关系,在对句子进行充分的句法分析的基础上,抽取语义关系特征形成三元组,并引入搜索引擎等外部知识库,转化为更容易计算的词、关系之间的语义联系。在DUC权威语料上的实验证明,使用该特征在各项文摘性能指标上超过了经典的TF*ISF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的文摘系统,和参加DUC2005年评测的32个系统相比,ROUGE-L指标排名为第10。抽取式的文摘方法,可以看作两类的分类问题。机器学习方法可以选取最优的特征组合,学习出文摘模型。本文采用了最大熵、支持向量机等模型实现基于机器学习方法的自动文摘系统,对多种特征做了研究分析,并对句子相似度的计算方法做了比较。在DUC2005年的官方评测上,本文的自动文摘系统在所有参评的32个系统中名列前茅,在ROUGE-1,ROUGE-L,ROUGE-W三项指标上均名列第6名。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 文本自动摘要技术的意义和目标
  • 1.2 文本自动摘要技术的应用领域
  • 1.3 本文的贡献和组织结构
  • 第二章 基本概念及相关工作
  • 2.1 自动文摘系统的要素和分类
  • 2.2 自动文摘系统的基本框架
  • 2.3 自动文摘研究的历史和现状
  • 2.4 自动文摘的评价方法
  • 2.4.1 内部评价和外部评价
  • 2.4.1.1 内部评价方法
  • 2.4.1.2 外部评价方法
  • 2.4.2 文本理解会议及其自动评价方法
  • 2.4.2.1 文本理解会议(DUC)
  • 2.4.2.2 自动评价方法ROUGE
  • 第三章 基于语义关系特征的查询型文摘
  • 3.1 研究背景
  • 3.2 语义关系三元组
  • 3.2.1 语义关系三元组定义
  • 3.2.2 语义关系三元组相似度计算
  • 3.3 SRT:基于语义关系三元组的文摘系统
  • 3.4 实验
  • 3.4.1 实验语料和评测方法
  • 3.4.2 实验一: SRT和TF*ISF等方法的性能比较
  • 3.4.3 实验二: SRT和DUC参评单位官方数据的比较
  • 第四章 基于机器学习方法的文摘系统
  • 4.1 文摘中的分类技术
  • 4.1.1 分类应用于文摘的原理
  • 4.1.2 常用分类器原理和用法
  • 4.2 系统框架及特征抽取
  • 4.2.1 预处理
  • 4.2.2 特征抽取
  • 4.2.3 句子相似度计算
  • 4.2.3.1 基于向量空间模型的TF*ISF方法
  • 4.2.3.2 基于WordNet的句子相似度算法
  • 4.3 实验
  • 4.3.1 实验语料和评测方法
  • 4.3.2 实验一:相似度算法比较及参数调整
  • 4.3.3 实验二:参加DUC2005年官方测评结果
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 未来展望
  • 参考文献
  • 攻读硕士期间论文发表情况
  • 致谢
  • 相关论文文献

    • [1].文本自动摘要的迁移学习技术[J]. 数码世界 2018(12)
    • [2].基于句子主题发现的中文多文档自动摘要研究[J]. 情报科学 2020(03)
    • [3].一种基于聚类的文章自动摘要方法及实现[J]. 科研信息化技术与应用 2019(01)
    • [4].基于高质量信息提取的微博自动摘要[J]. 计算机工程 2015(07)
    • [5].内容自动摘要系统的研究[J]. 数码世界 2019(04)
    • [6].基于维基百科的多文档自动摘要系统研究[J]. 微型机与应用 2011(16)
    • [7].上下文敏感的多文档自动摘要生成方法[J]. 计算机工程 2010(21)
    • [8].一种跨语言的自动摘要技术[J]. 电脑与信息技术 2009(04)
    • [9].文本自动摘要的方法研究[J]. 福建电脑 2008(06)
    • [10].卷积自注意力编码过滤的强化自动摘要模型[J]. 小型微型计算机系统 2020(02)
    • [11].基于多特征融合模型的自动摘要[J]. 计算机工程与设计 2020(03)
    • [12].融合句义特征的多文档自动摘要算法研究[J]. 北京理工大学学报 2016(10)
    • [13].基于引文上下文的学术文本自动摘要技术研究[J]. 数字图书馆论坛 2016(08)
    • [14].基于语义的单文档自动摘要算法[J]. 计算机应用 2010(06)
    • [15].浅谈自动摘要技术在边防情报公开文献收集中的应用[J]. 科技信息(学术研究) 2008(05)
    • [16].基于深度学习的文本自动摘要方案[J]. 计算机应用 2019(02)
    • [17].基于混合机器学习模型的多文档自动摘要[J]. 情报理论与实践 2019(02)
    • [18].关键词和被引次数对科技论文自动摘要效果影响研究[J]. 情报学报 2017(11)
    • [19].基于词频统计的多文档自动摘要生成方案[J]. 微计算机信息 2009(06)
    • [20].一种基于深度学习的中文生成式自动摘要方法[J]. 广西师范大学学报(自然科学版) 2020(02)
    • [21].文本自动摘要研究进展[J]. 人工智能 2018(01)
    • [22].基于混合方法的多语言多文档自动摘要系统构建及实现[J]. 图书馆学研究 2013(02)
    • [23].一种英文自动摘要方法[J]. 计算机工程与应用 2009(07)
    • [24].基于句子聚类的中文文本自动摘要算法的研究[J]. 微型电脑应用 2017(08)
    • [25].浅析英文自动摘要技术[J]. 魅力中国 2008(28)
    • [26].自适应主题融合的多文档自动摘要算法[J]. 中南大学学报(自然科学版) 2013(S2)
    • [27].一种新的基于段向量的文本自动摘要方法[J]. 计算机工程与科学 2019(06)
    • [28].基于完全稀疏主题模型的多文档自动摘要[J]. 计算机工程与设计 2014(03)
    • [29].基于文本多维度特征的自动摘要生成方法[J]. 计算机工程 2020(09)
    • [30].基于关键词的代码自动摘要[J]. 计算机研究与发展 2020(09)

    标签:;  ;  ;  ;  

    英文多文档查询型自动文摘研究
    下载Doc文档

    猜你喜欢