中文Web文档自动摘要系统的研究

中文Web文档自动摘要系统的研究

论文题目: 中文Web文档自动摘要系统的研究

论文类型: 硕士论文

论文专业: 软件工程

作者: 徐晓丹

导师: 殷建平

关键词: 自动文摘,中文网页,小标题,信息抽取,篇章分析,关键词

文献来源: 国防科学技术大学

发表年度: 2005

论文摘要: 目前,随着Internet的普及,网络已成为一个巨大的信息源。如何在这海量信息中搜寻所需要的信息、获取信息的主旨,如何快速阅读每天涌现出来的新信息,已经是一个迫在眉睫的问题。而自动文摘正是解决这一难题的有力工具之一。人们可以首先利用计算机对这大量文本信息进行处理,生成基本反映文章主题的摘要信息,然后通过浏览这些摘要信息来判断是否需要仔细阅读全文。这样将大大提高人们获取电子文本信息的效率。 文本摘要的研究和发展对科研和商业应用都是一个非常有价值的研究方向。目前,国外在这一方面的研究已取得了一定进展,但国内的研究起步较晚,对网页信息处理的系统较少,本课题的研究目标是在对自动文摘技术进行深入研究的基础上,提出一种适合于web文档的自动摘要方法,并实际开发出一个web文档自动摘要系统。该系统可用于辅助检索,在领域上不受限制,摘要内容应满足完备性和概括性,并且具备一定的速度和可读性。 为此,本文在综合分析web页面的信息特征的基础上,首先获得页面的正文信息,然后综合统计方法和启发式规则来提取文档的关键词、关键句,最后根据摘要比例输出符合条件的摘要句子。在这过程中,本文全面系统的介绍了文本自动摘要的相关问题和技术,深入分析了web页面信息特征,提出了web页面文本块的抽取方法及一种适合于网页信息的小标题提取算法,探讨了语料库生成的相关技术,并提出了一种结合统计方法和文本结构特征分析的自动摘要方法。最后本文综合以上研究成果设计并实现了一个中文web网页自动摘要系统模型,并对实际的网页进行了测试。 测试结果表明:绝大部分文档的摘要均能够满足完备性和概括性的要求,反映了文档的主要内容,这说明本文提出的摘要方法对中文网页的处理是切实可行的。在测试中发现,受文章体裁的影响,部分摘要的可读性还有待提高。在不影响处理速度的前提下,适当地利用一些自然语言理解和生成技术来提高摘要质量,尤其是改善摘要的可读性,这将是今后进一步研究的重点。

论文目录:

摘要

ABSTRACT

第一章 绪论

1.1 目的与范围

1.2 历史与现状

1.2.1 国外自动文摘的研究

1.2.1 国内自动文摘的研究

1.3 研究内容

1.4 研究成果

1.5 论文结构

第二章 自动文摘的基本理论依据

2.1 文摘的概念和内容

2.1.1 文摘的概念

2.1.2 文摘的分类

2.1.3 文摘的内容选择

2.2 汉语自动分词

2.2.1 汉语词切分的基本原则

2.2.2 汉语自动分词方法

2.3 词条权重计算

2.3.1 特征词和非特征词

2.3.2 tf idf方法

2.4 自动文摘的方法

2.4.1 基于统计的机械文摘

2.4.2 基于意义的理解文摘

2.4.3 自动文摘其他方法

2.5 本章小结

第三章 WEB页面文本的清洗

3.1 引言

3.2 Web页面分析

3.2.1 HTML基本部件分析

3.2.2 自动摘要处理对web信息抽取的要求

3.3 Web文本的清洗方法

3.3.1 “文本块”的获取

3.3.2 “文本块”的清洗

3.3.3 文本信息获取的算法描述

3.4 实验实例与结果分析

3.5 本章小结

第四章 小标题的识别

4.1 引言

4.2 小标题的结构特点

4.3 WEB页面小标题的识别

4.3.1 网页中小标题的特点

4.3.2 网页中小标题的两种模式

4.3.3 小标题的识别算法

4.4 实验实例与结果分析

4.5 本章小结

第五章 自动摘要的生成

5.1 引言

5.2 关键词的提取

5.2.1 分词处理

5.2.2 提取关键词

5.3 句子权值的计算

5.3.1 句子提取

5.3.2 计算句子权值

5.4 实验实例与结果分析

5.4.1 实验实例

5.4.2 与MS Office自动摘要功能的比较

5.5 本章小结

第六章 中文WEB文档自动摘要系统(WPAAS 1.0)

6.1 引言

6.2 WPAAS的功能和结构

6.3 WPAAS的对象设计

6.4 系统界面及使用过程

6.5 本章小结

第七章 结束语

致谢

附录A 攻读硕士期间发表的论文

附录B 《标点符号用法》说明

参考文献

发布时间: 2005-11-07

参考文献

  • [1].基于向量空间模型的web文本自动摘要系统的研究[D]. 张筱丹.合肥工业大学2009
  • [2].基于主题划分的Web文档自动摘要研究[D]. 陈志敏.扬州大学2006
  • [3].基于领域本体的Web文档自动摘要关键技术研究与实现[D]. 王麒.华东师范大学2007
  • [4].基于深度学习的生成式自动摘要技术研究[D]. 郭洪杰.哈尔滨工业大学2018
  • [5].基于句向量和统计特征的自动摘要方法[D]. 陈智斌.哈尔滨工业大学2018
  • [6].舆情数据的多文档自动摘要系统的研究与实现[D]. 韩晓冬.辽宁大学2018
  • [7].基于LDA和TextRank相结合的中文多文档自动摘要提取[D]. 张波飞.内蒙古师范大学2018
  • [8].基于语义词向量的文本分类多文档自动摘要[D]. 李擎.北京邮电大学2018
  • [9].基于互增强流形排序的多文档自动摘要方法研究[D]. 由文浩.西北农林科技大学2018
  • [10].网站自动摘要及其若干关键技术研究[D]. 李舒嫒.华东师范大学2017

相关论文

  • [1].基于主题划分的Web文档自动摘要研究[D]. 陈志敏.扬州大学2006
  • [2].Web信息分类与自动摘要的研究[D]. 王健.天津大学2006
  • [3].中文多网页自动摘要的研究与实现[D]. 韩颖.上海交通大学2007
  • [4].基于领域本体的Web文档自动摘要关键技术研究与实现[D]. 王麒.华东师范大学2007
  • [5].Web文本摘要技术的研究与应用[D]. 崔灵珍.武汉理工大学2007
  • [6].基于不同特征权重的中文网页自动摘要[D]. 林一旻.华侨大学2007
  • [7].面向新闻文本的自动摘要技术研究[D]. 刘海涛.国防科学技术大学2005
  • [8].基于自然语言处理的自动文摘系统[D]. 张峰.电子科技大学2006
  • [9].中文文档自动摘要技术[D]. 程娟.山东大学2006
  • [10].自动文本摘要方法的研究及应用[D]. 丛艳.华北电力大学(北京)2004

标签:;  ;  ;  ;  ;  ;  

中文Web文档自动摘要系统的研究
下载Doc文档

猜你喜欢