基于统计的NLP技术在中文信息检索中的应用研究

论文题目: 基于统计的NLP技术在中文信息检索中的应用研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 孙越恒

导师: 何丕廉

关键词: 中文信息检索,技术,统计学,中文分词,关键词提取,文档分类,聚类

文献来源: 天津大学

发表年度: 2005

论文摘要: 中文信息检索是信息检索领域的一个重要分支。尽管中文信息检索的技术和研究已经取得了相当多的成果,但目前中文信息检索的效果却并不乐观。本文就中文信息检索的几个主要问题,在NLP技术的基础上,利用统计学和代数学方法,从词语层和文档层对信息检索中文档和文档集的处理方法进行了深入研究。本文首先从理论上对中文信息检索索引单位的选择做了详细分析,改进了传统的最大匹配分词算法,一定程度上解决了切分歧义的问题,同时在改进算法中引入了一种基于统计的窗口移动扩展方法,简单而有效地改善了未登录词的识别问题。信息抽取已成为制约信息检索性能的一个瓶颈,而关键词提取则是信息抽取的一个重要环节。本文针对中文,实现了基于χ2统计的单文档关键词提取算法,其主要基础是词与词之间的共现次数的统计,并使用χ2统计量来衡量两个词语之间的关联。同时改进了传统的KEA算法,扩展了标示关键词的特征,实现了基于朴素贝叶斯理论的中文多文档关键词提取模型。文本分类是对信息检索中的文档集进行组织的一项关键技术。本文首先对文本分类算法进行了研究,探讨了文本特征抽取方法,其中综合考虑了频度、分散度和集中度三项指标,设计并实现了一种新的特征抽取算法,使得选出的特征项整体优化。另外,提出了一种基于向量空间模型的词共现模型,并将通过该模型统计出的共现词信息应用于文本分类研究中。上述技术都在一定程度上提高了文本分类系统的性能。最后,本文把分类技术应用到了信息检索中的用户查询歧义消除方面,实现了一个分类检索系统,使用户可以快速获取自己真正需要的信息。针对高维词-文档矩阵所造成的高存储空间和运算时间开销,本文将线性(LSI)和非线性(Isomap、SIE)维数约减算法引入到高维文档数据的降维处理中,并在文档聚类方面对三种算法处理后的数据进行了性能比较。实验结果表明,采用了局部嵌入技术的SIE算法取得了与LSI相当的性能,优于全局优化的Isomap算法,并且降维处理时的运算复杂度也大大降低。最后,本文实现了基于N层向量空间模型的Windows上的信息检索系统。该系统对Web文档采用了一种分层处理机制,重点改进了Web文档中的关键信息的权重计算。

论文目录:

第一章绪论

1.1 课题研究背景、目的和意义

1.2 国内外研究现状

1.2.1 NLP 技术的理性主义和经验主义方法

1.2.2 基于NLP 技术的信息检索的研究现状

1.3 本文主要研究工作和创新之处

1.4 论文结构

第二章信息检索基本技术介绍

2.1 基于语料库和统计学的NLP 技术概述

2.2 向量空间模型(VSM)及其评价

2.2.1 传统的向量空间模型

2.2.2 对传统向量空间模型评价

2.2.3 对向量空间模型的改进——广义向量空间模型

2.3 信息检索系统及其性能评价

2.3.1 SMART 信息检索系统

2.3.2 信息检索系统的性能评价

2.4 信息检索中文档集的组织技术

2.4.1 文本聚类技术

2.4.2 文本分类技术

第三章中文分词及其对信息检索性能的影响

3.1 引言

3.2 信息检索索引单位的选择问题

3.2.1 以2 元字符为索引单位进行切分

3.2.2 以词为单位进行切分

3.2.3 查询与文档分词方案的一致性问题

3.3 分词算法的研究

3.3.1 最大匹配(MM)分词算法

3.3.2 最小匹配分词算法

3.3.3 未登录词识别

3.4 实验设计及结果分析

3.4.1 实验1:查询语句中不同长度索引词的比例分析

3.4.2 实验2:传统MM 算法和改进MM 算法在分词性能上的比较

3.4.3 实验3:分词性能对信息检索结果的影响

3.5 本章小结

第四章文档关键词的自动提取算法研究

4.1 引言

4.2 基于χ~2 统计的单文档关键词提取技术的研究

4.2.1 单文档关键词提取方法概述

4.2.2 n-gram 模型与候选关键词的确定

4.2.3 词语的共现率的意义

4.2.4 词语重要性的数学度量

4.2.5 算法设计

4.2.6 实验结果与分析

4.3 基于朴素贝叶斯理论的多文档关键词提取技术的研究

4.3.1 多文档关键词提取方法概述

4.3.2 理论基础——朴素贝叶斯模型

4.3.3 算法设计

4.3.4 特征项离散化

4.4 实验结果与分析

4.5 本章小结

第五章基于向量空间模型的文本分类研究及其应用

5.1 引言

5.2 基于向量空间模型的文本分类技术

5.2.1 特征抽取与选择

5.2.2 文本分类算法的研究

5.2.3 文本分类系统的结构

5.2.4 实验结果与分析

5.3 基于向量空间模型的词共现研究及其在文本分类中的应用

5.3.1 一般词共现模型

5.3.2 基于向量空间模型的词共现模型

5.3.3 实验结果与分析

5.4 文本分类在消除用户查询歧义中的应用

5.4.1 系统设计

5.4.2 系统实例说明

5.4.3 系统的改进工作

5.5 本章小结

第六章线性和非线性维数约减算法在文本聚类中的比较研究

6.1 引言

6.2 维数约减算法

6.2.1 LSI 算法

6.2.2 等距映射(Isomap)算法

6.2.3 自组织等距嵌入(SIE)算法

6.3 聚类算法

6.4 实验设计与结果分析

6.4.1 实验设计

6.4.2 实验结果与分析

6.4.3 聚类性能的评价指标间的关系探讨

6.5 本章小结

第七章Windows 平台上的基于VSM 的信息检索系统

7.1 引言

7.2 N 层向量空间模型

7.2.1 基本思想

7.2.2 模型复杂度分析

7.3 实验系统的构建

7.3.1 实验系统的设计

7.3.2 实验系统的组织结构

7.3.3 系统主要功能模块的详细设计

7.3.4 查询扩展

7.3.5 系统界面

7.4 实验结果与分析

7.4.1 测试集

7.4.2 结果比较

7.5 本章小结

第八章结论和展望

8.1 结论

8.2 未来工作展望

参考文献

发表论文和科研情况说明

致谢

发布时间: 2006-05-24

参考文献

[1].NLP技术在中文信息检索中的应用研究[D]. 刘向威.天津大学2005
[2].中文信息检索索引模型及相关技术研究[D]. 杨传耀.复旦大学2007

基于统计的NLP技术在中文信息检索中的应用研究

猜你喜欢