基于机器学习算法的隐喻识别研究

论文摘要

隐喻是自然语言处理领域最棘手的问题之一,这个问题逐渐引起了学者们的关注,并且隐喻在思维及语言中所处的中心地位也逐渐为自然语言处理研究者所认同。隐喻是通过一个事物来表达另外一个事物,它不仅是一种修辞手段,而且体现着人的一种类比认知和思维方式。实际上,隐喻现象是一切自然语言中普遍存在的现象,是自然语言处理不可回避的问题,因此隐喻问题若得不到很好的解决,将成为制约自然语言处理和机器翻译发展的瓶颈。近几年来,在隐喻识别方面,机器学习方法和大规模知识获取成了新的亮点。本文选择汉语文本中的隐喻计算问题作为研究对象,以隐喻识别为研究内容,从名词性隐喻和动词性隐喻这两种最主要的隐喻类型入手,采用多种机器学习算法,广泛地探讨了隐喻的识别方法。本文选择了20个常用的隐喻词语,使用2001年—2004年的《人民日报》语料进行隐喻识别研究,主要研究内容如下：基于有监督学习的隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型,提出了基于RFRSUM模型、SVM算法、CRF模型、最大熵模型和语义相似度计算模型的隐喻识别方法。分类方法为识别隐喻提供了一个机器识别的思路,考察了主流的分类方法在识别隐喻时的性能和效果。其中,RFRSUM模型识别性能比较稳定,名词性和动词性隐喻的正确率的稳定性保持地最好。另外,CRF模型的识别正确率比SVM算法的略高,但是效果最好的是语义相似度计算模型。这个模型在采用K近邻分类算法的基础上,融入了语义相似度计算,使它的隐喻识别性能得到提高,是五个模型中隐喻识别正确率最高的。此外,对五个模型的实验结果进行了基于投票的集成实验。使隐喻识别正确率得到提升,名词性隐喻正确率达到87.74%,动词性隐喻正确率达到85.27%。基于聚类算法的隐喻识别。在聚类过程中,样本间的相似度使用了基于同义词词林的向量空间相似度计算和基于知网的语义相似度计算两种方法,采用K-means算法原理,并对K-means算法的随机选择初始聚类中心的方法进行了优化。聚类实验设计了三个方案来提升隐喻识别结果的正确率,其中方案二不仅利用了近距离搭配信息,也考虑了远距离的特征信息,使实验结果得到提高。基于半监督算法的隐喻识别。探讨了利用K-means算法和RFR SUM模型对隐喻识别进行半监督学习的方法,该算法是在分类实验和聚类实验的基础之上实现的。不仅利用了已标记样本的信息量,而且运用了未标记样本提供的信息,提高了隐喻识别的正确率。最后,构建了用于隐喻计算的小型隐喻知识库。在隐喻研究的实验结果基础上,利用算法抽取隐喻类的特征词,并把特征词依据对应的RFR值进行排序,建立基于隐喻特征-RFR值这种结构的隐喻知识库。此外,通过基于知识库的隐喻计算实验,验证了构建的隐喻知识库的有效性。总之,本文的研究工作主要是基于机器学习算法和知识获取方法,探讨了各种机器学习算法进行隐喻识别的实验思路,避免了手工知识库和规则方法的不足,积累了多种机器学习算法进行隐喻识别的大量实验数据,获得了隐喻识别研究较理想的实验结果。本文研究方法可以为隐喻计算、隐喻理解、隐喻本体研究及自然语言处理相关研究提供支持。

论文目录

摘要

Abstract

第一章绪论

1.1 课题概述

1.1.1 课题来源

1.1.2 隐喻概念

1.1.3 隐喻课题研究意义

1.2 隐喻研究现状

1.2.1 国外隐喻研究现状

1.2.2 国内隐喻研究现状

1.3 本文研究内容和创新

1.3.1 研究内容

1.3.2 本文创新

1.4 本文组织结构

第二章隐喻识别研究方法

2.1 隐喻识别方法

2.1.1 基于文本线索的方法

2.1.2 基于语义知识的方法

2.1.3 基于机器学习的方法

2.2 本文实验准备

2.2.1 实验数据

2.2.2 评价指标

2.3 本章小结

第三章基于有监督学习的隐喻识别研究

SUM模型的隐喻识别'>3.1 基于RFR_SUM模型的隐喻识别

SUM模型'>3.1.1 RFR_SUM模型

SUM实验结果'>3.1.2 RFR_SUM实验结果

3.2 基于SVM模型的隐喻识别

3.2.1 SVM模型原理

3.2.2 SVM实验结果

3.3 基于CRF模型的隐喻识别

3.3.1 条件随机场模型概述

3.3.2 CRF实验结果

3.4 基于最大熵模型的隐喻识别

3.4.1 最大熵原理

3.4.2 最大熵实验结果

3.5 基于语义相似度计算模型的隐喻识别

3.5.1 模型的原理和步骤

3.5.2 语义相似度模型实验结果

3.6 基于多分类器集成的隐喻识别

3.6.1 集成学习

3.6.2 多分类器集成

3.6.3 集成实验结果

3.7 本章小结

第四章基于聚类的隐喻识别研究

4.1 问题提出与结论

4.2 聚类方法

4.2.1 聚类算法划分

4.2.2 K-means聚类算法

4.2.3 相似度计算

4.3 实验过程

4.3.1 实验设计

4.3.2 实验结果

4.4 本章小结

第五章基于半监督学习的隐喻识别研究

5.1 半监督学习

5.1.1 半监督学习基本思想

5.1.2 半监督学习算法

5.2 实验过程

5.2.1 半监督学习实验设计

5.2.2 算法流程

5.2.3 半监督学习实验结果

5.3 本章小结

第六章构建隐喻知识库

6.1 隐喻知识库

6.1.1 研究意义

6.1.2 国外隐喻知识库现状

6.1.3 国内隐喻知识库现状

6.2 构建过程

6.2.1 算法流程

6.2.2 隐喻知识库

6.2.3 基于知识库的隐喻计算

6.3 本章小结

第七章总结与展望

7.1 全文总结

7.2 下一步研究计划

附录A:本文构建的隐喻知识库

参考文献

在读期间参加的科研项目与公开发表的学术论文

致谢

基于机器学习算法的隐喻识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢