中文问答系统中多策略答案抽取技术的研究

中文问答系统中多策略答案抽取技术的研究

论文摘要

信息检索是自然语言处理技术的一个重要的应用领域,自动问答作为一种高级检索形式正逐步成为该领域研究的热点之一。本文主要讨论了中文问答系统中答案抽取的实现策略。本文首先进行了实现答案抽取策略的核心技术的研究和预备工作,包括测试问题集的构建、答案类型的判别、答案选择与评价、语义相似度计算等。实验表明,本文选用的语义资源《知网》能够有效地辅助答案类型判别和答案抽取中语义相似度计算等任务。并且,采用本文提出的答案类型判别方法,得到了令人满意的实验效果。针对事实类型问句,本文提出基于改进VSM、语义计算和句子模式特征等策略,并在融合以上方法的基础上,提出了多策略的答案抽取方法。该方法将句子中的命名实体与非命名实体区别对待,强调命名实体对句子意义限定的重要性。采用语义相似度代替关键词匹配。同时,提出使用滑动窗口,突出句子中的有效部分,从而降低由于断句不合理而造成的对句子得分的影响。在一个有205个提问的汉语问答系统测试集上,进行了多种答案抽取方法的比较实验。实验结果显示,本文提出的多策略答案抽取方法在人物、实体、组织机构、地点、数字及时间等事实类型问题的答案抽取方面均得到了较好的实验结果。对于复杂类型问题,采用基于知识的候选答案抽取策略,利用语义计算和改进编辑距离相结合的方法,将提问问句与问句候选集中的问句进行相似度计算并排序,作为间接获取问题答案的有效方法。实验结果表明,为解决复杂类问题提出的基于知识的候选答案抽取策略是有效的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 答案抽取的研究意义
  • 1.4 本文主要工作和组织结构
  • 第2章 问答系统中答案抽取方法概述
  • 2.1 答案抽取相关模型
  • 2.1.1 答案模式
  • 2.1.2 严格匹配模型
  • 2.1.3 向量空间模型
  • 2.2 答案抽取基本方法
  • 2.2.1 基于规则的方法
  • 2.2.2 基于统计的方法
  • 2.2.3 基于句子相似模型的方法
  • 2.3 评测标准
  • 2.4 小结
  • 第3章 答案抽取核心技术的研究
  • 3.1 答案抽取过程
  • 3.2 中文分词
  • 3.3 命名实体识别
  • 3.4 词语的语义相似度计算
  • 3.4.1 语义资源的选择
  • 3.4.2 相似度计算方法
  • 3.4.3 词义消歧方法
  • 3.5 测试问题集的建设
  • 3.5.1 中文问答系统的问题分类体系
  • 3.5.2 KECQA 问题集介绍
  • 3.6 小结
  • 第4章 多策略答案抽取技术的研究
  • 4.1 答案类型的判别策略
  • 4.1.1 答案类型判别步骤
  • 4.1.2 实验
  • 4.2 候选答案的获取策略
  • 4.2.1 基于通用搜索引擎的候选答案获取
  • 4.2.2 基于用户知识的候选答案获取
  • 4.3 事实类答案抽取策略
  • 4.3.1 基于改进VSM 的答案抽取
  • 4.3.2 基于语义的答案抽取
  • 4.3.3 基于句子模式特征的答案抽取
  • 4.3.4 多策略融合的答案抽取
  • 4.3.5 实验
  • 4.4 复杂类答案抽取策略
  • 4.4.1 基于知识的答案抽取
  • 4.4.2 实验
  • 4.5 答案选择策略
  • 4.5.1 答案合并
  • 4.5.2 基于投票策略的答案选择
  • 4.5.3 基于Web 冗余的答案选择
  • 4.5.4 实验
  • 4.6 小结
  • 第5章 问答系统的实现与改进
  • 5.1 问答系统设计与实现
  • 5.1.1 问句处理
  • 5.1.2 信息检索
  • 5.1.3 答案抽取和选择
  • 5.1.4 系统评价
  • 5.2 问答系统模型的改进
  • 结论
  • 附录Ⅰ KECQA 测试问题集(部分)
  • 附录Ⅱ KECQA 中文问答系统运行界面
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].一种基于混合语义相似度度量方法的本体元匹配技术[J]. 宝鸡文理学院学报(自然科学版) 2020(02)
    • [2].基于本体的语义相似度计算研究[J]. 郑州大学学报(理学版) 2019(02)
    • [3].一种引入实体的地理语义相似度混合计算模型[J]. 浙江大学学报(理学版) 2018(02)
    • [4].制造资源本体的概念语义相似度研究[J]. 计算机应用研究 2016(01)
    • [5].基于农业本体的语义相似度算法及其在农作物本体中的应用[J]. 农业工程学报 2016(16)
    • [6].语义相似度融合检错码跨层链路分流算法[J]. 科技通报 2015(04)
    • [7].基于语义相似度的本体概念更新方法研究[J]. 计算机应用与软件 2018(04)
    • [8].基于语义构词的汉语词语语义相似度计算[J]. 中文信息学报 2017(01)
    • [9].基于信息熵的医疗概念语义相似度算法[J]. 计算机工程与设计 2017(06)
    • [10].基于互信息的概念语义相似度算法[J]. 通信技术 2016(09)
    • [11].基于《知网》的词语语义相似度算法[J]. 计算机工程 2014(12)
    • [12].语义相似度计算在语义标注中的应用[J]. 计算机工程与应用 2013(04)
    • [13].一种基于本体概念语义相似度的查询优化方法[J]. 电脑与信息技术 2012(04)
    • [14].改进的主客观结合的词语语义相似度算法[J]. 计算机技术与发展 2012(09)
    • [15].一种医疗本体语义相似度算法的设计[J]. 软件工程师 2011(Z1)
    • [16].基于知网的语义相似度的改进算法[J]. 电子技术 2010(05)
    • [17].句子语义相似度计算[J]. 计算机工程与应用 2010(36)
    • [18].基于地理本体的综合语义相似度算法[J]. 兰州大学学报(自然科学版) 2017(01)
    • [19].一种利用语义相似度改进问答摘要的方法[J]. 北京大学学报(自然科学版) 2017(02)
    • [20].基于差分优化语义相似度模型的智能组卷系统[J]. 科教导刊(上旬刊) 2016(02)
    • [21].语义计量:基于语义相似度评价科研出版物贡献的计量方法[J]. 情报理论与实践 2015(04)
    • [22].基于证据理论的单词语义相似度度量[J]. 自动化学报 2015(06)
    • [23].一种自发性口语评测文本语义相似度评分特征提取方法[J]. 集成技术 2013(01)
    • [24].一种基于本体的语义相似度计算方法[J]. 情报科学 2012(08)
    • [25].语义相似度的基因名标准化方法[J]. 计算机工程与应用 2011(35)
    • [26].资源共享关联的语义相似度算法[J]. 福建电脑 2010(03)
    • [27].基于语义相似度的数据服务分类方法[J]. 信息技术 2017(12)
    • [28].基于特定领域的加权语义相似度算法研究[J]. 成都大学学报(自然科学版) 2015(03)
    • [29].一种混合型的句子语义相似度计算方法[J]. 科学技术与工程 2014(28)
    • [30].基于概念语义相似度计算模型的信息检索研究[J]. 计算机应用与软件 2013(06)

    标签:;  ;  ;  ;  

    中文问答系统中多策略答案抽取技术的研究
    下载Doc文档

    猜你喜欢