事实类问题回答系统包括:问题预处理、问题分析、文档检索、答案抽取、答案排序及答案映射。本文首先详细讨论了事实类问题回答的模块组织,以及实现这些模块的常用方法。然后对其中的文档检索和答案排序两模块进行了深入的分析,提出了有效的改进方法。文档检索的性能是文档系统所有后续处理的基础。本文讨论了查询扩展在检索模块中的作用,并实现了一种基于自动反馈技术的查询扩展技术。详细讨论了查询扩展的方法:利用初次检索得到的相关文档集获取可能的扩展查询项。对扩展查询项计算置信度时,引入了Wordnet对置信度进行调整。实验证明,加入了查询扩展技术的检索模块在返回文档集合包含正确答案的比例及冗余度上均有明显的提升。事实类问题回答系统中另一个中要模块是答案排序模块。答案排序效果的好坏直接决定了整个系统的性能,而答案排序的核心是评判候选答案与问题的置信度。本文中使用语法分析和统计方法构建了一个新的事实类问题回答系统的答案排序模型,其中我们使用SVM训练了一个对候选答案评价的评价函数。充分利用了两类特征:基于密度方法的特征和基于语法分析的特征,并在TREC问题集上进行了实验,实验结果表明,新的答案排序模型能够有效地对候选答案评价,并提高了系统返回的答案结果集的质量。
本文来源: https://www.lw50.cn/article/d03848e438b516aae030f556.html