基于搜索引擎的问答系统若干关键技术研究与实现

基于搜索引擎的问答系统若干关键技术研究与实现

论文摘要

搜索引擎的出现带来了互联网上信息检索方式的革命性变化,为用户在浩瀚如海的信息空间中寻找自己所需要的资源提供了有力帮助,也因此成为互联网上最重要和最流行的应用之一。但随着网络信息资源的日趋增多,传统搜索引擎暴露出越来越多的缺点,如检索结果冗杂、耗费时间长、结果精确度不够等。由此,探索新型、高效、人性化的搜索引擎或对基于搜索引擎的新型应用进行研究,为用户的查询问题寻求最佳解答提供更加有效的帮助,是一个具有深远意义的研究课题。本文针对信息检索领域的两个重要研究方向——自动问答系统和元搜索引擎进行了分析和探讨,综合两项技术的优势,提出了基于搜索引擎的问答系统的设计方案,并对其中涉及的若干关键技术(如查询分析、检索任务管理、检索结果处理等)进行了研究和部分实现。目前已完成的具体工作包括:(1)以分层和模块化设计思想作为系统的设计原则,确定了系统的三层结构,即用户/应用层、协调器层和检索源层,并在此基础上将系统划分为五大模块,完成了系统体系结构的设计;(2)研究系统所涉及的关键技术,并对其实现上的难点做了理论和技术准备,如提出了成员搜索引擎检索URL的转换方法、检索结果统一相关度排序方法等;(3)完成了检索结果处理部分的实现工作,并对系统性能做出评估。相比传统搜索引擎,本文所研究的系统能够更好地理解用户检索需求,从而更准确地定位检索结果,但由于在检索过程中要同时调用多个搜索引擎,对系统的检索时间会有一定的影响,这是为提高系统检索结果准确率所做出的一点牺牲。在后续的研究及实现过程中,会在提高查询分析器的语义理解能力、完善知识库的创建与管理,以及增强系统稳定性及灵活性方面做更多的工作,努力为用户提供一个界面友好、信息丰富、回答准确、反应迅速、能充分利用Web信息资源的良好的信息获取环境。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题背景及研究意义
  • 1.2 本文研究目标及主要研究内容
  • 1.3 本文组织结构
  • 第二章 相关技术探究
  • 2.1 自动问答系统
  • 2.1.1 自动问答系统发展及研究概况
  • 2.1.2 自动问答系统体系结构及核心问题
  • 2.1.3 自动问答系统的评测方法
  • 2.2 元搜索引擎
  • 2.2.1 元搜索引擎工作原理及性能评价指标体系
  • 2.2.2 元搜索引擎与传统搜索引擎相比的优势
  • 2.2.3 元搜索引擎的局限性
  • 2.3 小结
  • 第三章 基于搜索引擎的问答系统总体设计
  • 3.1 系统概述
  • 3.2 系统设计思想及原则
  • 3.2.1 软件分层设计思想
  • 3.2.2 模块化设计思想
  • 3.3 系统体系结构
  • 3.4 小结
  • 第四章 系统关键技术研究
  • 4.1 问题预处理及查询扩展
  • 4.2 检索任务管理
  • 4.2.1 检索控制
  • 4.2.2 检索任务分配
  • 4.3 检索结果处理
  • 4.3.1 检索结果获取
  • 4.3.2 结果去重
  • 4.3.3 相关度分析及排序策略
  • 4.3.4 答案内容提取
  • 4.4 其他技术
  • 4.5 小结
  • 第五章 检索结果处理的实现
  • 5.1 检索结果获取
  • 5.1.1 成员搜索引擎的搜索结果特征表示
  • 5.1.2 下一页链接的处理
  • 5.1.3 结果页面内容提取
  • 5.2 死链接查询与结果去重
  • 5.2.1 无效链接的检测
  • 5.2.2 重复链接的处理
  • 5.3 检索结果相关性排序
  • 5.4 答案抽取
  • 5.4.1 网页获取
  • 5.4.2 HTML 解析
  • 5.4.3 问题模式匹配及答案文本抽取
  • 5.5 系统性能评估
  • 5.6 小结
  • 第六章 总结与展望
  • 6.1 本文研究工作总结
  • 6.2 进一步的工作
  • 参考文献
  • 发表论文和科研情况说明
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于搜索引擎的问答系统若干关键技术研究与实现
    下载Doc文档

    猜你喜欢