一种轻量级个性化搜索引擎的研究

一种轻量级个性化搜索引擎的研究

论文摘要

如今网络搜索引擎成了人们获取信息的一个重要途径,人们在希望搜索引擎能够提供全面的信息资源的同时,也对搜索引擎的服务提出了更高的要求。如何能通过一种有效的方式获取最有用的信息是用户所需要的,也是个性化搜索引擎必须提供的一种服务。用户往往希望搜索引擎能够根据自己的实际情况来定制,这反应到信息检索领域便是个性化的搜索服务。目前传统的基于服务器端的搜索引擎虽然能够为用户解决兴趣搜索的需求,然而用户需要频繁地与行为数据库通信,这将造成行为数据库的超负荷运行。基于此,本文提出一种新式的搜索结构——轻量级个性化搜索引擎,以减少服务器端开销为目的,同时能够很好的解决因客户端存储限制的缺点造成的排序误差。这模式结合了客户端存储资源与服务器端用户兴趣库,同时引进了客户端服务代理技术,在一定程度上减少了服务器端用户兴趣库的访问瓶颈。另外客户端、服务器端与客户端服务代理三者的松耦合连接方式增加了个性化搜索引擎的灵活性。本文着重研究客户端、客户端服务代理与服务器端的通信规则,详细研究了在为用户提供高质量兴趣搜索服务的基础上如何减少三者之间的通信流量的问题。同时给出了客户端、客户端服务代理与服务器端用户兴趣的获取与更新算法。最后通过实验系统验证了轻量级个性化搜索引擎的可行性并与传统的基于服务器端的个性化搜索引擎进行了性能比对分析。实验证明轻量级个性化搜索引擎在服务器性能方面得到了一定程度的改善。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的目的和意义
  • 1.2 国内外研究现状
  • 1.3 论文的主要内容及结构
  • 第2章 搜索引擎技术综述
  • 2.1 搜索引擎概述
  • 2.2 搜索引擎分类
  • 2.3 搜索引擎结构
  • 2.4 搜索引擎工作机制
  • 2.5 个性化搜索引擎
  • 2.6 搜索引擎中文分词
  • 2.7 本章小结
  • 第3章 个性化搜索引擎用户模型
  • 3.1 用户模型概述
  • 3.2 用户模型信息的获取
  • 3.3 用户模型的表示
  • 3.4 本章小结
  • 第4章 轻量级个性化搜索引擎的设计
  • 4.1 轻量级个性化搜索的信息检索方法
  • 4.2 轻量级个性化搜索引擎的系统结构
  • 4.3 轻量级个性化搜索引擎的系统原理
  • 4.4 Web文档表示模型
  • 4.5 中文分词设计
  • 4.5.1 中文分词系统处理逻辑
  • 4.5.2 分词预处理
  • 4.5.3 词库组织
  • 4.5.4 加载词库
  • 4.5.5 正向最长匹配
  • 4.5.6 逆向最长匹配
  • 4.6 用户兴趣的获取与模型的建立
  • 4.6.1 客户端存储用户兴趣记录的模型
  • 4.6.2 客户端代理存储用户兴趣记录的模型
  • 4.6.3 服务器端存储用户兴趣记录的模型
  • 4.7 匹配度计算
  • 4.8 个性化搜索实现的主要算法
  • 4.8.1 客户端用户搜索历史记录存储算法
  • 4.8.2 客户端代理用户兴趣模型更新算法
  • 4.8.3 服务器端用户兴趣模型更新算法
  • 4.8.4 基于用户兴趣模型的搜索结果过滤算法
  • 4.8.5 获取并拼接用户搜索历史记录的算法
  • 4.9 本章小结
  • 第5章 实验系统的实现与分析
  • 5.1 实验系统运行环境
  • 5.2 Lucene API
  • 5.3 中文分词实现
  • 5.4 索引Web文档
  • 5.5 分布式搜索实现
  • 5.6 实验结果
  • 5.7 实验分析
  • 5.8 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    一种轻量级个性化搜索引擎的研究
    下载Doc文档

    猜你喜欢