基于XML的个性化信息检索系统研究

基于XML的个性化信息检索系统研究

论文摘要

本文针对目前Internet上信息获取存在效率不高与“资源迷向”的问题,以及日益增长的个性化需求,提出了一个面向Web的基于XML的个性化信息检索系统模型,研究了其中的关键算法,所研究的内容目前属于信息检索和电子商务的重要研究课题和热点,具有一定的理论和实际应用意义。本文首先研究了国内外搜索引擎系统及主要算法,分析了搜索引擎系统的主要结构和存在的主要问题,并在此基础上探索了基于XML的个性化信息检索系统所涉及的关键技术和算法,主要围绕用户模型的生成和个性化搜索引擎的系统结构以及提高搜索引擎性能的关键技术三个方面进行。主要的工作是:首先通过天网日志文件对用户行为特征进行了统计分析,指出用户查询词及查询过程相对稳定,由此构造基于行为特征的用户模型,并给出相应生成算法;其次,在分析搜索引擎基本结构的基础上,提出了个性化系统实现的基本结构,并分析了其实现的关键技术;第三,在构造个性化搜索引擎原型系统的过程中,结合统计规律,确定了以提高查准率为主要目标的实现思路,改进了信息抓取策略;优化了网页去噪消重算法;提出了以单字构造中文分词词库的新方法;结合用户模型,改进相关分析方法,并拓展了相关分析的应用领域。理论分析和实验结果表明,构造的原型系统是可行和有效的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 项目背景及研究意义
  • 1.1.1 项目背景
  • 1.1.2 项目意义
  • 1.2 搜索引擎的研究现状及发展趋势
  • 1.2.1 发展现状
  • 1.2.2 关键技术的研究现状
  • 1.2.3 发展趋势
  • 1.3 本文研究内容和结构
  • 第二章 搜索引擎原理和体系结构
  • 2.1 搜索引擎分类
  • 2.1.1 基于网络蜘蛛的搜索引擎
  • 2.1.2 目录索引型搜索引擎
  • 2.1.3 元搜索引擎
  • 2.1.4 主题搜索引擎
  • 2.2 搜索引擎的体系结构
  • 2.3 搜索引擎的工作原理
  • 2.4 搜索引擎主要指标
  • 2.5 搜索引擎的关键技术
  • 2.6 现有搜索引擎存在的主要问题
  • 2.7 现有搜索引擎的结构及性能分析
  • 2.7.1 结构分析
  • 2.7.2 搜索引擎的性能分析
  • 2.8 小结
  • 第三章 个性化搜索引擎模型
  • 3.1 个性化搜索引擎定义及分析
  • 3.2 基于用户行为特征的统计分析
  • 3.2.1 用户查询日志文件
  • 3.2.2 用户行为特征分析
  • 3.2.3 基于用户特征行为的访问模式挖掘
  • 3.3 用户兴趣模型的生成
  • 3.3.1 新的个性化信息抽取方法
  • 3.3.2 用户兴趣模型的生成和更新
  • 3.4 个性化搜索引擎系统结构
  • 3.5 小结
  • 第四章 个性化搜索引擎关键技术研究与改进
  • 4.1 信息搜集的改进
  • 4.1.1 网络蜘蛛系统模型
  • 4.1.2 网络蜘蛛搜索策略及流程优化
  • 4.1.3 网页表示的 XML 转化
  • 4.1.4 提高网页抓取效率的改进措施
  • 4.1.5 结果及性能分析
  • 4.2 信息处理的优化
  • 4.2.1 去噪消重算法的改进
  • 4.2.2 中文分词的优化
  • 4.2.3 索引设计
  • 4.3 相关分析
  • 4.3.1 现有的相关分析技术
  • 4.3.2 相关分析技术的改进
  • 4.3.3 算法分析
  • 4.4 小结
  • 第五章 总结与展望
  • 5.1 本文工作总结
  • 5.2 进一步的研究工作
  • 参考文献
  • 致谢
  • 攻读学位期间的主要研究成果
  • 附录一 信息抓取的部分程序
  • 附录二 网页消重净化等部分程序
  • 附录三 中文分词的部分程序
  • 附录四 PageRank 算法优化的部分程序
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于XML的个性化信息检索系统研究
    下载Doc文档

    猜你喜欢