搜索引擎关键技术研究与实现

搜索引擎关键技术研究与实现

论文摘要

随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目、生产数据、学生的分数数据等等,非结构化数据则是一些文本数据、图象声音等多媒体数据等。据统计,非结构化数据占整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缺陷使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。从本质上来说,搜索引擎是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在电子邮件系统之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的信息并存储到倒排文件中,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索是搜索引擎的核心支撑技术。本文立足于一种新型的,优秀的全文索引模型——互关联后继树全文索引模型,研究互关联后继树全文模型与搜索引擎技术的相互贯穿与结合,以及互关联后继树搜索引擎若干关键技术的研究与实现。其中,主要对匹配度计算,搜索引擎与关系数据库的协同查询,搜索引擎排序算法等三个方面进行着重的研究与实验,在此基础上,提出了两个统一的公式来进行搜索匹配度的计算,不但简化了匹配度的计算过程,而且能够将各种可能的匹配情况都考虑周到;通过引入内存数据库的概念和实现技术,成功实现了搜索引擎与关系数据库的协同查询,使用户能够更加有效、方便、快速的获得需求的结果;最后,提出并实现了一个基于动态划分的多权值快速排序算法,减少了不必要的排序过程,只提取出需要排序的页面数据进行排序,大幅度提高了排序效率,减少了搜索引擎的响应时间。互关联后继树全文模型与搜索引擎技术的相互贯穿与结合以及互关联后继树搜索引擎关键技术的研究与实现,使其在搜索领域发展出属于自己独特的一套技术与理论。

论文目录

  • 目录
  • 图目录
  • 中文摘要
  • 英文摘要
  • 第一章 综述
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.2.1 全文检索
  • 1.2.2 全文检索的研究内容
  • 1.3 搜索引擎核心技术介绍
  • 1.4 主流搜索引擎介绍
  • 1.5 论文的组织
  • 第二章 互关联后继树搜索引擎概要
  • 2.1 互关联后继树模型概要
  • 2.2 搜索引擎与互关联后继树的结合
  • 2.3 基于词表的互关联后继树索引
  • 2.4 互关联后继树索引检索流程
  • 第三章 匹配度计算方法
  • 3.1 匹配度定义
  • 3.2 匹配度计算公式
  • 3.3 匹配度计算实现技术
  • 3.3.1 词位置号的保存
  • 3.3.2 匹配度计算
  • 3.4 实验与分析
  • 第四章 搜索引擎与关系数据库的协同查询
  • 4.1 需求概要
  • 4.1.1 黄页搜索引擎系统体系结构介绍
  • 4.2 二次检索
  • 4.3 内存数据库技术
  • 4.4 协同查询实现技术
  • 4.4.1 协同查询体系结构
  • 4.4.2 二次检索的实现
  • 4.4.2.1 调整关键字进行二次检索的实现
  • 4.4.2.2 按路名二次检索的实现
  • 4.4.2.3 按地区二次检索的实现
  • 4.4.2.4 分类查看的实现
  • 4.4.2.5 按更新时间二次检索的实现
  • 4.5 实验与分析
  • 第五章 搜索结果排序技术
  • 5.1 通用排序算法介绍
  • 5.1.1 传统IR的相关排序
  • 5.1.2 链接分析与相关排序
  • 5.2 基于动态划分的多权值快速排序
  • 5.3 基于区间的划分算法
  • 5.3.1 快速排序算法
  • 5.3.2 区间划分算法
  • 5.3.2.1 基于随机划分算法的区间划分算法
  • element的区间划分算法'>5.3.2.2 基于nthelement的区间划分算法
  • 5.4 实验与分析
  • 第六章 结论与展望
  • 6.1 结论
  • 6.2 展望
  • 参考文献
  • 硕士研究生期间项目和论文
  • 致谢
  • 相关论文文献

    • [1].基于互关联后继树的数学表达式检索[J]. 计算机工程 2017(06)
    • [2].尊重[J]. 德语人文研究 2019(02)
    • [3].后继序列有序的互关联后继树创建和搜索算法[J]. 计算机应用与软件 2008(04)
    • [4].基于互关联后继树的多库合并建库算法[J]. 计算机应用与软件 2008(04)
    • [5].基于帧间双向互关联的点状多目标检测算法[J]. 计算机工程与应用 2008(27)
    • [6].基于双排序互关联后继树的索引压缩和原文生成算法[J]. 计算机应用与软件 2010(09)
    • [7].二元互关联后继树精简索引模型研究[J]. 小型微型计算机系统 2011(02)
    • [8].周期调制互关联双态噪声驱动欠阻尼谐振子系统的随机共振[J]. 通化师范学院学报 2009(10)
    • [9].基于三元互关联后继树的Web日志挖掘[J]. 计算机应用与软件 2011(10)
    • [10].周期调制互关联双态噪声驱动过阻尼谐振子系统的随机共振[J]. 广西物理 2009(02)
    • [11].现代的“迷信”和传统的“祛魅”[J]. 读书 2014(06)
    • [12].企业需要未雨绸缪的三大科技趋势[J]. 信息安全与通信保密 2011(08)
    • [13].“大我”、“小我”[J]. 长江师范学院学报 2009(03)
    • [14].英语教学应注重语言文化的渗透[J]. 宁夏教育 2009(12)
    • [15].一种时序数据间断频繁项挖掘算法[J]. 科技视界 2013(06)
    • [16].产城融合背景下产业集聚区发展建设研究[J]. 科技信息 2013(22)
    • [17].电商法有望成消费者维权利器[J]. 检察风云 2018(23)
    • [18].几道高考立几题的定量分析[J]. 中学数学研究 2011(09)
    • [19].不能不知的几种解题方法[J]. 中学生数理化(高一版) 2010(05)
    • [20].中国“工业4.0”亟待突围[J]. 资本市场 2015(03)
    • [21].随机双指数记忆耗散系统的非马尔可夫扩散[J]. 物理学报 2013(08)
    • [22].产业集群与区域经济发展探析[J]. 特区经济 2011(03)
    • [23].推进产业集聚 实现科学发展[J]. 群众 2008(04)
    • [24].以生态学思维引领教育综合改革[J]. 中国教育学刊 2014(12)
    • [25].经济增长源泉与中华民族复兴[J]. 世界经济与政治 2013(01)
    • [26].大数据带来大商业价值[J]. IT经理世界 2011(23)
    • [27].简论后理性认识[J]. 党政干部学刊 2009(01)
    • [28].军事软实力与军队政治工作关系辨析[J]. 湖北经济学院学报(人文社会科学版) 2009(02)
    • [29].关于“人”的功课[J]. 建筑技艺 2015(05)
    • [30].色关联的乘性和加性色噪声激励下分段非线性模型的随机共振[J]. 物理学报 2014(21)

    标签:;  ;  ;  

    搜索引擎关键技术研究与实现
    下载Doc文档

    猜你喜欢