搜索缓存论文-钱立兵

搜索缓存论文-钱立兵

导读:本文包含了搜索缓存论文开题报告文献综述及选题提纲参考文献,主要关键词:搜索引擎,查询结果缓存,倒排索引,并行搜索

搜索缓存论文文献综述

钱立兵[1](2016)在《搜索引擎中查询处理及结果缓存技术研究》一文中研究指出随着互联网技术的飞速发展,搜索引擎成为海量网络资源中快速准确获取信息的必须工具。在不断增长的网页数据和各种用户大量请求情况下,搜索引擎需要在秒级时间内从海量的网页数据中处理成千上万的并发查询请求,因此搜索引擎的性能面临着巨大的挑战,如何提升分布式搜索引擎的扩展性和系统性能已成为当前研究的重点。本文针对搜索引擎架构、查询算法以及查询结果缓存等关键技术问题,深入研究和讨论如何高效地处理查询,提高分布式搜索引擎性能。在总结前人工作的基础上,按照主题对索引和文档进行分类,优化查询处理算法,提出改进的查询结果缓存策略和预判断机制,提高搜索引擎的查询性能和系统的扩展性。本文主要研究内容可概括如下:1.针对分布式搜索引擎架构和索引划分问题,提出一种基于页面结构的主题分类方法,建立查询任务并行的可扩展模型。首先,利用页面结构区分不同内容中主题信息的重要度,按照主题和近似URL对网页数据进行分类,建立各个类别的索引和文档,对相应的索引和文档数据按照类别管理。其次,设计一种多线程任务池,对各个类别的索引和文档实现并行化查询。最后,实验结果的对比表明改进模型按照类别进行查询,具有针对性查询优势,能够降低平均查询时间,提高系统吞吐量,减少每个查询的检索范围,使得系统具有良好的扩展性。2.针对搜索引擎查询过程中倒排表合并的工作,提出一种具有位图结构的倒排索引结构,并在此结构上给出一种基于最大得分策略的并行查询优化算法。首先,基于跳表的倒排索引结构,设计位图结构记录倒排词项的文档检索编号,有效降低倒排表合并的查询时间复杂度。其次,依赖于改进的倒排索引结构和经典的查询算法,根据最大得分策略思想,并结合词项堆和结果堆,实现一种快速查找倒排索引的查询处理方法。最后,为了避免了进程切换开销,设计一种动态管理多线程方法,实现倒排词典的并行化查询算法。实验结果表明改进代理位图结构和查询算法能够提高索引节点的平均查询速度和吞吐量;同时设计的多线程方法,提升了索引节点层的查询性能。3.为了进一步提高搜索引擎的查询性能,针对缓存策略的不足,分别对静态和动态缓存的策略进行了优化,并针对混合缓存内部提出一种自适应容量分配算法。首先,分析查询过程和查询日志的局部性,引入查询重复距离因素对静态缓存策略进行改进。其次,考虑查询的热度和新鲜度机制,描述了缓存价值概念,并设计一种新鲜度衰减机制进一步改进了动态缓存策略。最后,基于队列链表的缓存结构,在静态和动态缓存之间提出一种自适应动态调整容量分配算法,进一步改进了混合缓存的效率。实验分别从静态、动态和混合策略的查询结果缓存叁个方面比较,验证了改进的缓存策略和相关算法能够增加系统整体性能,尤其是在降低平均查询时间方面更加明显。4.根据查询结果缓存的静态和动态缓存策略,结合页面缓存和文档编号缓存,构建一种新的混合查询结果缓存方法;考虑索引持续更新会导致缓存结果陈旧,提出一种预判断机制,提前判断缓存的命中情况和新鲜度;设计一种Queue-Hash构成的缓存结构并采用双指针跳表,实现查询结果缓存的快速查找;提出不完全分配缓存空间方法,改进了缓存频繁换入换出现象。通过真实数据的模拟验证,提出的混合查询结果缓存比单独的页面缓存或文档编号缓存效率高;设计的预判断方法能够维持缓存新鲜度,提高缓存的准确度;选择合适的不完全分配方法,使得缓存的性能能够进一步提高。综上所述,本文针对搜索引擎的查询性能问题,从查询模型结构、查询算法、查询结果缓存等方面进行优化和改进。还需要更深入地研究查询分类或者聚类方法,考虑索引剪枝策略,建立一种更广泛的分布式缓存策略和预测模型。(本文来源于《哈尔滨工业大学》期刊2016-09-01)

梅江泽[2](2016)在《基于Solr的海量数据并行索引及搜索缓存研究》一文中研究指出随着互联网信息技术的快速发展,企业信息化程度不断提高,各个行业内的数据信息急剧增长,而且信息的存在形式也越来越多样。这也使得如何使用户能够快速、精确的从企业的海量数据中找出所需要的关键信息变得越来越重要,而解决这一个问题的关键就是搜索引擎技术。随着开源企业级搜索应用服务器Solr的出现,越来越多的企业开始构建以此为基础的海量数据搜索服务系统。传统的搜索方式是使用文本数据库,虽然文本数据库和搜索引擎的技术基础都是全文检索技术,但是文本数据库在处理海量数据方面的能力无法跟搜索引擎相媲美。搜索引擎采用服务器集群和分布式计算的策略,能够处理较大的数据量。在海量数据的背景下,如何更好地利用开源Solr搜索引擎服务器搭建起快速高效的搜索引擎也成为重要的研究课题之一本文针对这种需求,在基于Solr搜索引擎服务器的基础上,进行海量数据搜索服务的研究。本文首先分析搜索引擎服务器集群的运行特点,运用随机过程中的排队模型对集群系统的可用性进行分析。接着在可用性的基础上深入研究搜索引擎的索引构建和搜索索引两个关键过程。索引构建的过程是将文本转化为能够被搜索引擎搜索的索引文件。本文在分析的基础上提出并行索引的方式,将文档构建索引过程中的部分串行操作并行化,并通过性能负载均衡的策略提高各节点的资源利用率,以应对海量数据构建索引的场景,加速索引的构建。对于搜索的过程,本文首先分析Solr的搜索过程,提出分级缓存模型。模型将频繁搜索的热点数据放置在缓存中,并对缓存数据进行分级,同时提出热相关数据的概念,通过词语相似度计算出与热点数据相似的数据,加载至缓存模型并进行分级操作。本文同时针对分级缓存模型提出了维护策略,充分利用缓存空间,最后改进传统的缓存预热算法,提高系统运行初期的缓存命中率。本文通过搭建搜索引擎服务器集群,对海量数据的索引构建和搜索过程进行实验研究。实验结果表明,本文提出的并行索引和分级缓存模型能够有效提升搜索引擎的索引构建速度和请求响应速度。(本文来源于《华中师范大学》期刊2016-05-01)

周超[3](2016)在《航班搜索引擎动态缓存策略研究》一文中研究指出随着我国经济的飞速发展,国内民航市场也迎来了蓬勃的发展。越来越多的旅客将飞机作为自己长途旅行工具的首选。同时伴随着互联网技术的成熟,各大航空公司纷纷搭建了自己的官方网站,并通过官方网站向用户提供机票查询和预订服务。互联网机票比价平台也如雨后春笋般涌现,大大方便了旅客的出行。由于互联网服务的便捷,互联网渐渐取代传统的机票预订渠道成为旅客查订机票的首选平台。各家航空公司为了应对日渐增长的用户查询流量,纷纷加大对官方网站建设的投入,以提供给用户最好的使用体验,在与其他航空公司的竞争中取得优势。在此背景下,航班查询缓存技术开始引起了业界的关注。这项技术可以带来诸多的便利,一方面它可以在不改变现有后台系统架构的前提下,有效地应对激增的查询流量,降低航空公司的运营成本。另一方面,它可以加快对用户查询的响应速度,提高用户的使用体验。缓存一致性算法是缓存策略研究中的主要议题。在本文中我们提出了叁种基于TTL(缓存有效时间,Time-to-Live)机制的动态缓存策略。首先,我们构建了缓存有效时间与查询错误率之间的数学模型,并由此得到缓存有效时间的解析表达式,作为我们的解析TTL模型。然后,我们从查询条件中抽取了若干特征,并利用线性回归模型来预测TTL值,由此建立了线性回归TTL模型。最后,我们进一步设计了自适应TTL模型,该模型根据已过期的查询缓存结果是否依然有效来实时动态调整当前的TTL值。本文在某航空公司官方网站的真实查询数据集上进行了实验,并与传统搜索引擎领域中使用的固定TTL缓存模型进行了对比。实验结果表明固定TTL这样的静态缓存模型并不适用于在线航班搜索问题,本文提出的动态缓存策略能更好地抓住航班查询结果变化的规律,在保证更低的查询错误率的同时,还能有效降低到达后台的冗余查询。因此,本文提出的动态缓存策略将可以帮助航空公司缓解后台服务压力、降低运营成本、提升市场竞争力。(本文来源于《北京交通大学》期刊2016-02-22)

仇径,罗嘉蕙,项晓燕,陈志坚[4](2016)在《基于热点行搜索的低功耗数据高速缓存》一文中研究指出针对数据高速缓存短时间内频繁访问连续区段的特征,该文提出了一种基于热点硬件自搜索和历史访问轨迹的数据高速缓存低功耗方法.该方法通过动态搜索热点片段,缓存目标热点行在高速缓存中的位置信息,过滤标签存储器和冗余数据存储器的访问.运行EEMBC测试基准的实验结果表明,与基于MRU(Most Recently Used)的路预测方法相比,该方法 Cache的动态功耗可降低30.77%,性能提升26.21%.(本文来源于《电子学报》期刊2016年01期)

房耘耘[5](2015)在《基于多查询特性的搜索引擎缓存替换策略研究》一文中研究指出缓存是搜索引擎中的重要技术,能显着节省查询处理计算量,缩短查询请求响应时间和提高系统吞吐量,得到学术界的关注和业界的广泛应用。当前搜索引擎缓存替换策略没有充分利用查询的多种访问特征信息,没有充分利用查询分布特性,传统替换策略用在搜索引擎中存在各种不足。针对以上问题研究查询请求的分布特征,分析现有缓存替换策略的不足,然后基于查询词访问特征提出代表查询词未来热度值的综合价值函数模型,然后通过对搜索引擎查询日志进行细粒度的统计分析,得到每个查询词每日各访问特性的详细记录,并基于多元回归分析方法计算得到查询词价值函数模型的未知参数,设计结合查询词当前动态访问特性和未来访问热度值的查询结果缓存管理策略,并通过真实查询记录测试不同替换区大小下本缓存系统的命中率,对比证明所提出的缓存替换策略相对于传统替换策略在命中率方面的显着提升。(本文来源于《现代计算机(专业版)》期刊2015年23期)

周湾湾[6](2015)在《基于频繁项集挖掘的搜索引擎交集缓存策略研究》一文中研究指出现代的搜索引擎系统需要存储海量的数据,并接收大规模用户的高并发检索需求。由于磁盘具有价格便宜、超大容量存储等优势,被很多搜索引擎作为系统的主要存储介质。但磁盘相对于内存来说,其读写性能较低,使得搜索引擎系统的主要瓶颈问题在于磁盘的低速I/O。针对该问题,很多搜索引擎系统采用缓存技术来进行优化。而已有的缓存技术也存在一些潜在问题,如查询结果缓存和倒排列表缓存对查询长度较长的查询缺乏有效性、交集缓存数据选择策略效率低下和对不同特性的应用灵活性差等问题。因此,需要寻找一种新的缓存数据策略,以在搜索引擎检索性能、缓存数据策略效率和应用灵活性之间具有更好的平衡。针对已有的搜索引擎缓存体系架构存在的问题,提出了基于内存的搜索引擎叁级缓存体系架构TLMCA,将访问最频繁的查询结果、倒排列表和交集数据存放在内存中,尽可能快地返回搜索的结果。与传统的二级内存缓存架构相比,叁级内存缓存架构的检索性能提高了27%,且交集缓存对查询结果缓存和倒排列表缓存的命中率几乎没有影响。为了提高交集缓存数据的选择效率,并增强交集数据对不同特性应用的灵活性,设计了基于FP-Growth的Top-N频繁项集挖掘的交集缓存数据选择策略,并设计了相应的缓存查询处理流程,采用贪婪策略来减少系统开销,以提升系统的响应速度。同时,当交集缓存数据项的最大长度为3时,交集缓存带来的检索性能最佳。为了保证交集数据在持续不断的检索数据流中的有效性,提出了基于增量频繁项集挖掘的交集缓存数据替换策略,采用字典树Trie-Tree的前缀树数据结构,充分利用先前已建立的模型,来减少增量频繁项集挖掘过程中的开销。同时,基于缓存命中率的反馈调节机制,给出了动态数据流中的交集缓存数据替换时机定义,以在离线分析系统开销和在线检索系统性能之间具有较好的平衡。(本文来源于《华中科技大学》期刊2015-05-01)

孙鹏宇[7](2015)在《搜索引擎精简摘要缓存方法研究》一文中研究指出在应答一个来自用户的查询(query)时,现代搜索引擎会返回给用户前k个相关的查询结果及其摘要。摘要是一小段摘选于文档的文本,该段文本归纳了查询词与文档的相关关系。生成摘要既需要消耗大量系统I/O来检索文档,又需要消耗大量的CPU来计算摘要。搜索引擎常常使用缓存技术来减少摘要生成过程的延迟。固态硬盘(Solid State Drive, SSD)是一种新兴的存储介质,它的I/O效率比传统的机械硬盘(Hard Disk Drive, HDD)快30倍到120倍。随着固态硬盘的性价比逐步提高,搜索引擎公司开始用固态硬盘替换传统机械硬盘。替换后搜索引擎系统I/O性能不断提高,性能瓶颈从I/O转变为CPU计算。为了应对固态硬盘带来的变化,进一步提升系统性能,本文提出了一个简单但有效的方法:用精简摘要(Fragment)替换原始的摘要。精简摘要在不改变摘要质量的前提下,仅存储摘要的位置信息。该方法空间利用率更高。返回摘要前精简摘要需恢复为完整摘要。针对精简摘要在恢复过程引起的文档检索,本文提出了使用精简文档(Short Document)替换完整文档的方法。精简文档同样也能够提高文档缓存的空间利用率。本文的主要工作包括:1.为了减少平均摘要生成延迟,本文设计了摘要的精简表示方法。精简摘要记录摘要在文档中的位置信息。在返回摘要前,精简摘要需要经过计算才能恢复成完整摘要。在相同的缓存空间下,精简摘要缓存的命中率远高于完整摘要缓存命中率。精简摘要缓存能够大量避免重复摘要计算。精简摘要恢复完整摘要的过程会引起文档检索以及一小部分额外计算,额外计算增加的摘要生成延时远小于精简摘要高命中率减少的摘要生成延时。2.为了减少在精简摘要恢复过程引起的文档检索延迟,本文在精简摘要的基础上,设计了配套的精简文档缓存。与文档缓存存储整篇文档不同,精简文档缓存仅存储文档中用来恢复完整摘要的句子。由于精简文档存储的内容更为精细,空间利用率更高,精简文档缓存能够有效减少摘要恢复过程的I/O。配套精简摘要缓存,精简文档缓存能够进一步提高摘要生成效率。通过实验我们发现,精简缓存使摘要缓存的空间利用率提高了15倍,精简文档缓存的空间利用率提高了6倍。(本文来源于《南开大学》期刊2015-05-01)

蔡晓东[8](2013)在《搜索引擎的缓存技术与法律责任》一文中研究指出"缓存"链接技术直接关系到搜索引擎的正常运行,避风港保护对于搜索引擎不仅具有程序上的意义而且具有实质上的价值,但是搜索引擎缓存活动并不适用于系统缓存避风港保护。与其扩大系统缓存避风港保护范围以覆盖搜索引擎缓存技术,不如把搜索引擎缓存技术纳入到信息定位工具避风港保护。搜索引擎抓取、复制网站上侵权作品时,服务商不能以版权人默示许可和禁止反言原则进行侵权抗辩,合理使用抗辩也面临着不确定性。(本文来源于《重庆理工大学学报(社会科学)》期刊2013年07期)

逯广瑞[9](2012)在《基于地理定位的协同缓存移动P2P网络资源搜索策略研究》一文中研究指出近年来随着移动互联网的快速发展,P2P网络凭借其自组织,易扩展,灵活性高,均衡性的负载结构等特点,与移动互联网相融合,衍生出了移动P2P网络,并得到广泛关注。由于资源共享一直是移动P2P网络的主要应用方向,如何在众多资源中快速检索到目标,同时改善节点能源消耗过大的问题,成为当今移动P2P网络研究领域的重要研究课题。本文的研究重点是将移动节点的地理位置信息应用到移动P2P网络中,并根据地理位置将整个网络分成若干个地理区域,使用分布式哈希函数使得每个节点和数据项都与一个地理区域建立映射关系,然后将资源搜索问题限定在一个较小规模的区域中,并提出了基于节点相对地理位置的邻接路由表的洪泛搜索策略,以解决移动P2P网络资源搜索过程中由于洪泛搜索范围过大、参与节点过多造成的带宽占用率高,检索时延大以及能耗高的问题。同时在每个区域内使用最多-最远双重贪心缓存替换算法,并结合Push-Adaptive Pull数据一致性控制策略,从而解决了节点移动造成的资源失效的问题,并进一步提高了区域内资源命中率,减少了长距离资源请求和发送带来的消耗。最后,本文采用理论分析和模拟仿真实验双重验证的方法,选取NS-2试验平台,MGPRS多跳路由协议和随机移动模型相结合,对基于地理位置信息的协同缓存资源搜索策略在检索时延,命中率以及能耗上进行试验取证,并通过与现有的多种策略对比分析,结果表明引入地理位置信息的带协同缓存资源搜索策略在以上各项性能上都得到大幅提高,大大增强了移动P2P网络中资源搜索的实用性。(本文来源于《哈尔滨工程大学》期刊2012-12-31)

马宏远,王斌[10](2012)在《基于用户特性的搜索引擎查询结果缓存与预取》一文中研究指出针对搜索引擎查询结果缓存与预取问题,与传统的基于查询特性相关的方法不同,提出了一种基于用户特性的缓存与预取方法,用于提高搜索引擎系统性能,尤其针对部分用户效果更显着。通过对国内某着名商业搜索引擎用户的查询贡献分析得出,用户对搜索引擎的贡献具有长尾分布特性,结合该特性设计查询结果预测模型来进行预取和分区缓存。在该搜索引擎两个月的大规模真实用户查询日志上的实验结果表明,与传统的基于查询特性的典型方法相比,该方法可以获得3.03%~4.17%的命中率提升,对于查询贡献最大的0.25%的用户群体,可以获得20.52%~28.2%的命中率提升。(本文来源于《中文信息学报》期刊2012年06期)

搜索缓存论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网信息技术的快速发展,企业信息化程度不断提高,各个行业内的数据信息急剧增长,而且信息的存在形式也越来越多样。这也使得如何使用户能够快速、精确的从企业的海量数据中找出所需要的关键信息变得越来越重要,而解决这一个问题的关键就是搜索引擎技术。随着开源企业级搜索应用服务器Solr的出现,越来越多的企业开始构建以此为基础的海量数据搜索服务系统。传统的搜索方式是使用文本数据库,虽然文本数据库和搜索引擎的技术基础都是全文检索技术,但是文本数据库在处理海量数据方面的能力无法跟搜索引擎相媲美。搜索引擎采用服务器集群和分布式计算的策略,能够处理较大的数据量。在海量数据的背景下,如何更好地利用开源Solr搜索引擎服务器搭建起快速高效的搜索引擎也成为重要的研究课题之一本文针对这种需求,在基于Solr搜索引擎服务器的基础上,进行海量数据搜索服务的研究。本文首先分析搜索引擎服务器集群的运行特点,运用随机过程中的排队模型对集群系统的可用性进行分析。接着在可用性的基础上深入研究搜索引擎的索引构建和搜索索引两个关键过程。索引构建的过程是将文本转化为能够被搜索引擎搜索的索引文件。本文在分析的基础上提出并行索引的方式,将文档构建索引过程中的部分串行操作并行化,并通过性能负载均衡的策略提高各节点的资源利用率,以应对海量数据构建索引的场景,加速索引的构建。对于搜索的过程,本文首先分析Solr的搜索过程,提出分级缓存模型。模型将频繁搜索的热点数据放置在缓存中,并对缓存数据进行分级,同时提出热相关数据的概念,通过词语相似度计算出与热点数据相似的数据,加载至缓存模型并进行分级操作。本文同时针对分级缓存模型提出了维护策略,充分利用缓存空间,最后改进传统的缓存预热算法,提高系统运行初期的缓存命中率。本文通过搭建搜索引擎服务器集群,对海量数据的索引构建和搜索过程进行实验研究。实验结果表明,本文提出的并行索引和分级缓存模型能够有效提升搜索引擎的索引构建速度和请求响应速度。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

搜索缓存论文参考文献

[1].钱立兵.搜索引擎中查询处理及结果缓存技术研究[D].哈尔滨工业大学.2016

[2].梅江泽.基于Solr的海量数据并行索引及搜索缓存研究[D].华中师范大学.2016

[3].周超.航班搜索引擎动态缓存策略研究[D].北京交通大学.2016

[4].仇径,罗嘉蕙,项晓燕,陈志坚.基于热点行搜索的低功耗数据高速缓存[J].电子学报.2016

[5].房耘耘.基于多查询特性的搜索引擎缓存替换策略研究[J].现代计算机(专业版).2015

[6].周湾湾.基于频繁项集挖掘的搜索引擎交集缓存策略研究[D].华中科技大学.2015

[7].孙鹏宇.搜索引擎精简摘要缓存方法研究[D].南开大学.2015

[8].蔡晓东.搜索引擎的缓存技术与法律责任[J].重庆理工大学学报(社会科学).2013

[9].逯广瑞.基于地理定位的协同缓存移动P2P网络资源搜索策略研究[D].哈尔滨工程大学.2012

[10].马宏远,王斌.基于用户特性的搜索引擎查询结果缓存与预取[J].中文信息学报.2012

标签:;  ;  ;  ;  

搜索缓存论文-钱立兵
下载Doc文档

猜你喜欢