面向时间敏感对象的垂直搜索引擎关键技术研究

面向时间敏感对象的垂直搜索引擎关键技术研究

论文摘要

随着搜索服务的逐渐普及深化,用户针对特定领域的搜索需求逐渐明确、对搜索结果的个性化程度和实时性要求逐渐增高,使得基于垂直搜索领域的高效信息检索服务已成为搜索引擎市场的热点。垂直搜索引擎通过聚焦抓取、智能调度、高维索引等技术,根据特定的领域知识和用户的搜索习惯,为用户提供特定垂直领域中时效性更高,更为个性化、专业化的搜索结果。然而现有大多数的垂直搜索引擎中存在1)爬虫系统抓取模式被动,目标抓取与用户查询时延过长;2)爬虫系统抓取调度盲目,抓取资源利用率低;以及3)索引系统性能低下,对特定文本信息的特征提取与聚类缺乏有效算法等问题,已经严重地桎梏了垂直搜索引擎市场的健康发展。本文试图对这些热点问题及其关键技术进行系统性研究。本文的主要贡献和创新点如下:1.爬虫系统的主动式聚焦抓取技术研究针对爬虫系统抓取模式被动,目标抓取与用户查询时延过长的问题,提出了语义驱动的查询驱动聚焦抓取技术,基于领域知识理解用户查询,提供了查询向目标网页的语义转换,实现了针对用户查询的主动式抓取,解决了目标抓取与用户查询时延过长的问题。充分的实验和在真实项目中的初步应用表明,查询驱动聚焦抓取技术为用户提供了10秒级搜索结果,大大降低了时延,极大的提高了用户体验。2.爬虫系统的智能调度技术研究针对爬虫系统抓取调度盲目、利用率低的问题,基于网页文档变化的泊松过程建模,在对单个对象新鲜度进行定量估算的基础上,提出对象级细粒度资源调度算法PoissonRank,实现了针对变化的抓取调度,极大地提高了抓取资源的利用率。仿真分析和商用项目中的应用表明了该模型的有效性,该调度技术能提高抓取资源利用率并更好的捕捉对象的变化。大量真实环境中的实验验证了对象分布规律和泊松过程建模的正确性以及用户体验的提升,同时PoissonRank对系统带来的额外开销很低,具有很高的可扩展性。3.索引系统中高维索引的在线更新技术研究针对索引系统中多媒体高维索引在线更新效率低下的问题,对高维索引中的LSH算法进行优化,提出了基于压缩位图(Compressed Bitmap)的CB-LSH高维索引技术,通过算子布尔代数化后引入压缩位图索引对LSH的添删改性能进行了全面提升,解决了高维索引在线更新的性能问题。理论分析证明了CB-LSH在空间占用和时间复杂度上的改善;大量真实数据上的实验结果表明,与现有的LSH算法相比,CB-LSH节约了三分之一的内存占用,删除性能提高了近一个数量级,查询性能提高了数倍,插入性能提高了约一半;真实项目验证了CB-LSH应用于在线实时更新的海量多媒体对象检索系统中是有效可行的。4.索引系统中文本信息的结果合并技术研究针对垂直领域中文本信息长度短、专业性强、噪音多,索引系统中聚类效果差的问题,提出了一种基于自然语言触发对的文本聚类技术TrigSigs,基于一阶触发对充分挖掘词汇隐含属性的关联关系,学习领域专业词汇、去除噪音词汇并提取关键特征词汇,实现了细粒度对象级聚类技术。仿真实验表明,该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。

论文目录

  • 摘要
  • Abstract
  • 目次
  • 图目录
  • 表目录
  • 算法目录
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 信息爆炸下的信息噪音与冗余
  • 1.1.2 丰富多样的新型信息
  • 1.1.3 信息的时效性
  • 1.1.4 垂直搜索引擎面临的挑战
  • 1.2 研究思路和研究内容
  • 1.2.1 研究思路
  • 1.2.2 研究内容
  • 1.3 研究成果和创新点
  • 1.4 本文的组织
  • 第2章 相关工作
  • 2.1 互联网中的时间敏感对象
  • 2.1.1 时间敏感信息的产生背景
  • 2.1.2 相关概念定义
  • 2.1.3 时间敏感信息的新鲜度
  • 2.2 搜索引擎和垂直搜索引擎
  • 2.2.1 搜索引擎的发展
  • 2.2.2 垂直搜索引擎的原理和结构
  • 2.3 垂直搜索引擎的爬虫系统
  • 2.3.1 爬虫系统对时间敏感对象的聚焦抓取技术
  • 2.3.2 对文档变化规律的研究
  • 2.4 垂直搜索引擎中的索引系统
  • 2.4.1 多媒体信息的高维索引技术
  • 2.4.2 文本信息的聚类合并技术
  • 2.5 本章小结
  • 第3章 语义使能的查询驱动聚焦抓取技术
  • 3.1 引言
  • 3.2 查询驱动聚焦抓取技术
  • 3.2.1 查询驱动聚焦抓取策略
  • 3.2.2 模型相关概念定义
  • 3.2.3 查询驱动聚焦抓取模型
  • 3.3 基于行业知识的查询转换算法
  • 3.3.1 知识描述形式
  • 3.3.2 语义转换与扩展算法
  • 3.4 主动式抓取原型系统
  • 3.4.1 渐进式结果呈现模块
  • 3.4.2 主动式抓取请求的排序过滤模块
  • 3.5 实验
  • 3.5.1 实验准备
  • 3.5.2 实验结果及分析
  • 3.6 本章小结
  • 第4章 时间敏感对象的抓取调度技术
  • 4.1 引言
  • 4.2 抓取资源调度模式分析
  • 4.2.1 抓取调度中抓取任务排序技术
  • 4.2.2 用户查询角度的抓取调度技术
  • 4.2.3 对象变化频率角度的抓取调度技术
  • 4.3 时间敏感对象变化规律研究
  • 4.3.1 时间敏感对象的时效性
  • 4.3.2 对象变化规律的随机过程分析
  • 4.4 基于随机过程的抓取调度技术
  • 4.4.1 针对对象变化的采样方法
  • 4.4.2 对象变化规律分析算法
  • 4.4.3 基于泊松过程的抓取调度技术PoissonRank
  • 4.5 实验
  • 4.5.1 实验准备
  • 4.5.2 实验结果及分析
  • 4.6 本章小结
  • 第5章 多媒体对象的高性能索引技术
  • 5.1 引言
  • 5.2 预备知识
  • 5.2.1 局部敏感散列
  • 5.2.2 字对齐压缩位图索引
  • 5.3 CB-LSH算法
  • 5.3.1 LSH算法的布尔代数描述
  • 5.3.2 CB-LSH算法复杂度理论分析
  • 5.3.3 采用标记清除技术优化删除性能
  • 5.4 实验
  • 5.4.1 实验准备
  • 5.4.2 实验结果及分析
  • 5.5 本章小结
  • 第6章 非结构化文本信息聚类技术
  • 6.1 引言
  • 6.2 基于触发对的文本聚类模型
  • 6.2.1 基于触发对的聚类模型概述
  • 6.2.2 模型应用场景的实例分析
  • 6.3 基于一阶触发对的噪音去除算法
  • 6.3.1 一阶触发对的形式化描述
  • 6.3.2 基于一阶触发对的隐藏属性挖掘
  • 6.3.3 基于一阶触发对的噪音去除算法概述
  • 6.4 基于信息分布的特征权重计算算法
  • 6.4.1 特征词汇的联通图
  • 6.4.2 信息分布关系及其实体分辨能力
  • 6.4.3 基于信息分布集中度的特征权重计算算法
  • 6.5 基于触发对的TrigSigs文本聚类算法
  • 6.5.1 TrigSigs文本聚类算法
  • 6.5.2 TrigSigs算法复杂度分析
  • 6.6 实验
  • 6.6.1 实验准备
  • 6.6.2 实验结果及分析
  • 6.7 本章小结
  • 第7章 总结与展望
  • 7.1 全文总结
  • 7.2 对未来工作的展望
  • 参考文献
  • 攻读博士学位期间主要研究成果
  • 致谢
  • 相关论文文献

    • [1].一种改进的垂直搜索引擎研究与设计[J]. 现代计算机(专业版) 2018(34)
    • [2].油气行业垂直搜索引擎关键问题解决方案[J]. 计算机系统应用 2018(12)
    • [3].新闻类垂直搜索引擎系统研究与设计[J]. 黑龙江工程学院学报 2016(06)
    • [4].面向网络股评观点的垂直搜索引擎设计与实现[J]. 电子技术应用 2017(06)
    • [5].手机产品垂直搜索引擎的研究与实现[J]. 计算机科学 2014(S2)
    • [6].江苏:中国首个智库索引完成数据采集[J]. 科学家 2016(18)
    • [7].面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版) 2020(09)
    • [8].面向医疗的垂直搜索引擎的研究与开发[J]. 科技与创新 2018(13)
    • [9].垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版) 2017(01)
    • [10].垂直搜索在教育领域中的应用研究[J]. 现代企业教育 2009(22)
    • [11].基于企业深度挖掘型垂直搜索引擎的应用研究[J]. 电脑编程技巧与维护 2014(12)
    • [12].基于聚类算法的垂直搜索引擎技术研究[J]. 北京信息科技大学学报(自然科学版) 2013(01)
    • [13].移动垂直搜索引擎在移动医疗中的应用研究[J]. 计算机应用与软件 2013(05)
    • [14].面向高校信息的垂直搜索引擎的研究与实现[J]. 沈阳建筑大学学报(自然科学版) 2012(03)
    • [15].改进的数据消重方法在垂直搜索引擎中的应用[J]. 邵阳学院学报(自然科学版) 2012(02)
    • [16].垂直搜索引擎关键技术研究综述[J]. 情报探索 2012(10)
    • [17].垂直搜索引擎应用研究[J]. 赤峰学院学报(自然科学版) 2011(02)
    • [18].垂直搜索引擎的信息服务特点——以一淘网为例[J]. 新闻爱好者 2011(10)
    • [19].垂直搜索引擎及其个性化推荐研究[J]. 潍坊学院学报 2011(04)
    • [20].基于垂直搜索引擎的学校网站的研究与建设[J]. 中国教育技术装备 2011(21)
    • [21].垂直搜索引擎应用研究[J]. 现代商贸工业 2010(04)
    • [22].垂直搜索引擎的研究与设计[J]. 计算机应用与软件 2010(07)
    • [23].垂直搜索引擎应用研究[J]. 计算机系统应用 2009(07)
    • [24].对垂直搜索引擎X公司投资可行性的评估[J]. 科技成果纵横 2009(03)
    • [25].垂直搜索引擎浅析[J]. 广西警官高等专科学校学报 2009(04)
    • [26].垂直搜索引擎与旅游行业探讨[J]. 农业网络信息 2009(11)
    • [27].结合本体筛选和文本挖掘的垂直搜索引擎研究[J]. 计算机科学 2008(02)
    • [28].垂直搜索引擎赢利模式探讨[J]. 大连大学学报 2008(03)
    • [29].垂直搜索引擎在企业内部的应用探索[J]. 信息与电脑(理论版) 2018(20)
    • [30].面向中文搜索的垂直搜索引擎的研究[J]. 科技广场 2017(05)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向时间敏感对象的垂直搜索引擎关键技术研究
    下载Doc文档

    猜你喜欢