垂直搜索引擎及其关键方法研究

垂直搜索引擎及其关键方法研究

论文摘要

随着Internet的飞速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎正是一种帮助用户从信息海洋中找到用户所需要信息的工具。一些通用的搜索引擎力争索引Web中所有的网页,为用户提供各种各样的服务。但由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,因而迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得相关主题资源。在这种需求的推动下,垂直搜索引擎便应用而生了。首先,根据通用搜索引擎和垂直搜索引擎的区别并且结合垂直搜索引擎专、精、深的特点,引入了主题判断模块、信息抽取模块及聚类模块,进而提出了一种垂直搜索引擎框架。其次,根据垂直搜索引擎专业网络爬虫的核心,即专业的爬行算法。对基于PageRank的Best-First算法进行了广泛而深入的研究。第一,针对PagRank是一种根据网页之间的超链接来计算网页排名的技术,网页的PageRank值越高,该网页越重要。第二,由于PageRank算法不利于搜集主题信息等问题,提出了一种改进的PageRank算法。第三,从单个网页考虑,利用每个网页的url,title,正文,提出了基于内容相似度的方法。第四,结合改进的PageRank算法和基于内容的相似度提出了BLCT主题爬行算法并进行了相应的实验。最后,深入研究了文本聚类技术,通过搜索结果的聚类可以缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间。针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的k-cmeans文本聚类算法。通过一定的策略选择初始中心点,并进行了相应的实验。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景与意义
  • 1.2 通用搜索引擎
  • 1.2.1 搜索引擎的发展历史
  • 1.2.2 通用搜索引擎的工作原理
  • 1.2.3 通用搜索引擎的缺点
  • 1.3 垂直搜索引擎
  • 1.3.1 垂直搜索引擎的优点
  • 1.3.2 垂直搜索引擎的研究现状
  • 1.4 本文的组织结构及研究内容
  • 第2章 相关技术研究
  • 2.1 主题判断的研究
  • 2.1.1 主题目标描述
  • 2.1.2 网页搜索策略
  • 2.2 中文分词技术
  • 2.2.1 基于字符串匹配的分词方法
  • 2.2.2 基于统计的分词方法
  • 2.2.3 基于理解的分词方法
  • 2.3 聚类技术的研究
  • 2.4 本章小结
  • 第3章 垂直搜索引擎框架提出
  • 3.1 垂直搜索引擎及工作原理
  • 3.1.1 垂直搜索引擎的特点
  • 3.1.2 垂直搜索引擎工作原理
  • 3.2 垂直搜索引擎的框架
  • 3.2.1 信息搜集模块
  • 3.2.2 预处理模块
  • 3.2.3 服务模块
  • 3.3 本章小结
  • 第4章 基于链接和内容的主题爬行算法研究
  • 4.1 引言
  • 4.2 BLCT 算法基本思想
  • 4.2.1 目标领域词典的建立
  • 4.2.2 网页内容相似度
  • 4.2.3 网页链接相似度
  • 4.2.4 LCPageRank 算法
  • 4.3 算法过程
  • 4.4 算法分析
  • 4.5 实验及结论
  • 4.5.1 评价方法
  • 4.5.2 实验结果
  • 4.5.3 实验分析
  • 4.6 本章小结
  • 第5章 文本聚类技术的研究
  • 5.1 引言
  • 5.2 文本聚类流程
  • 5.2.1 特征项集的构建
  • 5.2.2 正排表及倒排表的建立
  • 5.2.3 文本相似性度量
  • 5.3 k-means 算法
  • 5.3.1 算法的缺点
  • 5.3.2 算法思想
  • 5.3.3 算法描述
  • 5.4 基于相似中心的k-cmeans 聚类算法
  • 5.4.1 算法思想
  • 5.4.2 算法描述
  • 5.5 实验及结论
  • 5.5.1 评价方法
  • 5.5.2 实验结果
  • 5.5.3 实验分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间承担的科研任务与主要成果
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    垂直搜索引擎及其关键方法研究
    下载Doc文档

    猜你喜欢