网络蜘蛛垂直搜索算法的改进与实现

网络蜘蛛垂直搜索算法的改进与实现

论文摘要

网络蜘蛛在垂直搜索引擎中占据着重要的地位,它的搜索算法是垂直搜索引擎的核心技术,基于何种策略的搜索算法才能得到更高的搜索回报率是近几年网络蜘蛛研究的热点问题。本文对网络蜘蛛垂直搜索算法进行了改进与实现。本文研究了网络蜘蛛的通用搜索算法和几种垂直搜索策略,分析了现有启发式搜索算法的优缺点,改进了垂直搜索算法,设计并实现了一个基于改进后的算法的网络蜘蛛,对手机行业网站作了垂直搜索实践。对算法的改进主要体现在以下三个方面。第一,通过对大量网页源文件的分析给出了一个新的链接价值估计的方法,并给出了一个经验公式。第二,把阈值的估计和ε——贪婪策略结合起来,使链接的选择序列优化,从而得到更高的搜索回报率。第三,巧用MD5算法把url映射成两个数,使判断任意两个url是否相同的比较次数小于等于2。对基于改进后的搜索算法的网络蜘蛛进行用例设计和类设计,然后阐述了网络蜘蛛的实现细节。实现部分的说明包括三个部分,分别是程序的初始化,抓取网页和程序结束。通过对手机行业网站的垂直搜索实践,证明了新的链接价值的估计方法可以提高链接价值预测的正确性,把阈值的估计和ε——贪婪策略结合起来选择链接可以提高搜索的回报率,把链接用MD5算法映射成两个数可以提高搜索的效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的目的和意义
  • 1.2 课题的国内外研究现状
  • 1.3 课题研究的主要内容
  • 1.4 本文的组织结构
  • 第2章 相关技术
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎的概念
  • 2.1.2 搜索引擎的分类
  • 2.1.3 垂直搜索引擎
  • 2.2 网络蜘蛛概述
  • 2.3 ε-贪婪策略
  • 2.4 MD5算法
  • 2.5 HTML语言
  • 2.5.1 文本
  • 2.5.2 注释
  • 2.5.3 三种标签
  • 2.5.4 绝对URL与相对URL
  • 2.6 HTTP协议
  • 2.6.1 HTTP的操作过程
  • 2.6.2 HTTP报文结构
  • 2.7 正则表达式
  • 2.8 Java线程
  • 2.8.1 线程概念
  • 2.8.2 多线程的优点
  • 2.9 本章小节
  • 第3章 网络蜘蛛搜索算法的研究
  • 3.1 网络蜘蛛的通用搜索算法
  • 3.1.1 深度优先搜索算法
  • 3.1.2 广度优先搜索算法
  • 3.1.3 递归与非递归程序结构
  • 3.2 网络蜘蛛垂直搜索策略
  • 3.2.1 基于内容评价的搜索策略
  • 3.2.2 基于链接结构评价的搜索策略
  • 3.2.3 基于未来回报价值评价的搜索策略
  • 3.2.4 基于综合价值评价的搜索策略
  • 3.2.5 基于动态价值评价的搜索策略
  • 3.3 现有启发式搜索算法分析
  • 3.4 本章小结
  • 第4章 网路蜘蛛垂直搜索算法的改进
  • 4.1 链接价值的估计
  • 4.2 阈值的估计和ε—贪婪策略相结合
  • 4.3 链接的MD5映射
  • 4.4 改进后的搜索算法
  • 4.5 本章小结
  • 第5章 垂直搜索网络蜘蛛的设计与实现
  • 5.1 垂直搜索网络蜘蛛的设计
  • 5.1.1 用例设计
  • 5.1.2 类设计
  • 5.2 垂直搜索网络蜘蛛的实现
  • 5.2.1 程序初始化
  • 5.2.2 抓取网页
  • 5.2.3 程序结束
  • 5.3 本章小结
  • 第6章 手机行业网站的搜索实验
  • 6.1 针对链接价值的实验
  • 6.2 针对链接选择的实验
  • 6.3 针对链接MD5映射的实验
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].网络垂直搜索服务所涉法律问题研究——以图片垂直搜索服务为例[J]. 科技与法律 2018(03)
    • [2].垂直搜索更贴近需求或引领搜索市场发展方向[J]. 世界电信 2013(05)
    • [3].新一轮垂直搜索热潮来临 购物搜索为其重点[J]. 通信世界 2011(44)
    • [4].风投押宝垂直搜索 各方巨头介入又添疑点[J]. IT时代周刊 2008(01)
    • [5].垂直搜索:助推企业精准营销[J]. 销售与市场(管理版) 2012(04)
    • [6].垂直搜索分布图[J]. 互联网周刊 2012(18)
    • [7].垂直搜索:前进路上的喜与忧[J]. 互联网天地 2010(02)
    • [8].垂直搜索的出路?[J]. 中国企业家 2009(02)
    • [9].基于知识图谱的水利数据垂直搜索应用[J]. 山东水利 2018(05)
    • [10].金融垂直搜索新玩法[J]. 金融世界 2014(01)
    • [11].垂直搜索发展又现新样本[J]. 互联网天地 2009(11)
    • [12].垂直搜索市场的缝隙市场[J]. 互联网周刊 2008(01)
    • [13].二手汽车交易信息垂直搜索网的设计[J]. 重庆工学院学报(自然科学版) 2008(08)
    • [14].垂直搜索的精细化功夫[J]. 互联网天地 2008(08)
    • [15].垂直搜索的精细化功夫[J]. 微电脑世界 2008(09)
    • [16].面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版) 2016(07)
    • [17].垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J]. 现代图书情报技术 2009(02)
    • [18].蚕食Google[J]. 中国企业家 2009(06)
    • [19].垂直搜索与开源软件[J]. 软件世界 2008(02)
    • [20].三巨头“竞合时代”[J]. 英才 2008(06)
    • [21].基于SNS的搜索新模式[J]. 互联网天地 2010(11)
    • [22].基于互联网垂直搜索的葡萄酒溯源[J]. 中国战略新兴产业 2018(08)
    • [23].融360:用搜索解决金融服务的痛点[J]. 互联网周刊 2013(11)
    • [24].基于电子商务垂直搜索的网站交互界面设计[J]. 江西科学 2011(05)
    • [25].Web实体提取在垂直搜索中的应用研究[J]. 新技术新工艺 2008(12)
    • [26].垂直搜索引擎及其应用价值[J]. 信息技术 2008(04)
    • [27].奇搜网(Qeesoo):搜索但求少而精[J]. 竞争力 2009(03)
    • [28].网站简约本体垂直搜索系统的设计与实现[J]. 计算机工程与应用 2017(19)
    • [29].中国搜索上线 推国情理论等垂直频道[J]. 科技致富向导 2014(08)
    • [30].阿里云搜索要让谁睡不着?[J]. 电脑与电信 2013(Z1)

    标签:;  ;  ;  ;  ;  

    网络蜘蛛垂直搜索算法的改进与实现
    下载Doc文档

    猜你喜欢