扩展语景图聚焦爬取器实验研究

扩展语景图聚焦爬取器实验研究

论文摘要

Internet的问世,改变了传统的信息发布组织方式,实现了全球范围内的信息共享。在Internet上,用户可以登陆网站,浏览网页,下载自己感兴趣的信息。但是,网上信息缺少统一的组织标准。信息的动态、高速增长使得人们难以及时有效地获得与特定专题有关的信息。 Internet网上提供信息最常见的方式为门户网站,例如Yahoo,网易等提供主题目录,但是这种主题分类过于宽泛,难以满足专家、学者的要求。用户查到的信息过于浅显,不能满足科研工作的需要。 搜索引擎的问世,解决了信息的定位问题,但是第一代搜索引擎例如AltaVista提供的是全文索引,排名只依据查询向量与文档向量的余弦相似度。这种基于局部信息的排名策略不能解决专题信息的收集,返回的结果太多太乱。 后来的搜索引擎Goolge利用自己的全局网页排名算法PageRank,较好的解决了结果的排名。但是它的目标主要是网上信息的覆盖率,与清新度产生矛盾。其网页排名值需要在三个月之后才能进入排名系统。因此,依靠通用搜索引擎也不易及时获得专题信息。 聚焦搜索系统弥补了通用搜索引擎的不足。它利用机器学习技术,根据用户要求,在网上自动收集用户指定的专题信息,响应快、信息质量高、自动化。尤其适合辅助解决科技人员在科研过程中收集查询特定领域技术信息的需要。 基于语景图的聚焦爬取器是近年提出的一种聚焦搜索爬取技术。它通过分析网页内容和链接,指导爬取器沿着迅速导向目标文档的路线前进,可以以较少的爬取无关网页为代价,迅速找到更多的目标文档。这一特点,对于专题信息收集,开展专题研究,具有极大的好处。 语景图聚焦爬取器信息利用率较低。而在实际工作中,可能需要一些次要的相关信息。为此,本文用随机爬取器建立语料库,用语料库和TF-IDF公式提取特征词条。利用种子文档中的链接建立扩展语景图的右层,使扩展后的语景图(ECG)能够收集种子文档所引用的文献之类的信息。设计实现的ECG爬取器原型利用自行开发的元搜索程序获取种子文档,利用ECG的各层文档训练各层NB分类器。利用分类器预测目前已经检索到的文档距离目标文档的大致距离。通过输入好起点和差起点网址进行了实验。 程序实验证明,和语景图(CG)爬取器相比,这种ECG爬取器不仅信息利用率高,而且对已爬取网址的查重在各层已下载队列中进行,因而ECG爬取器更适合于大规模爬取。ECG爬取器不仅采集到相关度高的网页,而且同时获得了较多的主题信息。而在CG背景下,这些网页可能被分到“其他”类而只起到维持连续爬取功能。实验还发现,CG或ECG的层数与后链一层的收获率存在

论文目录

  • 第1章 引言
  • 第2章 聚焦搜索技术现状
  • 2.1 聚焦搜索技术述要
  • 2.2 现有聚焦爬取器存在的问题
  • 2.3 本文要解决的主要问题
  • 第3章 扩展语景图聚焦爬取器原型设计
  • 3.1 设计原理
  • 3.2 基于扩展语景图聚焦爬取器
  • 3.3 扩展语景图构造及爬取过程
  • 3.4 扩展语景图及其表示
  • 3.5 元搜索
  • 3.6 下载器
  • 3.7 TF-IDF公式
  • 3.8 Naive Bayes分类器
  • 3.8.1 Bayes定理及Bayes规则
  • 3.8.2 训练
  • 3.8.3 分类
  • 第4章 系统实现
  • 4.1 HTML分析器
  • 4.2 词频统计
  • 4.3 训练
  • 4.3.1 建立参考语料库
  • 4.3.2 通过TF-IDF确定类特征词条
  • 4.3.3 估算类特征词条概率
  • 4.4 分类
  • 4.5 扩展语景图生成
  • 4.6 通过代理服务器访问Internet
  • 4.7 单用户功能
  • 4.8 服务器端集成
  • 4.9 软件实现
  • 4.10 实现总结
  • 第5章 系统实验
  • 5.1 实验环境
  • 5.2 实验过程
  • 5.3 结果讨论
  • 第6章 结束语
  • 致谢
  • 附录
  • 相关论文文献

    • [1].一种螺帽和垫片等铁质材料拾取器的研制[J]. 科技创新导报 2020(03)
    • [2].困难取器相关因素临床分析[J]. 中国计划生育学杂志 2020(05)
    • [3].药物联合用于绝经后妇女取器的效果探讨[J]. 中国计划生育学杂志 2016(08)
    • [4].放环超过30年宫口闭合取器困难2例报告[J]. 吉林医学 2015(06)
    • [5].阴道超声联合多功能取环器用于取器困难76例分析[J]. 中国计划生育学杂志 2015(06)
    • [6].数据录取器的发展方向[J]. 今日财富(中国知识产权) 2018(01)
    • [7].取器困难患者307例临床分析[J]. 中国计划生育和妇产科 2020(09)
    • [8].自制液溴安全移取器[J]. 化学教育 2015(18)
    • [9].盐酸丁卡因胶浆麻醉联合硅胶棒用于绝经后妇女取器的效果[J]. 中国乡村医药 2016(15)
    • [10].宫术安栓在绝经后妇女取器中的应用[J]. 世界最新医学信息文摘 2015(27)
    • [11].一次性宫颈扩张棒配合利多卡因胶浆在绝经后妇女取器术中的应用[J]. 世界最新医学信息文摘 2015(04)
    • [12].宫术宁胶棒用于绝经后取器的临床效果分析[J]. 中国农村卫生 2015(20)
    • [13].超导可视联合米索前列醇在绝经后妇女取器中的应用[J]. 中国实用医药 2013(30)
    • [14].绝经后取器术前两种给药方法效果比较[J]. 山西职工医学院学报 2013(06)
    • [15].米索前列醇联合宫术宁胶棒在绝经后妇女取器术中的应用[J]. 浙江中西医结合杂志 2014(06)
    • [16].米索前列醇联合B超用于绝经后取器失败的临床观察[J]. 淮海医药 2014(04)
    • [17].超导可视联合米索前列醇在绝经后妇女取器中的应用[J]. 中国现代药物应用 2014(18)
    • [18].B超监视联合生殖道准备用于绝经后困难取器的分析[J]. 中国医药指南 2013(20)
    • [19].米索前列醇对绝经后取器术的应用价值[J]. 江苏医药 2012(04)
    • [20].米非司酮配伍米索前列醇在绝经后取器中的应用[J]. 临床合理用药杂志 2012(07)
    • [21].米索前列醇用于绝经后妇女取器术64例临床分析[J]. 中国社区医师(医学专业) 2012(12)
    • [22].绝经1年内取器130例[J]. 中国中医药现代远程教育 2012(03)
    • [23].1108例绝经后妇女取器的临床观察[J]. 临床合理用药杂志 2012(19)
    • [24].卡前列甲酯栓联合腹透用于绝经后首次取器失败178例[J]. 中国药业 2012(13)
    • [25].米非司酮配伍米索前列醇在绝经后妇女取器术中的应用[J]. 中外医学研究 2012(28)
    • [26].生殖道常规准备方法用于绝经后困难取器的临床观察[J]. 中国社区医师(医学专业) 2012(30)
    • [27].米非司酮配伍米索前列醇用于绝经后妇女取器的临床分析[J]. 中国医药指南 2012(20)
    • [28].一种平面真空吸取器的改进[J]. 机械 2011(01)
    • [29].不同方法在绝经后妇女取器术的临床应用[J]. 中国医学工程 2011(05)
    • [30].米非司酮配伍米索前列醇用于绝经后妇女取器术73例临床分析[J]. 医学信息(上旬刊) 2011(05)

    标签:;  ;  ;  ;  ;  

    扩展语景图聚焦爬取器实验研究
    下载Doc文档

    猜你喜欢