面向互联网的多元信息获取技术研究

面向互联网的多元信息获取技术研究

论文摘要

为了将互联网中纷繁复杂的信息快捷准确地呈现在用户面前,各种信息获取系统大量出现。信息获取是从网页中获得知识的手段,通常包括信息网页获取,信息抽取,信息去重等步骤。信息抽取在获取的信息网页上进行,信息网页获取力求快速获得系统关注的页面,高质量的信息网页,有助于提高信息抽取的质量。一般信息抽取之后还要对信息进行冗余判断及合并,信息的冗余意味着所在网页之间存在冗余,以往的研究并没有考虑到利用这方而冗余来对网页获取进行优化,可以在冗余的网页中,选择部分高质量页面,获取页面并抽取内容,提高信息抽取的效率和效果。本文首先介绍一种快速信息网页获取方法。该方法建立于一个普适的信息网页获取系统中,对初步抽取的信息进行冗余去重,找出抽取信息间的冗余关系;再利用对信息网页的URL模式归纳和精选,选择部分URL模式来构造信息网页下载的导航器。之后,系统将根据下载导航器来获取信息网页,使在能保证抽取信息数目的前提下,减少系统在信息网页获取一步上的开销。由于快速信息网页获取依赖一个信息去重过程,所以本文接着介绍多元信息冗余去重的方法。对于多元信息,本文将各信息元素分为四个大类,计算每个信息元素的相似度,并以此作为特征,利用二类分类器对两两信息间是否冗余进行判断。此外,本文在比较难以处理的命名实体信息上,使用一个自动扩充同义词对的方法,能明显提高多元信息冗余去重的效果。实验方面,快速网页获取方法将和普通的下载进行比较,主要对比其下载量,信息抽取量,该方法的时间适用性等等,从结果能看出快速网页获取在保证信息量的前提下能大幅减少下载开销。多元信息去重的实验在两个数据集上进行,验证了去重效果和命名实体词对自动扩展的效果。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 任务介绍和应用领域
  • 1.2 研究背景及相关工作
  • 1.2.1 网页获取的基本概念
  • 1.2.2 网页相关性分析
  • 1.2.3 网页获取的相关工作
  • 1.2.4 多元信息去重的相关工作
  • 1.3 本文的工作
  • 1.4 本文的组织结构
  • 第二章 快速信息网页获取方法
  • 2.1 信息网站的选择
  • 2.2 网页的初步下载和简单过滤
  • 2.3 信息抽取和信息网页标定
  • 2.4 URL模式归纳
  • 2.4.1 基于Token的URL模式学习
  • 2.4.2 基于共有前缀的URL模式学习
  • 2.5 URL模式精选
  • 2.5.1 URL模式精选:信息覆盖数优先
  • 2.5.2 URL模式精选:信息耗费低优先
  • 2.6 下载导航器的产生和使用
  • 第三章 多元信息冗余判断
  • 3.1 多元信息表示
  • 3.2 信息元素的分类
  • 3.3 多元信息去重一般流程
  • 3.4 信息相似度计算
  • 3.5 信息冗余度判断
  • 3.6 命名实体信息元素的自动扩展
  • 第四章 评测与实验
  • 4.1 快速信息网页获取方法实验
  • 4.1.1 实验设置介绍
  • 4.1.2 实验比较方法
  • 4.1.3 减少网页下载量实验
  • 4.1.4 时间适用性实验
  • 4.1.5 快速网页获取的参数实验
  • 4.1.6 网站扩充步骤实验
  • 4.1.7 运行时间分析
  • 4.2 多元信息去重实验
  • 4.2.1 信息去重的评测指标
  • 4.2.2 事件信息去重
  • 4.2.3 论文索引信息去重
  • 第五章 总结与展望
  • 参考文献
  • 攻读学位期间参加的科研项目与发表的论文
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    面向互联网的多元信息获取技术研究
    下载Doc文档

    猜你喜欢