模板独立的网页信息抽取研究

模板独立的网页信息抽取研究

论文摘要

随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过各种方式来获取这些信息。因此使用网页信息抽取技术,自动地从网页中抽取用户感兴趣的信息是智能信息处理的一个重要的工作。这些信息抽取系统从互联网上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,网页信息抽取技术的研究已成为国际上信息检索领域的研究热点之。本文首先研究了网页信息抽取的相关工作和各项关键技术,在数据表示方面,采用了Dom-Tree来将页面代码进行重新展示。以Dom-Tree的节点作为样本,通过视觉信息和人类设计感知为基础设计特征,来描述样本所代表的结构信息。然后介绍了网页信息抽取技术与相关技术的区别以及网页信息抽取中常见的分类方法,模板依赖的方法和模板独立的方法,通过介绍模板独立方法与模板依赖方法的特点,总结出两个方法的优缺点和适用范围。其次在具体的网页信息抽取任务中,我们研究了新闻页面抽取以及论坛类页面抽取的意义和目标。我们首先设计了一个解析器用以完成网页语料的解析、过滤以及标注等任务。然后根据模板独立的网贞信息抽取的特点建立了一个模板独立的网页信息抽取的框架,最后从网页语料的特点入手进行分析,分别对新闻语料和论文类语料建立模型,设计过滤模块、训练分类器、算法设计,并最终完成一个包装器的抽取过程。在中英文语料上的实验结果表明,在新闻与论文类页面的抽取精度F值分别可以达到96.7%和89.1%。通过对比实验表明,本文提出的抽取方法比当前主流的方法都更加高效,绝对结果也表明已经基本可以满足实用要求。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 本文研究的背景
  • 1.2 本文研究内容和意义
  • 1.3 本文工作
  • 1.4 本文的组织结构
  • 第二章 研究现状及相关工作
  • 2.1 网页信息抽取技术的概述
  • 2.1.1 信息抽取技术的发展
  • 2.1.2 网贞信息抽取研究现状
  • 2.1.3 网页信息抽取系统分类
  • 2.2 网页信息抽取与相关技术的差异
  • 2.2.1 网页信息抽取与文本信息抽取的区别
  • 2.2.2 网页信息抽取与信息检索的区别
  • 2.2.3 网页信息抽取与自动文摘的区别
  • 2.2.4 网页信息抽取与文本挖掘的区别
  • 2.3 模板独立信息抽取的关键技术
  • 2.3.1 中心向量分类器
  • 2.3.2 K近邻算法
  • 2.3.3 朴素贝叶斯分类器
  • 2.3.4 AdaBoost方法
  • 2.3.5 SVM支持向量机
  • 2.3.6 CRF条件随机场
  • 2.4 本章小结
  • 第三章 模板独立的网页信息抽取
  • 3.1 抽取模型框架
  • 3.1.1 网页收集模块
  • 3.1.2 网络过滤模块
  • 3.1.3 分类判别模块
  • 3.1.4 包装器提取模块
  • 3.2 新闻类页面信息抽取模型
  • 3.2.1 模型定义
  • 3.2.2 分类器及特征
  • 3.2.3 语义包装器
  • 3.3 论坛类页面信息抽取模型
  • 3.3.2 模型定义
  • 3.3.3 Dom-Tree提取
  • 3.3.4 信息块抽取算法
  • 3.3.5 分类器及特征
  • 3.3.6 边缘检测包装器
  • 3.4 本章小结
  • 第四章 实验及结果
  • 4.1 评价标准
  • 4.2 HTML Parser
  • 4.2.2 采集与标注工具
  • 4.2.3 网页过滤功能
  • 4.3 新闻类页面信息抽取
  • 4.3.1 数据集
  • 4.3.2 新闻分类判别模块效率验证
  • 4.3.3 S-Wrapper性能验证
  • 4.4 论坛类页面信息抽取
  • 4.4.1 数据集
  • 4.4.2 信息块抽取算法验证
  • 4.4.3 论坛分类判别模块效率验证
  • 4.4.4 BD-Wrapper性能验证
  • 4.5 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 攻读硕士学位期间参加的科研项目和发表的论文
  • 致谢
  • 相关论文文献

    • [1].起步阶段的网页信息资源长期保存[J]. 上海档案 2012(02)
    • [2].试论计算机网页设计中图形设计的处理运用[J]. 河北农机 2019(06)
    • [3].高校重要网页信息采集归档实践探析[J]. 浙江档案 2017(09)
    • [4].《网页信息展示》[J]. 美苑 2015(S2)
    • [5].高校网页翻译特点、难点及英译经验总结[J]. 校园英语 2017(12)
    • [6].分类加权的TF-IDF的网页分类算法[J]. 数码世界 2017(07)
    • [7].面向BIU的网页解析[J]. 科学中国人 2017(23)
    • [8].基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J]. 计算机应用与软件 2017(02)
    • [9].网页信息呈现方式影响用户决策研究述评[J]. 经营与管理 2016(11)
    • [10].基于本体思想的网页信息抽取方法[J]. 计算机与现代化 2015(09)
    • [11].基于“控制字符”网页信息的隐藏技术[J]. 福建电脑 2014(06)
    • [12].知识管理背景下网页信息档案化管理的思考[J]. 兰台世界 2011(15)
    • [13].国外网页信息存档项目及相关问题研究[J]. 图书馆建设 2009(12)
    • [14].浅谈现代网页设计与制作[J]. 吉林交通科技 2010(02)
    • [15].基于可视块的多记录型复杂网页信息提取算法[J]. 计算机科学 2019(10)
    • [16].计算机图像处理技术在网页设计中的运用[J]. 计算机产品与流通 2017(08)
    • [17].计算机网页设计中的布局与排版研究[J]. 现代信息科技 2018(06)
    • [18].网站管理地址泄露下网页信息快速加密仿真[J]. 计算机仿真 2017(05)
    • [19].页面美术使用技巧在网页设计中的应用分析——以学校网络中心为例[J]. 美术文献 2018(12)
    • [20].网页设计的艺术性分析[J]. 明日风尚 2018(03)
    • [21].网页设计中计算机图像处理技术的应用[J]. 美术文献 2018(08)
    • [22].试论网页设计中计算机图像处理技术[J]. 信息与电脑(理论版) 2018(07)
    • [23].浅析网页设计中的色彩运用[J]. 艺术科技 2017(10)
    • [24].以营销为导向的企业网页信息翻译探究[J]. 浙江海洋学院学报(人文科学版) 2012(03)
    • [25].网页设计中动态多元素应用[J]. 无线互联科技 2018(24)
    • [26].基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例[J]. 科技风 2019(06)
    • [27].网页设计中的色彩搭配及技巧[J]. 黑龙江纺织 2019(01)
    • [28].新时期网页设计中计算机图像处理技术的应用[J]. 信息与电脑(理论版) 2018(11)
    • [29].浅析网页设计中图形信息的有效传达[J]. 当代旅游 2019(12)
    • [30].基于文档对象模型结构聚类的钓鱼网页检测方法[J]. 科学技术与工程 2018(23)

    标签:;  ;  ;  

    模板独立的网页信息抽取研究
    下载Doc文档

    猜你喜欢