网页信息抽取工具的研究

网页信息抽取工具的研究

论文摘要

随着科技的发展,计算机的普及率越来越高,上网浏览信息的人越来越多。如今,人们的生活、工作、学习和商务活动都会用到互联网,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频等。不同的人他所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣的信息的周围,分散了他们对自己感兴趣的信息的注意力,给他们阅读网页带来了不便。本文提出了一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保存人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的过滤掉不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHTML将待抽取的网页解析成一棵DOM树。然后设计了一种深度优先的搜索算法去递归地遍历生成的DOM树的每一结点,判断该节点是否包含我们感兴趣的信息。如果被遍历的节点包含我们感兴趣的信息就保存它,如果不包含我们感兴趣的信息就过滤掉它。本文使用java语言编程实现网页信息抽取算法,使用JSP和Servlet开发用户图形界面。本文采用抽取算法,过滤掉用户不感兴趣的网页信息,只保存用户感兴趣的网页信息。用户可以通过图形界面选择自己喜欢的信息,用户选择完他们喜欢的信息后,我们的抽取算法就会根据用户的选择,过滤掉用户不感兴趣的信息,返回给用户他们喜欢的信息。本文首先介绍了网页信息抽取工具研究的目的和意义,接着对11种已有的网页信息抽取技术的优缺点进行了分析,介绍了网页的种类和网页的组成,然后介绍了DOM树和本文所用到的开源的网页解析工具NekoHTML,最后设计网页信息抽取算法,完成网页信息抽取工具的实现。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题的目的和意义
  • 1.2 国内外研究现状
  • 1.3 本文研究的内容
  • 1.4 论文组织
  • 第二章 网页信息抽取技术
  • 2.1 网页信息抽取技术
  • 2.2 网页信息抽取存在的问题
  • 2.3 本章小结
  • 第三章 网页的分类和组成
  • 3.1 网页的分类
  • 3.2 网页控制符
  • 3.3 超文本标记语言HTML
  • 3.4 可扩展的标记语言XML
  • 3.5 本章小结
  • 第四章 DOM树和网页解析工具NekoHTML
  • 4.1 DOM树结构
  • 4.2 网页解析工具NekoHTML
  • 4.3 本章小结
  • 第五章 网页信息抽取工具的设计与实现
  • 5.1 需求分析
  • 5.2 总体设计
  • 5.3 使用NekoHTML解析网页
  • 5.4 网页信息抽取算法的设计与实现
  • 5.5 网页信息抽取工具的实现
  • 5.6 本章小结
  • 结论
  • 致谢
  • 参考文献
  • 作者简介
  • 攻读学位期间的研究成果
  • 相关论文文献

    • [1].起步阶段的网页信息资源长期保存[J]. 上海档案 2012(02)
    • [2].试论计算机网页设计中图形设计的处理运用[J]. 河北农机 2019(06)
    • [3].高校重要网页信息采集归档实践探析[J]. 浙江档案 2017(09)
    • [4].《网页信息展示》[J]. 美苑 2015(S2)
    • [5].高校网页翻译特点、难点及英译经验总结[J]. 校园英语 2017(12)
    • [6].分类加权的TF-IDF的网页分类算法[J]. 数码世界 2017(07)
    • [7].面向BIU的网页解析[J]. 科学中国人 2017(23)
    • [8].基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J]. 计算机应用与软件 2017(02)
    • [9].网页信息呈现方式影响用户决策研究述评[J]. 经营与管理 2016(11)
    • [10].基于本体思想的网页信息抽取方法[J]. 计算机与现代化 2015(09)
    • [11].基于“控制字符”网页信息的隐藏技术[J]. 福建电脑 2014(06)
    • [12].知识管理背景下网页信息档案化管理的思考[J]. 兰台世界 2011(15)
    • [13].国外网页信息存档项目及相关问题研究[J]. 图书馆建设 2009(12)
    • [14].浅谈现代网页设计与制作[J]. 吉林交通科技 2010(02)
    • [15].基于可视块的多记录型复杂网页信息提取算法[J]. 计算机科学 2019(10)
    • [16].计算机图像处理技术在网页设计中的运用[J]. 计算机产品与流通 2017(08)
    • [17].计算机网页设计中的布局与排版研究[J]. 现代信息科技 2018(06)
    • [18].网站管理地址泄露下网页信息快速加密仿真[J]. 计算机仿真 2017(05)
    • [19].页面美术使用技巧在网页设计中的应用分析——以学校网络中心为例[J]. 美术文献 2018(12)
    • [20].网页设计的艺术性分析[J]. 明日风尚 2018(03)
    • [21].网页设计中计算机图像处理技术的应用[J]. 美术文献 2018(08)
    • [22].试论网页设计中计算机图像处理技术[J]. 信息与电脑(理论版) 2018(07)
    • [23].浅析网页设计中的色彩运用[J]. 艺术科技 2017(10)
    • [24].以营销为导向的企业网页信息翻译探究[J]. 浙江海洋学院学报(人文科学版) 2012(03)
    • [25].网页设计中动态多元素应用[J]. 无线互联科技 2018(24)
    • [26].基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例[J]. 科技风 2019(06)
    • [27].网页设计中的色彩搭配及技巧[J]. 黑龙江纺织 2019(01)
    • [28].新时期网页设计中计算机图像处理技术的应用[J]. 信息与电脑(理论版) 2018(11)
    • [29].浅析网页设计中图形信息的有效传达[J]. 当代旅游 2019(12)
    • [30].基于文档对象模型结构聚类的钓鱼网页检测方法[J]. 科学技术与工程 2018(23)

    标签:;  ;  

    网页信息抽取工具的研究
    下载Doc文档

    猜你喜欢