Web挖掘中信息采集技术研究与实现

Web挖掘中信息采集技术研究与实现

论文摘要

万维网(Web)是世界上规模最大的公共数据源,但Web上信息资源的有效利用是一个难点。Web信息资源大多以HTML文档形式存在,HTML文档的特点决定了它无法作为有效的数据源供目前流行的数据挖掘软件直接使用。因此,如何有效采集Web信息是Web挖掘重点要解决的问题。本文研究如何将Web中的信息采集到结构化数据库中,对Web信息采集的三个过程:网页爬取,页面净化和信息抽取展开了详细论述。网页爬取要解决的问题是通过程序将具有相似结构的网页自动下载到本地,页面净化是对Web页面中无效内容进行清除的过程,信息抽取的任务是编写抽取规则并利用这些规则从具有类似结构的网页中将目标数据项提取出来后存储在结构化数据库中。在网页爬取方面,论文实现了一个自动下载网页的程序MyCrawler,详细阐述了程序实现需要解决的HTTP协议解析、URL提取、页面存储、URL去重与过滤等细节问题,对如何提高程序性能、表单验证、URL搜集策略等关键技术进行了探讨,并在网页相似性规律的基础上提出通过与网页内容无关的URL来指导程序下载与用户兴趣相关的结构相似网页。在网页净化方面,提出利用HTML容器标签对网页进行分块并通过文本密度来识别网页的正文内容块这一简单可行的方法。在信息抽取方面,提出将网页解析成DOM树后使用XPath抽取规则从具有相似结构的网页中提取数据的方法,同时实现了一个信息抽取平台,利用该平台可以很方便的生成XPath信息抽取规则。在文章的最后,结合具体例子(从一个招聘网站采集信息)进行了信息采集实验并取得了良好的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 问题提出
  • 1.2 研究现状
  • 1.2.1 网页爬取的研究
  • 1.2.2 信息抽取的研究
  • 1.3 本文的研究内容
  • 第2章 WEB 挖掘中信息采集概述
  • 2.1 WEB 挖掘
  • 2.1.1 相关概念
  • 2.1.2 Web 挖掘的分类
  • 2.2 WEB 信息的特点
  • 2.3 WEB 信息采集
  • 2.3.1 Web 信息采集概述
  • 2.3.2 工作流程
  • 2.4 小结
  • 第3章 网页爬取
  • 3.1 相关概念
  • 3.1.1 URL(统一资源定位符)
  • 3.1.2 HTTP(超文本传输协议)
  • 3.1.3 HTML(超文本标记语言)
  • 3.2 网页爬取程序的工作原理
  • 3.3 网页爬取程序的实现
  • 3.3.1 总体结构及流程
  • 3.3.2 HTTP 协议解析
  • 3.3.3 页面处理
  • 3.3.4 URL 去重与过滤
  • 3.4 实现的关键技术
  • 3.4.1 如何提高爬虫性能
  • 3.4.2 表单验证
  • 3.4.3 URL 搜集策略
  • 3.5 小结
  • 第4章 网页净化
  • 4.1 概述
  • 4.1.1 净化的重要性
  • 4.1.2 常见的几种网页净化方法
  • 4.2 一种简单的网页净化方法
  • 4.2.1 网页分块
  • 4.2.2 正文内容块的识别
  • 4.3 网页净化程序的实现
  • 4.3.1 实现过程
  • 4.3.2 净化效果
  • 4.4 小结
  • 第5章 信息抽取
  • 5.1 概述
  • 5.2 相关技术
  • 5.2.1 XML(可扩展标记语言)
  • 5.2.2 XHTML(可扩展超文本标识语言)
  • 5.2.3 DOM(文档对象模型)
  • 5.2.4 XPath(XML 路径语言)
  • 5.3 基于XPATH 的信息抽取方法
  • 5.3.1 方法概述
  • 5.3.2 抽取平台的整体框架
  • 5.3.3 抽取规则
  • 5.3.4 抽取规则的优化
  • 5.4 信息抽取程序的实现
  • 5.4.1 HTML 到XHTML 的转换
  • 5.4.2 构建DOM 树
  • 5.4.3 生成抽取规则
  • 5.4.4 抽取规则执行
  • 5.5 小结
  • 第6章 WEB 信息采集实验与分析
  • 6.1 实验过程
  • 6.2 实验结论
  • 总结与展望
  • 参考文献
  • 发表文章
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    Web挖掘中信息采集技术研究与实现
    下载Doc文档

    猜你喜欢