基于领域本体的Web信息抽取研究

基于领域本体的Web信息抽取研究

论文摘要

随着Internet的迅速发展,Web作为全球化的信息源已经成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,人们在Web上很难搜索到真正想要的信息。Web信息抽取技术可以将Web中各种不同格式表达的信息转化为统一的信息表达方式,从而为人们提供更有力的信息获取工具。本文通过研究和分析本体的相关概念和本体的构建,以及信息抽取的相关知识。在此基础上,本文提出了一种新的基于领域本体的Web信息抽取方法。该方法利用领域本体中的概念、属性、关系等自动生成匹配模式,同时对待抽取Web页面进行预处理及语法分析得到处理后的文档,再和生成的抽取规则一起对预处理后的文档进行信息抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。基于领域本体的信息抽取最大的优点是抽取对Web页面的结构没有依赖性。另外,利用本体来描述和表达信息抽取的知识库增强了抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。本文按照上述方法并结合实际情况,设计并实现了一个基于笔记本领域本体(NoteBook Domain Ontology, NDO)的Web信息抽取系统。在设计阶段,详细地介绍了该系统的总体框架以及系统的各主要模块。之后,本文通过解析本体得到的概念、属性、层次结构构建了本体模型树,并使预处理后的无结构文本按照本体模型树结构进行待抽取对象的信息抽取。最后介绍了实验结果并就此进行了分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究意义及目的
  • 1.3 国内外研究现状
  • 1.4 本论文研究内容
  • 1.4.1 本文的研究内容
  • 1.4.2 本论文组织结构
  • 第二章 本体、信息抽取及语义网概述
  • 2.1 本体
  • 2.1.1 本体的定义与特点
  • 2.1.2 本体的构成元素
  • 2.1.3 本体的分类
  • 2.1.4 本体的作用
  • 2.2 信息抽取概述
  • 2.2.1 信息抽取的历史和现状
  • 2.2.2 信息抽取的对象和任务
  • 2.2.3 信息抽取系统的体系结构
  • 2.2.4 信息抽取方法的分类
  • 2.2.5 WEB信息抽取方法的分类
  • 2.2.6 WEB信息抽取的关键技术
  • 2.2.7 信息抽取系统的评估
  • 2.3 语义网
  • 2.3.1 语义WEB的概念
  • 2.3.2 语义WEB的体系结构
  • 2.3.3 语义WEB的核心技术
  • 第三章 领域本体的构建
  • 3.1 本体构建相关知识
  • 3.1.1 本体的构建规则
  • 3.1.2 本体的构建方法
  • 3.1.3 本体的构建工具
  • 3.1.4 本体的描述语言
  • 3.2 笔记本领域本体的构建
  • 3.2.1 需求分析
  • 3.2.2 构建笔记本领域本体的框架
  • 3.2.3 设计笔记本领域元本体
  • 3.2.4 笔记本领域本体的编码与形式化
  • 3.2.5 笔记本领域本体的检验评价
  • 3.3 本章小结
  • 第四章 基于领域本体的WEB信息抽取
  • 4.1 信息抽取系统的设计
  • 4.2 信息抽取系统的实现
  • 4.2.1 网页预处理
  • 4.2.2 领域本体的解析
  • 4.2.3 抽取规则的生成
  • 4.2.4 信息抽取算法设计
  • 4.2.5 信息抽取结果存储
  • 4.3 实验结果分析
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 未来工作
  • 参考文献
  • 致谢
  • 攻读硕士学位期间主要的研究成果
  • 相关论文文献

    • [1].2017-2020年《陕西学前师范学院学报》选题领域本体(第41组)公告第四十一组:儿童社会能力发展[J]. 陕西学前师范学院学报 2019(12)
    • [2].2017-2020年《陕西学前师范学院学报》选题领域本体(第42组)公告 第四十二组:儿童教育课程思政[J]. 陕西学前师范学院学报 2020(01)
    • [3].2017—2020年陕西学前师范学院学报选题领域本体公告(第43组)学前儿童公民教育[J]. 陕西学前师范学院学报 2020(03)
    • [4].2017-2020年陕西学前师范学院学报选题领域本体公告(第44组)学前儿童国际理解教育[J]. 陕西学前师范学院学报 2020(03)
    • [5].2017-2020年陕西学前师范学院学报选题领域本体公告(第45组)学前教育叙事[J]. 陕西学前师范学院学报 2020(04)
    • [6].2017-2020年陕西学前师范学院学报选题领域本体公告(第46组)学前儿童深度学习[J]. 陕西学前师范学院学报 2020(04)
    • [7].2017-2020年陕西学前师范学院学报选题领域本体公告(第48组)学前儿童审美教育[J]. 陕西学前师范学院学报 2020(05)
    • [8].2017-2020年陕西学前师范学院学报选题领域本体公告(第49组)儿童文明建设[J]. 陕西学前师范学院学报 2020(06)
    • [9].2017-2020年陕西学前师范学院学报选题领域本体公告(第47组)学前儿童道德教育[J]. 陕西学前师范学院学报 2020(06)
    • [10].2017-2020年《陕西学前师范学院学报》选题领域本体(033)公告[J]. 陕西学前师范学院学报 2019(03)
    • [11].2017-2020年《陕西学前师范学院学报》选题领域本体(034)公告[J]. 陕西学前师范学院学报 2019(03)
    • [12].2017-2020年《陕西学前师范学院学报》选题领域本体(019)公告[J]. 陕西学前师范学院学报 2018(01)
    • [13].2017-2020年《陕西学前师范学院学报》选题领域本体(022)公告 第二十二组:教师教育与管理[J]. 陕西学前师范学院学报 2018(05)
    • [14].2017-2020年陕西学前师范学院学报选题领域本体(024)公告 第二十四组 基础理论研究[J]. 陕西学前师范学院学报 2018(06)
    • [15].2017-2020年陕西学前师范学院学报选题领域本体(026-027)公告[J]. 陕西学前师范学院学报 2018(07)
    • [16].2017-2020年陕西学前师范学院学报选题领域本体(028)公告[J]. 陕西学前师范学院学报 2018(07)
    • [17].2017-2020年陕西学前师范学院学报选题领域本体(029)公告 第二十九组 课程改革与发展[J]. 陕西学前师范学院学报 2018(08)
    • [18].2017-2020年陕西学前师范学院学报选题领域本体(030)公告 第三十组 儿童自然教育[J]. 陕西学前师范学院学报 2018(08)
    • [19].2017-2020年陕西学前师范学院学报选题领域本体(031)公告[J]. 陕西学前师范学院学报 2018(09)
    • [20].2017-2020年《陕西学前师范学院学报》选题领域本体(011-012)公告[J]. 陕西学前师范学院学报 2017(10)
    • [21].应急领域本体的构建方法研究[J]. 电子科技大学学报(社科版) 2015(03)
    • [22].基于旅游领域本体的语义检索模型[J]. 太原理工大学学报 2020(02)
    • [23].“领域本体七步法”在中医辨证推理知识库构建中的应用[J]. 世界科学技术-中医药现代化 2019(12)
    • [24].面向电网安全监测的领域本体自动构建[J]. 计算机系统应用 2020(11)
    • [25].一种领域本体自动构建策略[J]. 南京邮电大学学报(自然科学版) 2009(05)
    • [26].基于跨领域本体的信息安全分析[J]. 信息网络安全 2020(09)
    • [27].基于领域本体概念划分的语义标注方法[J]. 合肥学院学报(自然科学版) 2013(01)
    • [28].政府信息领域本体的构建研究[J]. 图书馆学研究 2010(21)
    • [29].论档案领域本体的构建[J]. 兰台世界 2009(22)
    • [30].基于维基百科的领域本体自动构建方法研究[J]. 计算机应用与软件 2016(07)

    标签:;  ;  

    基于领域本体的Web信息抽取研究
    下载Doc文档

    猜你喜欢