领域本体构造中数据源选取及构造方法的研究

领域本体构造中数据源选取及构造方法的研究

论文摘要

本体构造方法的研究有利于本体的广泛应用和推广,尤其对WWW向下一个版本转化具有现实意义。目前,本体构造多侧重在方法过程的研究,如果能够加强对本体数据源内部特征的分析,会进一步减少有效信息丢失、无用数据被采用等问题。本文在详细分析数据源特点的基础上,分别提出文档分解模型,输入输出驱动模型以及两层向量空间模型,并集成神经网络、模糊FCA等多种智能方法,建立本体手工和(半)自动构造方法,并实现一个本体构造工具。主要研究内容和结果如下:(1)本体数据源选取研究。本体数据源选取效果直接影响本体构造的质量,目前本体数据源的研究大多集中在文本数据源的研究。对文本数据源的分析不仅要考虑了术语、概念在文档中的频率及含有术语文档在整个文档中的百分率,而且还要考虑术语在文档中的位置信息、文档标引源的位置特性。本文通过文档分解模型的建立,利用抽象方法,完成对本体数据源的概念性、关系性和预测性等特点的分析。并针对这些特点分别采用改进的VSM方法、基于本体关系距离以及神经网络的方法计算相关权值。同时,本文采用Java+Oracle技术,完成本体数据源选取系统的设计与实现,通过“湿地保护”相关的真实文档验证该方法,得到较好的选取结果。(2)特殊领域本体的手工构造——湿地保护领域本体的构造方法研究。建立“数字化”湿地的目的是实现湿地的知识管理和信息共享,而湿地本体的构造,是达到此目标的基础。本文通过对现有手工构造本体技术分析的基础上,提出构造湿地保护本体的方法——WP-Onto方法,以输入输出驱动模型完成本体数据源的组织,把相关知识进行归类并建立知识集,对概念、关系细化提取,实现本体编码及形式化表示。另外,本文还对湿地保护本体应用进行研究,包括信息共享和知识管理两个部分。(3)利用Web资源完成本体构造方法研究,不仅会缩短本体的构造周期,而且还会扩大本体的应用范围。但基于Web的数据提取、知识获取比较困难,与实际应用相比还有一定的距离。本文分析基于Web本体构造数据源的动态、海量、异质、变化、开放性等特点,本体构造的基础问题——形式化表示方法,总结本体构造的关键技术及技术难点。设计一个基于Web本体构造系统架构,为实现基于Web领域本体构造方法提供一个框架性的思路。(4)本体学习工具实现研究。为构造出一个效率、准确率较高的本体学习工具,本文采用面向对象思想的分析方法,把传统的单层文本向量空间模型改进为两层向量空间模型(Double Vector Space Model,简称D-VSM),该模型不仅具有属性特性,而且还具有很强的关系特性。在此模型的基础上,引入FFCA(Fuzzy Formal Concept Analysis模糊形式概念分析)本体学习技术。该技术充分考虑D-VSM模型中数据分布特点,较好地解决本体学习通用性、本体关系获取等问题。基于上述方法实现一个本体学习工具,为本体的(半)自动构造提供有力的支持。综上,本文给出本体构造几个关键问题的研究:在文档分解模型基础上,建立一个本体数据源选取系统;在输入输出驱动模型的基础上,提出湿地保护领域WP-Onto本体手工构造方法;在两层向量空间模型的基础上,分析Web数据特点,并结合模糊FCA方法,实现一个本体学习工具。以本体数据源选取为基础,在本体手工构造和(半)自动构造两个方面进行有效的研究,取得了较好的结果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 本体构造研究背景与意义
  • 1.2 本体研究概况
  • 1.3 本体构造中数据源选取问题的研究
  • 1.4 本体构造技术的研究
  • 1.4.1 通用的手工构造方法
  • 1.4.2 本体(半)自动构造方法
  • 1.5 本体学习工具
  • 1.6 主要研究内容
  • 2 本体数据源选取方法的研究与实现
  • 2.1 引言
  • 2.2 数据源特点分析
  • 2.2.1 本体信息的表述
  • 2.2.2 数据源的概念性和关系性
  • 2.2.3 预测性
  • 2.3 文档权值的确定
  • 2.3.1 概念权值
  • 2.3.2 关系权值
  • 2.3.3 预测权值
  • 2.3.4 文档级别的判定
  • 2.4 数据源选取系统的设计与实现
  • 2.4.1 系统设计目标、思想及流程
  • 2.4.2 系统的主要模块设计
  • 2.4.3 系统的数据库设计
  • 2.5 实验结果与分析
  • 2.5.1 预测权值模型的产生
  • 2.5.2 “湿地保护”真实数据测试
  • 2.6 小结
  • 3 手工湿地保护领域本体的建立
  • 3.1 引言
  • 3.2 本体表示方法选择
  • 3.2.1 本体与其它知识表示、组织方法
  • 3.2.2 本体定义及其构造方法
  • 3.3 构造湿地保护领域本体WP-Onto方法
  • 3.3.1 湿地输入输出需求驱动模型
  • 3.3.2 湿地知识集
  • 3.3.3 本体概念、概念关系的提取
  • 3.3.4 领域本体编码、形式化
  • 3.4 本体在湿地领域中的应用研究
  • 3.4.1 信息共享的应用
  • 3.4.2 知识管理的应用
  • 3.5 小结
  • 4 基于Web构造领域本体方法的研究
  • 4.1 引言
  • 4.2 基于Web本体构造的数据源
  • 4.2.1 数据源特点
  • 4.2.2 数据源分类
  • 4.2.3 本体的形式化表示
  • 4.3 本体所需数据提取技术
  • 4.3.1 本体学习技术
  • 4.3.2 构造过程
  • 4.4 基于Web构造领域本体总体设计
  • 4.5 关系提取问题的研究
  • 4.5.1 领域本体概念关系的分类与表示
  • 4.5.2 基于Web的关系提取模型
  • 4.6 小结
  • 5 基于两层向量空间模型和模糊FCA本体学习工具
  • 5.1 引言
  • 5.2 本体数据源与本体描述
  • 5.2.1 数据源两层向量空间模型描述
  • 5.2.2 本体的图模型及本体的矩阵表示
  • 5.3 基于两层向量空间的本体构造方法
  • 5.3.1 FFCA方法
  • 5.3.2 转化为本体矩阵
  • 5.4 本体工具的实现
  • 5.4.1 本体构造总体设计
  • 5.4.2 初级本体建立
  • 5.4.3 网页数据采集
  • 5.4.4 数据预处理
  • 5.4.5 本体构造过程
  • 5.5 实验
  • 5.6 小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 创新点摘要
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    领域本体构造中数据源选取及构造方法的研究
    下载Doc文档

    猜你喜欢