基于语义网的本体相似度算法研究

论文摘要

随着网络时代的快速发展,信息资源的快速增加,用户对信息资源的筛选和利用,已经成为人们信息生活中的一个日趋严重的问题,而信息资源的相似度计算则能对这个问题的解决提供很好的帮助。现在的语义相似度计算已经取得了很多进展,但同时其还有一些缺点是由其先天性的技术缺陷造成的,其忽略了节点中的语义。每一个节点都含有特定的语义,不同的节点其结构、定义、所处文档的层次可能不同,但其语义可能是相似的。为了解决这些问题,本论文分析了XML的语义问题,并提出了一个基于XML2OWL的从XML文档到OWL文档的生成方法。在该方法的基础上我们提出了一个改进后的基于本体的语义相似度计算方法,由于XML的结构性,该公式充分考虑了影响语义相似度的五大主要因素——概念,密度,语义权重,深度,和非层次结构下的语义权重,并通过实例比较设定了因素中的影响参数,使其能够适用于大多数文档情况。为验证该公式相比传统的语义距离公式的效果的提升,我们应用实例仿真对该公式进行了验证。实验结果表明,该方法在文本的语义相似度处于[0.4,0.8]时,改进后的计算方法能够更好的区分出文档节点之间的相似度,给予文档更好的聚类。

论文目录

摘要

ABSTRACT

主要符号说明

第一章绪论

1.1 研究背景

1.2 国内外研究现状

1.2.1 本体抽取及构建技术

1.2.2 语义本体相似度算法

1.3 主要研究内容

1.4 相关工作

第二章语义网及XML 技术

2.1 语义 Web

2.2 XML 技术

2.2.1 XML 的特点

2.2.2 XML 的隐式语义表达

2.2.3 XML 片段

2.2.4 XML Schema 原理简介

2.3 XML Schema 挖掘算法

2.3.1 元素聚类效果判断算法

2.3.2 Schema 的生成

2.3.3 实例说明及实验

2.3.4 实验结果

2.4 本章小结

第三章基于 XML 的本体生成方法

3.1 实现框架

3.2 XML Schema 到 OWL Model 的转换

3.2.1 简单 XML Schema 数据类型

3.2.2 属性

3.2.3 元素

3.2.4 复杂类型

3.2.5 特定顺序和选择顺序

3.2.6 引用

3.3 本章小结

第四章基于本体的语义相似度

4.1 语义的概念

4.1.1 语义在计算机中的表示形式

4.1.2 数据的语义

4.2 基于本体的web 文档聚类

4.2.1 DOM 简介

4.2.2 文档聚类流程改进

4.3 对传统语义本体相似度算法的改进

4.3.1 传统语义本体相似度算法

4.3.2 影响算法精确度的因素

4.3.3 算法改进

4.4 本章小结

第五章计算公式演示及其应用

5.1 θ、R 公式运算过程演示及参数设定

5.1.1 θ、R 运算过程演示

5.1.2 θ、R 中的参数的设定

5.2 语义关系权重和密度公式的运算演示及参数设定

5.2.1 公式运算演示

5.2.2 参数设定

5.3 仿真实验结果及分析

5.4 本章小结

第六章结束语

6.1 工作回顾

6.2 本课题今后需进一步研究的地方

参考文献

个人简历在读期间发表的学术论文

致谢

基于语义网的本体相似度算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢