异构医疗数据库语义集成迭代算法

异构医疗数据库语义集成迭代算法

论文摘要

语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要的作用。采用语义一致性检测的迭代流程,在同一迭代流程中,通过结合属性和元组语义的检测提高语义集成的精度。采用聚类方法分析属性之间的语义一致性,根据直接从属性的数据值中提取的特征,分别采用K-means聚类算法、模糊聚类算法和改进的chameleon凝聚层次聚类算法,得到三种属性的语义匹配结果进行投票,以得票数不低于2的属性对作为语义一致属性对,用作迭代流程的初始属性语义匹配结果。在聚类分析中,属性特征只从属性的数据值中提取;在改进的chameleon算法中,以Normalized Cut准则取代原算法的Min-cut准则。在迭代过程中,首先依据属性语义匹配的结果,采用分类方法检测元组之间的语义一致性。手工挑选数量相同的匹配元组对和不匹配元组对,作为训练样本数据集训练logistic回归分类器,并对分类结果进行分析和评价;然后对分类所得匹配元组对做相关分析和线性回归分析,通过皮尔逊相关系数和线性回归拟合参数发现新的语义一致属性对,更新属性匹配结果并用于下一步迭代。使用三峡医院和南漳医院的药品表作为实验数据,药品表的属性个数分别为20和27个,从中各挑选603个匹配元组对和不匹配元组对,用作研究中的实验数据。实验结果表明,在语义集成迭代流程中,随着迭代次数的增加,能够不断发现新的匹配属性和匹配元组,且识别出的属性对和元组对具有很高的正确率。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 国内外研究概况
  • 1.2.1 语义集成的应用
  • 1.2.2 语义集成的难点
  • 1.2.3 属性匹配
  • 1.2.4 元组匹配
  • 1.2.5 语义集成的未来研究方向
  • 1.3 本文主要研究工作
  • 1.4 本文的内容组织
  • 2 检测语义一致性的迭代流程
  • 2.1 语义集成的迭代流程
  • 2.2 属性语义一致性检测方法
  • 2.3 数据来源
  • 2.4 本章小结
  • 3 结合属性和元组信息集成异构数据源
  • 3.1 聚类方法检测属性语义一致性
  • 3.1.1 特征提取
  • 3.1.2 K-means 聚类算法
  • 3.1.3 模糊聚类算法FCM
  • 3.1.4 原始Chameleon 凝聚层次聚类算法
  • 3.1.5 改进的Chameleon 凝聚层次聚类算法
  • 3.1.6 投票法综合聚类结果
  • 3.2 分类方法检测元组语义一致性
  • 3.2.1 logistic 回归模型
  • 3.2.2 分类实验结果分析与评价
  • 3.3 统计方法再评估属性语义一致性
  • 3.3.1 两种属性类型的统计分析方法
  • 3.3.2 统计实验结果分析
  • 3.4 本章小结
  • 4 实验结果及分析
  • 4.1 实验结果
  • 4.2 综合结果分析
  • 4.3 本章小结
  • 5 总结与展望
  • 5.1 全文总结
  • 5.2 研究工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].一种基于元组空间的智能传感器协同感知机制[J]. 软件学报 2015(04)
    • [2].面向数据流处理的元组跟踪方法[J]. 电信科学 2013(10)
    • [3].一种无中心元组空间副本管理方法[J]. 清华大学学报(自然科学版) 2011(01)
    • [4].N元组和翻译单位对英译汉自动评分作用的比较研究[J]. 现代外语 2010(02)
    • [5].分布式元组空间协同模型的设计与描述[J]. 计算机工程 2008(17)
    • [6].消息分发系统中的元组空间分解算法研究[J]. 计算机工程与设计 2010(01)
    • [7].联合元组空间和位图设计的二维分组分类算法[J]. 通信学报 2011(09)
    • [8].基于功能结构元组的技术文档的特征提取研究[J]. 计算机技术与发展 2019(05)
    • [9].一种基于情感依存元组的简单句情感判别方法[J]. 中文信息学报 2017(03)
    • [10].基于多元组提高射频仿真角度精度的方法[J]. 系统工程与电子技术 2016(10)
    • [11].基于动态簇大小的多元组聚集匿名数据发布[J]. 太原师范学院学报(自然科学版) 2013(04)
    • [12].基于情感依存元组的新闻文本主题情感分析[J]. 山东大学学报(理学版) 2014(12)
    • [13].对基于元组向量折叠的包分类算法的改进[J]. 合肥工业大学学报(自然科学版) 2009(08)
    • [14].基于元组相似度的不完备数据填补方法研究[J]. 计算机科学 2017(02)
    • [15].一种基于元组空间的Web服务模型[J]. 电子技术与软件工程 2013(23)
    • [16].基于CBF的分布式元组空间叉积算法[J]. 计算机工程 2010(01)
    • [17].DTSArch:一种基于分散式元组空间的软件体系结构模型[J]. 计算机科学 2009(10)
    • [18].关系数据库中近似查询的自动采样改进方法研究[J]. 湖南人文科技学院学报 2011(02)
    • [19].基于hash散列映射的多元组表改进储存方法[J]. 福建电脑 2018(07)
    • [20].不确定关系数据属性级溯源表示与概率计算[J]. 软件学报 2014(04)
    • [21].关系数据库上基于元组组合的关键字查询[J]. 计算机研究与发展 2011(10)
    • [22].采用元组聚类的增量式数据分区方法[J]. 计算机科学与探索 2011(08)
    • [23].基于服务元组链的Web服务组合方法[J]. 吉林大学学报(理学版) 2009(01)
    • [24].不确定数据库中基于x-tuple的高效Top-k查询处理算法[J]. 计算机研究与发展 2010(08)
    • [25].TKEP:海量数据上一种有效的Top-K查询处理算法[J]. 计算机学报 2010(08)
    • [26].基于元组空间通信的扩展呼叫处理语言协同技术[J]. 高技术通讯 2010(05)
    • [27].两种新的非确定数据库上的Top-k查询[J]. 华东师范大学学报(自然科学版) 2017(01)
    • [28].基于游标的元组重构应用研究[J]. 四川职业技术学院学报 2016(04)
    • [29].浅谈分布式数据库系统查询优化[J]. 电脑知识与技术 2010(04)
    • [30].基于元组存在性的概率数据模型研究[J]. 计算机科学 2012(S1)

    标签:;  ;  ;  ;  ;  

    异构医疗数据库语义集成迭代算法
    下载Doc文档

    猜你喜欢