汉语非相关文献知识发现的研究与系统实现

汉语非相关文献知识发现的研究与系统实现

论文摘要

随着科学技术的快速发展,学科分工愈来愈细。不同学科间表面上没有任何联系的文献中,可能隐含着未被发现的有价值的关联。挖掘文献之间的这些隐含的联系对科学发展具有重要推动作用。近20年来,情报工作者对这一领域展开了积极探讨,美国芝加哥大学的情报学教授Don R.Swanson,首先以充分的文献证据论证了基于非相关文献的知识发现思想。随后,各国科学家都纷纷用不同的方法来测试和验证Swanson的思想和结论,分析所采用的数据源皆为Medline记录。本文继承了Swanson的思想,以中国期刊网1979年到2006年全文数据库生物医药卫生领域的文献为数据源,分别研究开放式和闭合式非相关文献的知识发现算法,并实现基于汉语的非相关文献知识发现系统。Swanson算法只对标题进行了处理,而本文将其算法进行了延伸,分别对标题和摘要都进行了处理。并且解决了处理汉语文献过程遇到的许多实际问题,如汉语分词、语词多义性等等。在研究开放式知识发现过程中,通过验证“偏头痛/镁”这对假设在汉语文献中是否存在关联,来判断本文采用的开放式知识发现算法的可行性。开放式知识发现系统对标题和摘要分别进行了处理,算法都是模拟Swanson的思想。但是因为每个词在每篇标题中只出现一次(大于一次的忽略),而在摘要中可能出现大于一次的现象,所以在处理标题和摘要时,具体的算法公式略有区别。结论是,无论处理标题还是摘要,通过开始文献,中间词,目标词的步骤都能从“偏头痛”找到“镁”。使用标题计算与使用摘要计算相比,优点是速度快,缺点是找到的中间词不如以摘要计算多,而且找到的目标词“镁”的排列位置不如以摘要计算靠前。闭合式知识发现过程,目的是通过书目不相关联的“雷诺氏病/鱼油”、“偏头痛/镁”之间的逻辑关联的存在性,验证本文采用的闭合式知识发现算法在汉语文献中的可行性,若可行,则闭合式知识发现系统可以用来验证开放式知识发现系统提出的假设是否准确。系统采用的是Swanson教授本人的闭合式知识发现算法,同样对标题和摘要都进行了处理,结果发现用标题计算仅能求得部分中间词,而用摘要计算可以求得几乎所有期望得到的中间词,可见此算法处理摘要的效果优于处理标题。最后,本文分别对开放式和闭合式发现过程进行了验证与分析,并把发现结果跟Swanson教授的发现结果进行了对比讨论。得出如下结论:由于存在语种区别,人工干预,处理方法的细微差别等问题,本文得到的结果跟Swanson的结果不完全一致。但是Swanson教授的算法思想应用在汉语文献中同样可行。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 非相关文献知识发现的研究目的和意义
  • 1.2 非相关文献知识发现的国内外研究现状
  • 1.3 本文主要研究内容和框架
  • 第二章 非相关文献知识发现算法模型介绍
  • 2.1 基于文献的知识发现概述
  • 2.2 非相关文献知识发现各种算法模型与系统介绍
  • 2.2.1 Swanson非相关文献知识发现算法
  • 2.2.2 Gordon&Lindsay的基于词汇统计的方法
  • 2.2.3 Weeber在基于文献的发现中应用概念
  • 2.2.4 Johannes Stegmann的同现词分析
  • 2.2.5 Pratt&Yetisgen-Yildiz-LitLinker
  • 2.2.6 Padmini Srinivasan文本挖掘-从Medline中产生假设
  • 2.2.7 Wei Huang等挖掘科学文献来预测新连接
  • 2.2.8 Van der Eijk et al.-Associative Concept Spaces
  • 2.2.9 Wren et al.-Random Models
  • 2.2.10 Hristovski et al.-BITOLA
  • 2.3 各算法归纳总结
  • 2.4 本章小结
  • 第三章 开放式发现过程的算法研究与设计
  • 3.1 系统算法研究
  • 3.1.1 算法步骤
  • 3.1.2 算法流程图
  • 3.2 系统分析与设计
  • 3.3 系统实现
  • 3.4 本章小结
  • 第四章 闭合式发现过程的算法研究与设计
  • 4.1 系统算法研究
  • 4.1.1 算法步骤
  • 4.1.2 算法流程图
  • 4.2 系统分析与设计
  • 4.3 系统实现
  • 4.4 本章小结
  • 第五章 汉语非相关文献知识发现过程的验证与分析
  • 5.1 开放式知识发现过程
  • 5.1.1 处理标题
  • 5.1.2 处理摘要
  • 5.2 闭合式知识发现过程
  • 5.2.1 雷诺氏病/鱼油
  • 5.2.2 偏头痛/镁
  • 5.3 分析与讨论
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 所做的主要工作
  • 6.2 本文的创新之处
  • 6.3 存在的问题
  • 6.4 后续工作
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    汉语非相关文献知识发现的研究与系统实现
    下载Doc文档

    猜你喜欢