基于知网的词对齐技术的研究

基于知网的词对齐技术的研究

论文摘要

词对齐技术一直是机器翻译领域中的一项基础性研究。本文介绍了目前国内外关于词对齐技术的研究现状,阐述了几种具有代表性的词对齐方法,同时分析了它们的理论基础和算法特点。本文提出将词对齐分为短语过滤、词语完全匹配、相似度计算、语义计算和消歧等多级处理,在短语过滤中优先过滤出部分短语级对齐,降低词语对齐过程中歧义对齐的可能性,从而提高了词对齐的效果;通过对知网与同义词词林的比较,在语义计算中选择知网作为语义资源,对词对齐进行语义层面的扩展,获得更好的对齐效果;针对对齐过程中的歧义对齐现象,提出一种新的歧义分类方法,该方法不区分歧义对齐的形式,能清楚反映歧义对齐现象;提出一种基于锚点词对的通用的最优邻接锚点消歧算法,该算法与各级对齐交替进行,解决了各对齐环节产生的歧义对齐问题。基于上述理论成果,构建了基于知网的词对齐系统,并在标准评测语料中进行多种对齐方案组合的比较试验,对试验结果的分析比较均表明了基于知网的短语过滤、语义扩展和通用的消歧算法在词语对齐中的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的提出及意义
  • 1.2 本文的工作
  • 1.3 论文的组织结构
  • 第2章 研究方法综述
  • 2.1 词对齐的定义
  • 2.2 难点分析
  • 2.3 现有研究方法
  • 2.3.1 基于统计的词对齐方法
  • 2.3.2 基于知识库的词对齐方法
  • 2.3.3 语言学知识的运用
  • 2.4 小结
  • 第3章 基于知网的词对齐技术研究
  • 3.1 知网简介
  • 3.2 基于知网的词对齐系统设计
  • 3.3 基本模块
  • 3.3.1 预处理
  • 3.3.2 短语过滤
  • 3.3.3 词语完全匹配
  • 3.3.4 词语相似度计算
  • 3.4 基于知网的语义计算模块
  • 3.4.1 知网和同义词词林的比较
  • 3.4.2 基于语义计算的词对齐扩展
  • 3.5 小结
  • 第4章 词对齐消歧方法的研究
  • 4.1 歧义现象分析
  • 4.2 通用分类方法的提出
  • 4.3 消歧算法的研究
  • 4.4 最优邻接锚点消歧算法的相关概念
  • 4.5 最优邻接锚点消歧算法描述
  • 4.5.1 算法流程与步骤
  • 4.5.2 算法示例分析
  • 4.6 小结
  • 第5章 汉英词对齐实验及结果分析
  • 5.1 测试集及预处理
  • 5.2 评价方法
  • 5.3 阈值设定
  • 5.4 组合模块对词对齐的影响
  • 5.5 消歧算法在词对齐中的作用
  • 5.6 问题分析
  • 5.7 小结
  • 结论
  • 附录I 词对齐系统演示界面
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    • [1].基于网络表示学习的作者重名消歧研究[J]. 数据分析与知识发现 2020(Z1)
    • [2].基于多特征融合的同名专家消歧方法研究[J]. 北京大学学报(自然科学版) 2020(04)
    • [3].基于元路径异构网络嵌入的姓名实体消歧方法[J]. 河北科技大学学报 2020(03)
    • [4].融合实体知识描述的实体联合消歧方法[J]. 中文信息学报 2020(07)
    • [5].面向学术文献的作者名消歧方法研究综述[J]. 数据分析与知识发现 2020(08)
    • [6].科学合作网络姓名消歧问题研究[J]. 甘肃科技 2020(16)
    • [7].基于稀疏分布式表征的英文著者姓名消歧研究[J]. 计算机应用研究 2019(12)
    • [8].基于上下文特征的领域文献实体消歧算法[J]. 北京生物医学工程 2018(04)
    • [9].一种易用的实体识别消歧系统评测框架(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2017(02)
    • [10].地名知识辅助的中文地名消歧方法[J]. 地理与地理信息科学 2016(04)
    • [11].消歧审议瑞士行[J]. 中国妇运 2015(02)
    • [12].文献数据库中作者名自动化消歧方法应用研究[J]. 情报杂志 2013(09)
    • [13].自然语言处理中的语义消歧研究[J]. 淮南师范学院学报 2013(05)
    • [14].基于层次聚类的中文人名消歧方法研究[J]. 心智与计算 2010(04)
    • [15].一种论文作者重名消歧方法[J]. 软件导刊 2020(03)
    • [16].基于专家研讨思想的发明人姓名消歧研究[J]. 情报科学 2019(04)
    • [17].基于规则的维吾尔人名智能消歧研究[J]. 数字技术与应用 2017(12)
    • [18].基于双词主题模型的半监督实体消歧方法研究[J]. 电子学报 2018(03)
    • [19].我国专利数据中发明家姓名消歧算法研究[J]. 情报学报 2016(04)
    • [20].姓名消歧方法研究进展[J]. 情报工程 2016(01)
    • [21].一种基于特征映射的中文专家消歧方法[J]. 中文信息学报 2016(02)
    • [22].信息抽取和实体消歧[J]. 福建电脑 2014(11)
    • [23].基于向量空间模型的古汉语词义自动消歧研究[J]. 图书情报工作 2013(02)
    • [24].基于序列标注的全词消歧方法[J]. 中文信息学报 2012(02)
    • [25].机器翻译的一些消歧方法研究[J]. 西南民族大学学报(自然科学版) 2008(04)
    • [26].基于因子图的不一致记录对消歧方法[J]. 计算机研究与发展 2020(01)
    • [27].基于实体关联的消歧算法研究[J]. 中国电子科学研究院学报 2020(03)
    • [28].聚类集成技术在中文人名消歧中的应用研究[J]. 信息系统工程 2020(04)
    • [29].基于特征加权重叠度的中文实体协同消歧方法[J]. 中文信息学报 2017(02)
    • [30].面向实体链接的多特征图模型实体消歧方法[J]. 计算机应用研究 2017(10)

    标签:;  ;  ;  ;  ;  

    基于知网的词对齐技术的研究
    下载Doc文档

    猜你喜欢