中文自动分词系统的研究与实现

中文自动分词系统的研究与实现

论文摘要

所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之间是没有空格的,因而必须采用某种技术将其分开。中文文本自动分词算法从20世纪80年代以来就一直是一个研究热点,由于中文语言的复杂性使之一直处于发展阶段。近年来,国内外众多学者在中文分词领域做了大量研究工作,取得了一定的研究成果。目前中文分词算法各有优劣,很难绝对地比出高低,所以,中文分词的算法更多时候需要同实际的应用相结合。到目前为止,中文分词包括三类算法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。这些算法各有优劣,还无法证明哪一种方法更准确,它们都有自己技术上特点和用途上的区别。其中基于理解的分词研究还处于未成熟阶段。分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。中文分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今中文分词已成为自然语言处理的研究热点与难点。本文通过对多种中文分词算法进行比较、研究,改进了传统机械分词中的词典结构,提出了基于词库和统计的中文分词算法,从而提高了分词的正确率和效率。该算法将基于统计的无词典分词算法与机械分词方法相结合,改善了机械分词新词识别能力差的问题。由于分词过程主要还是基于机械分词,所以在正确率提高的情况下,仍然能够快速分地分词,随后在本文中所提出算法的基础上,设计开发了一套中文自动分词系统,该系统不仅可以完成对汉语的分词工作,还能比较各种算法的特点,有利于分析和研究。系统中所涉及到的算法也能够很好地为其它应用系统服务。本论文的主要叙述过程如下:首先,介绍了中文分词的概念、应用领域以及面临的难题,列举了现在常用的中文分词算法,并进行了简单的比较。其次,在现有算法基础上,结合了传统机械分词和基于统计方法分词各自的优点,提出了基于词库和统计相结合的中文分词算法。在保证分词速度的同时,也提高了结果的准确率。再次,在基于词典和统计的中文分词算法的基础上,设计并运用Java Web技术实现了中文分词系统。该系统不仅完成了中文分词工作,还能够比较不同算法之间的分词速度,可以验证本文算法的优越性。最后,对论文各项工作进行了总结,并展望了需要进一步改进的工作。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 论文研究背景与意义
  • 1.2 论文研究目的及内容
  • 第二章 中文分词综述
  • 2.1 中文分词的概念
  • 2.2 中文分词系统的目标
  • 2.3 中文分词中的基本问题
  • 2.4 中文分词算法
  • 2.5 本章小结
  • 第三章 基于词库与统计相结合的中文分词算法
  • 3.1 算法概述
  • 3.2 分词词典结构
  • 3.3 分词词典的更新
  • 3.4 分词过程
  • 3.5 本章小结
  • 第四章 中文分词系统的设计与实现
  • 4.1 系统设计的目的和意义
  • 4.2 分词系统总体设计
  • 4.3 中文分词系统的实现
  • 4.4 实验结果分析与比较
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 下一步工作展望
  • 附录
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].中文自动分词中的歧义现象研究[J]. 语文学刊 2013(18)
    • [2].基于深度学习的中文自动分词研究[J]. 吉林广播电视大学学报 2019(12)
    • [3].基于条件随机场的藏语自动分词方法研究与实现[J]. 中文信息学报 2013(04)
    • [4].信息过滤中的中文自动分词技术研究[J]. 计算机工程与科学 2009(03)
    • [5].中文自动分词系统概述[J]. 电脑知识与技术 2010(33)
    • [6].多种方法融合的中文自动分词系统的设计与实现[J]. 韩山师范学院学报 2009(06)
    • [7].下期要目[J]. 图书情报工作 2019(22)
    • [8].在线英语语料库自动分词和分句的实现[J]. 电脑知识与技术 2010(28)
    • [9].基于数学设计的计算机自动分词算法[J]. 江西科学 2009(05)
    • [10].以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作 2015(11)
    • [11].藏文词级处理研究现状及热点方法[J]. 电脑知识与技术 2015(32)
    • [12].藏文自动分词技术研究综述[J]. 科技视界 2016(06)
    • [13].藏语自动分词中的几个关键问题的研究[J]. 中文信息学报 2014(04)
    • [14].藏文自动分词系统中虚词识别算法研究[J]. 计算机应用与软件 2017(09)
    • [15].藏语自动分词中的数词识别方法研究[J]. 西藏大学学报(自然科学版) 2015(02)
    • [16].傣文自动分词系统的设计与实现[J]. 中文信息学报 2013(06)
    • [17].彝文自动分词技术研究[J]. 中文信息学报 2011(03)
    • [18].自动答疑系统中文自动分词模块设计与实现[J]. 现代计算机(专业版) 2010(02)
    • [19].基于DRIS系统中的中文自动分词模块设计与实现[J]. 电子设计工程 2016(14)
    • [20].基于小字符集的藏文自动分词技术研究[J]. 西藏大学学报(自然科学版) 2013(02)
    • [21].藏文自动分词系统的设计[J]. 计算机工程与科学 2011(05)
    • [22].基于模板知识的带噪音半结构文本数据自动分词方法[J]. 微型机与应用 2015(17)
    • [23].从计算机自动分词的障碍谈汉语书面语改革[J]. 语文学刊 2008(02)
    • [24].基于词频学习和动态词频更新的藏文自动分词系统设计[J]. 计算机应用与软件 2014(05)
    • [25].藏文自动分词中未登录词处理方法研究[J]. 计算机工程 2012(17)
    • [26].国内中文自动分词技术研究综述[J]. 图书情报工作 2011(02)
    • [27].中文信息处理中自动分词技术的研究与展望[J]. 科技创新与应用 2015(25)
    • [28].班智达藏文自动分词系统的设计与实现[J]. 青海师范大学民族师范学院学报 2010(02)
    • [29].基于计算机自动分词的研究[J]. 沈阳化工学院学报 2008(03)
    • [30].基于CFRs模型的交集型歧义消解研究[J]. 电脑知识与技术 2018(18)

    标签:;  ;  ;  

    中文自动分词系统的研究与实现
    下载Doc文档

    猜你喜欢