论文摘要
中文分词在中文信息处理中起着举足轻重的作用,分词的精度直接影响到后而一系列自然语言处理任务的正确性。近年来,中文分词的发展虽然已取得了骄人的成绩,但由于汉语语言自身的特点,仍存在一系列的难题,很多分词系统往往在个别领域切分的较为理想,而在另外一个领域却表现出不尽人意,因此,跨领域分词也被引入到了SIGHAN Bakeoff 2010评测任务中。本文在已有的研究基础上,提出了一种新的基于字和词的条件随机场(CRFs)的联合解码模型,把二者结合在一个统一的中文分词框架下,基于字标注的条件随机场CRFs分词,选择的是一条全局最优的路径做分词结果:在全局最优的路径里,某个局部却不一定是最优的,因此,我们把局部最优结果放到统一的模型框架下,再进行二次选择组合最优的结果,通过利用词图能够充分融合词层面的信息、的特点,使两种方法有效地结合起来。针对跨领域未登录词的特点,提出了一种称为上下文变量(Context Variables)的数据来衡量某个候选词在篇章内的上下文信息;同时,使用语义资源,利用同义词的上下文语境相似的特点,用其同义词的节点代价作为自己的代价,提高了未登录词的召回率。该方法在SIGHAN Bakeoff 2010的中文简体语料上进行了测试,在四个不同领域中,除了文学领域外,F-值均高于相应相应测试的最好成绩,并且,OOV的召回率分别达到了70.7%、84.3%、79.0%和86.2%。实验结果证明,这种方法不仅结合了基于字标注和基于词标注两种方法的优势,而且能将二者的优势影响扩大,进一步地提高了未登录的识别效果。
论文目录
相关论文文献
- [1].中文分词关键技术研究[J]. 湖北农机化 2017(06)
- [2].基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用 2015(06)
- [3].中文分词[J]. 中国文艺家 2019(02)
- [4].双向循环网络中文分词模型[J]. 小型微型计算机系统 2017(03)
- [5].IK Analyzer 2012发布中文分词库[J]. 硅谷 2012(06)
- [6].中文分词在大数据时代医学领域的应用[J]. 电子技术与软件工程 2018(17)
- [7].基于深度学习算法的中文分词的研究[J]. 计算机产品与流通 2019(05)
- [8].中文分词相关算法研究[J]. 科技经济导刊 2018(02)
- [9].基于语义信息的中文分词研究[J]. 电脑知识与技术 2018(22)
- [10].一种基于词频统计的中文分词方法[J]. 科技展望 2016(10)
- [11].中文分词中歧义字段处理的研究[J]. 电子世界 2019(12)
- [12].基于词的关联特征的中文分词方法[J]. 通信技术 2018(10)
- [13].一种改进的单向扫描中文分词方法[J]. 科学技术创新 2017(33)
- [14].一种中文分词的动态规划模型[J]. 数学建模及其应用 2015(01)
- [15].中文分词和词性标注模型[J]. 计算机工程 2010(04)
- [16].常用中文分词软件在中医文本文献研究领域的适用性研究[J]. 世界科学技术-中医药现代化 2017(03)
- [17].基于循环神经网络序列标注的中文分词研究[J]. 计算机技术与发展 2017(10)
- [18].中文分词和词向量[J]. 中国新通信 2018(23)
- [19].基于异构数据联合训练的中文分词法[J]. 电子科技 2019(04)
- [20].基于受限领域的中文分词系统[J]. 信息系统工程 2011(11)
- [21].基于深度神经网络模型的中文分词方案[J]. 哈尔滨工程大学学报 2019(09)
- [22].基于在线比较评论情感分析的方法探索[J]. 中国市场 2019(25)
- [23].基于中文分词的电子病历数据挖掘技术[J]. 湖南科技学院学报 2016(10)
- [24].一种面向中文分词的搜索算法[J]. 计算机应用与软件 2018(10)
- [25].基于Lucene的中文分词器的设计与实现[J]. 微型机与应用 2011(18)
- [26].基于隐马尔可夫模型的中文分词[J]. 现代计算机(专业版) 2018(33)
- [27].基于联合学习的跨领域法律文书中文分词方法[J]. 中文信息学报 2019(09)
- [28].中英命名实体识别及对齐中的中文分词优化[J]. 电子学报 2015(08)
- [29].一种基于层叠模型的中文分词系统[J]. 太原师范学院学报(自然科学版) 2013(04)
- [30].基于膨胀卷积神经网络模型的中文分词方法[J]. 中文信息学报 2019(09)