基于增量学习的中文手写书写者自适应技术研究

基于增量学习的中文手写书写者自适应技术研究

论文摘要

一直以来,无约束的中文手写文字识别都是模式识别领域的一大难题,长期成为该领域的研究热点。虽然规范的中文手写识别技术已经取得了较大的发展,但如何在无约束的风格多样的中文手写识别领域中获得令人满意的识别性能(大约98%左右)就是一个与待解决的重要问题。另外一方面,随着iPhone, iPad, Android智能手机等针对个人消费者的手持设备越来越流行,书写者自适应技术越来越受到学术界和工业界的重视。因为,在实际应用中,在一台固定的设备(比如智能手机,平板电脑等)上使用手写识别相关应用的使用者往往是一个特定的用户,对于该用户来说,识别引擎能否在该特定用户的书写样本上取得好的识别性能要远比在所有用户书写的样本中取得好的平均识别性能更为重要。针对以上问题,本文致力于研究基于增量学习的书写者自适应技术,这种技术可以通过不断的对特定用户的书写风格进行自适应的学习,从而不断的提高该特定用户的识别率,使得用户获得“越写越准”的用户体验。然而这项研究工作面临着多项技术难题,包括,汉字结构复杂与书写风格多变的问题,增量学习技术与书写者自适应技术的融合,增量学习样本数量不稳定和数量过低的问题,在鉴别特征空间(Discriminative Feature Space)进行增量学习的问题,以及同时对特征变换和分类器等相关联的多模块进行增量学习的问题。本文围绕着这些难点对基于增量学习的中文手写书写者自适应技术展开了一系列的研究,主要工作包括:1.对中文手写单字识别进行了深入研究。包括了手写文字的预处理、特征提取和分类器的设计。在此基础上,本文对联机手写文字识别中的特征提取技术进行了深入的研究。在联机中文手写汉字识别技术中,虚拟笔画技术是解决联机草书识别问题的一项关键技术,但它同时也存在混淆部分汉字笔划的严重弊端。本文通过理论和实验,深入分析了虚拟笔画技术在大类别汉字识别时的利与弊,提出了两种用于改进虚拟笔画技术的算法。实验结果表明,采用本文提出的方法大大减少了虚拟笔画技术带来的弊端,同时也保留了该技术的优点,使得识别率得到了更进一步的提升。2.针对传统的基于切分的手写中文词组识别技术中,由于切分技术不成熟导致识别性能较差的问题,提出了一种基于整词识别的旋转无关的无约束中文手写词组识别技术。实验表明,该技术的性能要远远优于传统的基于切分的中文手写词组识别技术。与此同时,针对整词识别方法中数据库难以创建的问题,本文也提出了一种中文手写词组合成方法,该方法可以利用目前现有的手写单字样本合成手写词组样本。实验表明,通过利用该合成数据库训练的手写中文词组识别系统可以在真实的手写中文词组数据集上获得良好的性能,从而证明了该技术的有效性。3.在模式识别领域中,线性判决分析(Linear Discriminant Analysis, LDA)技术由于其良好的性能而收到广泛的应用。尽管增量的线性判决分析(Incremental Linear Discriminant Analysis, ILDA)技术也在数据挖据,人脸识别中有了相应的应用,但是基于ILDA的书写者自适应技术仍没有人研究。针对该问题,本文首次在中文手写文字识别的框架下,创新性的提出了一种基于增量的线性判决分析的中文手写书写者自适应技术。与此同时,针对ILDA技术中增量样本不足和不稳定的问题,在ILDA算法中引入了加权机制,提出了一种加权的ILDA算法(Weighted ILDA, WILD A).实验结果表明,通过利用ILDA或者WILDA技术对特定用户的书写风格进行自适应的学习,可以大大降低该特定用户的识别错误率,同时对其他一般书写者的识别性能影响很小。另外一方面由于WILDA技术可以很好的解决增量样本不足和分布不均的问题,因此其性能要优于ILDA算法。4.在中文手写文字识别领域,修正的二次判决函数分类器凭借其优良的性能得到了非常广泛的应用。本文将增量学习算法与该算法相结合,创新性的提出了—种增量的修正二次判决函数(Incremental Modified Quadratic Discriminant Fuction, IMQDF)方法,并与书写者自适应技术相结合,提出一种新的书写者自适应技术。并在此基础上将ILDA技术与IMQDF技术相结合,提出了一种基于ILDA和IMQDF的两级增量学习框架(我们称之为ILDAIMQDF技术),并将其应用到中文手写书写者自适应技术中。最后类似于WILDA算法,将加权机制引入到IMQDF和ILDAIMQDF算法中,提出了WIMQDF和WILDAIMQDF算法。实验表明,以上四种基于增量的二次判决函数的书写者自适应技术可以获得远胜于基于ILDA技术和传统的模版更新技术的书写者自适应技术的性能。而WILDAIMQDF由于将ILDA算法和IMQDF算法相结合,并引入加权机制解决了增量样本不足的问题,获得了最优的性能。5.尽管基于增量的二次判决函数的中文书写者自适应技术能够获得非常好的性能,但是其巨大的参数存储量大大制约了其应用范围和前景。针对这个问题,本文提出了一种基于K-L变换和子空间矢量量化的两级压缩技术,该技术能以牺牲较小的识别性能来换取大幅降低增量的二次判决函数技术的存储空间。通过实验表明,通过利用该技术可以将增量的二次判决函数技术的存储量从3755MB压缩到9.98M,大幅压缩了99.73%,而首候选和前10候选的识别率分别仅仅下降了1.56%和0.08%。总之,基于增量学习的中文手写书写者自适应技术的研究是一个涉及多个领域(手写文字识别、机器学习、图像处理)的综合研究项目。通过对特定书写者的书写风格的学习,可以将一个书写者无关的识别引擎转化为一个书写者相关的手写识别引擎,从而大大提高对特定书写者的书写样本的识别率,进而使用户获得更自然、更人性化、更好的用户体验。这些特点都表明了中文手写书写者自适应技术将是汉字手写识别技术未来的一个重要的发展方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究的问题
  • 1.3 本文的工作
  • 第二章 中文手写书写者自适应技术的研究现状
  • 2.1 中文手写文字识别的研究
  • 2.1.1 中文手写单字识别的主要技术
  • 2.1.2 中文手写词组识别的主要技术
  • 2.2 书写者自适应技术的研究
  • 2.3 本章小结
  • 第三章 中文手写文字识别技术研究
  • 3.1 中文手写文字识别中的预处理技术
  • 3.1.1 非线性归一化技术研究
  • 3.1.2 弹性网格技术研究
  • 3.2 脱机中文手写汉字的特征提取技术研究
  • 3.2.1 Gabor特征提取
  • 3.2.2 梯度特征提取
  • 3.2.3 Character-SIFT特征提取
  • 3.3 联机中文手写汉字的特征提取技术研究
  • 3.3.1 8方向特征提取
  • 3.3.2 虚拟笔画技术分析与研究
  • 3.3.3 基于特征融合的修正的8方向特征提取技术研究
  • 3.3.4 基于局部特征增强的修正的8方向特征提取技术研究
  • 3.4 分类器设计
  • 3.4.1 LDA分类器
  • 3.4.2 MQDF分类器
  • 3.5 基于整词识别的旋转无关的无约束中文手写词组识别
  • 3.5.1 中文手写词组数据库合成技术研究
  • 3.5.2 基于整词的旋转无关的无约束中文手写词组识别技术研究
  • 3.5.3 基于子空间共享的压缩技术
  • 3.6 实验结果
  • 3.6.1 中文脱机手写识别技术实验
  • 3.6.2 中文联机手写汉字识别技术实验
  • 3.6.3 基于整词的中文手写词组识别实验
  • 3.7 本章小结
  • 第四章 基于ILDA的中文手写书写者自适应技术研究
  • 4.1 ILDA通用解决方案
  • 4.2 WILDA技术研究
  • 4.3 基于ILDA/WILDA的书写自适应手写识别系统
  • 4.4 实验结果
  • 4.4.1 实验数据库介绍
  • 4.4.2 原始的LDA分类器在CouchGB1与IncCouchDB中的性能
  • 4.4.3 基于WILDA的书写者自适应技术在IncCouchDB中的性能
  • 4.4.4 WILDA技术与ILDA技术在IncCouchDB中的性能对比
  • 4.4.5 不同权重参数下WILDA技术在IncCouchDB中的性能
  • 4.4.6 ILDA与WILDA在CouchGB1中的性能对比
  • 4.5 本章小结
  • 第五章 基于IMQDF的中文手写书写者自适应技术研究
  • 5.1 IMQDF技术研究
  • 5.2 ILDAIMQDF技术研究
  • 5.3 WIMQDF/WILDAIMQDF技术研究
  • 5.4 基于增量MQDF的中文手写书写者自适应系统
  • 5.5 针对ILDAIMQDF/WILDAIMQDF的压缩技术研究
  • 5.6 实验结果
  • 5.6.1 实验数据库介绍
  • 5.6.2 原始MQDF分类器在CASIA-OLHWDB1.1和IncCouchDB中的性能
  • 5.6.3 IMQDF与ILDAIMQDF技术在IncCouchDB中的性能
  • 5.6.4 不同权重参数对WIMQDF和WILDAIMQDF技术的性能影响
  • 5.6.5 四种基于IMQDF的自适应技术在CASIA-OLHWDB1.1中的性能
  • 5.6.6 不同的书写者自适应技术的识别性能对比
  • 5.6.7 两级压缩技术的性能评估
  • 5.7 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间取得的研究成果
  • 致谢
  • 附件
  • 相关论文文献

    • [1].关于执笔方法[J]. 基础教育课程 2017(09)
    • [2].方文竹的诗[J]. 青海湖 2016(11)
    • [3].全国代表畅谈文艺[J]. 新民周刊 2016(48)
    • [4].苦难的书写者[J]. 厦门文学 2016(12)
    • [5].小对话[J]. 山西文学 2017(01)
    • [6].山川展开广阔的纸张(组诗)[J]. 绿风 2017(01)
    • [7].包丽英:蒙古民族辉煌历史的书写者[J]. 草原 2017(04)
    • [8].书写者还乡的道路[J]. 扬子江诗刊 2017(04)
    • [9].书画无为品自高[J]. 天工 2017(03)
    • [10].北方的书写者[J]. 芳草(经典阅读) 2015(Z1)
    • [11].编者的话[J]. 党课参考 2019(22)
    • [12].书写者探寻“辛亥秋保路死事纪念碑”[J]. 先锋 2017(09)
    • [13].书写者(外一章)[J]. 鸭绿江 2020(20)
    • [14].书写者(外二首)[J]. 中国诗歌 2010(05)
    • [15].寂静书写者[J]. 百花洲 2010(03)
    • [16].键盘时代说写字[J]. 人民周刊 2020(13)
    • [17].朵云讲堂——手札的欣赏与书写(四)[J]. 书法 2010(07)
    • [18].做伟大时代的书写者[J]. 延安文学 2017(06)
    • [19].徘徊于语言中的书写者[J]. 东方艺术 2017(20)
    • [20].徽州祭簿的媒介叙事与乡民记忆建构研究[J]. 现代传播(中国传媒大学学报) 2020(03)
    • [21].我眼中的马超:一位痴绝书写者的抉择[J]. 东方艺术 2017(24)
    • [22].鲍十:喧嚣时代的乡土记忆书写者(评论)[J]. 作品 2019(04)
    • [23].小学生书写现状分析及策略[J]. 陕西教育(高教版) 2009(10)
    • [24].红船 历史的书写者和见证者[J]. 新湘评论 2016(14)
    • [25].书写者的暴力——清季革命、君宪两派论战背景下妓女形象的扭曲[J]. 近代史学刊 2009(00)
    • [26].习作点评[J]. 中国钢笔书法 2009(06)
    • [27].刘双隆诗二首[J]. 北方作家 2009(02)
    • [28].时光的书写者[J]. 汽车之友 2018(03)
    • [29].汉魏两晋南北朝时期的佛经书写者——基于取经与译经活动的考查[J]. 中国书法 2019(17)
    • [30].谈中皇山、鼓山、滏山石窟刻经的书写者[J]. 中国书法 2016(23)

    标签:;  ;  ;  ;  ;  

    基于增量学习的中文手写书写者自适应技术研究
    下载Doc文档

    猜你喜欢