脱机中文手写识别—从孤立汉字到真实文本

脱机中文手写识别—从孤立汉字到真实文本

论文摘要

鉴于巨大的应用潜力和附加的特别难度,脱机手写汉字识别吸引了大批的研究者。近三十年的研究,主要集中在工笔手写汉字识别方面。产出的成果囊括了手写矫形、特征提取、分类器设计以及语言后处理等各个方面,进入手写文本时代的条件基本成熟。本文旨在建立脱机中文手写文本识别的基本框架,涵盖了从基础数据到评价体系,再从改进的方法到全新研究策略等一系列内容。首先构建了能够支撑中文手写文本研究任务的基础数据,HIT-MW库;并在理解问题的过程中,定义了评价字符切分和识别算法的度量准则。然后分别从切分策略和无切分策略两条不同路径开展手写文本识别方法的研究。最后,在证实切分策略和无切分策略存在明显互补性的基础上,提出基于双策略的组合系统。本文分析了手写汉字识别的未来发展趋势并给出研究的逻辑结构。首先以识别对象的升级为主线,系统总结了文字识别研究的发展历史。通过分析发展历史,并结合汉字识别研究在手写库建设和识别策略方面的研究现状,指出中文手写文本识别将是未来的研究重心。这将进入一个新的时代—“手写文本时代”。新生时代是在手写单字时代基础上的进一步发展,所以,随后评述了手写孤立汉字识别领域在手写矫形、特征提取、分类器设计以及语言后处理等各个方面的重要研究成果。本文从全新角度构建了HIT-MW库。HIT-MW库是国际上首个文本级别的中文手写库,它的收集成功昭示着手写文本时代的开端。它的抄写文本来自人民日报语料库,涵盖了约800万字语料的99.33%用字。书写者经过精心确定,得到了与实际分布基本吻合的统计数据。经过系统的采样策略和缜密的过程控制,HIT-MW库不仅包含歪斜、交叠和粘连的文本行,还有抄写错误、文字涂改等真实手写现象。大量的支撑证据表明,这些基础数据可以视为全体中文手写文本的代表子集;其上的识别结果,具有统计意义。目前,该库已为十多家科研机构采用。本文不仅定义了文本研究的评价准则,还从切分角度进行了方法研究。首先建立了文本切分和识别的基本评价准则。为评价文本的识别优劣,定义了识别正确率和识别准确率。两种准则可以有效刻画系统在删除错误、插入错误和替换错误上的平衡能力。为了评价不同字符切分方法,定义了切分正确率、切分精确率和切分偏差率等准则。综合应用这三种准则,可以发现切分方法在数字、标点和汉字等不同字符类型上的切分能力以及在过切分和弱切分上的偏向性。其次开展了基于切分策略的真实文本识别研究并提供了两个重要建议。第一,在设计新算法时,如果其支持证据仅依据于一种手写矫形配置上表现出的优势,那么其可信性可能并不成立;理想的方案是比较待评价新、旧系统各自最优手写矫形配置上的结果。第二,MQDF分类器需要改进,以加入先验概率信息,进一步的分析显示,采用大规模语料估计的先验信息比直接从训练集估计的先验更具稳定性。本文提出基于无切分策略的真实中文手写文本识别方法。该方法在训练时直接采用手写行,不需要对字符位置进行标记;识别时无需字符切分阶段。采用同类型特征的切分系统和无切分系统间的对比实验,证实了无切分策略的可行性和巨大潜力。在这一研究框架下,针对四平面交叉特征的弱点,提出增强的四平面交叉特征(en-FPF)。与以前的方向平面不同,en-FPF的方向平面包含了重构原始图像的全部重要信息。实验表明,en-FPF在数字、标点和汉字上均有更好的识别性能,也是目前无切分框架下各项识别率最高的单项特征。en-FPF在融合了简单的网格特征,并结合主成分分析和数据共享方法之后,对汉字的识别正确率,在训练数据稀疏的条件下,仍超过50%。本文在验证了两种识别策略的互补性的基础上,分别设计了串行结构和并行结构的双策略组合系统。首先定义了字符匹配率用以反映两系统在某个识别正确率上的互补能力。在这一准则的辅助下,发现两种识别策略甚至在同样训练数据和同类型特征下,仍可以很好的相互补充。随后,设计了两种双策略组合系统,扩展了多分类器研究的内容和范围。串行结构的组合系统把无切分识别器插入到切分系统的字符切分阶段。这一组合结构是在识别过程中,先启动无切分系统,随后启动切分系统。并行结构的组合系统预先以并行方式执行切分和无切分系统,然后由切分系统的度量值决定是直接输出还是转而输出无切分的结果。实验结果证实了双策略组合系统的显著效力。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 脱机文字识别发展历史
  • 1.2.1 OCR研究的探索期
  • 1.2.2 OCR研究的蓬勃发展期
  • 1.2.3 汉字识别的黄金时期
  • 1.2.4 OCR研究趋向部分成熟时期
  • 1.3 脱机手写汉字识别的发展趋势
  • 1.3.1 中英文脱机手写识别的研究策略对比
  • 1.3.2 中英文脱机手写库对比
  • 1.3.3 脱机手写汉字识别发展趋势分析
  • 1.4 已有技术评述
  • 1.4.1 预处理
  • 1.4.2 特征提取
  • 1.4.3 分类器设计
  • 1.4.4 后处理
  • 1.5 章内容和组织结构
  • 第2章 真实手写文本的采样机制及有效性验证
  • 2.1 采样策略
  • 2.2 手写样本收集
  • 2.2.1 数据分割与版式设计
  • 2.2.2 打印、分发和收集样本
  • 2.3 手写样本处理
  • 2.3.1 挑选、扫描与二值化
  • 2.3.2 手写文本行分割
  • 2.3.3 文本真值标注
  • 2.3.4 HIT-MW库的组织结构
  • 2.4 手写样本的统计和有效性验证
  • 2.4.1 基本信息统计
  • 2.4.2 涂改与误写分析
  • 2.4.3 标点误写的统计与推断
  • 2.5 HIT-MW库的适用范围
  • 2.6 小结
  • 第3章 中文手写文本识别的评价和基于切分策略的研究
  • 3.1 实验数据集
  • 3.2 文本识别的评价准则
  • 3.3 汉字切分评述
  • 3.3.1 Hong算法
  • 3.3.2 Liu算法
  • 3.3.3 字符切分的评价准则
  • 3.4 最优手写矫形配置的新结论
  • 3.4.1 相关特征提取算法
  • 3.4.2 相关高斯分类器
  • 3.4.3 实验配置
  • 3.4.4 实验结果
  • 3.5 改进MQDF分类器
  • 3.5.1 实验配置
  • 3.5.2 实验结果
  • 3.6 小结
  • 第4章 基于无切分策略的中文真实手写文本识别
  • 4.1 理论框架及意义
  • 4.2 滑动窗
  • 4.3 常用特征提取方法的引入
  • 4.3.1 网格特征
  • 4.3.2 四方向平面交叉特征
  • 4.3.3 梯度特征
  • 4.3.4 Gabor特征
  • 4.3.5 Cross特征
  • 4.4 HMM训练与解码
  • 4.5 常用特征在无切分框架下的实验
  • 4.5.1 实验配置
  • 4.5.2 实验结果
  • 4.6 从缓解数据不足角度提升系统性能
  • 4.6.1 实验配置
  • 4.6.2 实验结果
  • 4.6.3 结果分析
  • 4.6.4 错误分析
  • 4.6.5 与切分系统在识别率上的比较
  • 4.6.6 与切分系统在运行时间和内存占用上的比较
  • 4.7 从改进特征角度提升系统性能
  • 4.7.1 en-FPF在无切分框架下的描述
  • 4.7.2 重新实验的结果
  • 4.7.3 与修改前系统的比较
  • 4.8 小结
  • 第5章 基于双策略组合的中文真实手写文本识别
  • 5.1 多分类器组合方法的评述
  • 5.1.1 成员分类器的生成
  • 5.1.2 组合成员分类器输出的方法
  • 5.1.3 多分类器组合的常用组合结构
  • 5.1.4 当前方法分析及存在的问题
  • 5.2 CMR准则
  • 5.2.1 CMR的定义
  • 5.2.2 基于CMR曲线的互补性验证
  • 5.3 基于串行结构的双策略组合系统
  • 5.3.1 总体结构
  • 5.3.2 字符边界的精化
  • 5.3.3 串行组合方法的识别实验及评价
  • 5.4 基于并行结构的双策略组合系统
  • 5.4.1 总体结构
  • 5.4.2 实验评价
  • 5.5 小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].浅谈汉字发展与中国文化[J]. 现代交际 2016(21)
    • [2].小学低年级学生汉字学习认知诊断研究[J]. 教育探究 2019(02)
    • [3].《汉字里的纪律和规矩》[J]. 博览群书 2019(12)
    • [4].书法对汉字字形认知加工的影响——评《汉字认知与书法表现》[J]. 语文建设 2019(23)
    • [5].汉字与中国文化教学中的理据研究[J]. 皖西学院学报 2019(06)
    • [6].多媒体技术在汉字应用课堂教学中的应用研究[J]. 中国多媒体与网络教学学报(中旬刊) 2019(12)
    • [7].论“象”:汉字图象与汉字美学[J]. 江海学刊 2020(01)
    • [8].浅谈汉字的文化功能与文化传播路径——评《汉字审美与文化传播》[J]. 中国教育学刊 2020(02)
    • [9].基于汉字的桥式学习[J]. 语文建设 2019(22)
    • [10].互联网时代下的大学生汉字危机对策研究[J]. 汉字文化 2019(23)
    • [11].汉字演变及发展规律简析[J]. 辽宁广播电视大学学报 2019(04)
    • [12].弘扬汉字文化,为汉字和汉字文化走向世界贡献力量——纪念《汉字文化》创刊30周年[J]. 汉字文化 2020(05)
    • [13].浅析汉字元素在茶包装设计中的多层面运用[J]. 工业设计 2020(03)
    • [14].汉字趣解[J]. 思维与智慧 2020(02)
    • [15].从“灾荒”汉字看古代的救灾防治工作[J]. 汉字文化 2020(04)
    • [16].用科学的汉字理论指导汉字教育[J]. 汉语言文学研究 2020(01)
    • [17].汉字见智慧[J]. 秘书之友 2020(03)
    • [18].汉字趣解[J]. 思维与智慧 2020(06)
    • [19].西方作家对汉字的创造性误用——以谢阁兰和庞德为例[J]. 广东社会科学 2020(03)
    • [20].大学生汉字应用调查研究[J]. 中国大学教学 2020(Z1)
    • [21].基于汉字演变史与对社会影响的弘扬中华汉字文化的教育研究[J]. 产业与科技论坛 2020(06)
    • [22].“思维”在文字里生长[J]. 教育观察 2020(11)
    • [23].青年文化中汉字图案的服饰表达[J]. 戏剧之家 2020(18)
    • [24].饮水思源 计算机汉字标准造福人类——纪念第一个计算机汉字标准诞生40周年[J]. 中国标准化 2020(05)
    • [25].一字汉字ザ变动词上一段化在不同时期的差异[J]. 湖北科技学院学报 2020(02)
    • [26].探究汉字“家”的结构与古文化[J]. 文物鉴定与鉴赏 2020(08)
    • [27].汉字分化的三种内涵析论[J]. 国学学刊 2020(02)
    • [28].汉字型塑“中国”[J]. 书城 2020(07)
    • [29].留学生汉字认知偏误探析[J]. 汉字文化 2020(10)
    • [30].汉字文化热的喜与忧[J]. 智慧中国 2020(08)

    标签:;  ;  ;  ;  ;  ;  

    脱机中文手写识别—从孤立汉字到真实文本
    下载Doc文档

    猜你喜欢