汉字特征提取及识别技术的研究

汉字特征提取及识别技术的研究

论文摘要

文本定位与识别技术一直以来都是图像处理、计算机视觉领域的一个重要研究分支。随着Internet技术、多媒体技术的发展,大量融合复杂背景的图像文本出现在各种应用场合。如何让计算机高效地“理解”复杂背景下的汉字信息,以节省大量的人力,是对汉字识别技术提出的一个新的挑战。而基于这些图像文本的汉字识别技术自然也就成为了一个新的研究方向。传统的光学字符识别软件OCR(Optical Character Recognition)不能很好地处理此类图片,且常用的汉字结构特征和统计特征在表征汉字信息时也存在一定的局限性。针对以上问题,本文创新性地提出了采用局部特征来描述汉字的想法。本文首先选取并分析了代表性较强的Harris、SIFT、MSER特征检测算法,通过对比实验得出SIFT算子的检测效果最佳。随后,重点围绕局部特征展开了研究和讨论,分析了SIFT算法原理,再由汉字的形状特征及图像灰度信息出发,提出了两种新的特征描述子:(1)SSIFT(Shape SIFT)基于汉字相对全局形状特征和SIFT特征的描述子;(2)灰度差值统计描绘子GSD(Gray Scale Difference)。实验结果表明,新的算法在一定程度上克服、削弱了存在的问题,对汉字的旋转、尺度缩放、背景干扰具有很好的不变性。本文借鉴图片匹配的方式,通过计算汉字识别率来度量各种汉字特征的描述能力。通过对相关实验数据的分析,本文进一步提出了一种由粗到精的匹配策略,使得识别率又有了一定程度的提高。几何约束策略是文本的另一个研究重点。本文首先提出汉字存在局部结构重复的问题,分析了几何约束的原理及作用。在此基础上,提出了一种基于Mean-shift聚类的几何约束方法及一种新的适用于高维向量的度量准则,这个方法很好地解决了由于局部特性过于相似带来的误匹配问题,空间位置关系的约束使识别性能在一定程度上又有了提升。本文的研究成果丰富了汉字识别技术及其应用的研究思路,具有一定的理论意义和应用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 课题研究意义
  • 1.2 汉字识别技术研究现状
  • 1.3 存在的问题
  • 1.4 本文结构
  • 1.5 本章小结
  • 第二章 相关技术介绍
  • 2.1 图像特征分析技术
  • 2.1.1 数字图像特征概述
  • 2.1.2 局部特征简介
  • 2.1.3 尺度空间理论
  • 2.2 基于内容的图像搜索技术
  • 2.2.1 CBIR 原型介绍
  • 2.2.2 相关评价准则
  • 2.3 几何一致性分析技术
  • 2.3.1 几何一致性约束原理
  • 2.3.2 变换矩阵估计算法
  • 2.4 本章小结
  • 第三章 汉字特征提取技术
  • 3.1 特征点检测方法
  • 3.1.1 Harris 算法
  • 3.1.2 MSER 算法
  • 3.1.3 SIFT 算法
  • 3.1.4 特征点检测综合评价
  • 3.2 基于局部不变性的汉字特征描述
  • 3.2.1 SIFT 局部特征描绘子
  • 3.2.2 基于汉字形状信息和局部不变特征的描述子-SSIFT
  • 3.2.3 灰度差值统计描述算子(GSD)
  • 3.2.4 特征点匹配实验
  • 3.3 汉字识别测试流程及实验结果分析
  • 3.3.1 运行平台及开发工具
  • 3.3.2 测试流程介绍
  • 3.3.3 标准图库建立
  • 3.3.4 测试结果与分析
  • 3.3.5 由粗到精的筛选策略
  • 3.4 本章小结
  • 第四章 几何约束在汉字识别中的应用
  • 4.1 基于局部特征的汉字识别存在的问题
  • 4.2 图像间的几何变换模型
  • 4.3 基于 Mean-shift 算法的几何约束方法在汉字识别中的应用
  • 4.3.1 汉字识别中的几何约束流程介绍
  • 4.3.2 k 近邻采样算法
  • 4.3.3 Mean-shift 算法
  • 4.3.4 高维向量相似性度量方法
  • 4.3.5 实验结果分析
  • 4.4 本章小结
  • 第五章 结束语
  • 5.1 主要结论
  • 5.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].浅谈汉字发展与中国文化[J]. 现代交际 2016(21)
    • [2].小学低年级学生汉字学习认知诊断研究[J]. 教育探究 2019(02)
    • [3].《汉字里的纪律和规矩》[J]. 博览群书 2019(12)
    • [4].书法对汉字字形认知加工的影响——评《汉字认知与书法表现》[J]. 语文建设 2019(23)
    • [5].汉字与中国文化教学中的理据研究[J]. 皖西学院学报 2019(06)
    • [6].多媒体技术在汉字应用课堂教学中的应用研究[J]. 中国多媒体与网络教学学报(中旬刊) 2019(12)
    • [7].论“象”:汉字图象与汉字美学[J]. 江海学刊 2020(01)
    • [8].浅谈汉字的文化功能与文化传播路径——评《汉字审美与文化传播》[J]. 中国教育学刊 2020(02)
    • [9].基于汉字的桥式学习[J]. 语文建设 2019(22)
    • [10].互联网时代下的大学生汉字危机对策研究[J]. 汉字文化 2019(23)
    • [11].汉字演变及发展规律简析[J]. 辽宁广播电视大学学报 2019(04)
    • [12].弘扬汉字文化,为汉字和汉字文化走向世界贡献力量——纪念《汉字文化》创刊30周年[J]. 汉字文化 2020(05)
    • [13].浅析汉字元素在茶包装设计中的多层面运用[J]. 工业设计 2020(03)
    • [14].汉字趣解[J]. 思维与智慧 2020(02)
    • [15].从“灾荒”汉字看古代的救灾防治工作[J]. 汉字文化 2020(04)
    • [16].用科学的汉字理论指导汉字教育[J]. 汉语言文学研究 2020(01)
    • [17].汉字见智慧[J]. 秘书之友 2020(03)
    • [18].汉字趣解[J]. 思维与智慧 2020(06)
    • [19].西方作家对汉字的创造性误用——以谢阁兰和庞德为例[J]. 广东社会科学 2020(03)
    • [20].大学生汉字应用调查研究[J]. 中国大学教学 2020(Z1)
    • [21].基于汉字演变史与对社会影响的弘扬中华汉字文化的教育研究[J]. 产业与科技论坛 2020(06)
    • [22].“思维”在文字里生长[J]. 教育观察 2020(11)
    • [23].青年文化中汉字图案的服饰表达[J]. 戏剧之家 2020(18)
    • [24].饮水思源 计算机汉字标准造福人类——纪念第一个计算机汉字标准诞生40周年[J]. 中国标准化 2020(05)
    • [25].一字汉字ザ变动词上一段化在不同时期的差异[J]. 湖北科技学院学报 2020(02)
    • [26].探究汉字“家”的结构与古文化[J]. 文物鉴定与鉴赏 2020(08)
    • [27].汉字分化的三种内涵析论[J]. 国学学刊 2020(02)
    • [28].汉字型塑“中国”[J]. 书城 2020(07)
    • [29].留学生汉字认知偏误探析[J]. 汉字文化 2020(10)
    • [30].汉字文化热的喜与忧[J]. 智慧中国 2020(08)

    标签:;  ;  ;  ;  ;  ;  

    汉字特征提取及识别技术的研究
    下载Doc文档

    猜你喜欢