基于HTK的汉语连续语音识别系统的设计与实现

基于HTK的汉语连续语音识别系统的设计与实现

论文摘要

语音识别最直接的目的是让计算机听懂人说的话。经过半个多世纪的发展,语音识别理论已趋近成熟。大量的实验结果和实践操作证明,日前很多语音识别算法和识别模型非常有效。语音识别技术已被广泛应用于各行各业中。本文主要探究了语音识别理论在汉语连续语音识别中的应用。本文先介绍了语音识别系统的基本流程,语音信号处理的基本理论并且重点探讨了端点检测、特征参数提取的方法和原理。然后再从以下两方面对汉语连续语音识别的方法、原理进行深入的阐述:一方面从模式识别的研究角度,探讨了汉语语音的发音特点,提取了适合汉语语音识别的特征参数,训练了相应的语音识别模型,并且建立了汉语连续语音识别实验平台。本文基于隐马尔可夫模型(HMM)的连续语音训练和识别算法理论,结合美尔频率倒谱系数(MFCC)提取技术,单音素HMM建模技术,基于上下文相关的三音素HMM建模技术以及基于维特比算法的识别技术等一系列技术,利用隐马尔可夫模型工具箱(HTK)构建了基于HTK的连续语音识别实验平台。实验结果表明,随着HMM从单音素建模到三音素建模的转换,测试语句在语句级和字词级的识别率都呈增加的趋势,捆绑三音素后识别率达到稳定状态。语句级和字词级的识别率分别由开始的76.00%和90.67%提高到最后的96.00%和98.00%,识别效果非常理想。另一方面从语音识别软件开发的角度,设计和实现了汉语连续语音识别售票模拟系统。文中先介绍了HTK接口应用程序ATK (An Application Toolkit for HTK)的基本组成和基本原理,接着利用ATK在VS.NET平台上实现了汉语连续语音识别售票模拟系统,最后进行了相应的平台测试。测试结果表明它基本实现一个初级汉语语音识别售票系统的功能。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 语音识别概述
  • 1.1.1 语音识别技术研究的意义
  • 1.1.2 语音识别技术研究的发展历史以及未来前景
  • 1.1.3 语音识别技术研究的难点
  • 1.2 汉语连续语音识别技术的研究价值
  • 1.3 本文所做的主要工作和结构安排
  • 第二章 语音信号前端分析
  • 2.1 声学语音信号到数字语音信号的转化
  • 2.1.1 预滤波
  • 2.1.2 A/D变换
  • 2.2 语音信号的预处理
  • 2.2.1 预加重处理
  • 2.2.2 语音信号的分帧加窗
  • 2.3 语音信号的时域分析
  • 2.3.1 短时能量及短时平均幅度分析
  • 2.3.2 短时过零率
  • 2.3.3 短时相关分析
  • 2.4 复倒谱和倒谱
  • 2.5 特征参数提取
  • 2.5.1 LPCC特征参数
  • 2.5.2 MFCC特征参数
  • 2.6 端点检测
  • 2.6.1 基于过零率的端点检测
  • 2.6.2 基于能量的端点检测
  • 2.7 本章小结
  • 第三章 连续语音识别应用中的隐马尔可夫模型
  • 3.1 隐马尔科夫模型的基本概念
  • 3.1.1 隐马尔可夫模型
  • 3.1.2 隐马尔可夫模型的基本元素
  • 3.2 隐马尔科夫模型的基本算法
  • 3.2.1 前向—后向算法
  • 3.2.2 维特比算法
  • 3.2.3 Baum-Welch算法
  • 3.3 连续型隐马尔科夫模型
  • 3.3.1 连续型隐马尔可夫模型基本定义
  • 3.3.2 连续型隐马尔可夫模型参数估计
  • 3.4 隐马尔科夫模型在连续语音识别应用中的一些问题
  • 3.4.1 下溢问题
  • 3.4.2 参数初始化问题
  • 3.5 本章小结
  • 第四章 基于HTK的汉语连续语音识别系统的设计
  • 4.1 HTK的基本原理
  • 4.2 汉语连续语音识别系统的设计
  • 4.2.1 前期数据处理
  • 4.2.2 模型重估
  • 4.2.3 测试识别
  • 4.2.4 结论评估
  • 4.3 本章小结
  • 第五章 基于HTK的汉语连续语音识别系统的实现
  • 5.1 ATK的基本原理
  • 5.2 汉语连续语音识别系统的实现
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 全文总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表论文
  • 相关论文文献

    标签:;  ;  ;  

    基于HTK的汉语连续语音识别系统的设计与实现
    下载Doc文档

    猜你喜欢