基于HTK的汉语连续语音识别系统的设计与实现

论文摘要

语音识别最直接的目的是让计算机听懂人说的话。经过半个多世纪的发展,语音识别理论已趋近成熟。大量的实验结果和实践操作证明,日前很多语音识别算法和识别模型非常有效。语音识别技术已被广泛应用于各行各业中。本文主要探究了语音识别理论在汉语连续语音识别中的应用。本文先介绍了语音识别系统的基本流程,语音信号处理的基本理论并且重点探讨了端点检测、特征参数提取的方法和原理。然后再从以下两方面对汉语连续语音识别的方法、原理进行深入的阐述：一方面从模式识别的研究角度,探讨了汉语语音的发音特点,提取了适合汉语语音识别的特征参数,训练了相应的语音识别模型,并且建立了汉语连续语音识别实验平台。本文基于隐马尔可夫模型(HMM)的连续语音训练和识别算法理论,结合美尔频率倒谱系数(MFCC)提取技术,单音素HMM建模技术,基于上下文相关的三音素HMM建模技术以及基于维特比算法的识别技术等一系列技术,利用隐马尔可夫模型工具箱(HTK)构建了基于HTK的连续语音识别实验平台。实验结果表明,随着HMM从单音素建模到三音素建模的转换,测试语句在语句级和字词级的识别率都呈增加的趋势,捆绑三音素后识别率达到稳定状态。语句级和字词级的识别率分别由开始的76.00%和90.67%提高到最后的96.00%和98.00%,识别效果非常理想。另一方面从语音识别软件开发的角度,设计和实现了汉语连续语音识别售票模拟系统。文中先介绍了HTK接口应用程序ATK (An Application Toolkit for HTK)的基本组成和基本原理,接着利用ATK在VS.NET平台上实现了汉语连续语音识别售票模拟系统,最后进行了相应的平台测试。测试结果表明它基本实现一个初级汉语语音识别售票系统的功能。

论文目录

摘要

Abstract

第一章绪论

1.1 语音识别概述

1.1.1 语音识别技术研究的意义

1.1.2 语音识别技术研究的发展历史以及未来前景

1.1.3 语音识别技术研究的难点

1.2 汉语连续语音识别技术的研究价值

1.3 本文所做的主要工作和结构安排

第二章语音信号前端分析

2.1 声学语音信号到数字语音信号的转化

2.1.1 预滤波

2.1.2 A/D变换

2.2 语音信号的预处理

2.2.1 预加重处理

2.2.2 语音信号的分帧加窗

2.3 语音信号的时域分析

2.3.1 短时能量及短时平均幅度分析

2.3.2 短时过零率

2.3.3 短时相关分析

2.4 复倒谱和倒谱

2.5 特征参数提取

2.5.1 LPCC特征参数

2.5.2 MFCC特征参数

2.6 端点检测

2.6.1 基于过零率的端点检测

2.6.2 基于能量的端点检测

2.7 本章小结

第三章连续语音识别应用中的隐马尔可夫模型

3.1 隐马尔科夫模型的基本概念

3.1.1 隐马尔可夫模型

3.1.2 隐马尔可夫模型的基本元素

3.2 隐马尔科夫模型的基本算法

3.2.1 前向—后向算法

3.2.2 维特比算法

3.2.3 Baum-Welch算法

3.3 连续型隐马尔科夫模型

3.3.1 连续型隐马尔可夫模型基本定义

3.3.2 连续型隐马尔可夫模型参数估计

3.4 隐马尔科夫模型在连续语音识别应用中的一些问题

3.4.1 下溢问题

3.4.2 参数初始化问题

3.5 本章小结

第四章基于HTK的汉语连续语音识别系统的设计

4.1 HTK的基本原理

4.2 汉语连续语音识别系统的设计

4.2.1 前期数据处理

4.2.2 模型重估

4.2.3 测试识别

4.2.4 结论评估

4.3 本章小结

第五章基于HTK的汉语连续语音识别系统的实现

5.1 ATK的基本原理

5.2 汉语连续语音识别系统的实现

5.3 本章小结

第六章总结与展望

6.1 全文总结

6.2 工作展望

参考文献

致谢

攻读硕士学位期间发表论文

基于HTK的汉语连续语音识别系统的设计与实现

论文摘要

论文目录

相关论文文献

猜你喜欢