基于语音识别基元声学整体结构特征的识别模型研究

论文题目: 基于语音识别基元声学整体结构特征的识别模型研究

论文类型: 博士论文

论文专业: 电路与系统

作者: 贺苏宁

导师: 虞厥邦

关键词: 声学层,语言层,端点检测,多子带谱,置信度评测

文献来源: 电子科技大学

发表年度: 2005

论文摘要: 语音识别的研究目标是实现“语音-文字”的正确转换。基于Bayes原理的语音识别模型涉及声学层和语言层知识的适当表示和运用。多年的研究表明,根据具体研究对象的特点确定识别基元、进行准确的端点检测、提取能够更多的表现不同识别基元相互之间声学差异、对多种干扰因素有较强免疫力的特征参数、在此基础上建立具有最小重叠空间分布的识别模型对于提高语音识别率具有重要的意义。本文主要致力于自然和电话语音的端点检测、汉语音节整体结构声学识别模型的构造、低信噪比下稳健的英语数字识别模型设计与性能分析,并通过反复的实验证明新的算法和模型是可行有效的,部分研究成果已经用于设备型号研制。本文主要包括以下创新之处: (1)针对高信噪比汉语连续语音端点模糊问题,提出了基于汉字音节短时峰谷点能量的端点检测算法。该算法简单易用,检测准确度高。实验数据显示汉语音节端点的检测率达到96%以上。 (2)在分析了汉语连续语音的协同发音产生的弱化发音现象和时域端点检测算法的缺陷之后,设计了基于多子带谱特征的汉语端点检测算法。该算法利用语谱带上的分层信息精确捕捉相邻汉字音节的局部跳变时间点,可以检测到一般的检测算法极易疏漏的弱化音节的端点。该算法的平均检测率大于97%。 (3)根据电话信道数字语音信噪比低和噪音特性随机多变的特点,设计了适合窄带电话的帧时域能量与主频带能量(300～1500Hz)的混合脉冲检测模式,通过对脉冲序列的整形、滤除合并、位置微调确定数字端点。该算法突出的优点是适应的信噪比动态范围较宽,即使信噪比只有3.5dB,也能准确地检测到边缘时间点。 (4)在深入分析DTW和HMM模型的基础上,结合汉语语音结构特点,设计了一种新的基于汉字音节整体MFCC向量模型。该模型能够根据各个音节的持续时间动态地调整帧长,更加完整地表现了语音时频信息的演化过程。在同样的测试条件下,固定帧数比固定帧长的识别率提高3.0%以上。文中还分析了几个主要影响汉语识别率的参数:滤波器组数、语音帧数、MFCC向量维数、距离加权系数、中值滤波器阶数、输入滤波器带宽等,这些参数恰当地设置对于识别率有积

论文目录:

摘要

Abstract

第一章语音识别概述

1．1 序言

1．2 语音识别研究的历史与现状

1．3 语音识别学科与其它学科的关系

1．4 语音识别主要研究的技术问题

1．5 性能评测体系、语料库与主要技术成果

1．6 本文的主要研究工作和论文的安排

第二章基于Bayes模式的语音识别模型分析

2．1 语音识别研究的基本问题

2．2 模板匹配模型

2．2．1 VQ模型

2．2．2 DTW模型

2．3 统计概率匹配模型

2．3．1 HMM模型

2．3．2 SM模型

2．4 动态规整搜索算法的连续语音识别系统模型解析

2．5 小结

第三章语音端点检测技术

3．1 引言

3．2 基于语音时域特征参数的端点检测方法

3．3 基于语音频域特征参数的端点检测方法

3．4 基于字(词)结构时域特征的汉语连续语音端点检测

3．4．1 基于汉语字(词)短时峰谷点能量的端点检测方法

3．4．2 实验语料与测试数据

3．4．3 检测方法性能分析

3．5 基于多子带谱特征的汉语连续语音端点检测

3．5．1 时域端点检测方法存在的问题

3．5．2 基于汉语频域特征的端点检测算法

3．5．3 实验数据与分析

3．6 非确定性噪音环境下的脉冲整形法

3．7 小结

第四章多种语音特征参数的识别性能分析

4．1 引言

4．2 线性预测系数特性分析

4．3 频域滤波器组设计

4．4 各种倒谱系数计算方法与物理特性分析

4．5 距离测度

4．6 各种特征的识别性能比较

4．7 小结

第五章汉字音节整体结构识别模型设计与性能分析

5．1 汉语语音特点简述

5．2 汉语语音识别模型与性能

5．3 对汉语识别声学模型的深层分析

5．4 汉字音节MFCC向量整体模型的实现

5．5 实验与数据分析

5．5．1 帧数固定和帧长固定的汉字音节整体MFCC向量模型识别性能

5．5．2 某些影响汉字音节整体MFCC向量模型识别率的参数分析

5．6 小结

第六章数字语音识别模型结构的比较性研究

6．1 引言

6．2 数字语音的基本特点

6．3 基于固定帧长观测向量序列的DTW结构的数字语音识别模型

6．4 基于固定帧数观测向量序列的DTW结构的数字语音识别模型

6．5 基于数字语音时频信息整体结构的单特征向量识别模型

6．6 数字语音MFCC向量序列整体模型的降噪设计与分析

6．6．1 模型的降噪设计与分析

6．6．2 数字语音识别算法处理流程

6．6．3 实验数据与分析

6．7 小结

第七章总结与展望

参考文献

致谢

个人简历、在学期间参加的科研项目及发表的学术论文

发布时间: 2005-09-23

参考文献

[1].基于HMM和ANN的汉语语音识别[D]. 陈立伟.哈尔滨工程大学2005
[2].基于特征提取的抗噪声语音识别研究[D]. 徐金甫.华南理工大学2000
[3].抗噪声语音识别新技术的研究[D]. 宁更新.华南理工大学2006
[4].语音识别中的环境补偿研究[D]. 沈海峰.北京邮电大学2006
[5].高效简约的语音识别声学模型[D]. 李小兵.中国科学技术大学2006
[6].听觉特性与鲁棒语音识别算法研究[D]. 孙暐.东南大学2006
[7].噪声鲁棒语音识别中若干问题的研究[D]. 雷建军.北京邮电大学2007
[8].语音关键词识别技术的研究[D]. 孙成立.北京邮电大学2008
[9].音频噪声环境下唇动信息在语音识别中的应用技术研究[D]. 奉小慧.华南理工大学2010
[10].语音识别中的后处理技术研究[D]. 吴斌.北京邮电大学2008

标签：声学层论文; 语言层论文; 端点检测论文; 多子带谱论文; 置信度评测论文;

基于语音识别基元声学整体结构特征的识别模型研究

猜你喜欢