基于声学特征的自动语言辨识研究

论文摘要

本文主要利用各种声学特征参数基于GMM建模的方法开展了自动语言辨识的研究，主要的研究工作包括：1．六语种语音语料库的建立：利用已有的汉语语料库和从网络上采集的英、德、日、法、西班牙等五语言的语音建立了多语种语料库。语料库的训练集中有264个说话人、每人60～300秒的语音，测试集中每个语种有30～50个训练集外的说话人，每个人有至少50个平均时长为4.5秒的语音片段。2．自动语言辨识系统的初步实验研究：建立了基于GMM的六语种识别系统，研究了系统识别率和GMM的混合分量数目与训练数据的多少的关系，以及RASTA滤波和CMS处理对MFCC参数性能的影响。3．提出了一种新的二次弯折函数，研究了基于基音频率均值的说话人归一化技术在自动语言辨识系统中的应用。利用对比实验来比较二次弯折函数与常规的线性弯折函数和分段线性弯折函数的性能。4．提出了滑动倒谱的概念，并将两种常用特征参数RASTA-MFCC和RASTA-PLP的滑动倒谱与当前研究中广泛采用的滑动差分倒谱进行了对比研究。然后进一步考察了RASTA-PLP滑动倒谱的控制参数在不同的取值情况下对识别性能的影响，利用爬山法确定了达到局部最优控制参数组合的路径。最后研究了RASTA-PLP的滑动倒谱与其它参数的特征级和决策级数据融合。

论文目录

摘要

ABSTRACT

第一章前言

1.1 自动语言辨识介绍

1.2 自动语言辨识研究的主要方法

1.3 自动语言辨识系统评测

1.4 国内的研究现状

1.5 论文的组织和章节安排

第二章语音信号特征参数

2.1 RASTA-PLP参数

2.2 MFCC参数

2.3 RASTA-MFCC参数

2.4 CMS-MFCC参数

2.5 滑动差分倒谱参数

第三章高斯混合模型

3.1 高斯混合模型

3.2 期望最大（EM）算法

3.3 贪婪期望最大（Greedy EM）算法

第四章语音语料库

4.1 英语语音语料库的组成

4.2 德语语音语料库的组成

4.3 日语语音语料库的组成

4.4 法语语音语料库的组成

4.5 西班牙语语音语料库的组成

第五章识别系统的初步实验

5.1 实验用语音数据

5.2 训练数据量及高斯混合分量数目对性能的影响

5.3 RASTA和CMS对MFCC性能的影响

第六章说话人归一化技术

6.1 说话人归一化技术

6.2 频率弯折因子估计

6.3 频率弯折函数

6.4 二次频率弯折函数

6.5 实验与分析

第七章滑动倒谱参数与数据融合

7.1 滑动倒谱参数

7.2 数据融合

7.3 实验与分析

第八章总结和展望

8.1 总结

8.2 对未来工作的展望

参考文献

致谢

攻读硕士学位期间发表的学术论文目录

基于声学特征的自动语言辨识研究

论文摘要

论文目录

相关论文文献