本文主要利用各种声学特征参数基于GMM建模的方法开展了自动语言辨识的研究,主要的研究工作包括:1.六语种语音语料库的建立:利用已有的汉语语料库和从网络上采集的英、德、日、法、西班牙等五语言的语音建立了多语种语料库。语料库的训练集中有264个说话人、每人60~300秒的语音,测试集中每个语种有30~50个训练集外的说话人,每个人有至少50个平均时长为4.5秒的语音片段。2.自动语言辨识系统的初步实验研究:建立了基于GMM的六语种识别系统,研究了系统识别率和GMM的混合分量数目与训练数据的多少的关系,以及RASTA滤波和CMS处理对MFCC参数性能的影响。3.提出了一种新的二次弯折函数,研究了基于基音频率均值的说话人归一化技术在自动语言辨识系统中的应用。利用对比实验来比较二次弯折函数与常规的线性弯折函数和分段线性弯折函数的性能。4.提出了滑动倒谱的概念,并将两种常用特征参数RASTA-MFCC和RASTA-PLP的滑动倒谱与当前研究中广泛采用的滑动差分倒谱进行了对比研究。然后进一步考察了RASTA-PLP滑动倒谱的控制参数在不同的取值情况下对识别性能的影响,利用爬山法确定了达到局部最优控制参数组合的路径。最后研究了RASTA-PLP的滑动倒谱与其它参数的特征级和决策级数据融合。
本文来源: https://www.lw50.cn/article/02161e1603165e19cae819e9.html