基于统计模式识别的发音错误检测研究

论文摘要

随着语音识别技术的进展,计算机辅助语言学习系统的日趋智能化。为了提升计算机辅助语言学习系统的性能,其中一项核心技术就是高性能的发音错误检测技术。基于发音错误检测技术,系统可以生成针对性的改进意见以及设计相应的训练语料来有效改进学习者的发音弱点,提高学习效率。本文在统计模式识别技术特别是统计语音识别技术的基础上,对发音错误的分布、形成及表现都进行了深入而细致的分析,并在分析的基础上开展了声学特征、声学模型、检错算法、以及声学模型空间等方面的深入研究,最终在实现了对发音错误检测问题本质的深入认识的同时,研发成功了高性能的普通话发音错误检测技术。本论文的具体研究工作和研究成果概述如下:首先,本论文在统计语音识别技术的基础上,对自动发音错误检测技术进行了改进。主要包括在声学特征方面引入CMN、VTLN等各种技术,解决声学模型和学习者声学特征之间的不匹配问题:同时,针对声学模型建模,引入语音识别中的基于BIC的模型压缩策略,首次提出并实现基于发音错误检测的BIC策略,此策略通过为发音错误严重或声学模型混淆严重的音素分配更多的参数来获得更好的建模精度从而提升检错系统性能;然后,针对声学模型与学习者的不匹配问题,引入语音识别领域中的较为成熟的自适应技术——MLLR——对模型均值进行了调整,大大降低了发音错误检错声学模型与学习者之间的不匹配,从而提升了检错系统的性能;接着,本文借鉴并改进了初始的后验概率策略,提出基于发音错误混淆列表的修正的后验概率策略来进行发音错误检测;最后,本文提出按照音素设置音素独立检错门限,取得了较好的检错性能。其次,本文提出以错误发音先验概率（Text-dependent Mispronunciation PriorProbability,TMPP）作为依托,重新形式化后验概率的表达形式,从而无缝地把发音错误先验概率这一信息融合到了后验概率的计算当中,这就是文本相关正确发音的后验概率策略（Text-dependent Correct Pronunciation Posterior Probability,TCPP）。同时,为了解决错误发音先验概率的0概率问题,借鉴语言模型训练方法,对0概率事件采取平滑操作。实验结果表明,TCPP策略能够达到甚至超过启发式的运用错误发音特性的检错策略,并且给出了一种利用发音错误先验概率的普适、有效的方法,同时这种策略能够弥补启发式方法的一些天然缺陷。因此基于TCPP的检错策略是在后验概率框架下的一种较好的发音错误解决方案。再次,本文通过调研语音识别中的置信度判别发现在置信度判别中通常有三种策略,后验概率只是其中的一种方法。还有一大类的方法是利用语音识别器得到的一些属性作为置信度判别的输入属性,建立分类器进行置信度判别。近年来的说话人识别研究表明,采用区分性的分类方法来解决检验问题是较好的策略。说话人识别中得到广泛运用的SVM区分性分类方法取得了很好的效果。本文从理论上分析了发音错误检测的特性,并指出后验概率对于发音错误检测的局限性,提出运用识别器输出的针对文本与模型空间内其它模型的似然比作为检错特征,从分类的角度来看到发音错误检测问题,引入SVM进行区分性分类器训练,从而有效地运用了人工标注数据信息以及识别器内的细节信息,最终有效的提升了发音错误检测性能。然后,本文从发音错误检测的角度出发,分析了以音素为单元的声学模型对发音错误检测的不足之处:这种声学模型仅能较好的处理某音素明确的发音错误成了另一音素,而对于发音偏误但没有明确的错误成另一个音素或者是发音缺陷这些问题并不能很好的处理。本文指出必须要对发音错误和正确的各种情况进行针对性的建模,然后利用这些模型进行错误检测才能够处理变化多端的发音错误。本文利用大量发音者实际数据（包括发音标准正确,发音有方言口音,发音口音严重等各种情况）通过无监督的方法进行数据聚类获得各种发音的数据,然后进行模型训练建立三套发音模型,分别针对发音标准正确,发音正常稍有口音,和发音口音严重这几种情况,然后利用上面提及的SVM分类方法进行发音错误检测,与传统的仅使用音素模型相比,实现了发音错误检测性能的显著提升。最后,本文针对调型进行了较深入的分析,针对不同人调域变化,提出最大似然基频均值规整方法:针对基频求取中出现的半频和倍频现象,利用最大似然特征选择策略进行规整。实验结果表明,采用了特征规整算法以后,调型发音错误检测取得了明显的性能提升。

论文目录

摘要

ABSTRACT

第一章绪论

1.1. 自动发音错误检测研究背景

1.1.1. 概述

1.1.2. 自动发音错误检测研究回顾

1.2. 自动发音错误检测方法

1.2.1. 基于语音学知识和区分性特征的自动发音错误检测

1.2.2. 基于统计语音识别的自动发音错误检测

1.3. 本论文的研究目标和内容

1.4. 本论文的组织

第二章传统发音错误检测算法

2.1. 传统发音错误检测算法简介

2.1.1. HMM简介

2.1.2. 后验概率算法

2.1.3. GOP算法

2.1.4. 发音错误检测方法

2.2. 实验数据库介绍

2.3. 实验性能度量方法及实验结果

2.4. 本章小结

第三章基于语音识别的改进的发音错误检测算法

3.1. 改进的声学特征

3.1.1. CMN

3.1.2. VTLN

3.2. 改进的声学模型建模策略

3.2.1 基于贝叶斯信息准则的非均匀建模

3.2.2 针对发音错误的BIC模型压缩策略

3.3. 声学模型自适应

3.3.1. 自适应算法介绍

3.3.2. 发音错误检测中的自适应算法

3.4. 修正的后验概率检错策略

3.4.1. 方言分析和发音错误特点

3.4.2. 基于发音错误混淆列表的修正的后验概率策略

3.5. 分音素门限策略

3.6. 实验及实验结果

3.6.1 实验配置

3.6.2 实验结果

3.7. 本章小结

第四章基于错误发音先验概率的发音错误检测策略

4.1. 后验概率策略回顾与探讨

4.2. 文本相关正确发音的后验概率策略

4.2.1. 句子级TCPP定义

4.2.2. 音素级TCPP定义

4.3. 文本相关发音错误先验概率的计算

4.3.1 字层面的TMPP

4.3.2 音素层面的TMPP

4.3.3 从人工标注数据中估计TMPP

4.4. TCPP实现的一些问题

4.4.1. 搜索空间

4.4.2. 声学得分和TMPP的平衡

4.5. 实验及结果

4.6. 本章小结

第五章基于支持向量机的发音错误检测

5.1. 发音错误检测分析

5.1.1. 检验角度下的发音错误检测

5.1.2. 分类角度下的发音错误检测

5.2. 产生式（Generative）和区分性（Discriminative）类型的发音错误检测

5.2.1 产生式模型和区分性模型分析

5.2.2 产生式发音错误检测策略

5.2.3 区分性发音检错策略

5.3. SVM简介

5.3.1. 从Maximum Margin Classifier到SVM

5.3.2. 核函数和高维空间问题

5.4. 基于SVM的分类方法发音检错

5.4.1. SVM如何运用于发音检错

5.4.2. HMM/SVM相结合的发音检错策略

5.5. 实验及实验结果

5.6. 本章小结

第六章基于发音空间模型的发音错误检测

6.1. 发音空间模型

6.1.1. 后验概率策略的模型空间

6.1.2. 发音空间定义

6.1.3. 发音空间模型建模

6.2. 基于发音空间模型的发音错误检测

6.2.1. 基于后验概率的发音空间模型检错策略

6.2.2. 基于SVM的发音空间模型检错策略

6.3. 实验及实验结果

6.4. 本章小结

第七章调型错误检测策略

7.1 汉语调型介绍

7.2 基频特征提取及规整

7.2.1 基频提取算法简介

7.2.2 最大似然基频均值规整

7.2.3 基于最大似然特征选择的基频半倍频规整

7.3 基于HMM的调型建模

7.4 基于后验概率的调型错误检测

7.5 实验及实验结果

7.6 本章小结

第八章总结

参考文献

博士期间发表的论文和参与的研究工作

发表的论文

申请的专利

所获奖项

研究工作简介

致谢

基于统计模式识别的发音错误检测研究

论文摘要

论文目录

相关论文文献

猜你喜欢