嵌入式连续语音识别算法研究

论文摘要

随着移动设备和语音识别技术的发展，嵌入式平台下连续语音识别已成为当前语音识别应用研究的热点。在现今大词汇量连续语音识别距离实用化还存在不可忽视的沟壑下，某些特定领域内中等词汇的应用则可以在小型设备中发挥大作用，其更加贴近自然语音的说话方式和便捷的人机交互方式将给人们生活带来更大的便利。在这一背景下，本文在大词汇量连续语音识别系统的基础上搭建的中等词表语音识别系统，可应用于电话信息查询，PDA，GPS等移动设备语音交互等有限资源平台下，并可根据语法限制解析出关键字。在保证一定识别率情况下，系统以内存消耗和计算性能为主要目的。首先，以大词汇量连续语音识别系统构建的基线系统，采用单因子的HMM模型，语言模型采用有限状态语法的确定有限状态自动机(DFA)来进行语法限制，词典树为前缀共享的发音树结合有限状态网络组合为搜索状态空间，在这个空间中搜索策略为广度优先的帧同步维特比束搜索，以状态层存活数目为剪枝目标。在一遍搜索的结果上进行第二遍深度优先异步堆栈解码算法进行二次搜索，在第二遍以词为单位的扩展过程中，加入了以后验概率为置信评分的简单重估，该计算非常有效的减少了词的删除错误，降低了误警率。然后对整个系统性能进行测验和评估，结合测试集，知识资源和系统参数进行了多项实验。在106~*4句语音的测试集中，最好可获得了96.65％的词准确率。并分析了系统的性能影响，内存占用因素以及计算复杂度。算法复杂度有网络扩展和概率计算两大部分，当状态分布越简单，网络越复杂时，输出概率计算所占比重越小。并确定系统的嵌入式移植方案。本文中采用了TI MS320C6173浮点开发板，其主频225MHz，SDRAM 16MB，FLASH为2MB，在500词以内的任务下，根据以上的内存占用分析和计算复杂度，此平台是可以承受得。移植方案出于减少计算消耗考虑，将系统分为离线初始化和在线识别部分，离线部分包括调入资源模型以及构造静态搜索网络，在线部分完成特征提取和搜索，利用中间文件的形式作为两部分的桥梁，一定程度上减少了搜索空间的构造计算，并且实验证明对识别率没有影响。最后采用了几种快速高斯分量计算算法对混合度捆绑的HMM模型在输出概率计算时进行了高斯选择，根据前一帧计算所的结果对后一帧的处理进行指导选择，其中直接利用前一帧的计算结果设定标量阈值进行快速选择的算法取得了很好的效果，在同等混合度捆绑的模型(TM)中，仅仅下降5％左右的词准确率而减少了50％的输出概率计算。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 语音识别发展历史

1.2 嵌入式语音识别研究现状

1.3 识别器的发展

1.3.1 建模问题

1.3.2 解码问题

1.4 课题意义和工作内容

1.5 论文结构

第二章语音识别基础理论

2.1 声学特征

2.2 声学建模

2.2.1 声学单元选取

2.2.2 用HMM给声学单元建模

2.3 语言模型

2.3.1 统计语言模型

2.3.2 规则语言模型

2.4 解码

2.5 小结

第三章特定领域连续语音识别基线系统

3.1 基线系统介绍

3.1 声学模型

3.2 发音字典

3.3 DFA语法

3.2 语法解析提取关键字

3.3 小结

第四章解码

4.1 解码器

4.2 搜索网络构造

4.2.1 前缀发音共享的发音树

4.2.2 声学模型在网络中的音素级限制

4.2.3 语法模型在网络中的词连接限制

4.2.4 发音树构造算法

4.3 帧同步维特比束搜索

4.3.1 令牌传递算法

4.3.2 维特比束搜索算法描述

4.3.3 剪枝

4.4 异步堆栈搜索算法

4.4.1 A*算法

4.4.2 候选序列

4.4.3 计算置信评分

4.4.4 异步堆栈解码算法描述

4.5 小结

第五章系统性能评估和移植方案

5.1 系统在不同资源下的性能

5.1.1 不同声学模型

5.1.2 不同语言模型

5.1.3 不同说话者

5.1.4 一遍和二遍搜索对比

5.2 系统占用内存评估

5.2.1 静态内存使用情况

5.2.2 动态空间使用情况

5.3 解码复杂度分析

5.3.1 剪枝的影响

5.3.2 输出概率计算复杂度

5.3.3 存活节点数目变化

5.4 嵌入式平台简介

5.5 嵌入式平台移植方案

5.6 小结

第六章系统有效优化计算

6.1 连续HMM分布输出概率计算

6.2 混合度捆绑的半连续HMM的输出概率计算

6.3 高斯选择算法

6.4 小结

第七章总结

7.1 工作总结

7.2 今后工作展望

参考文献

致谢

嵌入式连续语音识别算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢