论文摘要
随着移动设备和语音识别技术的发展,嵌入式平台下连续语音识别已成为当前语音识别应用研究的热点。在现今大词汇量连续语音识别距离实用化还存在不可忽视的沟壑下,某些特定领域内中等词汇的应用则可以在小型设备中发挥大作用,其更加贴近自然语音的说话方式和便捷的人机交互方式将给人们生活带来更大的便利。在这一背景下,本文在大词汇量连续语音识别系统的基础上搭建的中等词表语音识别系统,可应用于电话信息查询,PDA,GPS等移动设备语音交互等有限资源平台下,并可根据语法限制解析出关键字。在保证一定识别率情况下,系统以内存消耗和计算性能为主要目的。首先,以大词汇量连续语音识别系统构建的基线系统,采用单因子的HMM模型,语言模型采用有限状态语法的确定有限状态自动机(DFA)来进行语法限制,词典树为前缀共享的发音树结合有限状态网络组合为搜索状态空间,在这个空间中搜索策略为广度优先的帧同步维特比束搜索,以状态层存活数目为剪枝目标。在一遍搜索的结果上进行第二遍深度优先异步堆栈解码算法进行二次搜索,在第二遍以词为单位的扩展过程中,加入了以后验概率为置信评分的简单重估,该计算非常有效的减少了词的删除错误,降低了误警率。然后对整个系统性能进行测验和评估,结合测试集,知识资源和系统参数进行了多项实验。在106~*4句语音的测试集中,最好可获得了96.65%的词准确率。并分析了系统的性能影响,内存占用因素以及计算复杂度。算法复杂度有网络扩展和概率计算两大部分,当状态分布越简单,网络越复杂时,输出概率计算所占比重越小。并确定系统的嵌入式移植方案。本文中采用了TI MS320C6173浮点开发板,其主频225MHz,SDRAM 16MB,FLASH为2MB,在500词以内的任务下,根据以上的内存占用分析和计算复杂度,此平台是可以承受得。移植方案出于减少计算消耗考虑,将系统分为离线初始化和在线识别部分,离线部分包括调入资源模型以及构造静态搜索网络,在线部分完成特征提取和搜索,利用中间文件的形式作为两部分的桥梁,一定程度上减少了搜索空间的构造计算,并且实验证明对识别率没有影响。最后采用了几种快速高斯分量计算算法对混合度捆绑的HMM模型在输出概率计算时进行了高斯选择,根据前一帧计算所的结果对后一帧的处理进行指导选择,其中直接利用前一帧的计算结果设定标量阈值进行快速选择的算法取得了很好的效果,在同等混合度捆绑的模型(TM)中,仅仅下降5%左右的词准确率而减少了50%的输出概率计算。
论文目录
相关论文文献
标签:语音识别论文; 解码算法论文; 词典树论文; 语法论文; 搜索算法效率论文; 内存估计论文; 有效高斯分量计算论文;