连续语音中关键词快速检出的研究

连续语音中关键词快速检出的研究

论文摘要

关键词检出是语音识别中一个重要的研究领域,它是在连续语音流中识别出一组给定词的过程,具有识别率高、实用性强、时间耗费少等优点。本文的主要研究内容是连续语音中关键词的快速检出,要求在保持良好识别性能的前提下,尽可能地降低系统的识别时间,以便于实时环境下的应用。本文详细讨论关键词检出系统中使用的Viterbi搜索算法的原理和特点,然后实现一个基于连续隐马尔科夫模型的关键词检出基线系统,对其中各个模块进行简要介绍。所实现的系统基于离线垃圾模型,并使用令牌传递(Token Passing)算法进行在线识别。针对基线系统实时性不高的问题,本文在多个方面对其进行了实时性方面的改进。首先,考虑到语音信号的复杂性,一般采用高斯混合模型对观察概率进行建模。基于隐马尔科夫模型的关键词检出系统中,计算观察概率通常占据全部识别时间的很大一部分。因此,提高观察概率的计算效率对改进系统实时性有很大意义。本文在最近邻快速估算算法的基础上,提出一种称作相邻帧特征相似性的方法。它依据相邻帧之间的高相似性,根据产生前一帧特征矢量的若干个最大的混合分量,有效预测当前帧所使用的最大高斯混合分量。与基线系统相比,这种方法能够降低29.3%的识别时间,而系统性能仅有略微的下降。其次,本文分析Viterbi Beam搜索算法的缺陷发现,基本的Viterbi Beam搜索使用固定的裁剪门限,出于检出率方面的考虑,只能设置保守的门限宽度,不能根据解码过程中各阶段的特点和语音帧的声学特点来动态的改变门限,系统实时性不够高。本文引入自适应裁剪,提出一种基于分位数的裁剪策略。与基线系统相比,这种方法能够降低35%的识别时间,而系统识别性能维持不变。再次,解码过程中,通常省略观察矢量序列的先验概率。这种方法只是从所有词序列中识别出相对最匹配的词串,但是其置信度不一定足够高。本文提出一种称作置信度累加的剪枝方法,在通常基于似然分裁剪的基础上,添加一层基于置信度的裁剪,有效地控制搜索过程使其向着置信度高的方向扩展。与基线系统相比,这种方法能够降低5.7%的识别时间,同时生成的词网格中候选词的规模减少30%,因此,能够大幅降低关键词确认阶段的计算量,尤其适用于确认算法复杂的应用。在此基础上,本文交叉组合以上各种方法,在基本保持识别性能的前提下,大幅降低系统的识别时间,取得较好的效果。最后总结本文的研究成果,并对以后关键词检出的研究方向进行了讨论。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景及研究的目的和意义
  • 1.2 国内外的研究现状及分析
  • 1.3 本文的主要研究内容
  • 第2章 关键词检出基线系统
  • 2.1 引言
  • 2.2 预处理与特征提取
  • 2.3 声学建模
  • 2.3.1 识别基元的选择
  • 2.3.2 汉语音素划分
  • 2.3.3 HMM模型简介
  • 2.4 在线识别
  • 2.4.1 关键词检出方法
  • 2.4.2 关键词确认
  • 2.4.3 实验结果
  • 2.5 本章小结
  • 第3章 基于似然度快速近似计算的关键词检出
  • 3.1 引言
  • 3.2 基于最近邻搜索的快速关键词检出
  • 3.3 基于相邻帧特征相似性的快速检出
  • 3.4 实验结果及分析
  • 3.4.1 基于最近邻搜索的快速检出实验
  • 3.4.2 基于相邻帧特征相似性计算的实验
  • 3.5 本章小结
  • 第4章 关键词检出系统的自适应裁剪方法
  • 4.1 引言
  • 4.2 基于分位数的自适应门限调整
  • 4.2.1 Viterbi搜索自适应裁剪策略
  • 4.2.2 基于分位数的门限裁剪过程
  • 4.3 基于分段自适应裁剪的解码
  • 4.4 基于置信度的裁剪
  • 4.4.1 置信度简介
  • 4.4.2 基于声学置信度的关键词确认方法
  • 4.4.3 基于置信度的关键词裁剪方法
  • 4.5 实验与分析
  • 4.5.1 均值自适应裁剪实验
  • 4.5.2 分位数自适应裁剪实验
  • 4.5.3 分段自适应裁剪实验
  • 4.5.4 置信度裁剪的实验
  • 4.5.5 分位数裁剪与快速相似性计算相结合的实验
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    连续语音中关键词快速检出的研究
    下载Doc文档

    猜你喜欢