随着多媒体信息的迅速发展,越来越多的语音数据开始出现在人们的日常生活中,语音信息检索技术应运而生。在对这类语音信息检索的查询请求可以通过文本或语音输入方式完成。本文研究了一种通过语音输入查询的方式来检索语音文档的系统,即语音到语音的检索。本文所研究的语音到语音的检索系统可以分为语音识别系统和信息检索系统两部分。对于语音识别系统,本文利用开源工具HTK搭建了一套以汉字音节为基本单位的语音识别系统,并从语言学模型中平滑算法的角度,将SGT (Simple Good-Turing)的平滑思想和Katz算法结合,提出了一种改进的Katz算法,从而提高了语音识别系统的正确率。对于信息检索系统,本文采用目前应用最为广泛的向量空间模型(Vector Space Model, VSM)检索技术,利用词频(Term Frequency, TF)和倒转文档频率(Inverse Document Frequency, IDF)来构建词项索引,对比了在语音识别结果为One-best和音节网格(Lattice)两种形式下的平均检索正确率,并研究了音节网格中声学得分对检索系统正确率的影响。实验表明,语音检索系统的正确率很大程度上取决于语音识别系统的正确率。基于Lattice的语音检索系统能减小语音识别系统的误识率带来的影响,其平均正确率比One-best的情况下提高了5.54%左右。
本文来源: https://www.lw50.cn/article/b162311eabf5f985eb234d4e.html