论文摘要
随着数字影音技术的迅速发展,多媒体信息的数据量急剧膨胀,数字音频作为多媒体信息的重要组成部分得到了充分的发展。如何在海量的音频数据中找到感兴趣的内容成为了研究热点,音频检索的概念也应运而生。音频检索是指通过对源音频的特征分析在相应的目标音频中找出所匹配的音频内容。目前音频检索的方法分为两大类:一类是基于内容的音频检索方法,其主要是利用音频的特征进行分类和比较,该类方法的缺点是技术较为复杂,检索精度难以跨越“语义鸿沟”的影响;另一类方法是基于相似度的方法,又称为固定音频检索,它不需要识别音效和场景,也不需要提前定义和训练模型,直接提取音频特征进行遍历查找得出检索结果,这类方法的实现技术简单灵活,检索正确率高,但是计算量大,时效性差。针对于传统的音频检索方法存在的问题,本文提出了一种基于GPU加速的音频检索方法,在性能上与传统的检索方法相比有很大提升。本课题主要从以下几个方面进行研究:1、研究GPU通用计算技术的CUDA(Compute Unified Device Architecture)架构。从数据特征的角度出发,分析如何使用并行算法加速计算,并将加速算法通过CUDA架构映射到GPU上加速计算;2、音频信号特征提取与表达。音频检索是多种音频特征组合的检索,本文为了全面表达音频的特征,采用了音频信号的时域特征,音频的短时能量特征和过零率特征;音频的频域特征,Mel倒谱系数。为了提高计算速度,本文采取了基于CUDA架构的并行算法。实验结果表明,该提取特征的GPU算法与CPU算法相比,其加速比可以达到12倍以上;3、基于GPU加速的音频检索算法。首先将检索音频和目标音频划分为等长的若干个短时音频帧,利用GPU的并行算法快速计算其音频特征,并将计算得到短时音频帧的音频特征构成特征值序列,然后利用后缀数组的变形算法找出特征值序列的公共段落集合,最后将公共段落集合进行整体匹配和精化,从而得出检索结果。实验结果表明,该检索方法的准确率可以达到90%以上,与已有方法相比,该方法可以大幅提高检索速度,其加速比可以达到10倍以上。最后,本文对GPU加速的音频检索算法的优缺点进行了总结,并对GPU加速的音频检索算法的发展趋势和研究热点进行了展望。