基于SSVM的音频识别的研究

论文摘要

随着互联网的高速发展,涌现大量的音频,视频,图像信息。但是音频信息的研究速度远远比不上视频和图像的研究,而且对大量音频信息的分类识别工作,单靠人工标注是一件庞大而又繁琐的工程,因此,实现对音频信号的自动识别,是音频领域的研究重点。但是,原始音频具有极其复杂的表示方式,缺少语义内容和结构化的组织,如何选择能够准确表示此类音频的特征信息,并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究内容。本文在SVM的基础上,重点研究了SSVM的分类原理,并提出了两类光滑模型:Sigmoid的积分函数的光滑模型和多项式光滑模型,通过实验比较分析各种光滑模型的分类性能,得出了结论,即光滑支持向量机的一阶、二阶、三阶光滑模型的分类性能大于Sigmoid的积分函数的光滑模型。在特征提取阶段,本文分析并提取了短时能量、过零率、频谱通量、频谱质心、Mel倒谱系数和一阶差分倒谱系数等6种特征,并根据不同的音频类型选取不同的特征组成特征向量。在分类识别阶段,本文选取了经典的SVM、标准的SSVM和多项式SSVM等三种分类方法,训练了三类音频分类器:语音/音乐分类器、男声/女声分类器、汉语/英语分类器,和经典的SVM方法做对比,证明了SSVM在音频识别方面达到了令人满意的精度。最后本文研究了一种基于层次化的SSVM的音频识别方法,将多类音频信息正确识别出男声(汉语和英语)、女声、静音、噪音、音乐等,并且也达到了可令人接受的精度要求。

论文目录

摘要

Abstract

第一章绪论

1.1 引言

1.2 音频的基础知识

1.2.1 音频的内容结构

1.2.2 音频的常用格式

1.3 音频的研究现状

1.3.1 特征提取方面的研究

1.3.2 分类器方面的研究

1.3.3 国内外研究总结

1.4 音频识别的系统结构

1.5 论文的主要工作和内容安排

第二章特征提取

2.1 音频信号的预处理阶段

2.2 音频信号的特征分析阶段

2.2.1 时域特征

2.2.2 频域特征

2.2.3 Mel倒谱特征

2.3 本章小节

第三章分类方法

3.1 最小距离法

3.2 支持向量机

3.2.1 支持向量机的特点

3.2.2 线性可分情况

3.2.3 线性不可分情况

3.2.4 常见的核函数

3.3 一种新的音频识别方法—光滑支持向量机

3.3.1 线性可分情况

3.3.2 线性不可分情况

3.3.3 SSVM与SVM的比较

3.3.4 几种光滑支持向量机模型的光滑函数

3.3.5 光滑支持向量机的算法实现

3.4 本章小结

第四章基于SSVM的音频识别技术

4.1 预处理

4.2 静音端点处理

4.3 特征参数的提取与选择

4.3.1 实验流程图

4.3.2 实验结果及分析

4.4 基于分类器的音频实验

4.4.1 语音和音乐的分类器实验

4.4.2 男生声音和女生声音的分类器实验

4.4.3 汉语和英语的分类器实验

4.5 本章小结

第五章基于层次化的SSVM的音频识别

5.1 实验介绍及流程图

5.2 实验设计

5.2.1 分类器训练系统设计

5.2.2 分类器分类系统设计

5.3 实验过程及结果

5.3.1 第一层分类

5.3.2 第二层分类

5.3.3 第三层分类

5.3.4 结果及分析

5.4 本章小结

总结与展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

基于SSVM的音频识别的研究

论文摘要

论文目录

相关论文文献

猜你喜欢