面向说话人识别的非线性频谱变换研究

论文摘要

说话人识别是通过对说话人的个性特征进行分析和提取来达到确认或辨别说话人身份的目的。由于其具备数据采集设备的非接触性、简易性,价格比较低廉,易被用户接受等优点,是当前语音信号处理研究领域的研究热点之一,具有广泛的市场应用前景。本文在对现有说话人识别技术进行分析的基础上,重点研究分析了非线性频谱变换对说话人识别的影响,然后提出一种面向说话人识别的新的非线性频谱变换方法,讨论了其有效性及不足,并提出了进一步的研究方向。特征的选择与提取和模型的选取是影响说话人识别性能好坏的关键因素。目前受到广泛应用的特征参数是反映声道响应特性的倒谱系数,特别是基于人耳听觉特性的MFCC特征参数。虽然已经取得了较高的识别率,但是它反映的是语音特征,而不着重反映说话人个性特征。本文首先介绍分析了常用的LPC、LPCC和MFCC特征参数的说话人识别系统的性能。然后介绍了Mel尺度、Bark尺度及ERB尺度这三种非线性频谱变换,分析在不同的训练数据、不同测试时间的条件下,三种非线性频谱变换对应的说话人识别系统的性能。根据语音信号不同频带携带的个性特征信息量的不同,分析研究各个频带对说话人识别的贡献,得出每个频带的说话人相对误识率,提升对说话人识别贡献大的频带,而降低对说话人识别贡献小的频带。首先加权改进了Bark非线性频谱变换,将其应用于说话人识别系统,使得系统的性能得到提高。进而提出一种面向说话人识别的非线性频谱变换的方法以及特征提取算法。实验表明,与传统的Mel、Bark和ERB谱等非线性频谱变换相比,所提出的非线性频谱变换方法可以有效突出语音中的说话人个性特征,提高特征空间中类别的可分性。在同样的测试条件下,平均误识率降低至0.668%。在较长测试时间条件下,误识率甚至可以达到0,有效地提高了说话人识别系统的性能。

论文目录

摘要

Abstract

第一章绪论

1.1 说话人识别概述

1.1.1 说话人识别的概念及意义

1.1.2 说话人识别的国内外研究现状及存在问题

1.1.3 说话人识别的分类

1.1.4 说话人识别的应用

1.2 说话人识别的基本原理与方法

1.2.1 说话人识别的原理框图

1.2.2 说话人识别的主要方法

1.2.3 说话人识别的性能评价

1.3 本文主要研究内容

1.3.1 研究思路

1.3.2 本文主要工作

1.4 论文的结构安排

第二章说话人识别特征参数选择与提取

2.1 说话人特征概述

2.2 语音信号的预处理

2.3 线性预测系数及其倒谱系数

2.4 混合特征参数

第三章说话人识别的模型

3.1 动态时间弯折（DTW）模型

3.2 矢量量化（VQ）模型

3.2.1 矢量量化的概念及原理

3.2.2 LBG 算法

3.3 高斯混合（GMM）模型

3.3.1 高斯混合模型的定义

3.3.2 GMM 模型的参数估计

3.4 基于矢量量化模型和高斯混合模型的说话人识别系统实验

3.4.1 基于三种特征参数的矢量量化说话人识别实验

3.4.2 基于两种不同模型的说话人识别实验

第四章说话人识别中的非线性频谱变换分析

4.1 MEL 频率尺度变换

4.2 BARK 频率尺度变换

4.3 ERB 频率尺度变换

4.4 基于三种非线性频谱变换的特征提取

4.5 说话人识别实验与分析

4.5.1 实验系统介绍

4.5.2 实验结果分析

第五章一种新的非线性频谱变换及说话人识别应用

5.1 频带划分

5.2 加权的 BARK 频率尺度变换

5.3 一种新的非线性频率尺度变换

5.3.1 最小二乘法

5.3.2 基于最小二乘法的曲线拟合

5.4 基于变换频率尺度下的特征提取

第六章实验结果与分析

6.1 基于不同频带划分的说话人识别系统结果与分析

6.2 基于加权的 BARK 频率尺度变换的实验结果与分析

6.3 基于新的频谱变换的实验结果与分析

第七章总结与展望

参考文献

论文发表

致谢

详细摘要

面向说话人识别的非线性频谱变换研究

论文摘要

论文目录

相关论文文献

猜你喜欢