面向说话人识别的非线性频谱变换研究

面向说话人识别的非线性频谱变换研究

论文摘要

说话人识别是通过对说话人的个性特征进行分析和提取来达到确认或辨别说话人身份的目的。由于其具备数据采集设备的非接触性、简易性,价格比较低廉,易被用户接受等优点,是当前语音信号处理研究领域的研究热点之一,具有广泛的市场应用前景。本文在对现有说话人识别技术进行分析的基础上,重点研究分析了非线性频谱变换对说话人识别的影响,然后提出一种面向说话人识别的新的非线性频谱变换方法,讨论了其有效性及不足,并提出了进一步的研究方向。特征的选择与提取和模型的选取是影响说话人识别性能好坏的关键因素。目前受到广泛应用的特征参数是反映声道响应特性的倒谱系数,特别是基于人耳听觉特性的MFCC特征参数。虽然已经取得了较高的识别率,但是它反映的是语音特征,而不着重反映说话人个性特征。本文首先介绍分析了常用的LPC、LPCC和MFCC特征参数的说话人识别系统的性能。然后介绍了Mel尺度、Bark尺度及ERB尺度这三种非线性频谱变换,分析在不同的训练数据、不同测试时间的条件下,三种非线性频谱变换对应的说话人识别系统的性能。根据语音信号不同频带携带的个性特征信息量的不同,分析研究各个频带对说话人识别的贡献,得出每个频带的说话人相对误识率,提升对说话人识别贡献大的频带,而降低对说话人识别贡献小的频带。首先加权改进了Bark非线性频谱变换,将其应用于说话人识别系统,使得系统的性能得到提高。进而提出一种面向说话人识别的非线性频谱变换的方法以及特征提取算法。实验表明,与传统的Mel、Bark和ERB谱等非线性频谱变换相比,所提出的非线性频谱变换方法可以有效突出语音中的说话人个性特征,提高特征空间中类别的可分性。在同样的测试条件下,平均误识率降低至0.668%。在较长测试时间条件下,误识率甚至可以达到0,有效地提高了说话人识别系统的性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 说话人识别概述
  • 1.1.1 说话人识别的概念及意义
  • 1.1.2 说话人识别的国内外研究现状及存在问题
  • 1.1.3 说话人识别的分类
  • 1.1.4 说话人识别的应用
  • 1.2 说话人识别的基本原理与方法
  • 1.2.1 说话人识别的原理框图
  • 1.2.2 说话人识别的主要方法
  • 1.2.3 说话人识别的性能评价
  • 1.3 本文主要研究内容
  • 1.3.1 研究思路
  • 1.3.2 本文主要工作
  • 1.4 论文的结构安排
  • 第二章 说话人识别特征参数选择与提取
  • 2.1 说话人特征概述
  • 2.2 语音信号的预处理
  • 2.3 线性预测系数及其倒谱系数
  • 2.4 混合特征参数
  • 第三章 说话人识别的模型
  • 3.1 动态时间弯折(DTW)模型
  • 3.2 矢量量化(VQ)模型
  • 3.2.1 矢量量化的概念及原理
  • 3.2.2 LBG 算法
  • 3.3 高斯混合(GMM)模型
  • 3.3.1 高斯混合模型的定义
  • 3.3.2 GMM 模型的参数估计
  • 3.4 基于矢量量化模型和高斯混合模型的说话人识别系统实验
  • 3.4.1 基于三种特征参数的矢量量化说话人识别实验
  • 3.4.2 基于两种不同模型的说话人识别实验
  • 第四章 说话人识别中的非线性频谱变换分析
  • 4.1 MEL 频率尺度变换
  • 4.2 BARK 频率尺度变换
  • 4.3 ERB 频率尺度变换
  • 4.4 基于三种非线性频谱变换的特征提取
  • 4.5 说话人识别实验与分析
  • 4.5.1 实验系统介绍
  • 4.5.2 实验结果分析
  • 第五章 一种新的非线性频谱变换及说话人识别应用
  • 5.1 频带划分
  • 5.2 加权的 BARK 频率尺度变换
  • 5.3 一种新的非线性频率尺度变换
  • 5.3.1 最小二乘法
  • 5.3.2 基于最小二乘法的曲线拟合
  • 5.4 基于变换频率尺度下的特征提取
  • 第六章 实验结果与分析
  • 6.1 基于不同频带划分的说话人识别系统结果与分析
  • 6.2 基于加权的 BARK 频率尺度变换的实验结果与分析
  • 6.3 基于新的频谱变换的实验结果与分析
  • 第七章 总结与展望
  • 参考文献
  • 论文发表
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].深度强化学习的图像特征高效分类方法仿真[J]. 计算机仿真 2020(01)
    • [2].信息检索方法在手写数字识别中的应用及改进[J]. 计算机工程与科学 2012(06)
    • [3].模糊Hopfield网络在人脸识别中的应用[J]. 微计算机信息 2010(22)
    • [4].云安全中的可信识别技术研究[J]. 无线互联科技 2013(12)
    • [5].基于学习的OCR字符识别[J]. 计算机时代 2018(07)
    • [6].倒谱域特征分量置信度分析及说话人识别应用[J]. 信号处理 2010(01)
    • [7].伪装人脸识别的深度迁移训练方法研究[J]. 南京邮电大学学报(自然科学版) 2020(03)
    • [8].基于自适应补偿的文本无关说话人识别[J]. 计算机仿真 2008(06)
    • [9].基于无线局域网的船舶异常数据自动识别系统[J]. 舰船科学技术 2018(22)
    • [10].大陆[J]. 台声 2015(17)
    • [11].舰船监控图像拼接与识别研究[J]. 舰船科学技术 2019(24)
    • [12].2018年公众十大用药误区[J]. 保健医苑 2019(05)
    • [13].基于二维主元素分析的手写体数字识别研究[J]. 贵州师范大学学报(自然科学版) 2013(03)
    • [14].基于密度特征与KNN算法的最优特征维数选择[J]. 现代电子技术 2018(16)
    • [15].基于改进支持向量机的车牌识别[J]. 陕西理工学院学报(自然科学版) 2014(04)
    • [16].基于RFID物联网技术的车辆防盗报警系统研究与应用[J]. 物联网技术 2014(04)
    • [17].近红外指静脉图像采集系统设计[J]. 传感器与微系统 2014(01)
    • [18].基于支持向量机的汽车胎号识别算法研究[J]. 计算机仿真 2012(09)
    • [19].指纹与静脉复合识别系统的图像采集[J]. 湖北第二师范学院学报 2009(02)
    • [20].阿里巴巴无人零售店“淘咖啡”亮相[J]. 金融科技时代 2017(08)
    • [21].基于几何特征的动态人脸识别[J]. 科学技术与工程 2010(28)

    标签:;  ;  ;  ;  

    面向说话人识别的非线性频谱变换研究
    下载Doc文档

    猜你喜欢