基于高斯混合模型的说话人识别研究

基于高斯混合模型的说话人识别研究

论文摘要

说话人识别是通过对说话人语音信号的分析和特征提取,自动地确定说话人是否在所登记的说话人集合中,以及说话人是谁的过程。通常,根据识别的条件,说话人识别可以分为文本无关的说话人识别和文本相关的说话人识别。本论文主要研究基于高斯混合模型(Gaussian Mixture Model,GMM)的文本无关说话人识别技术。首先,从声道发声的角度,建立了模拟声道的级联声管模型,并据此导出了语音信号全极点模型。然后,利用语音信号的全极点模型,从浊音、清摩擦音和清爆破音三种基本的发音角度研究了语音的产生模型。接下来,对特征参数的提取进行了研究,介绍了计算语音信号的全极点模型参数,即线性预测参数的线性预测方法。并给出了几种线性预测推演参数其中包括反射系数和对数面积比系数。然后介绍了线性预测倒谱系数、Mel倒谱系数和子倒谱系数,研究了这些特征参数在说话人识别中的性能,倒谱类系数更能体现说话人的固有的频谱特征,因此在说话人识别中具有更好的识别性能。然后,深入地研究了高斯混合模型的原理,单个高斯混合分量能够对说话人的文本无关的谱特征进行建模,这些谱特征能够有效地区分说话人的身份,每类谱特征可以代表一个发音类别,如单个音素。对高斯混合模型的参数估计、初始化方法和判决决策也进行了讨论。对高斯混合模型进行了改进,包括协方差矩阵对角化和方差约束;对模型的协方差矩阵对角化处理,可以提高运算性能;方差约束用在模型训练中可以避免模型奇点,防止识别性能下降。紧接着,设计并实现了一个自动说话人识别系统,以便对GMM性能作测试。最后,用实验对高斯混合说话人模型进行了评价。实验使用36个说话人的朗读语音构成的语音数据库。针对模型的初始化、高斯混合分量个数和说话人数量对识别性能的影响进行了实验。得出了如下结论:模型初始化方法对高斯混合模型识别性能基本上没有影响。为了充分对说话人建模,保证较好的识别性能,高斯混合分量个数必须大于一个最小值(对于12个说话人的数据库来说这个最小值是16)。当增加说话人数量时,如果训练数据足够长(90秒以上),测试数据段长也足够长(5秒以上),高斯混合模型保持较高的识别性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 说话人识别的意义及应用
  • 1.1.1 说话人识别的意义
  • 1.1.2 说话人识别的应用
  • 1.2 说话人识别的研究进展
  • 1.2.1 说话人识别研究的发展
  • 1.2.2 说话人识别研究的现状
  • 1.3 说话人识别概述
  • 1.3.1 说话人识别的分类
  • 1.3.2 说话人识别的基本原理
  • 1.3.3 说话人识别的主要方法
  • 1.4 本论文的内容安排
  • 第二章 语音产生模型
  • 2.1 语音产生过程
  • 2.1.1 语音产生
  • 2.1.2 相关概念
  • 2.2 级联声管模型
  • 2.2.1 级联声管模型
  • 2.2.2 全极点传输函数
  • 2.3 语音产生模型
  • 2.3.1 短时平稳假设
  • 2.3.2 语音产生模型
  • 2.3.3 语音产生分析
  • 2.4 本章小结
  • 第三章 语音特征参数
  • 3.1 语音信号的预处理
  • 3.1.1 预滤波
  • 3.1.2 采样/量化
  • 3.1.3 预加重
  • 3.1.4 加窗
  • 3.1.5 端点检测
  • 3.2 线性预测系数
  • 3.2.1 线性预测原理
  • 3.2.2 自相关法求线性预测系数
  • 3.2.3 用LEVINSON递归求自相关正则方程
  • 3.2.4 自相关法中增益的计算
  • 3.3 线性预测的几种推演参数
  • 3.3.1 反射系数
  • 3.3.2 对数面积比系数
  • 3.4 线性预测倒谱系数
  • 3.5 MEL倒谱系数
  • 3.6 子倒谱系数
  • 3.7 本章小结
  • 第四章 高斯混合模型
  • 4.1 高斯混合模型的原理
  • 4.2 高斯混合模型的参数估计
  • 4.3 高斯混合模型参数的初始化
  • 4.4 说话人辨认和确认
  • 4.4.1 说话人辨认
  • 4.4.2 说话人确认
  • 4.5 对高斯混合模型的改进
  • 4.5.1 协方差矩阵对角化
  • 4.5.2 方差约束
  • 4.6 本章小结
  • 第五章 自动说话人识别系统设计与实现
  • 5.1 系统环境
  • 5.1.1 硬件环境
  • 5.1.2 软件环境
  • 5.2 系统功能模块
  • 5.3 录音模块
  • 5.3.1 模块界面
  • 5.3.2 模块的功能
  • 5.3.3 模块类图
  • 5.4 特征提取模块
  • 5.4.1 模块界面
  • 5.4.2 模块功能
  • 5.4.3 模块类图
  • 5.4.4 处理流程
  • 5.5 建模模块
  • 5.5.1 模块界面
  • 5.5.2 模块功能
  • 5.5.3 模块类图
  • 5.5.4 处理流程
  • 5.6 识别模块
  • 5.6.1 模块界面
  • 5.6.2 模块功能
  • 5.6.3 模块类图
  • 5.6.4 处理流程
  • 5.7 工具模块
  • 5.7.1 模块功能
  • 5.7.2 模块类图
  • 5.8 结论
  • 第六章 高斯混合模型实验
  • 6.1 高斯混合模型实验
  • 6.1.1 语音数据库
  • 6.1.2 性能评价方法
  • 6.1.3 模型初始化实验
  • 6.1.4 不同混合分量个数、训练语音长度、测试语音段长实验
  • 6.1.5 高斯混合分量个数实验
  • 6.1.6 说话人数量实验
  • 6.2 结论
  • 第七章 结论与展望
  • 7.1 结论
  • 7.2 展望
  • 致谢
  • 参考文献
  • 攻硕期间取得的研究成果
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  ;  

    基于高斯混合模型的说话人识别研究
    下载Doc文档

    猜你喜欢