会话语音中说话人识别的研究

会话语音中说话人识别的研究

论文摘要

说话人识别,也叫声纹识别,是利用话音对说话人进行区分,从而进行身份鉴别与认证的技术。说话人识别能够广泛的应用到各种身份认证、安全保密、电话购物等系统中。会话语音,是包含有多个说话人声音的语音,例如:会议录音、电话对话语音、广播电视新闻语音等,会话语音中的说话人识别就是判断是谁在哪个时刻说了话。会话语音中的说话人识别是语音识别一个难点,要用到分段、聚类等技术,对于信息检索、说话人标注、说话人跟踪有重要的意义。本文首先概述了说话人识别技术的发展历史及现状、研究的意义和应用领域,然后详细研究了特征提取,包括端点检测、光谱分析、音素分析,分析了模式识别的几种方法:高斯混合模型(GMM)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN),最后介绍了自适应模型,并采用美倒谱系数(MFCC)+GMM+最大后验概率(MAP)技术实现了一个完整的说话人识别系统。本论文的工作主要包括:①建立了音素持续时间模型,验证了音素持续时间信息对于说话人识别的有效性。并针对训练语音数据量小的情况,提出了2种改进模型。②基于端点检测出的音节切分段,提出了一种1.5秒内可变长的测试语音分段法。相对与固定长度分段和纯音节步长,该方法保证了音节的完整性,恰当的切分了测试段的数据,提高了说话人识别率。③利用说话人转折点多发生在语音停顿处这一现象,提出了句首识别,句中聚类的方法,比较了多种聚类,有效的降低了计算时间,并为某些低配置环境提供了以牺牲少量识别率来换取系统正常运行的有效方法。④采用了MAP在线自适应模型方法,提高了模型的健壮性,并改进了概率自适应测量标准,给用户以更为精确的百分比识别率代替0,1确定的识别结果,进一步提高了识别率。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 说话人识别技术的发展
  • 1.1.1 发展历史
  • 1.1.2 分类
  • 1.1.3 应用领域
  • 1.2 会话语音下说话人识别的现状
  • 1.3 本文研究的目的和研究内容
  • 1.3.1 本文研究的目的
  • 1.3.2 本文研究的主要内容
  • 2 说话人识别系统概述
  • 2.1 引言
  • 2.2 语音信号的预处理
  • 2.3 特征参数的分析
  • 2.3.1 语音信号的线性产生模型
  • 2.3.2 特征参数提取
  • 2.4 模式识别
  • 2.4.1 基于VQ 的方法
  • 2.4.2 基于HMM 的方法
  • 2.4.3 基于GMM 的方法
  • 2.4.4 基于人工神经网络的方法
  • 2.4.5 基于语音识别的方法
  • 2.5 本章小结
  • 3 添加音素持续时间分析到光谱模型
  • 3.1 引言
  • 3.2 光谱分析模型
  • 3.3 大量语音库的音素持续时间分析模型
  • 3.4 少量语音数据下的音素持续时间模型
  • 3.4.1 分组方法
  • 3.4.2 简化高斯模型法
  • 3.5 本章小结
  • 4 会话语音中说话人识别系统的建立
  • 4.1 端点检测
  • 4.2 1.5 秒内可变长分段
  • 4.3 说话人转折点检测
  • 4.4 实验结果及分析
  • 4.4.1 分割与识别实验
  • 4.4.2 聚类与识别实验
  • 4.5 本章小结
  • 5 基于MAP 的模型自适应
  • 5.1 自适应方法概述
  • 5.1.1 自适应方式的分类
  • 5.1.2 自适应算法分类及简介
  • 5.2 MLLR 算法与MAP 算法
  • 5.2.1 MLLR 算法
  • 5.2.2 MAP 算法
  • 5.3 概率自适应与置信度
  • 5.3.1 概率自适应
  • 5.3.2 置信度的概率自适应
  • 5.4 实验结果及分析
  • 5.5 本章小结
  • 6 总结与展望
  • 6.1 主要研究内容
  • 6.2 后续研究工作的展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间的其它工作
  • 作者在攻读硕士学位期间发表的论文目录
  • 作者在攻读硕士学位期间参加的科研项目
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [9].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [10].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [11].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [12].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [13].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [14].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [15].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [16].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [17].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [18].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [19].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [20].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [21].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [22].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [23].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [24].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [25].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [26].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [27].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [28].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [29].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)
    • [30].冷,冷,冷[J]. 意林(原创版) 2019(02)

    标签:;  ;  ;  ;  

    会话语音中说话人识别的研究
    下载Doc文档

    猜你喜欢