人机通信中的情感语音处理

论文摘要

随着信息科学与计算机技术的发展，和谐自然的人机通信越来越成为计算机系统人性化、智能化工作的关键技术。语音作为人机通信中最为自然、有效的交互方式之一，具有不依赖于显示设备、交互终端便宜且便携性好的优点。因而，在人机通信技术由图形用户界面向多通道界面的发展趋势中，语音交互界面的研究开发显示出了巨大的潜力和光明的前景。情感信息作为语音信号的重要组成部分，在传统的语音处理中被当作噪声完全去掉，直接影响到语音信号的自然度，从而成为语音技术进一步走向应用领域的障碍。能够处理语音交互过程中的情感信息是人机通信技术智能化的重要标志之一，这对于改进语音识别、合成的结果，提高语音信号处理系统及语音通信系统的鲁棒性具有重要意义。论文首先概述了课题的研究背景以及语音情感处理的发展历史，并简单回顾了情感空间的界定方法和人机通信中情感语音处理技术的研究发展现状。通过对情感语音的各种处理算法的讨论比较，选取情感识别方法及情感语音合成方法并加以改进。论文中采用基频构造参数、能量构造参数、时间构造参数作为分析用的基本韵律特征参数，对英语、汉语、日语多语种情感语音样本库中的语音样本进行参数的提取、统计、分析、对比，得到不同情感状态下各韵律特征参数的特性，并据此对语音中的情感信息做可分性及可识别性分析。论文对人机语音通信的两个关键方面，即输入语音的情感识别和情感语音合成进行了重点的研究。情感语音识别研究中，特征参数的统计分析结果表明不同的情感状态下韵律特征参数的分布有明显的差异，并且这种差异受语种信息的影响不大。论文使用改进的PCA方法判断情感类型，在给出汉语样本情感识别结果的同时，为了对比语种信息对情感识别结果的影响，也对混合语种的情感语音样本进行了情感识别实验。在情感语音合成实验中，对传统的PSOLA算法进行改进，加入一个时域／频域分析的选择模块，分别在频域调整拼接单元的音高、在时域调整时长和能量。时频分步处理的PSOLA合成算法可以同时弥补TD-PSOLA和FD-PSOLA的缺陷，并发挥出其各自的优势。根据特征参数的统计分析结果，确定输出语音的基频、时长、能量特征参数的目标调整系数，力求在保持合成语音

论文目录

中文摘要

ABSTRACT

符号说明

第一章绪论

1.1 课题背景

1.2 本文主要工作

第二章情感语音处理的研究现状

2.1 研究历史回顾

2.2 情感空间的界定

2.3 韵律生成模型

2.4 情感识别方法

2.5 情感语音合成方法

第三章韵律特征参数的提取、统计与分析

3.1 多语种情感语音数据库的建立

3.2 韵律特征参数的选取

3.3 韵律特征参数的计算

3.3.1 语音信号预处理

3.3.2 特征参数的提取

3.4 韵律特征参数的统计分析

第四章语音中的情感状态识别

4.1 主分量分析法

4.1.1 PCA简介

4.1.2 PCA方法的数学模型与几何解释

4.2 基于主分量分析的汉语语音样本情感识别

4.3 基于主分量分析的多语种语音样本情感识别

4.4 实验结果与分析

第五章汉语情感语音合成

5.1 基音同步叠加算法

5.2 基于PSOLA算法的时频分步语音合成

5.2.1 基音同步分析与标注

5.2.2 基音同步修改

5.2.3 时长与能量修改

5.3 实验结果与分析

第六章总结与展望

参考文献

致谢

攻读硕士学位期间发表的论文

学位论文评阅及答辩情况表

人机通信中的情感语音处理

论文摘要

论文目录

相关论文文献

猜你喜欢