基于RankNet的多层次英语口语重读识别方法

论文摘要

将语音处理技术在计算机辅助语言学习领域的运用近年来越来越广泛。它为非母语的学习者提供了一个可交互辅助学习的平台。本文旨在开发一个客观的英语重音识别系统,来帮助英语学习者提高对英语口语句重读节奏的把握,并为此引入了一个基于RankNet的多层次英语口语重读识别方法。本文提出的所要解决的多层次的重音识别系统分为三层。第一层是词汇级别的重读音节的识别,以口语语料句子中的独立词为语料,不考虑整个句子的重读词以及重读与非重读词之间的关系,识别每个单词的重读核(核:一个音节的元音音素)。第二层是整个句子的重读识别。以第一层输出的词重读核为基础,提取出句子中所有词的重读核,作为第二层的原始预料,以完成句子的韵律重读识别。第三层是通过获取通过RankNet的输出的排序值中区分重读与非重读的阀值,进一步改进识别的结果。本文的主要内容如下:首先,我们在本实验室已有的基于RankNet的词语重读音节识别方法基础上,引入了特征的局部归一化,以提高RankNet的识别精度。其次,我们将RankNet进一步应用到句子的韵律重读识别中。根据RankNet方法,选取基于非特定人的节律特征、元音音素质量来将其分类为重读与非重读,并根据语句级的韵律重读识别的结果,进一步通过阀值来提高准确率。最后,为了对上述三个层次、重读识别算法进行更加客观的评价,我们引入了ISLE(Interactive Spoken Language Education)语料库,并在此基础上实现了经典的线性判别识别方法,将这种方法与本文所提出的方法进行了实验对比,并进一步通过实验对包括非线性特征在内的8维重音识别特征向量的判别能力进行了实验评测。实验结果显示,在ISLE语料库上,应用本实验提出的多层次的重音识别在开放集上所有句子所有词重读错误率最低为22.9%,句子第一重读识别的错误率(基数为句子总数)最低为43.5%。通过与线性判别方法的比较,本文提出的方法获得了更高的准确率。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景及意义

1.2 国内外相关技术的发展现状

1.2.1 重读音节识别技术的发展现状

1.2.2 句重读识别技术的发展现状

1.3 本文主要研究内容

第2章重音识别模型简介

2.1 引言

2.2 识别流程

2.3 特征提取概述

2.4 识别基元

2.5 语音特征提取方法

2.5.1 能量特征

2.5.2 时长特征

2.5.3 基频特征

2.5.4 线性预测

2.5.5 倒谱系数

2.5.6 自回归分析

2.5.7 分形维数特征提取

2.6 特征的选择与评价

2.7 识别算法的评测指标

2.7.1 独立词的重读音节识别的评价指标

2.7.2 语句重读识别的评价指标

2.8 本章小结

第3章基于RankNet 的重音识别算法

3.1 引言

3.2 RANKNET 神经元

3.3 RANKNET 网络模型

3.4 基于RANKNET 的重音识别

3.4.1 输入数据

3.4.2 输入数据归一化

3.4.3 RankNet 学习算法

3.5 RANKNET 重音音节识别算法

3.5.1 构建重读音节识别的模型

3.5.2 在模型上进行重读音节识别

3.6 RANKNET 句重读识别算法

3.6.1 构建重读识别的模型

3.6.2 在模型上进行句重读识别

3.7 对句重读识别结果进行微调

3.8 本章小结

第4章实验描述与结果分析

4.1 语料标准以及参数的设定

4.2 重读音节识别实验

4.2.1 测试评价度量

4.2.2 基于线性判别的重读音节识别实验

4.2.3 基于RankNet 重读音节识别实验

4.3 重读音节识别小结

4.4 句重读识别实验

4.4.1 测试评价度量

4.4.2 基于RankNet 的句重读识别与重读音节识别的比较分析

4.4.3 基于RankNet 的句重读识别实验

4.4.4 不以重读音节识别为基础的句重读识别实验

4.5 在句重读识别实验基础上进行微调

4.6 本章小结

结论

参考文献

攻读学位期间发表的学术论文

致谢

基于RankNet的多层次英语口语重读识别方法

论文摘要

论文目录

相关论文文献

猜你喜欢