多音音乐音高估计研究

论文摘要

多音音高估计(基频估计)是音乐信息检索领域非常重要而困难的研究方向之一,其基本任务就是估计多音音乐每一时刻音符的音高(基频)和数目。音符的发音时间、结束时间的估计有时也列入其中。本文从音乐信息检索的大背景出发,介绍了多音音乐音高估计研究的基本任务、研究价值及与其它研究的关系,然后较系统得回顾了一些有代表性的音高估计算法。在此基础上,本文提出了两个新算法。第一个算法是针对单帧信号的基于最大似然频谱建模的多音音高估计算法。与以往对于整个频谱建模的方法不同,该算法把信号的频谱简化为幅度谱的峰值和非峰区域,峰值进一步简化为其频率和幅度。最大似然模型也随之分为峰值似然和非峰区域似然两个部分。在建模峰值似然时,考虑到峰值检测算法的检测错误,我们提出了“真”峰和“假”峰的概念,并分别建模。在建模非峰区域似然时,我们用该区域未检测到由谐频产生的峰的概率作为似然函数。这两部分似然模型关注的焦点不同,互为补充。我们通过单音训练数据学习这些模型的参数,因为在单音数据中,“真”峰和“假”峰可以比较可靠的区分开来。我们还采用了一种加权的贝叶斯信息准则来估计音符个数。最后,该算法在由真实乐器音符合成的随机和弦和音乐和弦上进行测试,取得了不错的结果。第二个算法是针对多帧信号的基于计算听觉场景分析的多音音高估计算法。在该算法中,我们模仿人脑的声音感知规则,对信号频谱的时频成分做聚集。具体来说,我们在信号连续的频谱中定义了谐波事件的概念,每一个谐波事件是一个四元组(频率、幅度、发音时间、结束时间)。对于待处理的音乐,我们提取其所有的谐波事件并组成一个集合,集合中的每个事件都是基频事件的候选。我们设计了一个支持度传递的算法让这些谐波事件互相投票,选出支持度最高的事件作为基频。该算法在由真实乐器音符合成的随机和弦,以及计算机合成的重奏音乐上进行测试,取得了不错的结果。

论文目录

摘要

Abstract

第1章引言

1.1 课题背景与意义

1.1.1 音乐信息检索

1.1.2 自动音乐记谱

1.1.3 音高估计

1.2 相关研究与应用

1.2.1 计算听觉场景分析

1.2.2 信号分离

1.2.3 哼唱查询

1.2.4 旋律识别

1.2.5 和弦识别

1.3 本文的研究内容

1.4章节安排

第2章音高估计研究综述

2.1 音乐信号的基本概念

2.1.1 音高的概念

2.1.2 谐和乐器和不谐和乐器

2.1.3 单音音乐和多音音乐

2.1.4 音符之间的关系

2.2 单音音乐音高估计

2.2.1 时域方法

2.2.2 频域方法

2.3 多音音乐音高估计

2.3.1 时域方法

2.3.2 频域方法

2.4 本章小结

第3章基于频谱最大似然模型的单帧信号音高估计方法

3.1 引言

3.2 基频估计（音符个数给定）

3.2.1 频谱峰值的最大似然模型

3.2.1.1 真峰似然

3.2.1.2 假峰似然

3.2.2 非峰区域似然

3.2.3 关于模型的讨论

3.3 音符个数估计

3.4 算法流程

3.5 实验结果与分析

3.5.1 随机和弦

3.5.2 音乐和弦

3.6 本章小结

第4章基于计算听觉场景分析的多帧信号音高估计方法

4.1 引言

4.2 谐波事件提取

4.3 支持度计算

4.4 实验结果与分析

4.4.1 随机和弦

4.4.2 音乐片段

4.4.3 讨论

4.5 本章小结

第5章总结与展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

多音音乐音高估计研究

论文摘要

论文目录

相关论文文献

猜你喜欢