论文摘要
多音音高估计(基频估计)是音乐信息检索领域非常重要而困难的研究方向之一,其基本任务就是估计多音音乐每一时刻音符的音高(基频)和数目。音符的发音时间、结束时间的估计有时也列入其中。本文从音乐信息检索的大背景出发,介绍了多音音乐音高估计研究的基本任务、研究价值及与其它研究的关系,然后较系统得回顾了一些有代表性的音高估计算法。在此基础上,本文提出了两个新算法。第一个算法是针对单帧信号的基于最大似然频谱建模的多音音高估计算法。与以往对于整个频谱建模的方法不同,该算法把信号的频谱简化为幅度谱的峰值和非峰区域,峰值进一步简化为其频率和幅度。最大似然模型也随之分为峰值似然和非峰区域似然两个部分。在建模峰值似然时,考虑到峰值检测算法的检测错误,我们提出了“真”峰和“假”峰的概念,并分别建模。在建模非峰区域似然时,我们用该区域未检测到由谐频产生的峰的概率作为似然函数。这两部分似然模型关注的焦点不同,互为补充。我们通过单音训练数据学习这些模型的参数,因为在单音数据中,“真”峰和“假”峰可以比较可靠的区分开来。我们还采用了一种加权的贝叶斯信息准则来估计音符个数。最后,该算法在由真实乐器音符合成的随机和弦和音乐和弦上进行测试,取得了不错的结果。第二个算法是针对多帧信号的基于计算听觉场景分析的多音音高估计算法。在该算法中,我们模仿人脑的声音感知规则,对信号频谱的时频成分做聚集。具体来说,我们在信号连续的频谱中定义了谐波事件的概念,每一个谐波事件是一个四元组(频率、幅度、发音时间、结束时间)。对于待处理的音乐,我们提取其所有的谐波事件并组成一个集合,集合中的每个事件都是基频事件的候选。我们设计了一个支持度传递的算法让这些谐波事件互相投票,选出支持度最高的事件作为基频。该算法在由真实乐器音符合成的随机和弦,以及计算机合成的重奏音乐上进行测试,取得了不错的结果。
论文目录
相关论文文献
标签:音高估计论文; 多音音乐论文; 最大似然论文; 计算听觉场景分析论文; 音乐自动记谱论文;