基于内容的音频信息检索技术研究

基于内容的音频信息检索技术研究

论文摘要

随着现代信息技术、多媒体技术和网络技术的迅速发展,多媒体信息的数据量急剧增多。为了充分利用已有的音频信息资源,基于内容的音频信息检索技术受到越来越多的关注。音频数据的存在形式有静态与动态之分,在检索层次上也有表示级检索和语义级检索之分。音频数据的形态不同、检索层次不同,需要的检索方法也不同。尽管相关的研究很多,但音频检索技术仍然存在大量问题亟需解决。主要问题有:大多数检索算法在有噪声的情况下检索性能明显下降;音频数据维数高且具有时序性,构建索引非常困难;缺少针对动态音频检索的研究;音频形式的音乐由于获取语义信息困难,语义级检索的研究难度大、进展缓慢。从整体来看,音频检索技术尚处于实验探索阶段,缺少实用化的技术与系统。本文针对音频检索技术存在的问题,在以下方面对音频检索技术开展了研究工作:1、针对表示级的静态音频检索问题,提出了基于响度主分量特征的模糊直方图音频检索方法。在直方图模型设计中,根据响度数据的统计分布对直方图模型进行优化。并采用模糊直方图进一步提高直方图模型对噪声和响度数值扰动的鲁棒性。在检索时,利用活动搜索算法提高检索速度。实验结果表明,该方法具有较好的噪声鲁棒性(Robustness)。2、针对表示级的静态音频索引问题,提出了基于响度主分量模糊直方图的索引方法。采用响度主分量模糊直方图表示音频数据后,长度不同的两段音频数据,只要长度倍数不超过一定限度,其直方图相似度均能正确反映二者之间的包含关系。根据这一特点,提出了二叉树与链表相结合的索引方法。在检索过程中,根据检索目标的长度及长度倍数上限值在索引中选择合适的搜索层次范围。实验结果表明,该索引可大幅度地提高检索速度。3、针对表示级的动态音频检索问题,提出了基于分段的实时音频检索方法。该方法将检索目标划分为片段序列,并使用检索窗控制参与检索的片段。研究了算法中灵活的目标检出判别标准、快速检索控制策略、检索反应滞后时间估计数学模型、基于音频分类的多目标快速检索方法等问题。实验结果表明,该方法的速度快、可控性好、检索反应延迟小、对检索目标发生部分残缺以及噪声均具有较好的鲁棒性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 表示级检索
  • 1.2.2 语义级检索
  • 1.3 音频检索存在的问题
  • 1.4 主要研究内容
  • 第2章 音频特征提取与检索系统评测
  • 2.1 引言
  • 2.2 声音的感知属性
  • 2.3 音频特征提取
  • 2.3.1 MFCC特征
  • 2.3.2 归一化响度特征
  • 2.4 检索系统评测
  • 2.4.1 评价指标
  • 2.4.2 音频数据库
  • 2.5 本章小结
  • 第3章 基于直方图的表示级静态音频检索方法
  • 3.1 引言
  • 3.2 响度主分量
  • 3.3 直方图模型设计
  • 3.3.1 直方图模型及优化
  • 3.3.2 模糊直方图
  • 3.3.3 相似度计算
  • 3.4 基于直方图的音频检索方法
  • 3.4.1 普通搜索方法
  • 3.4.2 直方图活动搜索方法
  • 3.5 基于索引的快速检索方法
  • 3.5.1 二叉树与链表相结合的直方图索引方法
  • 3.5.2 索引搜索方法
  • 3.5.3 时间复杂度分析
  • 3.6 实验与讨论
  • 3.6.1 不同直方图模型的噪声鲁棒性考核
  • 3.6.2 不同检索方法的性能考核
  • 3.7 本章小结
  • 第4章 基于分段的表示级动态音频检索方法
  • 4.1 引言
  • 4.2 分段检索方法
  • 4.2.1 片段划分
  • 4.2.2 基于检索窗的检索控制
  • 4.2.3 参考模板的匹配与检出判别
  • 4.2.4 分段式检索算法
  • 4.2.5 片段误检的处理
  • 4.3 动态检索中的实时控制问题
  • 4.3.1 检索反应控制
  • 4.3.2 检索反应滞后时间估计
  • 4.3.3 检索能力计算
  • 4.4 基于分类的多目标快速检索方法
  • 4.4.1 分类特征
  • 4.4.2 音频分类方法
  • 4.4.3 基于分类的多目标快速检索方法
  • 4.5 实验与讨论
  • 4.5.1 实时性考核
  • 4.5.2 检索性能考核
  • 4.5.3 基于分类的多目标检索考核
  • 4.5.4 鲁棒性考核
  • 4.5.5 分段检索方法与活动直方图检索方法的比较
  • 4.6 本章小结
  • 第5章 基于标注的语义级音乐检索方法
  • 5.1 引言
  • 5.2 自动音乐标注方法及当前存在的问题
  • 5.3 基于谐波结构信息的音乐标注方法
  • 5.3.1 基于BP神经网络的起始点检测
  • 5.3.2 基于谐波结构信息的多基频估计方法
  • 5.4 基于标注的音频音乐检索
  • 5.5 实验与讨论
  • 5.5.1 起始点检测算法考核
  • 5.5.2 多基频估计算法考核
  • 5.5.3 自动音乐标注考核
  • 5.5.4 基于标注的音乐检索考核
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 附录
  • 攻读博士学位期间发表的论文
  • 哈尔滨工业大学博士学位论文原创性声明
  • 哈尔滨工业大学博士学位论文使用授权书
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].音频娱乐的最大市场在哪里[J]. 上海广播电视研究 2019(03)
    • [2].用户思维与数据思维驱动优质音频创作[J]. 青年记者 2019(36)
    • [3].智媒时代的音频产业:盈利模式与路径创新[J]. 现代视听 2019(11)
    • [4].融合思维下音频媒体的智能化转向探究[J]. 传媒论坛 2020(03)
    • [5].多通道音频采集前端硬件设计[J]. 科技创新与应用 2020(08)
    • [6].在线音频平台内容付费市场分析[J]. 新闻战线 2019(24)
    • [7].机构媒体音频化发展背景下的人才变革[J]. 南方传媒研究 2019(06)
    • [8].付费音频平台的发展瓶颈与营销策略[J]. 青年记者 2019(33)
    • [9].用户体验视角下的音频知识付费平台主要缺陷与应对策略研究[J]. 声屏世界 2020(04)
    • [10].短音频会成为传统广播的新风口吗?[J]. 视听 2020(06)
    • [11].广播电台音频网的安装与维护[J]. 科技传播 2020(13)
    • [12].音频新闻:脉络、演进与特征[J]. 青年记者 2020(19)
    • [13].基于音频指纹的广播电台内容监测识别技术[J]. 西部广播电视 2020(17)
    • [14].中国移动音频平台营销策略及其启示[J]. 中国传媒科技 2020(08)
    • [15].移动互联网音频平台主持人特色[J]. 戏剧之家 2019(12)
    • [16].付费模式对音频出版的助力研究[J]. 传播力研究 2019(13)
    • [17].“新科技”元年:围绕用户发力声音价值[J]. 声屏世界·广告人 2017(02)
    • [18].基于云架构的音频采录拆条系统的设计与实现[J]. 电声技术 2017(03)
    • [19].基于凝聚信息瓶颈的音频事件聚类方法[J]. 电子学报 2017(05)
    • [20].张弛有度——如何把控音频节目节奏[J]. 影视制作 2017(03)
    • [21].录音设备安装与调试中音频干扰的来源与消除[J]. 电子世界 2017(18)
    • [22].生活中的科技[J]. 初中生 2019(Z6)
    • [23].《音频的编辑》教学设计[J]. 中国信息技术教育 2020(18)
    • [24].《音频基础》课程的设计与教学[J]. 中国文艺家 2020(10)
    • [25].基于倒谱分析的实时广播音频相似度快速比对算法[J]. 工程科学与技术 2020(03)
    • [26].基于球谐域三维音频直播系统的实现[J]. 电声技术 2020(04)
    • [27].浅析音频节目可视化的机遇与挑战——以《朋友请听好》为例[J]. 传播力研究 2020(07)
    • [28].基于压缩感知和音频指纹的固定音频检索方法[J]. 计算机系统应用 2020(08)
    • [29].论标准技术流程里的艺术呈现——里约奥运乒乓球音频公共信号制作[J]. 现代电视技术 2017(03)
    • [30].关于付费音频的几句闲话[J]. 视听界 2017(04)

    标签:;  ;  ;  ;  ;  

    基于内容的音频信息检索技术研究
    下载Doc文档

    猜你喜欢