层次化视频语义标注与检索

论文摘要

随着多媒体、计算机和网络的发展,视频数据飞速增长。为了对这些海量视频数据进行存储、管理、和索引,需要研究高效的基于内容的方法对视频数据进行检索,而视频标注是视频索引和视频搜索的基础。本文研究如何利用机器学习和视频的特征,对视频进行多层次的、基于内容的标注。视频在结构上共分四个层次:视频（video）、场景（scene）、镜头（shot）、图象帧（frame）。通常视频标注主要在其中的视频层和镜头层中进行。视频层的标注是对整段视频标注其类型属性。镜头层的标注主要是依据从该镜头中提取的关键帧,标注其对应的语义概念。根据所标注的语义概念对应的是图象帧层次还是物体层次的,镜头层标注又可进一步分为图象帧层标注和物体层标注。本文研究在视频层、图象帧层、和物体层上进行视频标注时的关键问题,主要工作和创新之处归纳为以下几点:1.目前视频类型层标注的研究工作通常仅仅标注了几种简单的类型,或者是局限在电影、体育运动等某个特定的类型内标注其子类型,而且使用的分类器也过于简单。本文定义了一个相对完备的视频类型分层表示,分析并提取一系列与类型相关的时空域特征,并提出使用局部和全局优化的多类SVM二叉树提高分类精度。实验结果表明,本文提出的局部和全局优化的SVM二叉树与另外两种典型的SVM多类分类算法、以及现有的视频分类工作中使用的分类器相比,能够获得更高的精确度。2.当前的视频类型层标注工作都是采用被动监督学习的方法,需要大量的训练数据和费时费力的手工标注。本文将主动学习引入视频类型层标注,并提出使用后验概率来计算分类器对未标注样本的置信度,然后依据此置信度选择分类器最不确定的样本,也即最“有用”的样本提供给用户进行标注,从而用更少的训练样本获得和大量训练样本近似的分类效果,减轻用户标注训练数据的负担。实验结果表明,本文提出的基于后验概率的主动学习样本选择策略要略好于现有的基于变型空间的主动学习样本选择策略、以及被动学习的样本选择策略。3.对于图象帧层视频标注,本文考虑一种经常遇到的实际应用:仅拥有一小部分相关的正例,如何学习该目标概念的模型。此时进行视频标注主要存在下面两个问题:第一,对于仅有正例的训练数据,传统的区分型分类器如SVM等无法直接使用;第二,区分各种语义概念的底层特征有很大的不同,使用统一的特征无法适应各种语义概念的变化。本文提出一个基于流形排序的关键帧图象层视频标注框。对第一个问题,用流行排序解决仅有正例的不足,同时可以利用未标注数据的分布信息。对第二个问题,定义一个特征选择准则,引入特征选择为不同的语义概念选择不同的特征。此关键帧图象层视频标注框架支持新定义的目标概念和新特征的引入。4.在物体层视频标注中,传统的多实例学习表达忽略了各种语义概念之间的语义相关性。因此本文提出existence-based多实例表达来描述这种概念间的语义相关性,并根据existence-based表达设计一种新的多实例学习算法MI-AdaBoost。算法首先对训练数据中的每个包进行特征映射,转换成包级特征空间的一个特征矢量,从而将多实例学习转换为传统的监督学习。这种特征映射会为每个包建立一个包含大量噪声的高维特征矢量,可以用AdaBoost进行特征选择并构建分类器。5.不同的语义概念对应的底层特征有很大的不同,因此特征选择对视频标注是非常关键的一个问题。以前的研究工作在将多实例学习应用于视频标注时,都忽略了如何在多实例学习情况下做特征选择的问题。由于传统的单实例学习下的特征选择算法通常都无法在多实例学习中直接应用,本文提出了一种多实例学习下的特征选择算法EBMIL,能够在选择映射后的包级特征的同时,选择不同的特征源（颜色、纹理等）,从而获得更好的视频标注效果。

论文目录

摘要

Abstract

第一章绪论

1.1 基于内容的视频检索

1.2 视频标注的研究背景、国内外现状和存在的问题

1.2.1 视频类型层标注

1.2.2 关键帧图象层标注

1.2.3 物体层视频标注和多实例学习

1.3 论文结构和主要创新

第二章视频标注中常用的分类模型和特征

2.1 视频标注中的常用的分类模型

2.1.1 支持向量机

2.1.2 提升方法（Boosting）

2.2 视频标注中的常用特征

2.2.1 颜色

2.2.2 纹理

2.2.3 形状

2.3 本章小结

第三章视频类型层标注研究

3.1 本文的视频类型层标注框架

3.2 特征分析

3.2.1 时间域特征

3.2.2 空间域特征

3.3 分层的多类SVM

3.3.1 各种多类SVM算法

3.3.2 局部和全局优化的分层多类SVM

3.4 主动学习的引入

3.4.1 SVM主动学习简介

3.4.2 基于后验概率的SVM主动学习

3.5 实验结果

3.5.1 实验数据和评价指标

3.5.2 局部和全局优化的多类SVM二叉树

3.5.3 基于后验概率的主动学习性能

3.6 本章小结

第四章图象帧层视频标注

4.1 本文提出的图象帧层视频标注框架

4.1.1 总体框架的引入

4.1.2 镜头边界检测和多关键帧提取

4.2 流形排序和预滤波

4.2.1 流形排序

4.2.2 快速计算和预滤波

4.3 特征库构建和特征选择

4.3.1 特征库构建

4.3.2 特征选择方法回顾

4.3.3 SFFS特征选择

4.4 实验结果

4.4.1 实验数据和评价指标

4.4.2 流形排序加预滤波的效果

4.4.3 特征选择作用

4.5 本章小结

第五章物体层视频标注

5.1 多实例学习回顾

5.1.1 经典算法

5.1.2 基于特征映射的方法

5.1.3 在原实例空间的学习算法

5.1.4 其它多实例学习方面的工作

5.2 Existence-based MIL和MI-Adaboost

5.2.1 Existence-based MIL表达的提出

5.2.2 MI-Adaboost

5.2.3 MI-AdaBoost和其它基于特征映射的MIL算法的比较

5.3 多实例学习下的特征选择和EBMIL

5.3.1 多实例学习下的特征选择研究现状

5.3.2 EBMIL

5.4 实验结果

5.4.1 实验数据集

5.4.2 Existence-based MIL表达和MI-AdaBoost

5.4.3 特征选择和EBMIL

5.5 本章小结

第六章结束语

6.1 研究成果回顾

6.2 研究方向展望

参考文献

在读期间发表的论文

获奖情况

在读期间参加的项目

致谢

层次化视频语义标注与检索

论文摘要

论文目录

相关论文文献

猜你喜欢