故事视频的语义分析与提取

论文摘要

科技的发展使得数字视频潮水般涌入人们的日常生活。视频内容的丰富性和多样性、以及特征数据特有的时空高维结构,使得如何有效地对海量视频进行表达、存储和管理,以便人们快速地浏览和检索,成为一个亟待解决的重大课题。传统的数据管理与检索技术已远不能适应这种急速的变化和需求,因此基于内容的视频检索(CBVR)应运而生,相关的研究迅速在各国展开。目前,CBVR在多个方面取得了长足的进步,视频中语义信息的提取成为研究的热点,少数基于语义检索的原型系统也已出现。然而,由于语义对象的提取、语义的分析和理解等仍存在较大问题,大规模的应用还没实现。本文针对语义提取这个热点和难点从感知和认知的视角,结合电影理论和社会学等跨领域内容进行了较系统和循序渐进的研究,提出了一些新的框架和算法,主要内容如下:在视觉内容的表达方面,针对颜色、纹理等静态特征只能表示图像的内部特性,不能刻画序列图像的时间关系的问题,提出了一个压缩域全局运动特征的估计方法,并描述了视频内容在时域上的变化以及上下文关系。首先通过简化一个六参数运动模型估计出全局运动参数;随后提出基于滑动窗的视频运动分割算法,完成视频的全局运动分割和关键词注释,并运用特征点序列对运动信息进行了描述;最后,为了验证所提取运动特征的有效性,提出一个基于全局运动的视频检索框架。试验结果表明,该算法能准确地对视频进行全局运动分割,视频的全局运动检索也能获得较高的准确率,还实现了基于Xquery的关键词查询。镜头边界检测(SBD)是CBVR的基础,处于视频结构分析的底层,它的性能将直接影响其它视频分析的结果。为此提出了一个基于多层次特征描述和SVM的SBD算法。影响SBD性能的因素较多,本文将其总结为视觉内容的表达不够理想、序列图像的上下文联系不够紧密和分类器性能有待提高三方面,并提出了相应的解决办法:针对第一点,提出应该兼顾特征的敏感性和不变性,因此采用了从像素到全局的多层次特征描述方法;对第二点,运用一个变长滑动窗来建立特征矢量间的上下文联系;针对第三点,采用SVM分类器,通过主动学习和交叉验证分别来选择正负样本的比例和训练参数。此外,还提出边缘、运动等独立的检测子来对SVM分类结果中的误检加以修正。从TRECVID 2007的测评来看,我们的算法在15个参赛组中取得了较为满意的结果。在语义对象的提取方面,提出了一个基于视觉注意模型的语义对象的选择性提取算法。基于对象的语义提取是视频分析中的一个难点,对象的有效提取能够明显提高语义概念检测的准确性。对象的提取面临颜色的量化、图像的分割、语义对象的确定等诸多困难。针对这些问题,本文首先提出一个颜色的矢量量化算法完成彩色图像的量化;其次综合考虑图像的颜色和空间分布特性,提出一种基于图模型和区域组合的方法来分割图像;随后建立一个视觉注意模型来确定图像的视觉注意中心和转移顺序;接着在Gestalt准则下融合颜色、纹理以及边界特征来描述图像的同质特性;最后根据注意中心的转移顺序来提取图像的多个视觉显著对象。实验表明,在Corel图像库和TREC等视频上提取的显著对象获得了较高的主观评价。在视频摘要方面,提出了一个基于电影结构模型和感知线索的分层视频摘要产生框架,以及一套完整的模型算法。现有的视频摘要算法主要针对新闻、体育等非故事性结构而且时长较短的视频类型,不适用于全长度的电影。为此,首先提出一个故事结构模型—NP模型,将电影分解成幕、情节和场景三个层次,同时给出了场景的分割与分类算法;随后,构造一个基于情感刺激量的场景“重要性”函数来计算每个场景、情节、幕的重要性,以此来分配提取的关键帧和缩略的数目和长度;此外建立一个注意力模型来将重要的电影元素量化并融合成一条注意力曲线;最后将电影结构模型、情感模型和注意力模型有机地融合起来,提出了一个多层次的视频摘要框架,分别产生静态关键帧和动态视频缩略。七部好莱坞影片验证了框架的有效性和通用性,实验结果在信息量和愉悦度上都优于代表性的Ma提出的算法。在视频语义的提取方面,提出了一个基于社会网络分析(SNA)和电影本体(Ontology)的影片内容理解框架和一套语义提取算法。目前语义的研究主要集中在新闻、体育、医学等场景较为简单的视频类型,电影的自动理解则缺乏系统的研究。电影远比新闻等复杂,传统的语义分析方法难以缩小影片的语义鸿沟。本文从一个全新的视角提出通过SNA和建立电影本体来分析影片的故事内容。将电影看成一个特殊的社会网络,利用SNA来确定角色的社区结构和角色间的关系,并结合电影结构模型分析出故事的发展线索;其次,构造了一个电影本体,根据本体建立起角色的身份、职业以及政府各机构之间的联系;第三,提出一个分层的基于时间线索的高层动作事件检测方法,以及一个基于语义图的对话事件的摘要算法完成影片的语义分析。两部好莱坞电影验证了提出框架的可行性,其结果基本上满足语义视频检索的需求。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 故事视频语义分析的意义

1.2 相关的MPEG国际标准

1.3 视频检索关键技术及研究现状

1.3.1 基本概念

1.3.2 视频的结构分析

1.3.3 视频摘要

1.3.4 视频语义的分析和提取

1.3.5 视频数据模型

1.3.6 视频数据索引及视频检索

1.3.7 目前已出现的原型系统

1.4 TRECVID测评

1.5 论文的主要内容和创新点

参考文献

第二章全局运动特征的提取和描述

2.1 引言

2.2 运动特征提取的相关工作

2.3 六参数运动模型的简化

2.4 视频的运动分割

2.4.1 Zoom运动分割

2.4.2 Pan运动分割

2.4.3 Tilt运动分割

2.5 运动信息的XML描述

2.6 全局运动视频检索框架

2.6.1 基于示例的视频检索

2.6.2 基于Xquery的关键词查询

2.7 本章总结

参考文献

第三章基于多层次特征描述和SVM的镜头边界检测

3.1 引言

3.2 镜头边界检测的相关工作

3.3 镜头边界检测策略

3.3.1 特征选取和帧间差距离的度量

3.3.2 上下文特征矢量的构成

3.3.3 支持向量机分类

3.4 镜头边界检测算法

3.4.1 切变检测算法

3.4.2 渐变检测算法

3.5 实验及评估

3.5.1 训练集的建立

3.5.2 支持向量机的构造

3.5.3 结果评估

3.5.4 结果分析

3.6 本章总结

参考文献

第四章视觉显著对象的选择性提取

4.1 引言

4.2 对象提取的相关工作

4.3 图像颜色的矢量量化

4.3.1 同等组滤波

4.3.2 颜色的矢量量化

4.3.3 颜色量化的实验结果

4.4 图像分割

4.4.1 图像粗分割

4.4.2 区域融合

4.4.3 融合中止

4.4.4 Gestalt原则和J-图

4.5 视觉注意模型

4.5.1 Itti模型的改进

4.5.2 显著图的产生

4.6 显著对象提取

4.7 实验结果

4.8 本章总结

参考文献

第五章基于电影结构模型和感知线索的分层视频摘要

5.1 引言

5.2 电影结构

5.2.1 结构分析的相关工作

5.2.2 三幕框架

5.2.3 情节点

5.2.4 幕的结构

5.3 电影结构的计算模型─NP模型

5.3.1 NP跨度

5.3.2 场景边界检测

5.3.3 场景类型确定

5.3.4 NP边界确定

5.4 感知注意力模型

5.4.1 角色和镜头类型

5.4.2 光和色彩

5.4.3 摄像机运动

5.4.4 动作和对象运动

5.4.5 对话和字幕检测

5.4.6 声轨和声强

5.4.7 注意力模型的融合

5.5 分层的视频摘要

5.5.1 情感刺激量和场景重要性

5.5.2 视频摘要产生框架

5.6 实验和评估

5.6.1 电影结构模型评估

5.6.2 静态摘要评估

5.6.3 动态缩略评估

5.7 本章总结

参考文献

第六章基于社会网络和电影本体的影片内容理解

6.1 引言

6.2 影片内容分析的相关工作

6.3 电影结构和类型影片

6.3.1 电影结构模型

6.3.2 类型影片

6.4 电影本体

6.5 电影的社会网络分析

6.5.1 角色的社会网络

6.5.2 角色的职业分类及社会职责

6.5.3 角色身份和社会关系的确定

6.6 基于分层事件检测的内容理解框架

6.6.1 故事线检测

6.6.2 分层动作事件检测

6.6.3 语音事件检测

6.6.4 对话文本摘要算法

6.6.5 影片内容描述和规范

6.7 实验及讨论

6.7.1 人脸检测与识别

6.7.2 说话人识别和OCR

6.7.3 角色的社会网络分析结果

6.7.4 故事线检测结果

6.7.5 社区划分、性别识别及职业推测

6.7.6 电影事件检测结果

6.8 本章总结

参考文献

第七章总结与展望

7.1 论文工作总结

7.2 未来工作建议

致谢

攻读博士期间发表的论文目录

故事视频的语义分析与提取

论文摘要

论文目录

相关论文文献

猜你喜欢