通用视觉目标识别的关键技术研究

论文摘要

图像数据规模化发展使得图像的有效组织和分类成为迫切需要,而通用目标和场景的识别实际上是图像组织和分类任务的具体化。因此,近年来图像和场景识别作为计算机视觉领域的一个重要组成部分而异常活跃。计算机视觉理想化的最终目标是无限接近甚至在某些方面超越人类视觉能力。人类视觉在进行类别识别时有如下特性:能识别的目标种类数高达30,000类,对新类的识别只需要少量的样本,新类别识别过程迅速,对类内变化,旋转等因素都具有很强的不变性。因此,上述人类视觉特性也成为计算机视觉领域研究者孜孜以求的目标。近年来,目标和场景分类取得了一定的成果,但无论从数据规模,识别性能,算法的通用性和效率等方面都远远达不到“通用”识别的要求,该课题的研究空间还很大。论文从通用视觉目标识别的两个主要环节“特征分析”和“分类模型”展开研究,致力于研究特征描述语义化、生物启发特征、多特征融合、多核机器学习、在线学习、多示例多标注识别等视觉目标识别领域中关键技术,主要工作包括:1.提出基于PLSA语义模型的多示例包生成器,并将之应用于多示例多标注识别系统中,取得了优异的识别性能。在多示例多标注识别系统中,多示例图像包生成器是该系统中的图像表达形式,也是决定系统性能的重要环节。本论文对目前主流的多示例包生成器“基于像素块的包生成器”,“基于滤波输出的包生成器”,“ImaBag”,“JSEG-Bag”,“Attention-Bag”等进行全面的比较研究,总结出多示例包生成器的设计应考虑的两个要素:示例区域提取和示例表达,其中示例区域提取应覆盖图像中的语义区域,而示例描述应反映关键鉴别信息,对噪声有一定容错能力,并从底层像素级特征描述向中间语义级发展。在此基础上我们提出利用PLSA语义模型,训练得到示例的中间语义表达,形成图像的多示例语义包,进行多示例多标注场景的识别。该方法与目前性能最好的ImaBag方法比较,平均识别精度提升8.9%。2.提出融合简单颜色或形状特征来改善生物启发特征的识别性能。生物启发特征（BIM）是一种基于灵长类动物视觉皮层机理的特征提取方式,该特征模拟人类视觉皮层的前向和分层工作模式,取得了良好的图像分类效果。然而,BIM特征形成过程中的随机学习造成了该特征的不足。当试图增大原型数换取特征性能鲁棒时,特征提取过程计算复杂度提高,特征维剧增,这将加重后续分类器的负荷。另外,特征中含有大量的冗余信息,反倒劣化BIM特征的识别性能。因此,论文提出选取合适的原型数目,通过集成简单颜色或形状特征,来改善识别系统的性能,取得了良好的效果。例如,我们将该方法用于OT场景数据库时,识别性能提高了10.4%。3.提出一种融合颜色或形状特征与BIM特征以进行多标注视觉目标识别的方法。该方法在多示例包生成器框架下进行多特征融合的探索工作。实验证明,将BIM引入到多示例多标注系统中,与颜色,形状等信息进行加权融合生成多示例包,取得了较好的多标注系统的识别效果。对场景识别平均识别精度提高将近6%,对多标注目标识别提高16.3%。4.提出了在线式高效优化异质特征融合机（OLHFFM）学习算法。异质特征融合机是一种基于多核概念,但超越多核学习的一种模型。本文实现该模型的批处理式优化算法“组坐标梯度下降算法”（BCGD）,并在目标和场景识别中进行大量的实验验证,实验表明了该方法在异质特征融合上的有效性,并摸索出细致的异质特征核融合规律。然而,BCGD算法对大规模数据和在线式样本获取的工作模式下无效。因此,本文提出了在线式学习算法OLHFFM,高效优化HFFM模型。该算法给出了“基于多核的groupLASSO正则化模型”的通用在线式解法,我们可以方便地采用该算法求解一类通用多核模型,即损失函数可以是可导的任意函数（例如Logistic函数、Square loss函数等）,同时可以方便地将其推广到“稀疏groupLASSO”等更多的正则化情形下。论文将该算法在较大规模的视觉目标场景图像识别上进行实验验证,取得了很好的识别结果。通过多Pass策略模拟了“万”级规模的样本数,在67类的场景数据库上进行实验验证,均取得了较好的识别性能。在通用视觉目标识别领域,图像表达的语义化趋势、多特征融合趋势、识别方法（包括特征提取和分类器）基于生物机理的趋势、在线式学习趋势等是通用视觉目标的重要技术发展方向,值得进一步深入研究。

论文目录

摘要

Abstract

第一章绪论

1.1 研究背景

1.2 研究意义

1.3 关键技术及发展趋势

1.3.1 特征的语义化描述

1.3.2 多特征融合

1.3.3 多示例多标注识别

1.3.4 基于核的机器学习

1.3.5 增量/在线式学习

1.4 研究内容和论文结构安排

第二章通用视觉目标识别综述

2.1 图像特征表达

2.1.1 SIFT 特征

2.1.2 HOG 特征

2.1.3 LBP 特征

2.1.4 GIST 特征

2.1.5 CTM 特征

2.2 分类和识别策略

2.2.1 k-最近邻

2.2.2 支持矢量机（SVM）

2.3 典型识别框架

2.3.1 词袋框架

2.3.2 空间金字塔框架

2.3.3 贝叶斯分类框架

2.3.4 多示例多标注学习框架

2.4 数据库

2.4.1 自然场景分类数据库

2.4.2 目标数据库

2.4.3 目标场景混合数据库

2.5 本章小结

第三章多示例图像包生成器的研究

3.1 多示例多标注问题示例和模型

3.2 图像多示例包生成器

3.2.1 基于像素块的图像包生成器

3.2.2 基于滤波输出的图像包生成器

3.2.3 基于SOM 分割的图像包生成器

3.2.4 基于JSEG 分割的图像包生成器

3.2.5 基于注意力模型的图像包生成器

3.3 多示例多标注学习算法

3.4 实验及结果

3.4.1 评估数据库

3.4.2 实验结果

3.4.3 关于图像多示例包生成的初步结论

3.5 基于PLSA 模型的语义包生成器

3.5.1 PLSA 语义模型

3.5.2 PLSA 在视觉识别领域的解释

3.5.3 基于PLSA 语义模型的图像包生成过程

3.5.4 在多标注自然场景数据库上的评估

3.6 本章小结

第四章基于生物启发特征的分类技术研究

4.1 生物启发特征（BIM）的形成过程

4.2 BIM 性能评估

4.2.1 原型个数对性能的影响

4.2.2 不同次的随机抽取原型对识别性能的影响

4.2.3 PCA 降维对识别性能的影响

4.3 BIM 与简单特征融合进行单标注识别

4.3.1 简单颜色特征描述

4.3.2 简单形状特征描述

4.3.3 在单标注自然场景数据库上的实验评估

4.4 BIM 与简单特征融合进行多标注识别

4.4.1 BIM 与颜色特征融合表达多示例包

4.4.2 对多标注场景识别

4.4.3 对多标注目标识别

4.5 本章小结

第五章异质特征融合机

5.1 异质特征融合机

5.2 HFFM 模型的批处理式优化算法研究

5.2.1 组坐标梯度下降算法

5.2.2 VOC2009 目标数据库上的实验评估

5.2.3 LSP 场景数据库上的实验评估

5.3 HFFM 模型的在线式优化算法研究

5.3.1 在线式优化算法相关工作

5.3.2 OLHFFM 提出的动机

5.3.3 OLHFFM 算法

5.3.4 OLHFFM 在事件数据库上的实验评估

5.3.5 OLHFFM 在目标数据库上的实验评估

5.3.6 OLHFFM 在场景数据库上的实验评估

5.4 本章小结

结论及展望

参考文献

攻读博士学位期间取得的研究成果

致谢

答辩委员会对论文的评定意见

通用视觉目标识别的关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢