面向图像语义描述的场景分类研究

面向图像语义描述的场景分类研究

论文摘要

如何让计算机按照人类理解的方式对海量图像数据进行高效地分类与管理,成为了图像理解领域中一个亟待解决的问题。场景分析与理解为图像的语义分类提供了可能,场景分类被明确认定为是图像语义分类中的一个关键课题。本文主要成果有:(1)提出一种基于局部熵加权特征融合的场景分类方法。鉴于不同的特征描述子适合描述不同类型的场景图像,本文针对两种局部特征描述子进行特征融合以增加场景图像特征描述的区分力。首先,通过计算图像的局部熵定量分析场景图像的复杂度,据此定义平坦度,并通过叠加场景类内每幅图像的平坦度获得该场景类的平坦度;其次,提取两种分别适用于描述区域平滑和区域变化的局部特征描述子,并分别进行图像直方图描述;然后,利用场景类图像的平坦度计算两种局部特征的权系数,并对两种基于独立的局部描述子形成的图像直方图描述加权融合,获得场景类图像的最佳描述;最后训练概率生成模型,完成场景分类任务。实验结果表明,该方法对于不同类型的图像特征描述具有一定的普适性。(2)提出一种基于超像素网格空间金字塔图像描述的场景分类方法。鉴于传统的词包模型图像描述方法忽略空间信息的缺点,本文采用上下文特征和空间金字塔图像描述来加入图像的空间信息。首先,构建多尺度上下文特征使其能够保证特征描述时加入局部空间结构信息;其次,对图像进行超像素网格分块,网格的分辨率由金字塔层数决定;然后,对各层次上超像素网格分块得到的各个图像子块依据视觉词典生成图像直方图描述,并按照一定的权重组合在一起形成整幅图像的直方图描述;最后,训练分类器,完成场景分类任务。本文采用的超像素网格分块,避免了图像中对象的强制分割,从而保证了子区域内对象语义的一致性。实验结果验证了场景分类过程中上下文信息和超像素网格分块的优越性。(3)提出一种基于局部约束线性编码特征映射方式的场景分类方法。提取图像的视觉特征并聚类生成视觉码本以后,依据码本进行视觉特征映射形成图像描述。本文提出一种基于最大求和合并法的局部约束线性编码方式特征映射方法,将前t个概率最大的码字进行线性加权取平均作为特征映射编码结果,并分析讨论t的取值对于场景分类性能的影响,并讨论了不同的码本长度与场景分类性能之间的关系。实验证明,该方法提高了特征码字之间的相关性和特征映射的鲁棒性,取得了较好的场景分类性能。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 场景分类的研究背景与意义
  • 1.1.1 课题背景
  • 1.1.2 课题意义
  • 1.2 场景分类的研究现状
  • 1.2.1 场景理解的层次化结构
  • 1.2.2 基于低层特征的场景分类
  • 1.2.3 基于中层语义建模的场景分类
  • 1.2.4 基于中层语义监督学习的场景分类
  • 1.2.5 基于中层语义无监督学习的场景分类
  • 1.3 场景分类的难点
  • 1.4 论文主要成果
  • 1.5 论文内容安排
  • 2 场景图像分类过程
  • 2.1 场景分类
  • 2.2 特征提取与描述
  • 2.2.1 局部特征
  • 2.2.2 全局特征
  • 2.3 视觉词典
  • 2.3.1 K-Means算法
  • 2.3.2 K-Means++算法
  • 2.3.3 HIK算法
  • 2.3.4 通用码本和类别码本
  • 2.4 图像描述
  • 2.5 主题模型
  • 2.5.1 概率潜在语义分析模型
  • 2.5.2 隐含狄利克雷分配模型
  • 2.6 分类器
  • 2.7 本章小结
  • 3 基于局部熵加权特征融合的场景分类
  • 3.1 引言
  • 3.2 算法原理
  • 3.3 特征提取
  • 3.3.1 特征提取
  • 3.3.2 图像描述
  • 3.4 图像加权
  • 3.4.1 局部熵
  • 3.4.2 平坦度测量
  • 3.4.3 权系数
  • 3.5 生成模型
  • 3.6 实验结果与分析
  • 3.6.1 数据集
  • 3.6.2 实验设置
  • 3.6.3 实验结果
  • 3.6.4 实验分析
  • 3.7 本章小结
  • 4 基于超像素网格空间金字塔图像描述的场景分类
  • 4.1 引言
  • 4.2 空间金字塔
  • 4.2.1 金字塔匹配核
  • 4.2.2 空间金字塔匹配
  • 4.2.3 特征空间金字塔构建
  • 4.3 上下文特征
  • 4.4 超像素网格分块
  • 4.4.1 规则网格
  • 4.4.2 网格参数
  • 4.4.3 规则网格生成
  • 4.4.4 规则网格评价
  • 4.5 实验与分析
  • 4.5.1 数据集与参数设置
  • 4.5.2 实验结果
  • 4.5.3 实验分析
  • 4.6 本章小结
  • 5 基于局部约束线性编码特征映射方式的场景分类
  • 5.1 引言
  • 5.2 特征映射编码
  • 5.2.1 矢量量化方式
  • 5.2.2 稀疏编码方式
  • 5.2.3 局部约束线性编码方式
  • 5.3 近似LLC快速编码
  • 5.4 特征编码合并方式
  • 5.5 实验结果与分析
  • 5.5.1 数据集与实验设置
  • 5.5.2 实验结果与分析
  • 5.6 本章小结
  • 6 总结与展望
  • 6.1 论文总结
  • 6.2 工作展望
  • 参考文献
  • 作者简历
  • 攻读博士学位期间发表的学术论文
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    面向图像语义描述的场景分类研究
    下载Doc文档

    猜你喜欢