基于机器学习的物体识别

基于机器学习的物体识别

论文摘要

计算机视觉是人工智能领域的核心问题之一,它的目标是让计算机拥有人的视觉能力,也就是让机算计像人一样理解现实世界中的图像。计算机视觉在医学、工业、军事、航天等领域拥有广泛的应用。但是,根据人的视觉占用至少60%的人脑资源这个事实,计算机视觉在学术界被认为是“人工智能完全”问题,或者至少是“人工智能困难”问题。在众多计算机视觉的问题中,广义的物体识别,即在任意环境下识别任意物体,又是最核心的问题之一。总的来说,物体识别是让计算机自动地把图像中的物体分类。这是个非常具有挑战性的问题,它也是很多应用问题的最紧要瓶颈所在,比如图片搜索问题。虽然世界上诸如麻省理工、斯坦福、耶鲁、剑桥、普林斯顿等众多非常有实力的研究机构已经研究这个问题多年,广义的物体识别问题还远远没有得到很好的解决。但是,从机器学习的角度来说,物体识别的问题至少在一定程度上是可行的。准确的说,只要能合适地抽取图像特征、合适地描述物体和找到合适的分类模型,实现一个能满足实际应用的物体识别系统是可行的。在这篇论文里,我们将介绍一个基于机器学习的物体识别系统原型。这个原型系统包括三个部分:物体分割子系统、物体描述子系统和一个分类器。在这三个要点上,我们创造性地提出了自己的方法:一个基于混合图模型(HGM)的物体分割算法、一个基于拉多表示的物体描述算法(RRFD)和一个称为神经编码分类器(NCC)的分类算法。随后,我们对这个基本原型系统做一些改进工作:包括基于低秩描述(LRR)的图像聚类算法、基于局部线性转换(LLT)的多标签分类算法和基于反馈嵌入(FE)的大规模相似图像查找技术。具体来说,本文的创新点有:我们提出了用于一般半指导分类的HGM (Hybrid Graph Model,混合图模型),并建立了一个有效的物体自动分割方法。根据我们所知,我们是第一个将混合图引入机器学习的人。不同于传统的物体分割方法,我们的基于HGM的方法是自动的,即不需要手动分割好的训练数据。这使得我们的物体识别系统更加实用。我们提出了基于Radon变换的物体描述算法,称为RRFD (Radon Repre-sentation Based Feature Description,基于拉多表示的特征描述)。在物体已经从图像中分割出来后,RRFD可以把物体的形状、颜色、纹理等信息综合地集成到一个维度比较低的特征向量中去,并由此而实现精确的物体识别。除此之外,RRFD也可以作为一个一般的特征描述算法,它可以描述任意一个图像区域。物体识别中的最后一个步骤是对特征向量进行分类。我们提出了基于神经编码的分类器,称为NCC(Neural Coding Classifier,神经编码分类器)。和传统的诸如SVM的分类算法相比,NCC不仅能够很好地处理测试数据与训练数据同分布的情况,也能更好地处理测试数据与训练数据概率分布不同的情况。实验结果表明,在测试数据和训练数据概率分布相同的情况下,NCC的分类精度度略微超过SVM;在测试数据和训练数据概率分布不同的情况下,NCC可以显著地超过SVM。当一张图像中可能含有多个类的物体时,物体识别中对应的分类问题就是一个MLC(Multi-Label Classification,多标签分类)问题。多标签分类问题可以用MOR(Multi Output Regression,多输出回归)模型来处理。我们提出了用于定义回归分析中损失函数的LLT(LocallyLinear Transformation,局部线性转换)机制,并在SVR(Support VectorRegression,支持向量回归)框架下提出了一种结合LLT和SVR的多输出回归算法,即所谓的LLT-SVR。LLT-SVR即提供了一种很好的多输出回归分析工具,又为我们的物体识别系统提供了一种有效的多标签分类器。为了提高物体识别系统的实用性,我们需要一种有效的图像聚类机制。我们首次提出了用于处理矩阵数据信号的LRR(Low-Rank Representation,低秩表示)。LRR是一种新的压缩传感(Compressed Sensor)技术,和传统的SR(Sparse Representation,稀疏表示)相比,LRR能更好的描述数据的整体结构,从而在诸如图像聚类之类的数据聚类问题中,LRR有明显的优势。基于LRR,我们提出了一种有效的图像聚类算法。除图像聚类外,LRR子空间分割算法也是一种基本的数据聚类法。更重要的是,LRR首次提出了“低秩”(Low Rank)准则。LRR不但在机器学习领域产生巨大的理论影响,而且在计算机视觉和图像处理领域有着广泛的应用。为了提高物体识别系统的运行速度,我们需要一种高速的相似图像查找技术。我们提出了称为FE(Feedback Embedding,反馈嵌入)的数据降维算法。基于FE,我们可以设计出一种有效的语义哈希算法,进而实现在大规模物体识别系统中的快速相似图像查找。除研究物体识别和一些相关的机器学习问题(比如分类、聚类和降维等)外,本文也对一些根本的科学问题进行了讨论。比如我们探究大脑是如何处理视觉信号的,并提出了一个新颖的神经编码假设,即大脑是基于信号重构来处理信号的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究内容
  • 1.3 我们的贡献
  • 1.4 章节安排
  • 第2章 基础知识和相关工作
  • 2.1 基础知识
  • 2.1.1 色彩空间
  • 2.1.2 纹理
  • 2.1.3 兴趣点
  • 2.1.4 边缘
  • 2.1.5 特征描述
  • 2.1.6 常用术语
  • 2.2 相关工作
  • 2.2.1 物体稀疏表示模型
  • 2.2.2 BOW模型
  • 2.2.3 形状模型
  • 第3章 系统原型
  • 3.1 基本框架
  • 3.2 HGM物体自动分割
  • 3.2.1 引言
  • 3.2.2 广义的HGM
  • 3.2.3 HGM的理论依据
  • 3.2.4 HGM物体分割的基本框架
  • 3.2.5 提取先验信息
  • 3.2.6 用HGM学习掩码图
  • 3.2.7 实验结果及分析
  • 3.3 RRFD物体描述
  • 3.3.1 引言
  • 3.3.2 RRFD的基本框架
  • 3.3.3 Radon变换
  • 3.3.4 仿射不变特征转换
  • 3.3.5 光照不变的距离度量
  • 3.3.6 实验结果及分析
  • 3.4 NCC分类器
  • 3.4.1 引言
  • 3.4.2 模拟表示器
  • 3.4.3 模拟耦合的细胞激活
  • 3.4.4 实验结果
  • 3.5 物体识别实验
  • 第4章 系统的改进
  • 4.1 图像聚类
  • 4.1.1 引言
  • 4.1.2 问题的定义
  • 4.1.3 LRR
  • 4.1.4 鲁棒性
  • 4.1.5 实验结果及分析
  • 4.1.6 LRR的其它应用
  • 4.2 多标签分类
  • 4.2.1 引言
  • 4.2.2 LLT的基本原理
  • 4.2.3 基于LLT多标签分类
  • 4.2.4 实验结果及分析
  • 4.3 快速相似图像查找
  • 4.3.1 引言
  • 4.3.2 FE模型
  • 4.3.3 推广的形式
  • 4.3.4 优化算法
  • 4.3.5 实验结果及分析
  • 4.3.6 USPS数字图像库
  • 第5章 总结和展望
  • 参考文献
  • 附录A 相关数学公式和证明
  • A.1 一些简单定理的证明
  • A.2 定理4.2的证明
  • A.2.1 证明的基本步骤
  • A.2.2 等价条件
  • A.2.3 对偶条件
  • 攻读博士学位期间(在校)的研究成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于机器学习的物体识别
    下载Doc文档

    猜你喜欢