基于机器学习的物体识别

论文摘要

计算机视觉是人工智能领域的核心问题之一，它的目标是让计算机拥有人的视觉能力，也就是让机算计像人一样理解现实世界中的图像。计算机视觉在医学、工业、军事、航天等领域拥有广泛的应用。但是，根据人的视觉占用至少60%的人脑资源这个事实，计算机视觉在学术界被认为是“人工智能完全”问题，或者至少是“人工智能困难”问题。在众多计算机视觉的问题中，广义的物体识别，即在任意环境下识别任意物体，又是最核心的问题之一。总的来说，物体识别是让计算机自动地把图像中的物体分类。这是个非常具有挑战性的问题，它也是很多应用问题的最紧要瓶颈所在，比如图片搜索问题。虽然世界上诸如麻省理工、斯坦福、耶鲁、剑桥、普林斯顿等众多非常有实力的研究机构已经研究这个问题多年，广义的物体识别问题还远远没有得到很好的解决。但是，从机器学习的角度来说，物体识别的问题至少在一定程度上是可行的。准确的说，只要能合适地抽取图像特征、合适地描述物体和找到合适的分类模型，实现一个能满足实际应用的物体识别系统是可行的。在这篇论文里，我们将介绍一个基于机器学习的物体识别系统原型。这个原型系统包括三个部分：物体分割子系统、物体描述子系统和一个分类器。在这三个要点上，我们创造性地提出了自己的方法：一个基于混合图模型（HGM）的物体分割算法、一个基于拉多表示的物体描述算法（RRFD）和一个称为神经编码分类器（NCC）的分类算法。随后，我们对这个基本原型系统做一些改进工作：包括基于低秩描述（LRR）的图像聚类算法、基于局部线性转换（LLT）的多标签分类算法和基于反馈嵌入（FE）的大规模相似图像查找技术。具体来说，本文的创新点有：我们提出了用于一般半指导分类的HGM （Hybrid Graph Model，混合图模型），并建立了一个有效的物体自动分割方法。根据我们所知，我们是第一个将混合图引入机器学习的人。不同于传统的物体分割方法，我们的基于HGM的方法是自动的，即不需要手动分割好的训练数据。这使得我们的物体识别系统更加实用。我们提出了基于Radon变换的物体描述算法，称为RRFD （Radon Repre-sentation Based Feature Description，基于拉多表示的特征描述）。在物体已经从图像中分割出来后，RRFD可以把物体的形状、颜色、纹理等信息综合地集成到一个维度比较低的特征向量中去，并由此而实现精确的物体识别。除此之外，RRFD也可以作为一个一般的特征描述算法，它可以描述任意一个图像区域。物体识别中的最后一个步骤是对特征向量进行分类。我们提出了基于神经编码的分类器，称为NCC（Neural Coding Classifier，神经编码分类器）。和传统的诸如SVM的分类算法相比，NCC不仅能够很好地处理测试数据与训练数据同分布的情况，也能更好地处理测试数据与训练数据概率分布不同的情况。实验结果表明，在测试数据和训练数据概率分布相同的情况下，NCC的分类精度度略微超过SVM；在测试数据和训练数据概率分布不同的情况下，NCC可以显著地超过SVM。当一张图像中可能含有多个类的物体时，物体识别中对应的分类问题就是一个MLC（Multi-Label Classification，多标签分类）问题。多标签分类问题可以用MOR（Multi Output Regression，多输出回归）模型来处理。我们提出了用于定义回归分析中损失函数的LLT（LocallyLinear Transformation，局部线性转换）机制，并在SVR（Support VectorRegression，支持向量回归）框架下提出了一种结合LLT和SVR的多输出回归算法，即所谓的LLT-SVR。LLT-SVR即提供了一种很好的多输出回归分析工具，又为我们的物体识别系统提供了一种有效的多标签分类器。为了提高物体识别系统的实用性，我们需要一种有效的图像聚类机制。我们首次提出了用于处理矩阵数据信号的LRR（Low-Rank Representation，低秩表示）。LRR是一种新的压缩传感（Compressed Sensor）技术，和传统的SR（Sparse Representation，稀疏表示）相比，LRR能更好的描述数据的整体结构，从而在诸如图像聚类之类的数据聚类问题中，LRR有明显的优势。基于LRR，我们提出了一种有效的图像聚类算法。除图像聚类外，LRR子空间分割算法也是一种基本的数据聚类法。更重要的是，LRR首次提出了“低秩”（Low Rank）准则。LRR不但在机器学习领域产生巨大的理论影响，而且在计算机视觉和图像处理领域有着广泛的应用。为了提高物体识别系统的运行速度，我们需要一种高速的相似图像查找技术。我们提出了称为FE（Feedback Embedding，反馈嵌入）的数据降维算法。基于FE，我们可以设计出一种有效的语义哈希算法，进而实现在大规模物体识别系统中的快速相似图像查找。除研究物体识别和一些相关的机器学习问题（比如分类、聚类和降维等）外，本文也对一些根本的科学问题进行了讨论。比如我们探究大脑是如何处理视觉信号的，并提出了一个新颖的神经编码假设，即大脑是基于信号重构来处理信号的。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 研究内容

1.3 我们的贡献

1.4 章节安排

第2章基础知识和相关工作

2.1 基础知识

2.1.1 色彩空间

2.1.2 纹理

2.1.3 兴趣点

2.1.4 边缘

2.1.5 特征描述

2.1.6 常用术语

2.2 相关工作

2.2.1 物体稀疏表示模型

2.2.2 BOW模型

2.2.3 形状模型

第3章系统原型

3.1 基本框架

3.2 HGM物体自动分割

3.2.1 引言

3.2.2 广义的HGM

3.2.3 HGM的理论依据

3.2.4 HGM物体分割的基本框架

3.2.5 提取先验信息

3.2.6 用HGM学习掩码图

3.2.7 实验结果及分析

3.3 RRFD物体描述

3.3.1 引言

3.3.2 RRFD的基本框架

3.3.3 Radon变换

3.3.4 仿射不变特征转换

3.3.5 光照不变的距离度量

3.3.6 实验结果及分析

3.4 NCC分类器

3.4.1 引言

3.4.2 模拟表示器

3.4.3 模拟耦合的细胞激活

3.4.4 实验结果

3.5 物体识别实验

第4章系统的改进

4.1 图像聚类

4.1.1 引言

4.1.2 问题的定义

4.1.3 LRR

4.1.4 鲁棒性

4.1.5 实验结果及分析

4.1.6 LRR的其它应用

4.2 多标签分类

4.2.1 引言

4.2.2 LLT的基本原理

4.2.3 基于LLT多标签分类

4.2.4 实验结果及分析

4.3 快速相似图像查找

4.3.1 引言

4.3.2 FE模型

4.3.3 推广的形式

4.3.4 优化算法

4.3.5 实验结果及分析

4.3.6 USPS数字图像库

第5章总结和展望

参考文献

附录A 相关数学公式和证明

A.1 一些简单定理的证明

A.2 定理4.2的证明

A.2.1 证明的基本步骤

A.2.2 等价条件

A.2.3 对偶条件

攻读博士学位期间（在校）的研究成果

致谢

基于机器学习的物体识别

论文摘要

论文目录

相关论文文献

猜你喜欢