以图像分类为目标的字典学习算法

发布时间:2014-04-28 02:04:34   来源:文档文库   
字号:

以图像分类为目标的字典学习算法
作者:徐健 常志国 赵小强
来源:《现代电子技术》2013年第02

         要:综述了字典学习算法的主要研究方向之一,即以图像分类为目标的稀疏表示字典学习算法。从空间变换法和类别指示法两个角度,分析各种算法的优缺点,并对相应的实验结果进行比较。总结了利用这类算法进行图像分类时所面临的其他一些关键问题,如模式识别中的旋转不变性和计算速度等。依据目前已有的技术和应用需求,探寻该领域未来的研究方向。

        关键词:图像分类;稀疏表示;字典训练;原子

        中图分类号:TN391⁃34 文献标识码:A 文章编号:1004⁃373X201302⁃0022⁃04

        信号稀疏分解方法被广泛的应用于图像处理的各个领域。但是与具有完美数学形式的信号分解算法,如离散傅里叶变换(Discrete Fourier TransformDFT[1]、离散小波变换(Discrete Wavelet TransformDWT[2]和传统的主成分分析法(Principle Component AnalysisPCA)不同,近年来许多人提出的信号稀疏分解算法不再要求稀疏表示矩阵为正交完备基底[3⁃4]。非正交过完备的表示矩阵被人们称为字典。稀疏表示矩阵可以由机器学习算法产生,这类算法称为字典学习算法。人们已经证明了当使用非正交过完备字典对信号进行稀疏表示时,能够最稀疏表示一个样本的字典系数是惟一的[5]

        1959David HubelToresten Wiesel通过对猫的视觉条纹皮层简单细胞感受野的研究得出一个结论:主视皮层V1区神经元的感受野能对视觉感知信息产生一种稀疏表示,证明了稀疏表示符合视觉感知特性[6]1993Mallat等首次提出了应用过完备冗余原子库对信号进行稀疏分解的思想,并引入了匹配追踪算法,为非正交过完备字典的应用提供了理论基础[7⁃8]。自2009年以来,过完备冗余字典的稀疏表示方法成为图像处理领域和模式识别领域的研究热点,被广泛应用于解决计算机视觉方面的问题,如图像去噪、图像修补、图像超分辨率放大和图像分类等[9⁃11]。从目前的研究现状来看,这类字典学习算法已经成为一个研究热点,专为图像分类而设计的字典学习算法就有几十种。人们希望通过稀疏字典学习算法真正揭示人类视觉特性和图像语义之间的关系。本文将这些字典学习算法的研究思路总结为两大类,并根据目前的研究提出该领域未来可能的发展方向。

        1 图像分类

        图像分割、图像识别等问题都可以归为图像分类问题。在利用稀疏表示进行的图像分类研究中,如何设计对特征提取有效的字典和投影是决定算法性能最关键的因素[3]

        传统的基于逼近的稀疏表示字典训练模型为:

        式中:[X]为训练样本矩阵,每列代表一个训练样本;[D]为待训练的字典;[A]为表示系数;[ai]是组成[A]矩阵的列向量;[⋅F]表示矩阵的F范数;[⋅0]表示向量的0范数。该字典训练模型的意义是在满足[ai]0范数约束情况下能达到残差最小。为了完成图像分类任务,人们在该模型的基础上思考出许多改进方案。

        在解决图像分类问题的过程中,根据对稀疏表示特征的利用方式不同,利用稀疏表示进行图像分类的方案可以分为2类:

        1)设计字典把图像变化到有利于分类的空间上,把稀疏系数放入传统分类器进行分类,称之为空间变换法。

        2)设计字典原子与语义直接对应, 利用稀疏系数大小所表示出的样本属性进行分类。称之为类别指示法。

        式(1)所示的问题是双变量优化问题,因此在迭代过程中大多使用固定一个变量优化另一个变量的交替优化算法[4]。本文后续所综述的算法,凡是涉及字典学习算法的双变量优化问题,均使用交替迭代的优化算法进行,本文后续的内容只描述字典训练模型,不再赘述优化算法。

        2 空间变换法

        当样本本身不易分类时,可以利用稀疏表示字典将其变换到易于分类的空间上去。为了让这个空间有利于分类,需要在式(1)所示的字典训练模型的基础上加入一些约束。

        文献[12]建立字典训练模型时,针对每个类训练一个字典。该算法的字典训练模型为式(2)。

        [minDjNj=1i=1…Nl∈SiCλiR*xlDjNj=1+λγR*xlDiyj=R*xlDjCλiy1y2yN=logj=1Ne-λyj-yiR*xD=x-Da*xD22a*xD=argminα∈ℝkx-Da22s.t. a0L] 2

        式中:[xl]是第[l]个训练样本;[Dj]是第[j]个类别对应的字典;[L]是稀疏度。式(2)中在减少稀疏残差的基础上,将优化目标变成残差之间大小关系,其中的[Cλi]使用了logistic函数,保证了这些字典在对自己所对应类别的样本进行稀疏表示时残差比较小,在对其他类别的样本进行稀疏表示时残差比较大。该算法本质是将样本矢量[x]映射为高维矢量[a],然后使用K近邻算法判断类别。

        但是由于logistic函数的运算量较大,该算法在考虑迭代算法时需要进行二阶泰勒近似以降低运算复杂度。并且该算法针对每个类别都要训练一个字典。在分类时,样本需要在所有的字典下根据稀疏度约束进行稀疏表示,对比其残差才能确定类别。因此算法复杂度较高。为了降低分类时算法的复杂度,文献[13]提出了只用一个字典就能区分多个类别的字典训练模型,如式(3)所示:

        [minDθi=1mμCS*xiDθ-yi-S*xiDθyi+1-μS*xiDθyi+λ2θ22SaixiDθyi=Cyifxiaiθ+λ0xi-Dai22+λ1ai1yi=R*xiDCx=log1+e-xfxaθ=wTa+bfxaθ=xTWa+bθ=W∈Rn×kb∈R] 3

        该算法借助了支持向量机(Support Vector MachineSVM)思想,试图将线性分类器和字典[D]均作为训练对象。优化目标兼顾正确判决的[S*]和错误判决[S*]之差及稀疏表示残差,并加入了线性分类器(或双线性分类器)的条件。通过理论分析,得出该算法在研究分类框架时兼顾了泛化能力,这样就避免了过拟合现象,并且提高了该算法的鲁棒性。但是该算法没有解决线性组合系数[μ]如何选取的问题。而且,尽管分类时算法复杂度降低了,分类器训练的过程算法复杂度仍然很高。无法针对维数较高的样本进行训练。

本文来源:https://www.2haoxitong.net/k/doc/e8c1c5beba0d4a7302763a72.html

《以图像分类为目标的字典学习算法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式