动作识别的调研

发布时间:2018-07-02 14:05:53   来源:文档文库   
字号:

1.动作识别要解决的主要问题

通过计算机对传感器(摄像机)采集的原始图像或图像序列数据进行处理和分析,学习并理解其中人的动作和行为。

2.动作识别的步骤

包含以下3个步骤:

从图像帧中检测运动信息并提取底层特征;

对行为模式或是动作进行建模;

建立底层视觉特征与动作行为类别等高层语义信息之间的对应关系。

3.动作识别大体上的处理方法

大体可分为3类:

非参数方法:通常从视频的每一帧中提取某些特征,然后用这些特征与预先存储的模板(template)进行匹配;

立方体分析方法:不是基于帧的处理,而是将整段视频数据看作是一个3维的时空立方体进行分析;

参数化时间序列分析的方法:对运动的动态过程给出一个特定的模型,并通过对训练样本数据的学习获得每一类动作特定的模型参数,其中比较常用的模型包括:隐马尔可夫模型(HiddenMarkovModelsHMMS)、线性动态系统(LinearDynamicalSystemsLDSs)等。

4.动作识别的特征

(1)静态特征

人体目标的尺寸、颜色、边缘、轮廓、形状和深度。

例如:人体轮廓(Contour)可以表示当前人体目标的基本形状。

(2)动态特征

光流,速度,速率,方向,轨迹

轨迹刻画了目标在空间中的移动路径。有了轨迹后,目标的运动速度和方向等特征可以很方便地计算出。轨迹特征在物体检测、跟踪或是识别效果不理想的情况下极易出错,尤其是在复杂的场景下。鉴于此,一些研究者开始使用光流特征。光流特征的准确获取本身是一个很棘手的问题,即便是目前最好的光流计算算法,也存在着噪声,同时计算复杂度高,因此研究者开始尝试对特征点进行跟踪。

(3)时空特征

时空形状,时空兴趣点,时空上下文

这类特征将一段视频作为一个(x,y,t)3维空间中的时空体来分析和处理,即视频图像在时间轴上的级联,然后提取3维数据模式,如时空形状、时空立方体、时空兴趣点等,用于动作的描述。时空特征具有如下优点:通过对立方体的分析,可以获得较长时间的动态特性;联合考虑空间和时间的连续性,特征匹配的复杂度大大降低;对遮挡等事件的处理更加鲁棒有效。

<1>时空模板

运动能量图,运动历史图;动作原型和视频片段之间的共生矩阵;3维形状描述子作为动作模板;时空体内时空特征的分布模式;

<2>局部时空兴趣点

基于时空模板的方法依赖于预处理(人体轮廓或是剪影的提取)或是模式自动搜索和匹配的精度与速度,有效性受限制。有研究者在整段视频中寻找局部时空特征来表征动作。将2维图像上的Harris角点扩展到3维空间上。在2维图像上,Harris角点是在两个方向上都有很大变化的点。通过对Harris角点增加时间约束,检测在时空上都变化剧烈的点,得到3Harris角点,达到在时空维度中检测局部结构的目的。

<3>时空上下文

基于局部时空兴趣点的方法没有很好利用局部特征之间的空间几何关系。对局部特征之间的空间几何关系进行建模,进一步提高特征的描述能力。比如:首先利用3Harris角点检测器来得到局部特征;然后对每个局部特征的空间和时间邻域进行多尺度网格划分,并统计网格中的局部特征分布;最后多个网格的分布相连得到最后的特征。

(4)描述性特征

属性,场景,物体,姿态

基于静态特征、动态特征和时空特征等底层视觉特征的动作识别方法取得不错效果,但这些方法仅通过底层特征直接得到动作的类别,动作视频中丰富的语义信息并没得到充分利用。研究者提出利用中层的描述性特征来进行动作识别。

比如:动作属性空间,每个动作表示成属性空间中的一个点;从数据中自动学习具有判别力的属性,人工定义属性集和数据中学习得到的属性集综合起来进行动作学习;对这些描述性特征(包括原子动作、物体和姿态)之间的共生统计进行建模,并把共生关系称为“动作基”。一个动作表示成这些“动作基”的子集的加权组合。

5.特征提取的方法

特征提取方法主要分为3类:

基于底层跟踪或姿态估计的方法

提取的特征主要是静态特征和基于运动信息的动态特征,因此提取特征的有效性依赖于目标跟踪和人体姿态估计的准确性。真实的场景中,背景杂乱运动目标较多,进行准确的目标跟踪和人体姿态估计具有极大的挑战性,导致这类特征的鲁棒性不是很好

②)基于图像处理技术直接从图像中提取特征的方法:

提取的一般是基于光流的动态特征时空特征,这类方法提取的一般是对图像或是时空立方体局部运动的描述,因而计算量比较大,易受噪声的干扰,且缺乏对动作行为模式整体性的考虑和全局性的分析;

基于学习方法得到的属性描述:

提取的一般是物体、姿态和场景等中层语义特征,这类特征可能对特定场景下的动作识别极为有效,但因为涉及到人为定义的“动作属性空间”,在真实自然场景下,存在着属性空间不完备或是不准确而导致动作识别性能下降的风险。

6.动作识别特征的比较

7.动作识别的方法

常见的动作识别方法分为3类:基于模板的方法概率统计的方法基于语法的方法

(1)基于模板的方法

先利用一个或一组模板来表示待识别目标的运动,然后将待识别目标的模板与预先存储的已知模板进行比较,根据相似度度量判别动作类别。依据匹配的对象是一个还是一组静态模式可以将该类方法进一步分为模板匹配(Template Matching)和动态时间规整(Dynamic Time Warping)

①模板匹配

在视频上计算待识别目标的模板和候选视频区域之间的距离,小于阈值,则认为待识别目标被检测到,该方法可以对单帧图像或是一个图像序列进行识别。

在模板匹配算法中对表示模板的特征没特别要求,常见颜色形状纹理等特征都可利用。在计算模板与候选区域的距离时,可以利用欧式距离、马氏距离或是经过距离度量学习后的加权距离。

很多采用K一近邻/最近邻分类器的方法实际也是模板匹配的方法,这种分类器通过计算观测序列的图像描述符与训练序列的图像描述符之间的距离,分类结果为其K个近邻训练序列中最常见的动作类型。

优缺点:基于模板匹配的方法具有计算复杂度低的优点。这类算法的一个难点是如何选择时间间隔,当选取的时间间隔比较小时,存储的模板的数目比较多,且样本和匹配的模板之间的差异比较小,识别效果会相对比较好;反之,当选取的时间间隔比较大时,预先存储的模板数目会较少,且样本和匹配的模板之间的变化较大,识别效果会较差。

②动态时间规整

由于同一个动作在不同视频中持续的时间可能并不相同,因此有必要在时间上对动作样本进行规整,典型的方法是动态时间规整。动态时间规整算法利用动态规划原理进行时间规整,可以降低搜寻比对所用的时间。

(2)基于概率统计的方法

概率统计模型把动作表示成一个连续的状态序列,每个状态都有自己的表观和动态特征。

①产生式模型

产生式模型估计联合概率分布,计算后验概率,从统计学的角度表示特征和状态之间的关联情况。

常见的产生式模型主要有:高斯混合模型、隐马尔可夫模型(HMM)、概率潜在语义分析(PLSA)和潜在狄利克雷分配(LDA)等。

②判别式模型

产生式模型的局限性在于依靠简化的统计假设来计算特征和状态之间的联合概率,不能直接计算条件概率。判定式模型在给定了特征之后,可以直接计算条件概率分布。

可以进行多类的识别,通常情况下识别性能比产生式模型稍好

常见的判别式模型包括线性判别分析、支持向量机(SVM)、提升方法(Boosting)、条件随机场(CRF)等。

(3)基于语法的方法

基于文法的方法将人体动作描述为一连串的符号每一个符号代表了动作中的一个原子级的分解。这类方法需要首先识别这些原子动作,然后将人体动作表示为通过一系列生成规则形成的原子动作流。识别的过程主要用到了自然语言处理里面的文法分析技术

8.动作识别方法的比较

模板匹配的方法:

优点:直观、简单;

缺点:但是缺乏鲁棒性,一般用于静态姿势或是简单动作的识别中;

概率统计的方法:

优点:是目前主流的方法,应用广泛;

缺点:存在的问题是需要大量的训练数据来学习模型参数,且对于产生式模型,为了模型求解的便利,一般假设样本是独立同分布的,并假设不同的观测值之间是相互独立的,这样强的独立性假设,往往和数据的实际产生过程不符;

基于语法的方法:

有利于对复杂结构的理解和对先验知识的有效利用,一般可与前两种方法结合;

9.常用数据库

动作识别领域常用数据库分为4类:

10.目前难点

(1)动作的分类和定义

如何定义人体动作,如何划分动作层次还未给出一个明确的准则。一个人体动作具体包含哪些姿势,可以分几个阶段执行及起始时间如何确定都有待进一步明确。

(2)动作的类内变化和类间变化

对于同一类动作,由于人体尺度的变化,即使是同一个人做同一个动作,表现在视频图像中的大小也不一样。 对于慢跑和跑步这两个动作,表现在视频中的姿势就是一致的。

3动作采集环境和采集设备的影响

同属于人遛狗,由于不同的视角,不同的季节,不同的场地,视觉表观就不同。这些环境因素的影响就导致计算机得到不同的视觉观测。

4连续动作的分割和长时视频中动作的识别

现有的动作识别方法是从时间域分割好的视频片段来进行分类,不能识别长视频中发生的多个动作,也不能定位事件发生的开始帧和结束帧。

(5)模型的泛化能力

模型的结构需要人工设计,当需要分类的动作类别比较多时,如何得到有效且泛化能力的动作模型值得进一步深入的研究和探索。

(6)大量训练数据的标注

如何对大量的视频进行标注是一个问题,利用人工标注的方式费时费力,需要视频数据的自动标注工具。

11.未来研究方向

未来的发展方向大致可分为两类:

(1)特征的提取与构造

①底层特征的提取

人体动作识别的效果直接取决于从视频或者图像序列中提取到的底层特征的有效性。比如颜色纹理形状运动或是深度信息等在特定的场景下识别效果不错,但是正是场景识别性能却急剧下降。相对复杂场景特征的鲁棒提取技术值得进一步研究。

②特征的表达能力

常见的视觉词袋在动作识别领域取得不错的效果。但它只保留了局部特征的出现次数,而完全抛弃了局部特征之间的时空依赖关系。如果把空间和时间约束以恰当的方式引入到视觉词袋模型中,能提高视觉词袋的表达能力。

③特征的比较与评测

构造比较合理的人体动作公用测试视频库,需要在合理的比较和评测方法上进行研究。

④不同特征之间的融合

特征之间不有互补性,融合不同特征是解决负责人体动作识别问题的基本思路之一,在特征融合策略上,多核学习,多任务学习等策略有待进一步探讨。

(2)识别问题本身

①真实场景下的动作识别

图像噪声,摄像机的运动,复杂背景及关照变化等影响使得该类问题仍然很难解决。

②群体动作识别

包含多人交互或是群体运动的动作识别问题的类内散度更大,一般需要考虑到不同特征的融合及动作的分层建模等。

本文来源:https://www.2haoxitong.net/k/doc/52361ae587c24028905fc396.html

《动作识别的调研.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式