一种基于隐变量的嵌入的群体行为识别方法与流程

文档序号:16671652发布日期:2019-01-18 23:37阅读:205来源:国知局
一种基于隐变量的嵌入的群体行为识别方法与流程

本发明属于计算机视觉技术领域,特别涉及一种基于隐变量的嵌入的群体行为识别方法。



背景技术:

目前主要的群体行为识别方法主要是通过把视频中每个人之间的关系通过图模型进行刻画,其中每个人被当作图中的一个节点,从而进行基于图模型的推断。然而,一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。

一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。基于人与人之间的关系的群体行为识别模型所刻画的关系主要是基于局部关系的模型。



技术实现要素:

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于隐变量的嵌入的群体行为识别方法,本发明提出的模型能够很好地对群体行为进行描述与识别,并且在常用的群体行为识别研究数据集中获得了当前较优的识别结果。

为了达到上述目的,本发明采用以下技术方案:

本发明一种基于隐变量的嵌入的群体行为识别方法,包括下述步骤:

s1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;

s2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;

s3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别;

s4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,所述注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。

作为优选的技术方案,步骤s1具体包括:

s1.1、判断图片的类型;

s1.1.1、当图片为rgb图片时,利用数据集中给定的个体标注框对每个人进行定位,并且根据标注框对每帧图片的个体进行图片抠取,经过对截取的图片进行大小变换成224×224×3,其中3为rgb通道数,将变换后的图片输入到双流卷积神经网络的rgb流卷积网络中进行特征提取;

s1.1.2、当图片为光流图片时,首先将光流图片进行大小变换成224×224×1,然后将水平方向和垂直方向的光流图按照通道进行拼接成224×224×2,最后再将该帧的前后共十个时刻的光流图进行通道拼接,得到224×224×20的堆叠的光流图表达;

s1.2、其中双流网络使用经过ucf101数据集预训练的50层残差卷积神经网络网络参数,特征取残差网络最后一个池化层的输出,特征维度为2048维;

s1.3、最后通过将rgb通道和光流通道输出的特征进行拼接,最终得到每个个体4096维的外观及运动特征表达。

作为优选的技术方案,步骤s2具体为:

s3.1、通过将隐变量的后验概率进行特征空间的嵌入,将隐变量hi的后验概率p(hi|{xi})利用特征图φ(hi)进行嵌入,有:

目前先假设是无限维特征空间,并且d的值可以通过交叉验证的方法确定;

s3.2、需要对hi中的所有变量计算积分,即有

仅当图的结构为树时,上式可以通过信息传播算法进行计算;

s3.3、从嵌入点的角度利用不动点方程对上式进行等价表达,即利用公式μx算子进行推导,有:

对于平均场嵌入方法,函数和算子均与势能函数φ和ψ之前有复杂的非线性关系,并且特征映射函数φ需要从数据中学习得到;

s3.4、通过利用神经网络进行参数化表示,并利用监督信息对其学习进行非线性关系的获得,假设其中d为超参数,对于算子通过下式的神经网络进行参数化表达:

其中σ(·)∶=max{0,·}为线性整流函数,并记待学习参数为w={w1,w2,w3};因此,根据的表达式通过平均场迭代更新的方式对网络的参数进行估计,从而对图中的关系利用嵌入特征进行表达。

作为优选的技术方案,步骤s3具体为:

记每个可以观测的个体变量和群体行为场景分别xi,i∈vp和xscene,利用其对应的隐变量hi,i∈vp和hscene,对每个观测变量的中层语义进行表示,该中层语义可以理解每个人在当前群体行为场景下的运动状态,其中vp为当前场景下的所有人;因此,根据每个独立的隐变量表达hi,通过利用人与群体的关系和上下文关系将每个独立变量的信息利用隐变量进行综合,综合后的隐变量能够表示人与群体交互的信息和群体行为场景信息;然后对当前场景下的所有个体建立一个每个节点均相互连接的无向图,然后对图中的每个节点进行条件后验概率表示。

作为优选的技术方案,在群体行为识别的场景中,相互连接的无向图包含了两种语义关系:1)个体与群体之间的关系和2)个体与场景之间的关系;根据每个个体与群体之间和每个个体与场景之间的关系,每个个体的隐变量的后验概率可以表示其中vp\i指当前场景下,除了第i个个体以外的所有个体;群体场景的隐变量的后验概率可以表示根据包含全局群体行为信息的场景隐变量hscene和每个个体包含局部群体行为信息的个体隐变量hi从中识别当前场景下发生的群体行为,因此群体行为的后验概率可表示为

作为优选的技术方案,将多轮近似平均场嵌入过程利用递归神经网络进行改进,根据个体特征表示xi进行隐变量推断和特征嵌入,得到隐变量的嵌入特征hi嵌入特征经过多轮近似平均场过程后进行综合与群体行为分类,最终对场景下的群体行为进行识别;具体而言,

首先记hi为隐变量hi嵌入到特征空间的表示,并且利用个体外观与运动特征xi除个体i以外所有人的平均外观与运动特征以及上一轮迭代得到的场景隐变量嵌入特征表达进行建模,因此,得到个体隐变量嵌入特征的更新表达式为:

其中,[;]表示特征向量的垂直拼接,|vp|表示群体行为场景中个体的数目,σ(·)为线性整流函数(rectifiedlinearunit,relu)和λ为个体隐变量嵌入特征更新的步长;

类似地,是场景隐变量hscene的嵌入特征表达,通过利用全局图片特征xscene、当前场景下人的平均外观特征和人的嵌入特征的整合表达和对场景嵌入特征进行如下的表示:

由于上式是对个体及其局部交互行为的非线性关系建模,在每个场景嵌入特征的迭代更新步骤中,根据上一个迭代步骤的场景嵌入特征和一句当前迭代步骤的场景特征、个体平均外观特征和个体平均嵌入特征对其进行部分更新,使得嵌入特征在迭代更新的过程中能够平滑收敛;

其次,通过对上述两种嵌入表达进行非线性变换及归一化,得到预测的群体行为类标y的后验概率为:

其中,φ为softmax激活函数;

最后,在得到预测的群体行为后验概率后,利用利用交叉熵损失函数对预测群体行为类标和真实群体行为类标进行误差计算:

其中θ模型需要学习的参数,k是群体行为类标的个数。

作为优选的技术方案,步骤s4具体为:

s4.1、对每个个体对于当前场景下群体行为的相关程度通过下面的非线性函数进行计算:

其中,wg,给定每个个体的群体行为相关程度,其人与群体的交互行为对于当前群体行为的权重由下式得到:

其中,τ是softmax激活函数的温度参数;

s4.2、通过对当前场景下所有人与群体交互信息进行基于注意力机制的计算,新的场景嵌入特征通过下式计算:

因此,利用注意力机制,在计算场景隐变量嵌入表达作为全局的群体行为信息时,会根据当前场景对每个个体计算不同的群体行为权重gi表示每个个体对当前群体行为的贡献程度,从而对场景隐变量的迭代更新作出不同贡献;

s4.3、将公式(21)计算得到的场景嵌入特征代入公式(17)和公式(18)中,即可以得到最终通过加入注意力机制后的基于隐变量嵌入的群体行为识别结果。

作为优选的技术方案,步骤s4.1中,所述公式(20)中,首先利用指数函数对群体行为相关程度进行映射,再进行归一化,使得每个人对当前群体行为的权重的值域为[0;1]。

本发明与现有技术相比,具有如下优点和有益效果:

(1)本发明提出使用人与群体之间的关系对群体行为进行描述,考虑的是每个人与其周围的人的关系,因此本发明提出的模型能够刻画更全局的群体行为特征,从而获得一个更加整体的群体行为描述进而完成识别任务。为了捕捉视频内容中的人与群体之间的关系,本发明利用隐变量的方法对关系进行表达,基于深度神经网络,本发明提出的模型可以将隐变量嵌入到语义空间,使其获得一定程度的语义信息,进而帮助群体行为识别。通过从全局的观点对人与群体的交互关系进行表达,本发明提出的模型能够很好地对群体行为进行描述与识别,并且在常用的群体行为识别研究数据集中获得了当前较优的识别结果。

(2)本发明提出了一种基于隐变量嵌入的群体行为识别模型,该模型通过与群体行为场景中的人与群体交互信息进行特征空间嵌入,并且利用注意力机制对每个个体的群体行为信息进行加权,从而对场景中的群体行为进行建模与描述。

(3)本发明提出的方法能够很好地对不同场景下多种群体行为进行有效的识别与分类,并且获得在各个群体行为数据库下的最优性能。因此,本发明提出的基于隐变量嵌入的群体行为识别模型是一种有效的群体行为识别模型,能够在智能视频监控系统下进行部署,从而使得智能监控系统具有群体行为识别能力,从而能够应对各种突发群体性行为和突发情况。

附图说明

图1是本发明人与群体交互隐变量嵌入示意图。

图2是本发明基于隐变量嵌入的群体行为识别模型框架示意图

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

本发明基于隐变量的嵌入的群体行为识别方法提出使用人与群体之间的关系对群体行为进行描述,考虑的是每个人与其周围的人的关系,因此本发明提出的模型能够刻画更全局的群体行为特征,从而获得一个更加整体的群体行为描述进而完成识别任务。为了捕捉视频内容中的人与群体之间的关系,本发明利用隐变量的方法对关系进行表达,基于深度神经网络,本发明提出的模型可以将隐变量嵌入到语义空间,使其获得一定程度的语义信息,进而帮助群体行为识别。通过从全局的观点对人与群体的交互关系进行表达,本发明提出的模型能够很好地对群体行为进行描述与识别,并且在常用的群体行为识别研究数据集中获得了当前较优的识别结果。

本发明基于隐变量的嵌入的群体行为识别方法包括下述步骤:

(1)个体视觉特征表达;

对于群体行为识别,本发明通过利用数据集中提供的个体标注框进行个体图片分割,再进行双流卷积神经网络的特征提取。具体而言,对于rgb图片,本发明利用数据集中给定的个体标注框对每个人进行定位,并且根据标注框对每帧图片的个体进行图片抠取,经过对截取的图片进行大小变换成224×224×3,其中3为rgb通道数。将变换后的图片输入到双流卷积神经网络的rgb流卷积网络中进行特征提取。对于光流图片,首先将光流图片进行大小变换成224×224×1,然后将水平方向和垂直方向的光流图按照通道进行拼接成224×224×2,最后再将该帧的前后共十个时刻的光流图进行通道拼接,得到224×224×20的堆叠的光流图表达。其中双流网络使用经过ucf101数据集预训练的50层残差卷积神经网络(resnet-50)网络参数,特征取残差网络最后一个池化层的输出,特征维度为2048维。最后通过将rgb通道和光流通道输出的特征进行拼接,最终得到每个个体4096维的外观及运动特征表达。因此,通过对图片中的个体特征进行双流卷积神经网络的特征提取,我们得到群体行为场景中每个个体的特征表达其中vp代表视频场景中的每个个体。此外,同样通过双流卷积神经网络,以视频帧图片进行输入,可以得到当前群体行为场景下的特征表达xscene。

关于双流卷积神经网络,具体如下:

视频通常可以分解成两个组成部分,包括空间和时间两个部分。对于空间部分,一般为每帧的外观信息,其主要携带了关于场景和目标对象的外观特征。对于时间部分,主要为视频帧之间的运动信息,表达了观测对象的运动内容。双流卷积神经网络根据视频的空间和时间两个部分,分别利用卷积神经网络对其进行信息抽取和特征提取,并且独立进行分类,最后的类别得分通过后混合(latefusion)处理进行融合,得到最终的基于双流信息的分类结果。对于空间通道的卷积神经网络,主要是对于每个单帧的图片进行卷积并分类。由于某些动作与特定的物体和对象相关性较强,因此静态的外观信息能够作为运动分类的线索之一。并且经过之前的行为识别研究可以得出,即使仅根据图片外观信息,行为识别的准确率仍具有一定的竞争力。进一步地,在空间通道的卷积神经网络参数初始化的过程中,可以利用目前大规模图像识别任务的数据,如imagenet进行模型的预训练,用预训练的网络参数进行空间通道的卷积神经网络的参数初始化。

对于时间通道的卷积神经网络,与上述的空间通道的卷积神经网络不同,一般使用经过连续帧堆叠得到的光流堆叠图作为输入。因为包含了更多的时间信息和运动信息,光流堆叠图能够更好地对视频帧之间的运动信息进行表述,并且不需要网络估计运动内容,进而对行为识别的分类提升更大。对于光流的堆叠,由于密集的光流一般被视为一组连续帧t和t+1间的位移向量场(displacementvectorfields),记为dt。另记dt(u,v)为第t帧中点(u,v)到第t+1帧的位移向量。对于向量场的水平和垂直分量,分别记为dtx和dty,并通过光流图片的两个通道进行表征。为了进一步表征连续帧之间的运动信息,本文通过对l个连续帧的光流通道dtx,y进行堆叠,形成通道数为2l的光流堆叠图。正式地,另w和h分别表示视频图片的宽和高,任意时间τ帧的光流堆叠图表示为:

因此,对于任意点(u,v),光流通道iτ(u,v,c),c=[1:2l]编码了该点在连续的帧l之间的运动序列。

(2)构建基于隐变量嵌入模型;

隐变量嵌入模型能够对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,因此嵌入特征不仅表征了当前节点的信息,还表征了与其相关节点的关系信息。本部分主要介绍隐变量嵌入模型的推导过程和基本概念。记域χ的随机变量为x,并记随机变量为x的一个实例为x。定义域χ上的概率密度函数为p(x),并记概率密度空间为多个随机变量x1,χ2,…,χl的联合概率密度p(χ1,χ2,…,χl)。此外,定义h为域中的隐变量,并且对应的概率密度分布为p(h)。

希尔伯特空间的概率分布嵌入能够将分布映射到无限维度的特征空间之中即:

其中分布被映射到其期望特征映射,也即特征空间中的一个点。分布的核映射方法具有很强的表达能力。其中一些特征映射是单射的,即如果两个分布p(x)和q(x)是不同的,那么他们会被映射到特征空间中两个不同的点。例如,当许多常用的核的特征空间都有这种性质,如高斯径向基函数核(gaussianrbfkernel)均使得特征嵌入的过程是单射的。相应地,我们可以将概率密度p(x)的单射特征嵌入μx为该概率密度的充分统计量,即所有关于该概率密度函数的信息都保留在μx中,利用μx可以唯一地恢复p(x),并且任意在p(x)上的算子都可以对应在μx上的算子,并且产生一样的结果。如这个性质能够使得我们利用嵌入特征计算概率密度的泛函f∶即有:

其中,为对应的应用在μx上的函数。同理,该性质可以推广到概率密度上的算子即有:

其中为在作用在嵌入特征上对应的算子。对于具有结构性质的数据点,不失一般性,可以假设每个结构化数据点x是一个图,其中包含了点集v=1,…,v,和一个边的集合ε,并记节点i的值为xi。对于图中每个节点变量xi,我们利用额外的隐变量hi对其节点的类标进行建模。随后,可以在这些随机变量上定义基于两两组合的马尔科夫随机场关系:

其中,φ和ψ分别为非负的节点和边势能函数。在这个模型中,变量均根据图的结构互相连接。因此,对输入数据进行图结构表示,相当于直接根据无向图模型的条件独立结构进行关联。注意到以上提到的图模型是对每个独立的数据点建立的,并且对于不同的两个具有条件独立结构的图模型,两个数据点χ和χ′量{hi}不能通过直接观测得到,因此图模型中的势能函数φ和ψ均难以学习。因此,本发明通过将隐变量的后验概率进行特征空间的嵌入,从而利用上文提到的嵌入特征性质对以上两个函数进行等价的估计。将隐变量hi的后验概率p(hi|{xi})利用特征图φ(hi)进行嵌入,有:

φ(hi)具体的形式和马尔科夫随机场中的参数p(hi|{xi})在当前并不是确定的,在后文会利用监督信号对其进行学习。目前先假设是无限维特征空间,并且d的值可以通过交叉验证的方法确定。然而,对于一般的图计算嵌入过程是非常复杂的,其中包含了图模型的推断,这需要对hi中的所有变量计算积分,即有

仅当图的结构为树时,上式可以通过信息传播(messagepassing)算法进行计算。因此对于一般情况,均会利用近似推断的方法,如平均场推断(meanfieldinference)和循环置信传播(loopybeliefpropagation)的方法进行推断。本发明的基于隐变量嵌入模型的群体行为识别模型主要是根据平均场推断的方法进一步改进得到的,因此下面具体介绍基于平均场的嵌入推断方法。一般的平均场推断方法通过利用独立的概率密度函数的乘积对条件概率密度函数p({hi}|{xj})进行计算:p({hi}|{xj})≈∏i∈νqi(hi),其中qi(hi)≥0为有效的概率密度函数,使得进一步地,这些概率密度函数通过最小化以下变分自由能(variationalfreeenergy)得到:

可以看出,以上的优化问题满足如下的不动点方程(fixedpointequation),对于所有i∈v有:

其中为变量hi在图中的相邻节点的集合,ci为常数。不动点方程qi(hi)是其相邻边际分布集合的泛函,即:

若对于每个边际概率密度qi,有单射嵌入:

那么,根据公式(4),我们可以从嵌入点的角度利用不动点方程对上式进行等价表达,即和根据公式(5)利用算子进行推导,有:

对于平均场嵌入方法,函数和算子均与势能函数φ和ψ之前有复杂的非线性关系,并且特征映射函数φ需要从数据中学习得到。因此,可以通过利用神经网络进行参数化表示,并利用监督信息对其学习进行非线性关系的获得。假设其中d为超参数。对于算子我们可以通过下式的神经网络进行参数化表达:

其中σ(·)∶=max{0,·}为线性整流函数,并记待学习参数为w={w1,w2,w3}。因此,可以根据上式通过平均场迭代更新的方式对网络的参数进行估计,从而对图中的关系利用嵌入特征进行表达。本发明的模型正式根据以上的方式对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别。

(3)基于隐变量嵌入模型的群体行为识别;

通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,如图1-2所示。对于当前场景中的所有人,本发明提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达。然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别。具体而言,记每个可以观测的个体变量和群体行为场景分别xi,i∈vp和xscene,我们用其对应的隐变量hi,i∈vp和hscene,对每个观测变量的中层语义进行表示,该中层语义可以理解每个人在当前群体行为场景下的运动状态,其中vp为当前场景下的所有人。因此,根据每个独立的隐变量表达hi,,我们希望通过利用人与群体的关系和上下文关系将每个独立变量的信息利用隐变量进行综合,综合后的隐变量能够表示人与群体交互的信息和群体行为场景信息。因此,比较直接的方法是对当前场景下的所有个体建立一个每个节点均相互连接的无向图,然后对图中的每个节点进行条件后验概率表示。那么在群体行为识别的场景中,全连接的无向图包含了两种语义关系:1)个体与群体之间的关系和2)个体与场景之间的关系。根据每个个体与群体之间和每个个体与场景之间的关系,每个个体的隐变量的后验概率可以表示其中vp\i指当前场景下,除了第i个个体以外的所有个体。群体场景的隐变量的后验概率可以表示对于上述列出的两个概率密度函数,其具体的含义为,每个隐变量hi需要根据第i个人的信息,以及除此之外所有人的包含的信息,再综合群体场景上下文的信息,得到其与群体之间交互的信息,可以看做群体行为中的一种局部的群体行为信息。对于场景隐变量hscene,它通过场景变量与群体场景下所有个体外观和运动信息,以及综合所有人与群体的交互信息,从一个整体的角度描述了群体场景下所有人与群体的交互情况,因此也可以看做是一种全局的群体行为信息。根据包含全局群体行为信息的场景隐变量hscene和每个个体包含局部群体行为信息的个体隐变量hi我们可以从中识别当前场景下发生的群体行为,因此群体行为的后验概率可以表示为然而,尽管我们能够定义隐变量的后验概率,在实际以传统图模型和人为定义的特征的框架中,对隐变量进行推断仍然十分困难。因此,我们希望利用深度神经网络对人与群体之间的非线性关系进行建模,将隐变量嵌入到特征空间从而进行群体行为结构建模。通过隐变量嵌入得到的特征表达可以看做是对应后验概率的表示。为此,本发明提出使用近似平均场的方法对表达人与群体交互关系的隐变量进行近似推断,并且在特征嵌入的过程中捕捉人与群体交互过程之间的长期关系。如图1-2示,本发明将多轮近似平均场嵌入过程利用递归神经网络进行改进,根据个体特征表示xi进行隐变量推断和特征嵌入,得到隐变量的嵌入特征hi嵌入特征经过多轮近似平均场过程后进行综合与群体行为分类,最终对场景下的群体行为进行识别。具体而言,首先记hi为隐变量hi嵌入到特征空间的表示,并且利用个体外观与运动特征xi除个体i以外所有人的平均外观与运动特征以及上一轮迭代得到的场景隐变量嵌入特征表达进行建模。因此可以得到个体隐变量嵌入特征的更新表达式为:

其中,[;]表示特征向量的垂直拼接,|vp|表示群体行为场景中个体的数目,σ(·)为线性整流函数(rectifiedlinearunit,relu)和λ为个体隐变量嵌入特征更新的步长。为了保持公式的简洁性,一般情况下本发明忽略对偏置项的表示。直观地,对于公式(15),整合邻域特征用邻域外观特征的均值来表示以该整合邻域特征用于表达群体的外观信息,包括人的姿势和朝向等。而场景隐变量的特征嵌入则用于表示场景全局上下文信息,如人群分布和场景背景信息等。每一个更新步骤中,个体隐变量嵌入特征根据上一个迭代步骤的个体隐变量特征和依据当前迭代步骤的整合邻域特征和场景隐变量的特征嵌入进行部分更新,通过超参数λ控制更新步长。可以看出,每个个体隐变量同时考虑了个体外观特征,与个体相关的群体外观特征和场景上下文信,从而进行人与群体关系的推理。因此,人与群体的交互关系可以通过嵌入特征进行表达。

类似地,是场景隐变量hscene的嵌入特征表达,因此我们希望该特征表达可以从全局层面捕捉到群体交互行为信息,从而进一步帮助个体隐变量嵌入特征表达的更新以及最后的群体行为识别分类。因此,我们通过利用全局图片特征xscene、当前场景下人的平均外观特征和人的嵌入特征的整合表达和对场景嵌入特征进行如下的表示:

由于上式是对个体及其局部交互行为的非线性关系建模。在每个场景嵌入特征的迭代更新步骤中,根据上一个迭代步骤的场景嵌入特征和一句当前迭代步骤的场景特征、个体平均外观特征和个体平均嵌入特征对其进行部分更新,使得嵌入特征在迭代更新的过程中能够平滑收敛。因此可以认为是全局交互关系的总体表达。根据个体隐变量的嵌入表达和场景隐变量的嵌入表达,我们希望根据每个个体对当前场景下群体行为的贡献,即局部群体行为信息,和全局群体行为信息对当前的群体行为进行识别。因此,我们可以通过对上述两种嵌入表达进行非线性变换及归一化,得到预测的群体行为类标y的后验概率为:

其中,φ为softmax激活函数。最后,在得到预测的群体行为后验概率后,利用我们利用交叉熵损失函数对预测群体行为类标和真实群体行为类标进行误差计算:

其中θ模型需要学习的参数,k是群体行为类标的个数。yk为1则该帧属于第k类群体行为,为0则不属于。因此当出现预测群体行为与真实群体行为类标不一致时,l(θ)取值较大,从而在训练对网络中的参数进行惩罚,最终使得预测群体行为类标与真实群体行为类标更为接近。由于本发明方法将基于近似平均场的嵌入模型利用递归神经网络进行参数化表示,因此模型的参数均由沿时间传导的反向传播算法(backpropagationthroughtime,bptt)算法更新与优化。

(4)基于注意力机制对群体行为识别模型进行改进;

注意到在公式(16)中,的更新是根据当前场景下所有人的平均嵌入特征进行建模的。因此对于该场景,所以人与群体之间的交互信息对于群体行为的贡献都是相同的。然而,为了正确地对群体结构进行挖掘,我们应当更关注明显或强烈的人与群体交互行为,因为这些强交互行为对于当前场景下的群体行为的理解更有贡献,并且同时忽略掉弱交互行为对当前群体行为识别的影响。举个例子,如图2所示,在该场景下我们更应注意到的是正在等待过马路的人之间的交互关系,因为其对于当前群体行为的分类和识别更加有帮助。而过分关注背景中路人与群体的交互关系,则会一定程度上影响算法对群体行为识别的准确度,并且会产生群体行为歧义。因此,我们引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入。注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器(encoder-decoder)框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。本发明通过递归神经网络对隐变量特征嵌入的迭代更新过程进行推理,并在此过程中引入注意力机制对当前群体行为信息进行筛选和综合,从而提升网络对群体行为的识别能力。每个个体对于当前场景下群体行为的相关程度通过下面的非线性函数进行计算:

其中,给定每个个体的群体行为相关程度,其人与群体的交互行为对于当前群体行为的权重由下式得到:

其中,τ是softmax激活函数的温度参数。上式首先利用指数函数对群体行为相关程度进行映射,再进行归一化,使得每个人对当前群体行为的权重的值域为[0;1]。通过对当前场景下所有人与群体交互信息进行基于注意力机制的计算,新的场景嵌入特征通过下式计算:

因此,利用注意力机制,在计算场景隐变量嵌入表达作为全局的群体行为信息时,会根据当前场景对每个个体计算不同的群体行为权重gi表示每个个体对当前群体行为的贡献程度,从而对场景隐变量的迭代更新作出不同贡献。最后,将公式(21)计算得到的场景嵌入特征代入公式(17)和公式(18)中,即可以得到最终通过加入注意力机制后的基于隐变量嵌入的群体行为识别结果。

(5)实验结果与讨论

为了验证本发明提出的基于隐变量嵌入的群体行为识别模型的有效性,本发明在三个通用群体行为识别数据库上进行模型性能的验证,其中包括1)cad群体行为数据库;2)caed群体行为拓展数据库。在这两个通用群体行为识别数据库上,本发明提出的群体行为识别模型效果超过了现有的已发表的群体行为识别方法。此外,为了消除特征的影响和进一步验证模型的有效性,在实验中分别对比了基于场景图片特征和个体平均特征的群体行为分类效果。本发明提出的方法具体实现细节如下:对于图片特征提取,利用在ucf101行为数据库上预训练过的resnet-50双流卷积神经网络,分别对场景和个体图片进行特征提取,作为本方案所用到的外观特征。在所有实验中,如未特别说明,softmax温度参数设为0.25,特征更新系数设为0.3。公式(18)中的随机截止参数(dropoutweight)设为0.5。所有参数均用xavier方法进行随机初始化,并且利用adam方法进行参数优化。本发明方法基于tensorflow框架进行编码。

(5.1)cad群体行为数据库;

cad群体行为数据库(collectiveactivitydataset)是目前群体行为识别领域最常用的数据库之一,其中共有44个视频段和5种不同的群体行为,包括过马路(crossing)、等待(waiting)、排队(queueing)、行走(walking)和交谈(talking)。视频每隔10帧进行一次标注,包括图片中出现的人的标注框以及群体行为的类标。本发明根据deng等人的数据测试方案进行模型性能验证,并且与现有的方法进行群体行为识别性能对比,具体数据见表1。在该数据集中,本发明分别设置嵌入迭代次数t和隐变量特征长度为3和256。如表1所示,本发明提出的方法性能超越了现有的基于非深度学习的方法和基于深度学习的方法,并且获得的在该数据集上的最好的群体行为识别结果。具体而言,本发明提出的方法在该数据集上获得85.4%的群体行为识别结果,该结果比目前最好的cardinalitykernel方法高出2%的准确率,同时比目前最好的基于深度学习的方法hierarchicaldeeptemporalmodel提高了4%。实验结果表明,本发明提出的基于人与群体交互行为的建模能够有效地对群体行为进行分类与识别,并且比当前基于人与人之间交互行为的方法更加有效。

表1.cad群体行为识别数据库实验结果对比

(5.2)cade群体行为数据库;

正如(5.1)中所述,对于“行走”和“过马路”两类群体行为,在标注的过程就已经出现类标偏置的问题。因此,choi等人在cad群体行为数据集的基础上提出cade群体行为数据库,他们将“行走”的群体行为移除,并且添加“跳舞”和“跑步”两类群体行为,使得cade具有6种不同的群体行为类标。同样地,本发明设置嵌入迭代次数t和隐变量特征长度分别为3和256,并且沿用deng等人提出的测试集数据分割方法。表2列出了本发明提出的基于隐变量嵌入的群体行为识别模型与现有模型在cade群体行为数据库上的识别结果。本发明提出的群体行为模型在cade数据库上获得97.94%的识别率,比目前最好的sructureinferencemachines方法提高了7%。这个实验结果进一步表明本发明提出的基于人与群体交互行为的建模对于群体行为识别场景的有效性和优越性。

表2.cade群体行为识别数据库实验结果对比

(5.3)实验结果进一步分析

(5.3.1)注意力机制对模型性能的影响。进一步地,我们对本发明提出的使用注意力机制进行群体行为识别做进一步的探究,结果如表3示。实验过程中,分别设嵌入迭代次数t和隐变量特征长度为3和256。由表3可以看出,在本发明提出的方法中添加注意力机制能够有效地提升群体行为的识别准确率。特别地,在cad群体行为识别数据库上,加入注意力机制后能够获得2%的识别准确率的提升,其原因是因为注意力机制能够帮助模型很好地关注与对应群体行为有关的交互行为,进而使得模型具有更强的群体行为判别性。

表3.注意力机制对模型性能的影响

(5.3.2)隐变量特征长度对模型性能的影响。进一步地,我们对隐变量特征长度对模型性能的影响进行探究,具体结果如表4所示。实验结果表明,当隐变量特征长度为256时,模型对群体行为分类的性能在所有数据集中都表现得更好,而增大或减少隐变量特征长度则会一定程度上影响模型的分类性能。

表4.嵌入特征维度对模型性能的影响

综上所述,本发明提出了一种基于隐变量嵌入的群体行为识别模型,该模型通过与群体行为场景中的人与群体交互信息进行特征空间嵌入,并且利用注意力机制对每个个体的群体行为信息进行加权,从而对场景中的群体行为进行建模与描述。因此,本发明提出的方法如实验结果所示,能够很好地对不同场景下多种群体行为进行有效的识别与分类,并且获得在各个群体行为数据库下的最优性能。因此,本发明提出的基于隐变量嵌入的群体行为识别模型是一种有效的群体行为识别模型,能够在智能视频监控系统下进行部署,从而使得智能监控系统具有群体行为识别能力,从而能够应对各种突发群体性行为和突发情况。然而,本发明方法也有一定的不足之处,其中之一则是速度问题。本发明提出的方法在视频特征的抽取过程中需要大量的时间。因此,在未来的研究中,希望能够通过结合目前的快速图片和视频的目标检测技术,结合群体行为进行识别,从而获得快速而有效的群体行为方法。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1