一种视频人体交互行为识别方法及系统与流程

文档序号:18886839发布日期:2019-10-15 21:03阅读:1272来源:国知局
一种视频人体交互行为识别方法及系统与流程

本发明属于计算机视觉技术领域,涉及一种人体动作识别方法及系统,具体涉及一种视频人体交互行为识别方法及系统。

技术背景

行为识别与理解一直是计算机视觉领域研究的焦点问题之一,在安全防范、人机交互、视频检索等诸多领域都有广泛的应用前景。虽然近年行为识别的研究取得了较大进展,但以往研究大多围绕单人动作行为识别,而对于现实场景下更为普遍的双人乃至多人群体的交互行为仅有少量涉及,这是由于交互识别比一般的动作识别任务更为复杂,主要表现如下:

(1)复杂的背景。在真实场景下,发生交互行为时所处的背景会不断变化甚至是与之前出现过的背景完全不同。背景环境的变化不仅造成分割交互人物与背景时存在困难,而且会影响到发生交互行为的两人间的特征识别精度。

(2)交互细节信息提取不足。交互行为识别需要对发生交互行为的双方间的相对位置及发生交互行为的细节进行更多考虑。故而,交互行为识别较单人行为识别更为复杂。

双人交互行为识别的研究目前主要分为两个方面。一是通过人工提取交互特征来构建交互行为的特征映射,但这种方法通常识别精度较低,且效率低下;二是采用通用深度学习框架来构建交互特征表达,但这种方式容易忽略交互个体间更为重要的语义信息,且由于深度网络的参数量较大,无法保证算法识别速度。



技术实现要素:

为了解决上述技术问题,本发明提供了一种较为鲁棒的视频人体交互行为识别方法及系统,能有效降低网络参数,提高识别效率。

本发明的方法所采用的技术方案是:一种视频人体交互行为识别方法,其特征在于,包括以下步骤:

步骤1:针对输入视频,对视频中的人体图像进行分割;

步骤2:针对分割后的各个人体图像,进行个体特征提取;

步骤3:针对输入视频,对视频中的人体图像进行交互特征提取;

步骤4:将步骤2中提取的个体特征和步骤3中提取的交互特征进行特征融合,级联成一个特征向量;

步骤5:将融合后的特征向量转化为每类动作的概率。

作为优选,步骤1中,通过行人检测算法来检测和追踪交互行为个体的边界框,并依照得到的边界框来实现单个个体的分割。

作为优选,采用抽帧取样的处理方式,每隔5帧采样一次,将采用视频传入yolov3模型中进行行人检测;同时,使用卡尔曼滤波的方法对检测到的行人进行跟踪。

作为优选,步骤2中,采用基于3d-inceptionv3进行个体特征提取,通过三维卷积核在整个视频数据上进行时空滑动,生成与输入视频数据对应的3d特征图fm;

其中,v表示输入视频,kernel表示卷积核;i、j表示图像块的空间位置,k表示视频帧的时域序号;h、w、l分别表示视频帧的高度、宽度和同时处理的帧数。

作为优选,步骤3中,采用基于hican进行交互特征提取;hican为改进的ican,hican在保证ican主要功能不变的前提下,将原网络中的resnet5特征提取模块改为基于对象流的3d-inceptionv3网络;同时,为了适应inceptionv3的边界框大小,修改输入节点的尺寸,将ican中roipooling的输入尺寸改为2048。

作为优选,步骤4中,为维持融合后特征幅值的一致性,在级联前首先对各自特征进行归一化处理;归一化公式如下:

其中,μ、σ分别代表特征向量x的均值和方差;归一化后的特征将分布在[-1,1]范围。

作为优选,步骤5中,采用softmax分类器将融合后的特征向量转化为每类动作的概率;假设共有k个动作类别,对于给定的特征v,其属于类别i的概率pi计算为:

其中,wi表示第i个分类器的权重。

本发明的系统所采用的技术方案是:一种视频人体交互行为识别系统,其特征在于:包括人体分割模块、个体特征提取模块、交互特征提取模块、特征融合模块、动作分类模块;

所述人体分割模块,用于针对输入视频,对视频中的人体图像进行分割;

所述个体特征提取模块,用于针对分割后的各个人体图像,进行个体特征提取;

所述交互特征提取模块,用于针对输入视频,对视频中的人体图像进行交互特征提取;

所述特征融合模块,用于将提取的个体特征和提取的交互特征进行特征融合,级联成一个特征向量;

所述动作分类模块,用于将融合后的特征向量转化为每类动作的概率。

与现有的动作识别方案相比,本发明具有以下的优点与积极效果:

(1)本发明方法通过预先对视频帧抽样,并且基于高效的inceptionv3网络提取人体动作特征,因而具有快速处理的优点。

(2)本发明方法基于改进的ican网络提取交互特征,充分利用了交互行人的肢体动作、相对位置等细节互动特征,因而具有优良的识别精度。

附图说明

图1:本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

为了能保证方法的性能与效率,本发明利用在大型图像数据集中预训练的inceptionv3网络提取个体动作特征,实现人体动作姿态特征的建模。交互行为识别任务需要对发生交互行为的肢体动作、交互行人的相对位置等相关细节特征进行描述,为此,借鉴人-物关系检测研究中的实例为中心的注意力网络(ican)[文献1:gaoc,zouy,huangjb,“ican:instance-centricattentionnetworkforhuman-objectinteractiondetection,”arxivpreprintarxiv:1808.10437,2018.],通过改进的ican网络提取交互行为特征,在个体动作特征的基础上加入肢体交互关注点和空间关系约束,增强对交互细节信息的表达能力。ican学习使用人或物体实例的外观来突出信息区域,例如,为了更好地确定一个人是否拿有物体,应该将注意力集中在人手周围。

本实施例中,将ut-interaction数据集[文献2:icpr2010contestonsemanticdescriptionofhumanactivities,http://cvrc.ece.utexas.edu/sdha2010/human_interaction.html#data.]作为模型训练和测试的目标数据集。ut-interaction交互行为数据集包含握手、拥抱、踢打、挑衅、拳打、推人等6类基本交互动作。整个数据集约包含20个视频片段,每个视频片段大约1分钟。该数据集还提供了每个视频片段里发生交互动作的起始和终止时间,以便研究人员进行相关行为动作片段的切分。

请见图1,本发明提供了一种视频人体交互行为识别方法,具体实现包括以下步骤:

步骤1:针对输入视频,对视频中的人体图像进行分割;

本实施例中,通过行人检测算法来检测和追踪交互行为个体的边界框,并依照得到的边界框来实现单个个体的分割。行人检测基于yolov3模型实现,在具体操作过程中,考虑到性能及效率的折中,并没有一次性的将输入视频传入yolov3模型中,而是采用抽帧取样的处理方式,每隔5帧采样一次。考虑到抽样导致的掉帧现象,进一步使用卡尔曼滤波的方法对检测到的行人进行跟踪。

步骤2:针对分割后的各个人体图像,进行个体特征提取;

本实施例中,采用基于3d-inceptionv3进行时空兴趣点、运动历史图等个体特征提取;

3d卷积与传统2d卷积不同,3d卷积在时间和空间域上都应用卷积操作提取特征。通过三维卷积核在整个视频数据上进行时空滑动,生成与输入视频数据对应的3d特征图,可用如下公式表示:

v表示输入视频,kernel表示卷积核。i、j表示图像块的空间位置,k表示视频帧的时域序号。h、w、l分别表示视频帧的高度、宽度和同时处理的帧数。

步骤3:针对输入视频,对视频中的人体图像进行肢体热力图、空间关系等交互特征提取;

本实施例中,采用基于hican进行交互特征提取,其中,hican为改进的ican;

实例为中心的注意力网络ican主要针对人-物交互设计,利用了人或物体外观包含的指示线索,但人体交互行为与人-物交互略有不同,交互双方都是动态的。为此,对ican进行改进,得到一种面向人体交互行为的实例注意力网络(hican)。hican在保证ican主要功能不变的前提下,将原网络中的resnet5特征提取模块改为基于对象流的3d-inceptionv3网络。同时,为了适应inceptionv3的边界框大小,修改输入节点的尺寸,将ican中roipooling的输入尺寸改为2048。

步骤4:将步骤2中提取的个体特征和步骤3中提取的交互特征进行特征融合,级联成一个特征向量;

本实施例中,考虑到个体特征和交互特征分别由不同的网络提取得到,因而具有不同的幅值,为维持融合后特征幅值的一致性,在级联前首先对各自特征进行归一化处理。归一化公式如下:

μ、σ分别代表特征向量x的均值和方差。归一化后的特征将分布在[-1,1]范围。

步骤5:将融合后的特征向量转化为每类动作的概率。

本实施例中,采用softmax分类器将融合后的特征向量转化为每类动作的概率。假设共有k=6个动作类别,对于给定的特征v,其属于类别i的概率pi计算为:

wi表示第i个分类器的权重。

本发明还提供了一种视频人体交互行为识别系统,包括人体分割模块、个体特征提取模块、交互特征提取模块、特征融合模块、动作分类模块;

人体分割模块,用于针对输入视频,对视频中的人体图像进行分割;

个体特征提取模块,用于针对分割后的各个人体图像,进行个体特征提取;

交互特征提取模块,用于针对输入视频,对视频中的人体图像进行交互特征提取;

特征融合模块,用于将提取的个体特征和提取的交互特征进行特征融合,级联成一个特征向量;

动作分类模块,用于将融合后的特征向量转化为每类动作的概率。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1