2D和3D混合行为识别方法与流程

文档序号：20513938发布日期：2020-04-24 18:51阅读：979来源：国知局

本发明涉及视频行为智能识别算法技术领域，具体而言，尤其涉及一种改进的2d和3d混合行为识别方法。

背景技术：

视频行为理解作为计算机视觉领域的一个重要的分支，在安防监控、人机交互等领域有着广泛的应用。视频行为理解的目的是将现实世界中各种与人有关的行为动作(包括人与人之间的交互、人与物体之间的交互等)准确、高效地识别并给以语意理解，从而使得机器能够更加智能地去观察和理解世界。

视频行为理解算法包括传统的基于手工特征的方法和基于深度学习的方法。随着深度学习技术的迅速发展，基于深度学习的视频行为理解算法已经成为了该领域的主流方法。该方法包括双流网络和3dcnn等方法。虽然这些方法在现有行为识别数据集上取得了不错的效果，但是它们也带来了许多的问题，比如庞大的模型参数、较高的算力要求。这些因素使得这些模型训练速度很慢，很难在实际应用中部署使用。因此基于2dcnn和3dcnn的混合模型受到越来越多的关注。

同时，现有行为识别数据集中存在着很多相似的、易混淆的运动，比如微笑和大笑、吃和喝、击剑和舞剑等。这在现实生活中也是广泛存在的，高效地区分这些相似运动对于行为识别模型来说是很具有挑战性的。受到人类区分相似运动的启发，注意力机制成为解决运动混淆的一种有效方法。

技术实现要素：

根据上述提出的技术问题，而提供一种2d和3d混合行为识别方法。本发明主要利用一种2d和3d混合行为识别方法，其特征在于，包括以下步骤：

步骤s1：对运动识别数据库中的视频片段进行单帧图像的提取处理，然后通过稀疏采样策略从单帧图像中获得网络的输入；

步骤s2：将挤压激励网络se和残差短链接im嵌入到resnet34网络中的basicblock中，构成se-im-basicblock，形成了res34-se-im-net网络；

步骤s3：把n帧输入图像分别送入res34-se-im-net网络进行处理，得到n帧512×7×7的特征表示编码图；

步骤s4：对n帧的所述特征表示编码图进行堆叠变换，得到一个具有时序维度的特征图temporalfm；

步骤s5：将temporalfm送入3dres18网络进行处理，得到一个1×classes，的向量pre；其中，classes表示运动的类别数；将所述向量pre通过softmax函数进行归一化处理后，得到最终的运动类别标签。

进一步地，所述步骤s2中通过增强2dcnn部分表示空间特征的能力的所述resnet34网络作为2dcnn部分来提取空间特征。

更进一步地，所述步骤s2中将所述挤压激励网络se和所述残差短连接im混合嵌入到resnet34的basicblock中，获得区分不同空间特征通道的能力。

较现有技术相比，本发明具有以下优点：

本方法相比于现有方法以较快的视频处理速度取得了相当的识别效果，同时也能够很好地区分一些易混淆的运动。这对于视频理解算法在实际当中应用是很有意义的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的模型框架图。

图2为本发明中所用basicblock，semoudle，se-im-basicblock模块示意图。(a)表示res34网络中的残差块，即basicblock；(b)表示挤压激励网络(semoudle)的基本结构；(c)表示注意力残差模块se-im-basicblock的结构。

图3为res34-3dres18和res34-se-im-net两种模型在hmdb51数据集上的单类识别率对比图。

图4为本发明中模型的在线识别效果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1-4所示，本发明提供了一种2d和3d混合行为识别方法。首先，将所用数据集中的视频片段分别拆成单帧图像，再利用稀疏采样策略获得n帧图像作为网络的输入；其次，把输入图像分别送入res34-se-im-net网络提取空间特征，得到相应的特征表示编码图；然后，对n帧特征表示编码图进行堆叠变换处理，得到一个具有时序维度的特征图temporalfm；最后，将temporalfm送入3dres18网络进行处理，得到最终的运动类别标签。其具体包括以下技术环节：

首先，作为一种优选的实施方式，在本申请中，对于网络输入的获取过程为：首先视频是由若干帧图像组成的，可以用下面公式来表示：

v＝{f1,f2,...,ft}；

其中，v表示一个视频片段，ft表示视频v中的第t帧图像。对于一个视频片段来说，视频片段v通过opencv(视频图像处理的开源库)进行拆帧，获得了t帧运动图像。然后，视频片段v被分成了等长的n段，记为[s1，s2，…，si，…，sn]。最后，从每一段视频si中随机选出一帧图像，总共n帧，作为网络的输入input。对于数据集中的其他视频片段，重复上面步骤即可。对于网络的输入input，fix-cornercropping等数据增强技术也被采用来增强模型的鲁棒性。input通过数据增强技术处理以后，得到最终的网络输入inputfinal。

在本申请中，作为优选的，对于图像的空间特征的提取；首先把网络输入inputfinal中的每一帧运动图像分别送入2dcnn部分，res34-se-im-net，进行处理，得到每一帧图像的空间特征表示编码图fmi(其中i∈[1，n])，记为：

fmi＝fres34-se-im-net(fi)；

其中，fres34-se-im-net表示res34-se-im-net网络，fi表示输入视频的第i帧图像。

进一步地，对于特征图的堆叠；对2dcnn部分得到的空间特征表示编码图fmi进行堆叠变换处理，得到一个具有时序维度的特征图temporalfm，记为：

temporalfm＝fstack(fm1,fm2,...,fmn)

其中fstack表示堆叠变换函数，在本方法中记为：

fstack＝torch.transpose(fmi.view((-1,n)+fmi.size[1:]),1,2)

同时，作为一种优选的实施方式，将temporalfm送入3dres18网络进行处理，对不同帧进行时序关系建模。通过对空间特征和时序特征的联合处理，得到最终的运动识别结果out＝[class1，class2，class3，…，classi，classn]，其中n表示运动的类别数。out中数值最大的classi，其对应的运动类别即为最终的运动识别结果action，记为：

action＝numpy.argsmax(out)

其中，n表示网络输入的帧数，在本实验中n＝16；n表示数据集中的运动类别数目，在本实验中分别为51(hmdb51)、101(ucf101)、174(something-somethingv1)。

实施例：

作为本申请的一种实施例，实验环境为windows10系统，程序语言为python，硬件配置为intel(r)core(tm)i7-8700，主频3.20ghzcpu，内存为16.00gb，显卡为2块nvidiageforcertx2080。采用的数据集为hmdb51、ucf101、something-somethingv1(已经是单帧图片)人体运动识别数据库。

具体实施步骤为：

步骤1：对hmdb51数据库和ucf101数据库中的视频片段进行拆帧，得到视频片段对应的单帧图像；

步骤2：把数据库中的视频分成等长的n段，从每一段视频中随机选出一帧作为网络的输入；

步骤3：把输入送入res34-se-im-net网络进行处理，得到对应的特征图；

步骤4：把步骤3得到的特征图进行堆叠变换处理，并将其结果送入3dres18网络处理，得到最终的运动类别标签。

图3中res34-se-im-net是在res34-3dres18的基础上加入semoudle和identitymapping构成的。该图展示了注意力机制的引入，增强了模型区分混淆运动的能力。进一步通过图4展示了res34-se-im-net方法在真实环境下的识别效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张强;刘瑞;周东生;杨鑫;魏小鹏;刘玉旺
技术所有人：大连大学
我是此专利的发明人

上一篇：发动机通风回油结构的制作方法
上一篇：共聚物、分散剂、分散体组合物的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。