一种武装人员行为识别方法和系统与流程

文档序号:31096282发布日期:2022-08-10 01:54阅读:175来源:国知局
一种武装人员行为识别方法和系统与流程

1.本发明涉及武装人员行为识别技术领域,尤其涉及一种武装人员行为识别方法和系统。


背景技术:

2.人体行为识别是近年来十分活跃的研究领域,在视频理解中发挥着重要的作用。在未来战争中,利用人工智能技术对武装人员的行为进行高鲁棒性识别的能力至关重要,能够为后续军事行动决策提供有力支撑。
3.人体行为识别相关研究主要分为三个方向:基于静态图片、视频序列片段、骨骼点特征信息的行为识别。人体动态骨骼点可通过人体关节位置的时间序列来表示,通过对关节点的联合坐标向量进行分析并提取行为特征,进而实现行为识别。相比较而言,基于人体动态骨骼点特征信息的行为识别研究相对较少。现有的根据骨骼点特征信息进行人体行为识别的方法识别准确率低,不适用于武装人员行为识别。


技术实现要素:

4.鉴于上述的分析,本发明实施例旨在提供一种武装人员行为识别方法和系统,用以解决现有基于骨骼点特征的行为识别方法识别准确率不适用于武装人员行为识别的问题。
5.一方面,本发明实施例提供了一种武装人员行为识别方法,包括以下步骤:
6.获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别初始训练样本集;所述初始样本集包括骨骼关节点数据和行为标签;对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集;
7.基于时空图卷积网络构建武装人员行为识别模型;基于所述武装人员行为识别训练样本集对所述武装人员行为识别模型进行训练,得到训练好的武装人员行为识别模型;
8.提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型中,对武装人员行为进行识别。
9.基于上述技术方案的进一步改进,对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集,包括:
10.对样本集中的所有行为标签进行整体平滑;
11.确定样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
12.所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑。
13.进一步地,采用以下公式对样本集中的所有行为标签进行整体平滑:
14.label=label*(1-ε)+(1-label)*ε/(p-1)
15.其中,label表示样本行为标签,p表示分类数,ε表示平滑参数。
16.进一步地,对行为转换帧前的一组图像进行组内行为标签平滑,包括:
17.对于每个行为转换帧,根据行为转换帧前一帧图像的标签值和行为转换帧的标签值确定转换前图像组的活跃索引和目标索引;
18.根据公式labels[j][活跃索引]=标签最大值*(i-j)/k,计算行为转换帧前k个图像的标签中活跃索引对应的标签值;
[0019]
根据公式计算行为转换帧前k个图像的标签中目标索引对应的标签值;
[0020]
其中,j=i-k,i-(k-1),...i-1,第i帧为行为转换帧,labels[j][活跃索引]表示第j帧图像的行为标签中活跃索引对应的标签值;labels[j][目标索引]表示第j帧图像的行为标签中目标索引对应的标签值,活跃索引是第i-1帧图像的行为标签中标签最大值所在的索引,目标索引是第i帧图像的行为标签中标签最大值所在的索引。
[0021]
进一步地,基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,包括:
[0022]
对每帧图像帧,将主要骨骼关节点的置信度设置为1,计算所有骨骼关节点的置信度的均值;
[0023]
将所述置信度的均值与该帧图像的标签值相乘,得到该帧图像基于置信度的平滑标签。
[0024]
进一步地,基于时空图卷积网络构建武装人员行为识别模型,包括:
[0025]
以骨骼关节点为节点、以骨骼关节点之间的自然连接关系为空间边,以连续两帧中相同骨骼关节点的连接关系为时间边构建骨骼关节点时空图;
[0026]
构建时空图卷积神经网络,所述时空图卷积网络包含多个顺序连接的时空图卷积块;
[0027]
每个所述时空图卷积块包括依次相连的空间图卷积层和时间图卷积层;所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征;所述时间图卷积层用于对输入特征进行标准二维卷积提取骨骼关节点时空图的时域特征。
[0028]
进一步地,所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征,包括:
[0029]
采用基于距离的划分法对骨骼关节点时空图中每个节点的邻域进行子集划分;基于划分后的子集构建每个节点的邻接矩阵;
[0030]
空间图卷积层根据公式进行图卷积操作提取空域特征;其中,f
in
表示空间图卷积层的输入特征,f
out
表示空间图卷积层的输出特征,αj为第j个子集的邻接矩阵表示,λj为第j个子集的邻接矩阵的度矩阵,wj表示第j个子集的权重,m表示节点的重要性掩模矩阵,表示按位相乘。
[0031]
进一步地,所述空间图卷积层中包括重要性掩模单元,用于自适应调整每个节点对其它邻接节点的重要性;
[0032]
所述重要性掩模单元包括依次连接的批归一化层、relu层、dropout层、卷积层和
sigmoid层;
[0033]
所述归一化层用于使所述重要性掩模矩阵具有非对称性;relu层用于非线性变换;所述dropout层用于防止过拟合;所述卷积层的卷积核为1
×
1,用于使所述掩模矩阵与对应的图卷积层维度一致;所述sigmoid层用于将输出结果映射到[0,1]的范围内。
[0034]
另一方面,本发明实施例提供了一种武装人员行为识别系统,包括以下模块:
[0035]
训练集构建模块,用于获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别初始训练样本集;所述初始样本集包括骨骼关节点数据和行为标签;对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集;
[0036]
模型训练模块,用于基于时空图卷积网络构建武装人员行为识别模型;基于所述武装人员行为识别训练样本集对所述武装人员行为识别模型进行训练,得到训练好的武装人员行为识别模型;
[0037]
武装人员行为识别模块,用于提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型中,对武装人员行为进行识别。
[0038]
进一步地,所述训练集构建模块包括:
[0039]
整体平滑模块,用于对样本集中的所有行为标签进行整体平滑;
[0040]
组内平滑模块,用于确定样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
[0041]
置信度平滑模块,用于所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑。
[0042]
与现有技术相比,本发明通过根据武装人员行为视频流数据构建训练数据集,对数据集中的标签进行平滑从而为训练模型提供具有一定泛化空间的训练数据,从而防止训练模型出现过拟合;通过采用时空图卷积网络构建武装人员行为识别模型,从而从时间域和空间域提取特征,从而提取更加丰富深层的特征,提高行为识别的准确性。
[0043]
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
[0044]
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
[0045]
图1为本发明实施例武装人员行为识别方法的流程图;
[0046]
图2为本发明实施例武装人员行为识别系统的框图;
[0047]
图3为本发明实施例武装人员行为分类图;
[0048]
图4为本发明实施例的姿态识别算法识别的骨骼关节点;
[0049]
图5为本发明实施例的组内标签平滑前的部分标签数据;
[0050]
图6为本发明实施例的组内标签平滑后的部分标签数据;
[0051]
图7为本发明实施例的置信度平滑后的部分标签数据;
[0052]
图8为本发明实施例的骨骼关节点时空图。
具体实施方式
[0053]
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
[0054]
本发明的一个具体实施例,公开了一种武装人员行为识别方法,如图1所示,包括以下步骤:
[0055]
s1、获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别初始训练样本集;所述初始样本集包括骨骼关节点数据和行为标签;对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集;
[0056]
s2、基于时空图卷积网络构建武装人员行为识别模型;基于所述武装人员行为识别训练样本集对所述武装人员行为识别模型进行训练,得到训练好的武装人员行为识别模型;
[0057]
s3、提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型中,对武装人员行为进行识别。
[0058]
通过根据武装人员行为视频流数据构建训练数据集,对数据集中的标签进行平滑从而为训练模型提供具有一定泛化空间的训练数据,从而防止训练模型出现过拟合;通过采用时空图卷积网络构建武装人员行为识别模型,从而从时间域和空间域提取特征,从而提取更加丰富深层的特征,提高行为识别的准确性。
[0059]
由于目前还没有武装人员行为数据集,因此需要自行构建数据集。实施时,可以30fps的帧频流,640
×
480的分辨率录制武装人员行为视频,获取武装人员行为视频流数据。基于获取的视频流数据,采用人工标注的方式对视频进行逐帧行为标注。
[0060]
具体的,标注过程为:首先人工为每帧图像添加武装人员行为标签;
[0061]
采用姿态识别算法提取图像中人员的骨骼关节点数据;将所述人员行为标签和所述骨骼关节点数据对应,形成初始训练样本集。
[0062]
其中,武装人员的行为共分为6类(见附图3):站立、行走、蹲下、站起、站射、蹲射。为了规范标注结果,约束射击角度为水平射击
±
30
°
,将满足射击角度的行为定义为射击行为。
[0063]
实施时,可采用alphapose姿态识别算法逐帧提取视频中武装人员的骨骼关节点数据(见附图4),骨骼关节点数据包括骨骼关节点坐标以及置信度。共提取14个骨骼关节点:面部中心、颈部、右肩、左肩、右手肘、左手肘、右手腕、左手腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝。
[0064]
将每帧图像的骨骼关节点数据和行为标签对应,生成初始训练样本集。由于姿态识别算法可能会存在空数据,因此将空数据剔除,即将没有骨骼挂接点数据的图像帧剔除,从而保证数据的有效性。
[0065]
对于多分类模型,标签通常采用one-hot的形式编码,例如将第一类标签“站立”编码为(1,0,0,0,0,0),以此类推。采用one-hot形式的标签无法保证模型的泛化能力,使网络容易过拟合。为了解决这个问题,得到初始训练样本集后,对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集。具体的,标签平滑包括:
[0066]
s11、对样本集中的所有行为标签进行整体平滑
[0067]
具体的,采用以下公式对样本集中的所有行为标签进行整体平滑:
[0068]
label=label*(1-ε)+(1-label)*ε/(p-1)
[0069]
其中,label表示样本行为标签,p表示分类数,ε表示平滑参数。
[0070]
实施时,ε可取0.1。整体行为标签经过平滑后,为概率较低的类别分配了一点概率,为学习留下一定的泛化空间。例如标签(1,0,0,0,0,0)经平滑后变为(0.90,0.02,0.02,0.02,0.02,0.02)。
[0071]
s12、确定样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
[0072]
具体的,若第i-1帧的行为标签和第i帧的行为标签不同,则第i帧即为行为转换帧。对于每一个行为转换帧,对其之前的一组图像进行组内平滑。具体包括:
[0073]
对于每个行为转换帧,根据行为转换帧前一帧图像的标签值和行为转换帧的标签值确定转换前图像组的活跃索引和目标索引;
[0074]
根据公式labels[j][活跃索引]=标签最大值*(i-j)/k,计算行为转换帧前k个图像的标签中活跃索引对应的标签值;
[0075]
根据公式计算行为转换帧前k个图像的标签中目标索引对应的标签值;
[0076]
其中,j=i-k,i-(k-1),...i-1,第i帧为行为转换帧,labels[j][活跃索引]表示第j帧图像的行为标签中活跃索引对应的标签值;labels[j][目标索引]表示第j帧图像的行为标签中目标索引对应的标签值,活跃索引是第i-1帧图像的行为标签中标签最大值所在的索引,目标索引是第i帧图像的行为标签中标签最大值所在的索引。
[0077]
具体的,以附图5中的行为标签为例对组内行为标签平滑的过程进行说明。附图5中的最后一行标签为行为转换帧,假设其为第i帧。则提取第i帧前的一组,即k个行为标签进行组内标签平滑。实施时,k可根据动作时长、平滑精度要求确定,取行为转换帧前的一部分连续行为标签进行组内平滑,例如k取7,即对第i帧前的7个行为标签进行组内平滑。在第i-1帧图像的行为标签中,标签最大值所在的索引为0,因此活跃索引为0。在第i帧图像的行为标签中的,标签最大值所在的索引为1,因此目标索引为1。
[0078]
因此,对于第j帧图像,j=i-k,i-(k-1),...i-1,根据labels[j][活跃索引]=标签最大值*(i-j)/k计算其索引0位置的标签值,根据计算其索引1位置的标签值,其他索引位置的标签值不变。
[0079]
例如,对于标签(0.90,0.02,0.02,0.02,0.02,0.02),标签最大值为0.9,标签最小值为0.2。组内平滑后的标签值如图6所示,由于人的行为是连续变化的,通过将标签转换帧前的行为标签进行平滑,使得行为标签可以平滑的过渡到行为转换帧,最终使标签能更加体现人的实际行为,增强了后续学习的泛化空间,为准确识别武装人员的动作提供数据基
础。
[0080]
s13、所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑。
[0081]
具体的,对每帧图像帧,将主要骨骼关节点的置信度设置为1,其他骨骼关节点的置信度不变,计算所有骨骼关节点的置信度的均值;其中,主要骨骼关节点包括颈部、左肩、右肩、左髋、右髋。
[0082]
将所述置信度的均值与该帧图像的标签值相乘,得到该帧图像基于置信度的平滑标签。从而进一步增强了学习的泛化空间。置信度平滑后的行为标签数据如图7所示。
[0083]
对行为标签平滑后,实施时,还包括对训练样本集中的骨骼关节点坐标数据进行归一化处理。具体的,可利用各组骨骼关节点坐标的最大/最小值对骨骼关节点坐标进行归一化处理,将全部骨骼关节点坐标归一化到(-1,1)的范围内。
[0084]
实施时,本技术所构建的训练样本集共包含29757帧标注数据用于训练。
[0085]
具体的,步骤s2中,基于时空图卷积网络构建武装人员行为识别模型,包括:
[0086]
s21、以骨骼关节点为节点、以骨骼关节点之间的自然连接关系为空间边,以连续两帧中相同骨骼关节点的连接关系为时间边构建骨骼关节点时空图;
[0087]
人体的骨骼点序列通常可利用每帧图像中的人体关节坐标表示。为了更好地利用图卷积来提取人体骨骼点的动态信息,图的节点之间的边不仅包含表示人体关节之间的自然连接的空间边,还应包含连接连续时间步上的相同关节点的时间边,将传统的图卷积扩展到时间邻域上。构建的骨骼关节点时空图如图8所示。
[0088]
人体骨骼时空图的结构为g=(v,e),骨骼关节点作为时空图的节点通过空间边与时间边进行连接。时空图的信息包含了骨骼关节点的数量n,输入视频流包含的帧数t,以及每个关节点对应的特征矩阵v
ti
。时空图中所有关节点的特征矩阵可表示如下:
[0089]
v={v
ti
|t=1,2,...t,i=1,2,...n}
[0090]
其中,v
ti
表示第t帧的第i个关节点的特征矩阵,包含了关节点的坐标以及置信度。时空图中的节点之间通过空间边和时间边进行连接,空间边和时间边分别表示如下:
[0091]es
={v
ti
,v
tj
|(i,j)∈h}
[0092]et
={v
tiv(t+1)i
}
[0093]
其中,h为人体自然连接的关节点集合。通过构建人体骨骼关节点时空图描述人体行为随时间变化的轨迹信息。
[0094]
s22、构建时空图卷积神经网络,所述时空图卷积网络包含多个顺序连接的时空图卷积块;
[0095]
每个所述时空图卷积块包括依次相连的空间图卷积层和时间图卷积层;所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征;所述时间图卷积层用于对输入特征进行标准二维卷积提取骨骼关节点时空图的时域特征;
[0096]
具体的,所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征,包括:
[0097]
采用基于距离的划分法对骨骼关节点时空图中每个节点的邻域进行子集划分;基于划分后的子集构建每个节点的邻接矩阵;
[0098]
在传统卷积神经网络中,采样函数可以理解为卷积核的大小,即每次进行卷积运
算(特征提取)时所覆盖的范围。例如,一个3*3的卷积核,在对某一个像素点进行卷积操作时,实际是将该像素点与其相邻的8个像素点的信息进行计算、聚合。
[0099]
在时空图卷积网络中,节点等同于传统卷积的图像像素点,采样函数就是负责指定对每个节点进行图卷积操作时,所涉及到的相邻节点范围。本技术采用基于距离的划分法对骨骼关节点时空图中每个节点的邻域进行子集划分。在本技术根据一阶相邻节点(直接相连的节点),将邻域集划分为两个子集:1)d=0代表根节点;2)d=1代表与根节点距离为1的邻域子集。因此本发明中划分的子集数量k=2,对应存在两类权重函数,则将邻域中的点映射到划分之后的子集中,使其具有相同标签的过程可表示为:l
ti
:b(v
ti
)

{0,1,...k-1},此时权重函数w可表示为w(v
tj
,v
ti
)=w(l
ti
(v
tj
))。b(v
ti
)表示第t帧的第i个关节点的邻接节点集合,l
ti
表示邻接节点的子集标签。单帧中人体骨骼关节之间的连接可表达为邻接矩阵a,单位矩阵i表示自连接。对于基于关节距离的划分策略而言,邻接矩阵将被拆解成若干个矩阵aj,有j=0,1。在基于距离的划分策略中:a0=i,a1=a。
[0100]
实施的,构建的时空图卷积网络包含多个顺序连接的时空图卷积块,例如包含9个顺序连接的时空图卷积块。前三个时空图卷积块有64个通道用于输出,紧接的三个时空图卷积块有128个通道用于输出,最后三个时空图卷积块有256个通道用于输出。
[0101]
其中,每个时空图卷积块包括依次相连的空间图卷积层和时间图卷积层。
[0102]
空间图卷积层根据公式进行图卷积操作提取空域特征;其中,f
in
表示空间图卷积层的输入特征,f
out
表示空间图卷积层的输出特征,αj为第j个子集的邻接矩阵表示,λj为第j个子集的邻接矩阵的度矩阵,wj表示第j个子集的权重,m表示节点的重要性掩模矩阵,表示按位相乘。
[0103]
人体在运动时,某几个关节经常是成团运动(如手腕和肘),并且可能出现在身体的各个部分,因此这些关节的建模应包含有不同的重要性。因此,本技术在每层空间图卷积层中添加了一个可学习的掩膜m,它基于骨骼关节点时空图中边的信息学习到的重要性权重来衡量该节点特征对其相邻节点的贡献度。即所述空间图卷积层中包括重要性掩模单元,用于自适应调整每个节点对其它邻接节点的重要性。
[0104]
所述重要性掩模单元包括依次连接的批归一化层、relu层、dropout层、卷积层和sigmoid层;
[0105]
所述归一化层用于使所述重要性掩模矩阵具有非对称性;relu层用于非线性变换;所述dropout层用于防止过拟合;所述卷积层的卷积核为1
×
1,用于使所述掩模矩阵与对应的图卷积层维度一致;所述sigmoid层用于将输出结果映射到[0,1]的范围内。
[0106]
时间图卷积层用于对输入特征进行标准二维卷积提取骨骼关节点时空图的时域特征。将节点v
ti
的邻域扩充为包含时间连接节点,可表示如下其中,参数γ控制邻域图中的时间跨度,称为时间核尺寸。由于时间轴是有序的,因此可将构建的标签映射函数修改为如下映射函数:v
tj
表示第t帧的第j个关节点的特征矩阵,v
qj

示第q帧的第j个关节点的特征矩阵。
[0107]
构建时空图卷积网络后,基于步骤s1得到的训练样本集,训练时空图卷积网络,得到训练好的武装人员行为识别模型。
[0108]
实施时,batch_size可设置为32,共训练30个epoch,损失函数使用bce损失,优化器使用adadelta。初始学习率设置为0.01,每经过10个epoch学习率乘以0.1。本发明训练好的武装人员行为识别模型在构建的数据集上对武装人员行为识别的准确率可达到99.2%。
[0109]
训练好武装人员行为识别模型后,提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型中,从而对武装人员行为进行识别。
[0110]
本发明的一个具体的实施例公开了一种武装人员行为识别系统,如图2所述,系统包括以下模块:
[0111]
训练集构建模块,用于获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别初始训练样本集;所述初始样本集包括骨骼关节点数据和行为标签;对所述初始样本集中的行为标签进行标签平滑,得到最终训练样本集;
[0112]
模型训练模块,用于基于时空图卷积网络构建武装人员行为识别模型;基于所述武装人员行为识别训练样本集对所述武装人员行为识别模型进行训练,得到训练好的武装人员行为识别模型;
[0113]
武装人员行为识别模块,用于提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型中,对武装人员行为进行识别。
[0114]
优选的,所述训练集构建模块包括:
[0115]
整体平滑模块,用于对样本集中的所有行为标签进行整体平滑;
[0116]
组内平滑模块,用于确定样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
[0117]
置信度平滑模块,用于所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑。
[0118]
上述方法实施例和系统实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。具体实施过程参见前述实施例,此处不再赘述。
[0119]
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0120]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1