一种基于时空交叉注意力的实时动作定位方法

文档序号:31455449发布日期:2022-09-07 14:27阅读:148来源:国知局
一种基于时空交叉注意力的实时动作定位方法

1.本发明涉及模式识别与计算机视觉领域,特别是一种基于时空交叉注意力的实时动作定位方法。


背景技术:

2.随着科技的发展,时空动作定位是近些年来的热点研究问题,在无人驾驶、安全监控、交通运输、人机交互系统等领域,实时时空动作定位的应用越来越广泛。以往的时空动作定位方法,直接将深度网络提取的时序特征与空间特征进行拼接,忽略了时序特征与空间特征间的数据来源不同,其特征中元素关联关系也不同。2d特征关注背景信息,侧重于局部结构和上下文信息对识别的重要性。而3d特征关注时序信息,侧重于单帧与相邻帧间的时间依赖关系。单纯的将2d和3d特征进行拼接,并不能有效得融合时空特征,反而使得时序特征与空间特征互相排斥,混淆了视频动作应当关注的运动区域。针对上述情况,我们提出一种基于时空交叉注意力的实时动作定位方法。


技术实现要素:

3.本发明的目的在于提供一种基于时空交叉注意力的实时动作定位方法,能够有效地对时空动作进行定位。
4.为实现上述目的,本发明的技术方案是:一种基于时空交叉注意力的实时动作定位方法,包括如下步骤:
5.步骤s1、对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取;
6.步骤s2、将获取到视频片段输入r(2+1)d网络提取时序特征,将关键帧输入cspnet网络提取空间特征;
7.步骤s3、压缩时序特征,空间特征进行编码处理,计算时序特征与空间特征相互之间的潜在自适应,通过transformer自注意力进行特征间的交叉表示;
8.步骤s4、拼接特征,并对特征进行融合,通过回归、分类预测边界框位置以及运动类别,利用iou损失、二元交叉熵损失分别计算边界框损失和类别损失;
9.步骤s5、根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
10.相较于现有技术,本发明具有以下有益效果:
11.1、本发明提出对关键帧的提取方法,与以往仅使用当前帧作为关键帧相比,本发明方法更能够表示动作的经过。
12.2、本发明提出基于空交叉特征融合注意力,利用时空交叉变压器对时空特征进行编码,引导时序特征和空间特征之间的融合,增强特征间的关联性,避免时间特征与空间特征的相斥性对动作识别带来的影响。
13.3、本发明使用通道拼接以及注意机制来平滑地聚合时空特征。与以往的方法注意力融合方法不同,注意机制有效的增强了特征的有效信息,进一步融合时空特征。
附图说明
14.图1为本发明的原理示意图。
具体实施方式
15.应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
16.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
17.如图1所示,本实施例提供了一种基于时空交叉注意力的实时动作定位方法,具体包括以下步骤:
18.步骤s1、对视频片段进行采样得到输入视频,并通过帧集划分进行关键帧的提取;
19.步骤s2、将获取到视频片段输入r(2+1)d网络提取时序特征,将关键帧输入cspnet网络提取空间特征;
20.步骤s3、压缩时序特征,空间特征进行编码处理,计算时序特征与空间特征相互之间的潜在自适应,通过transformer自注意力进行特征间的交叉表示;
21.步骤s4、拼接特征对特征进行融合,通过回归、分类预测边界框位置以及运动类别,利用iou损失、二元交叉熵损失以及分别计算边界框损失以及类别损失;
22.步骤s5、根据预测结果计算相邻帧各个类别的链接分数,采用维特比算法寻找生成动作管的最佳路径。
23.在本实施例中,包括步骤s1具体包括以下步骤:
24.步骤s11、将输入视频片段以l帧的间隔均匀采样作为输入视频片段;
25.步骤s12、将输入视频片段划分为n个等长的帧集,即s={s1,s2,

,sn},每个帧集s
fi
由等长的视频帧序列组成;
26.步骤s13、抽取s1、s
n/2
、sn帧集,选取帧集中间帧作为关键帧简要表示动作。
27.在本实施例中,步骤s2具体包括以下步骤:
28.步骤s21、将输入视频片段输入3d骨干网络r(2+1)d网络提取时序特征m(xm∈rc×i×h×w),其中i是输入帧的数量,h和w是输入图像的高度和宽度,c是输出通道的数量;
29.步骤s22、所述r(2+1)d网络为动作识别中主流的主干网络之一,通过将3d卷积显式分解为两个独立且连续的操作,即2d空间卷积和1d时间卷积,对时序运动信息进行建模。
30.步骤s23、将关键帧输入2d骨干网络cspnet网络提取空间特征p(x
p
∈rc×h×w);
31.在本实施例中,步骤s3具体包括以下步骤:
32.步骤s31、为匹配2d骨干网络的输出特征图,将r(2+1)d输出特征m的深度维数减少到1压缩为[c
×h×
w];
[0033]
步骤s32、将压缩后的时序特征以及空间特征的编码由[c
×h×
w]大小转化为[h
×w×
c]大小,并平铺特征得到m'(x
m'
∈r
t
×c)、p'(x
p'
∈r
t
×c),其中t=h
×
w;
[0034]
步骤s33、分别对时序特征x
m'
∈r
t
×c与空间特征x
p'
∈r
t
×c进行位置嵌入,使其携带
时间信息,具体公式如下:
[0035][0036][0037]
其中,pe为位置嵌入矩阵,其计算公式如下:
[0038][0039][0040]
其中,pe[i,2j]表示pe位置嵌入矩阵中第i行,第2j列的值为pe[i,2j+1]表示pe位置嵌入矩阵中第i行,第2j+1列的值为
[0041]
步骤s34、计算时序特征x
m'
∈r
t
×c到空间特征x
p'
∈r
t
×c的潜在自适应表示y
p'
以及空间特征x
p'
∈r
t
×c到时序特征x
m'
∈r
t
×c的潜在自适应表示y
m'
,计算如下:
[0042]
计算从时序特征x
m'
∈r
t
×c到空间特征x
p'
∈r
t
×c的潜在自适应表现为y
p'
=cm
m'

p'
(x
p'
,x
m'
)∈r
t
×c:
[0043][0044]
其中,定义其中,其中,为权重。x
p'
,x
m'
通过softmax计算得分矩阵(softmax(
·
)∈r
t
×
t
),v
m'
通过得分矩阵进行加权汇总得到y
p'

[0045]
计算从空间特征x
p'
∈r
t
×c到时序特征x
m'
∈r
t
×c的潜在自适应表示为y
m'
=cm
p'

m'
(x
m'
,x
p

)∈r
t
×c:
[0046]
[0047]
其中,定义其中,其中,为权重;xm′
,x
p'
通过softmax计算得分矩阵softmax(
·
)∈r
t
×
t
,v
p'
通过得分矩阵进行加权汇总得到y
m'

[0048]
步骤s35、分别将特征潜在自适应表示y
p'
、y
m'
嵌入transformer自注意力中,使一个特征能够从另一个特征接收信息。例如,我们使时序(m')特征传递给空间(p')特征,即由“m'

p'”表示:
[0049][0050][0051][0052]
其中f
θ
是由θ参数化的位置前馈子层,g代表层数,ln表示归一化层。
[0053]
最后得到特征以及特征
[0054]
在本实施例中,步骤s4具体包括以下步骤:
[0055]
步骤s41、拼接特征然后将特征编码[t
×
2c]修改为[2c
×
t]到拼接特征a∈r
2c
×
t
,并将结果重塑回三维空间得到a'∈r
2c
×h×w;
[0056]
步骤s42、将a'特征先通过两个卷积块进行重新映射得到a'
res

[0057]
a'
res
=f(a';θ,ω)
[0058]
式中,f(
·
)表示残差函数,apool(
·
)表示平均池层,θ和ω分别表示卷积层的结构。
[0059]
步骤s43、将特征a'通过池化层来执行非完全压缩操作,然后通过两个卷积块进行重新映射,再经过上采样得到a'
attn

[0060]a′
attn
=up(f(apool(a

);θ,ω))
[0061]
步骤s44、对a

res
、a

attn
进行融合得到a'
out

[0062]a′
out
=a

attn
*a

res
+a

attn
[0063]
步骤s45、将融合特征a

out
通过一个1
×
1核的卷积层用于生成[(5
×
(numcls+5))
×h×
w]大小的输出信道,其中(numcls+5)包括numcls个类动作得分score、4个坐标[bx,by,bw,bh]和置信度得分conf;
[0064]
步骤s46、通过回归预测边界框位置,全连接层和softmax层进行分类,利用iou损失、二元交叉熵损失以及分别计算边界框损失以及类别损失;
[0065]
步骤s47、选取一个置信度阈值,取出每一类得分大于一定阈值的框和得分进行排序,过滤掉低阈值预测边界框,得出预测结果。
[0066]
在本实施例中,步骤s5具体包括以下步骤:
[0067]
步骤s51、假设box
t
,box
t+1
是连续帧t和t+1的两个预测框,计算动作类别cls中box
t
,box
t+1
两个框总得分情况sum
cls
(box
t
,box
t+1
)如下:
[0068]
sum
cls
(box
t
,box
t+1
)=score
cls
(box
t
)+score
cls
(box
t+1
)+α
·
score
cls
(box
t
)
·
score
cls
(box
t+1
)
[0069]
其中,score
cls
(box
t
),score
cls
(box
t+1
)是预测类别cls中的预测框box
t
和box
t+1
动作得分,α为自定义参数;
[0070]
步骤s52、计算box
t
,box
t+1
的重叠度ov(box
t
,box
t+1
)如下:
[0071]
ov(box
t
,box
t+1
)=1-iou(box
t
,box
t+1
)
[0072]
其中,iou为边界框重叠面积与总面积的占比。
[0073]
步骤s53、根据box
t
,box
t+1
两个框总得分情况以及重叠程度计算动作类c中box
t
,box
t+1
的链接分数如下:
[0074]
score
cls
(box
t
,box
t+1
)
[0075]
=ψ(ov(box
t
,box
t+1
))
·
[sum
cls
(box
t
,box
t+1
)+β
·
ov(box
t
,box
t+1
)]
[0076]
其中,β是自定义参数,ψ(ov(box
t
,box
t+1
))为指示函数,如果ov(box
t
,box
t+1
)大于0则输出为1,反之输出为0;
[0077]
步骤s54、在计算出所有连接分数后,采用维特比算法寻找生成动作管的最佳路径。
[0078]
所述维特比算法,利用动态规划求解概率最大的路径,是机器学习中应用非常广泛的动态规划算法。
[0079]
特别的,本发明基于时空交叉注意力的实时时空定位方法,能够实时的对时空动作进行定位。本发明提出对关键帧的提取方法,与以往仅使用当前帧作为关键帧相比,本发明方法更能够表示动作的经过。本发明提出基于空交叉特征融合注意力,利用时空交叉变压器对时空特征进行编码,引导时序特征和空间特征之间的融合,增强特征间的关联性,避免时间特征与空间特征的相斥性对动作识别带来的影响。本发明使用通道拼接以及注意机制来平滑地聚合时空特征。与以往的方法注意力融合方法不同,注意机制有效的增强了特征的有效信息,进一步融合时空特征。
[0080]
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1