视频分类方法、装置、设备及存储介质

文档序号:33629554发布日期:2023-03-28 22:23阅读:41来源:国知局
视频分类方法、装置、设备及存储介质

1.本公开实施例涉及人工智能领域,尤其涉及一种视频分类方法、装置、设备及存储介质。


背景技术:

2.人工智能的目标之一是:建造一台能够准确理解人类行为和意图的机器,以便更好地为人类服务。而要构建出可以理解人类行为的模型正是行为识别需要研究和探讨的问题。
3.在对视频进行人体行为识别时,由于人体行为的丰富性和复杂性,视野遮挡以及背景杂乱等因素,相比于仅仅对图像中的人体行为识别来说,更具难度和挑战性。人体行为识别方法的主流技术之一是深度学习技术。目前主流的基于深度学习的人体行为识别技术可以分为两种:一种是通过双流网络独立学习空间和连续光流等特征,并在后期进行特征融合;另一种是通过高维卷积建模时间维度来提取视频帧中相邻帧间的上下文关系信息。
4.然而,多流网络在训练过程中每个分支独立提取特征后再进行特征融合,非端到端训练,训练难度较大,而计算帧间光流信息的过程非常耗时且所提取的光流特征必须存储在磁盘中,对存储成本和计算成本要求较高;高维卷积如3维卷积本身的参数量和计算量大,且只能学习到视频的局部信息。在实际应用过程中,直接通过3维卷积神经网络提取行为特征,也容易引起梯度消失、梯度爆炸和过拟合等问题。


技术实现要素:

5.本公开实施例提供一种视频分类方法、装置、设备及存储介质,可以提高视频分类的速度和精度。
6.第一方面,本公开实施例提供了一种视频分类方法,包括:获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
7.第二方面,本公开实施例还提供了一种视频分类装置,包括:待分类视频获取模块,用于获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;动作分类结果获得模块,用于将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
8.第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
9.一个或多个处理器;
10.存储装置,用于存储一个或多个程序,
11.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开实施例所述的视频分类方法。
12.第四方面,本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例所述的视频分类方法。
13.本公开实施例的技术方案,通过获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。本公开实施例,通过双路激励通道分组层,不仅利用了视频帧间的关键运动信息、通道间的时间依赖关系以及视频长距离时空信息,还以较少的输入帧数实现了端到端的高效视频分类。本实施例,通过双路激励通道分组层,避免了光流计算的巨大时耗和存储资源的占用,以及多流网络需要独立训练带来的困难,并能够大幅度降低计算量,同时进一步提升推理速度和分类准确率。
附图说明
14.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
15.图1为本公开实施例所提供的视频分类方法流程示意图;
16.图2为本发明实施例提供的一种视频分类方法示意图;
17.图3为本发明实施例提供的瓶颈单元网络结构示意图;
18.图4为本公开实施例所提供的一种视频分类装置结构示意图;
19.图5是本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
20.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
21.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
22.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
23.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
24.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
25.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
26.图1为本公开实施例所提供的视频分类方法流程示意图,本公开实施例适用于视频分类的情形,例如对视频中目标对象的行为进行分类,该方法可以由视频分类装置来执行,该装置可以通过软件和/或硬件的形式实现,可选的,通过电子设备来实现,该电子设备可以是移动终端、pc端或服务器等。
27.如图1所示,所述方法包括:
28.s110、获取待分类视频。
29.其中,待分类视频的内容中包括至少一种目标对象的行为动作。目标对象可以是人、动物等,目标对象以人为例,目标对象的行为动作可以是“开门”的动作、“关门”的动作等。对于行为动作的数量,本实施例对此不作限制,对于行为动作的类型也不作限制。
30.s120、将待分类视频对应的第一视频帧输入至目标视频分类模型中,获得待分类视频对应的动作分类结果。
31.其中,目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识模块,稀疏采样层、双路激励通道分组层和分段共识层间级联连接。
32.本实施例中,分类视频的时长可以是任意,本实施例对此不作限制,第一视频帧的数量也可以是任意的,本实施例对此不作限制。本实施例,可以通过脚本对待分类视频进行抽帧,得到第一视频帧。例如待分类视频的时长为3秒,第一视频帧可以是80帧。得到第一视频帧之后,将第一视频帧输入至目标视频分类模型中,获得该分类视频对应的动作分类结果。
33.其中,目标视频分类模型可以是一种基于时序分段网络的模型(temporal segment networks,tsn),该模型的输入仅为视频帧(图像),并且tsn网络的骨干网可以通过resnet50网络表示。需要说明的是,双路激励通道分组层可以理解为是对resnet50网络改进的层。
34.可选的,将待分类视频对应的第一视频帧输入至目标视频分类模型中,获得待分类视频对应的动作分类结果,包括:稀疏采样层对第一视频帧进行随机采样,获得第二视频帧,并对第二视频帧进行数据增强处理,获得增强后的第二视频帧;双路激励通道分组层基于增强后的第二视频帧进行深层特征提取,获得深层特征;分段共识层根据深层特征计算待分类视频对应的各视频帧在同一类别上的平均得分;基于设定函数将平均得分转换为概率值;基于待分类视频在所有类别上的概率值,将最大的概率值对应的动作类别作为动作分类结果,并输出动作分类结果。
35.具体的,稀疏采样层通过稀疏采样策略将第一视频帧分成若干分段,并从每个分段中随机采样一帧(图片)。示例性,第一视频帧为80帧,通过稀疏采样策略将80帧(图片)分成8个分段,每个分段包括10帧(图片),并从每个分段中随机采样一帧,即得到8个帧(图片)。该8个帧(图片)可以作为第二视频帧。在得到第二视频帧之后,通过数据增强策略对第二视频帧进行处理,同时将视频帧的高和宽的尺寸调整为统一的尺寸,例如为224*224,得到增强后的第二视频帧。其中,数据增强包括随机翻转和/或角度裁剪操作。其中,视频帧包
括时刻信息,例如第二视频帧为8帧,可以理解为8个时刻信息。
36.本实施例,通过双路激励通道分组层获得深层特征之后,通过全连接层将深层特征映射到具体的样本空间(样本空间数为数据集的类别总数),得到全连接层的特征。分段共识层通过分段共识函数根据全连接层的特征计算待分类视频对应的各视频帧在同一类别上的平均得分。其中,分段共识函数为average pooling均值函数。
37.示例性的,如果类别为2类,第二视频帧为3帧,第一帧图片在a类别上的预测分数为0.5,在b类别上的预测分为0.3;第二帧图片在a类别上的预测分数为0.4,在b类别上的预测分数为0.5,第三帧图片在a类别上的预测分数为0.6,在b类别上的预测分数为0.4,则3个视频帧在a类别上的平均得分为(0.5+0.4+0.6)/3=0.5。3个视频帧在b类别上的平均得分为(0.3+0.5+0.4)/3=0.4。
38.本实施例中,计算出各视频帧在同一类别上的平均得分之后,通过softmax函数(归一化函数)将平均得分转换为概率值,可得到待分类视频在各个类别上的概率值,将最大的概率值对应的类别作为动作分类结果,并输出动作分类结果。
39.可选的,双路激励通道分组层包括至少四个双路激励通道分组模块,相邻双路激励通道分组模块中的后一双路激励通道分组模块的输入为前一双路激励通道分组模块的输出。可选的,双路激励通道分组层基于增强后的第二视频帧进行深层特征提取,获得深层特征,包括:双路激励通道分组模块基于增强后的第二视频帧进行深层特征提取,获得深层子特征。
40.需要说明的是,对于双路激励通道分组模块的数量,可以根据tsn网络的骨干网进行设置,例如如果tsn网络的骨干网可以通过resnet50网络表示,则双路激励通道分组层可以包括4个双路激励通道分组模块。对于双路激励通道分组模块的输入,除了第一双路激励通道分组模块为增强后的第二视频帧,其他的双路激励通道分组模块,相邻双路激励通道分组模块中的后一双路激励通道分组模块的输入为前一双路激励通道分组模块的输出。如图2所示,图2为本发明实施例提供的一种视频分类方法示意图。双路激励通道分组层中包括4个双路激励通道分组模块,类别分布表示待分类视频在各类别上得分的分布。
41.可选的,双路激励通道分组模块包括多个瓶颈单元,各瓶颈单元级联连接,相邻瓶颈单元中的后一瓶颈单元的输入为前一瓶颈单元的输出;瓶颈单元包括第一二维卷积子单元、运动激励子单元、通道激励子单元、通道分组子单元和第二二维卷积子单元;运动激励子单元和通道激励子单元的输入均为第一二维卷积子单元的输出,将运动激励子单元输出和通道激励子单元的输出进行相加,相加后的输出作为通道分组子单元的输入,通道分组子单元的输出为第二二维卷积子单元的输入;双路激励通道分组模块基于增强后的第二视频帧进行深层特征提取,获得深层子特征,包括:若第一二维卷积子单元所属瓶颈单元为第一瓶颈单元,则第一二维卷积子单元基于增强后的第二视频帧进行特征提取,获得第一卷积特征;否则,第一二维卷积子单元基于前一瓶颈单元的输出进行特征提取,获得第一卷积特征;运动激励子单元基于第一卷积特征进行特征提取,获得运动特征;通道激励子单元基于第一卷积特征进行特征提取,获得通道特征;通道分组子单元基于运动特征和通道特征相加后的特征进行特征提取,获得长距离时空特征;第二二维卷积子单元基于长距离时空特征进行特征提取,获得第二卷积特征。
42.需要说明的是,对于瓶颈单元的数量,可以根据tsn网络的骨干网进行设置,例如
如果tsn网络的骨干网可以通过resnet50网络表示,则4个双路激励通道分组模块的瓶颈单元的数量分别为:3、4、6、3,各瓶颈单元间级联连接。相邻瓶颈单元中的后一瓶颈单元的输入为前一瓶颈单元的输出。
43.本实施例中,瓶颈单元包括第一二维卷积子单元、运动激励子单元、通道激励子单元、通道分组子单元和第二二维卷积子单元;第一二维卷积子单元和第二二维卷积子单元均可以为卷积核尺寸为1*1的二维卷积。
44.具体的,首先,对增强后的第二视频帧进行四元操作组帧预处理,然后将预处理后的特征输入至第一双路激励通道分组模块中进行特征提取,接着,第一双路激励通道分组模块输出为第二双路激励通道分组模块输入,依此类推,直至最后双路激励通道分组模块进行特征提取。其中,四元操作组帧为conv-bn-relu-maxpool,conv可以是尺寸7
×
7,步长为2的卷积核,bn为批归一化(batch normalization,bn)处理,relu为修正线性单元激活函数,maxpool为尺寸3
×
3,步长为2的池化核。其中,第二视频帧的特征序列形状可以为[n,t,c,h,w],n为批大小,如128,t和c分别表示时间维度和通道维度,h和w为空间形状的高和宽。
[0045]
具体的,对于双路激励通道分组模块中的瓶颈单元中的第一二维卷积子单元,若第一二维卷积子单元所属瓶颈单元为第一瓶颈单元,则第一二维卷积子单元基于四元操作组帧预处理后的特征进行特征提取,获得第一卷积特征;否则,第一二维卷积子单元基于前一瓶颈单元的输出进行特征提取,获得第一卷积特征。得到第一卷积特征之后,运动激励子单元基于第一卷积特征进行特征提取,获得运动特征;通道激励子单元基于第一卷积特征进行特征提取,获得通道特征;通道分组子单元基于运动特征和通道特征相加后的特征进行特征提取,获得长距离时空特征;第二二维卷积子单元基于长距离时空特征进行特征提取,获得第二卷积特征。如图3所示,图3为本发明实施例提供的瓶颈单元网络结构示意图。图中“+”表示将运动激励子单元的输出(运动特征)和通道激励子单元的输出(通道特征)进行相加,通道分组子单元基于运动特征和通道特征相加后的特征进行特征提取。
[0046]
可选的,运动激励子单元基于第一卷积特征进行特征提取,获得运动特征,包括:通过第三二维卷积将第一卷积特征进行通道数压缩,获得通道压缩特征;对于相邻时刻的通道压缩特征,通过第四卷积对t+1时刻的通道压缩特征进行特征提取,获得第四卷积特征;将第四卷积特征与t时刻的通道压缩特征进行相减,获得多个运动子特征;其中t为正整数,且t取值范围在第一设定值至第二设定值之间;将多个运动子特征在时间维度上进行拼接,获得第一完整运动子特征;将最后一个时刻的运动特征设置为第三设定值,获得最后一个时刻的运动子特征;将第一完整运动子特征与最后一个时刻的运动子特征进行串联,获得第二完整运动子特征;通过全局平均池化对第二完整子运动特征进行处理,获得第一池化特征;基于第五卷积将第一池化特征的通道数进行调整,获得调整后的第一池化特征;对第一池化特征进行注意力机制的特征提取,获得增强的运动子特征;基于第一卷积特征和增强的运动子特征进行残差连接,获得运动特征。
[0047]
具体的,通过运动激励子单元对第一卷积特征进行特征提取,获得运动特征的过程如下:通过第三二维卷积(尺寸为1
×
1,步长为1的二维卷积)将第一卷积特征进行通道数压缩,压缩至原来的1/16,以降低计算成本,提高计算效率,并获得通道压缩特征。公式如下:
[0048]
xr=conv
red
*x,xr∈rn×
t
×
c/r
×h×
w (1)
[0049]
其中,xr通道压缩特征,x为第一卷积特征,conv
red
为第三二维卷积,*表示卷积运算。1/r为通道缩减比,可以为16。
[0050]
具体的,首先对t+1时刻的通道压缩特征应用第四二维卷积,获得第四卷积特征,然后第四卷积特征减去时刻t的通道压缩特征,获得t时刻的运动子特征。对每相邻时刻的通道压缩特征均执行上述操作,获得多个运动子特征。其中,第一设定值为1,第二设定值为第二视频帧的数量减去1。具体的公式如下:
[0051]
m(t)=conv
trans
*xr(t+1)-xr(t),1≤t≤t-1 (2)
[0052]
其中,m(t)∈rn×
c/r
×h×w表示t时刻的运动子特征,t表示第二视频帧数量减去1,即第二设定值,conv
trans
是尺寸3
×
3,步长为1的二维卷积。对每两个相邻通道压缩特征均执行公式(2),得到t-1个运动特征表示,将多个运动子特征在时间维度上进行拼接,获得第一完整运动子特征。为了使得第一完整运动子特征的时间维度大小与第一卷积特征相同,将最后一个时刻的运动特征设置为第三设定值,获得最后一个时刻的运动子特征。其中,第三设定值为0,即m(t)=0,并将第一完整运动子特征与最后一个时刻的运动子特征进行串联,获得第二完整运动子特征,构造最终的第二完整运动子特征m,即m(t)=[m(1),m(2),
······
,m(t)]。
[0053]
因为运动激励子单元的目标是激励运动敏感的通道,使网络更加注意运动信息,而无需考虑详细的空间布局。因此,可以通过全局平均池化处理第二完整子运动特征,公式如下:
[0054]ms
=pool(m),ms∈rn×
t
×
c/r
×1×
1 (3)
[0055]
其中,m为第二完整运动子特征,ms表示第一池化特征。
[0056]
接着,基于第五卷积将第一池化特征的通道数进行调整,获得调整后的第一池化特征,以将第一池化特征的通道数恢复到原始大小。并通过激活函数sigmoid()获得运动注意力权重。其中,第五卷积为尺寸1
×
1,步长为1的二维卷积。公式如下:
[0057]
a=2δ(conv
exp
*ms)-1,a∈rn×
t
×c×1×
1 (4)
[0058]
其中,conv
exp
为第五卷积,δ为激活函数,a为运动注意力权重a,即运动注意力机制权重。
[0059]
接着,将第一卷积特征与运动注意力机制权重相乘,可得到增强的运动子特征。最后基于第一卷积特征和增强的运动子特征进行残差连接,获得运动特征,通过残差连接既保留了原始信息,也增强了运动信息。公式如下:
[0060][0061]
其中,是运动激励子单元的输出,

表示按通道相乘。
[0062]
可选的,通道激励子单元基于第一卷积特征进行特征提取,获得通道特征,包括:通过全局平均池化对第一卷积特征进行处理,获得第二池化特征;通过第六卷积对第二池化特征的通道数进行调整,获得调整后的第二池化特征;将调整后的第二池化特征的通道维度和时间维度的位置进行互换,获得第三池化特征;其中,第二池化特征包括批大小维度、时间维度、通道维度、高度维度和宽度维度;通过第七卷积对第三池化特征进行处理,获得第一通道子特征;将第一通道子特征的通道维度和时间维度的位置进行互换,获得第二通道子特征;对第二通道子特征进行注意力机制的特征提取,获得增强的通道子特征;基于
第一卷积特征和增强的通道子特征进行残差连接,获得通道特征。
[0063]
具体的,通道激励子单元对第一卷积特征进行特征提取,获得通道特征的过程如下:首先,通过全局平均池化对第一卷积特征进行处理,获得第二池化特征,公式如下:
[0064][0065]
其中,“:”表示该特征的全部值,第一个“:”表示批大小的全部值,第二个“:”表示时间维度的全部特征,第三个“:”表示通道维度的全部特征。f为第二池化特征。
[0066]
接着,通过第六卷积对第二池化特征的通道数进行压缩,获得调整后的第二池化特征,其中,第六卷积为尺寸1
×
1的二维卷积。公式如下:
[0067]fr
=k1*f,fr∈r
n,t,c/r,1,1 (7)
[0068]
其中,k1是第六卷积,1/r为压缩比例,r为16。
[0069]
接着,将调整后的第二池化特征的通道维度和时间维度的位置进行互换,获得第三池化特征,以支持时间推理。第三池化特征的形状为[n,c/r,t,1,1],并记作
[0070]
接着,通过第七卷积对第三池化特征进行处理,获得第一通道子特征。其中,第七卷积为核大小为3的一维卷积。公式如下:
[0071][0072]
其中,k2为第七卷积,为第一通道子特征。
[0073]
接着,将维度调整为[n,t,c/r,1,1],获得第二通道子特征,并记作f
temp

[0074]
接着,通过第八卷积及激活函数sigmoid对第二通道子特征进行通道激活,得到通道注意力机制权重。其中,第八卷积为尺寸1
×
1的二维卷积。公式如下:
[0075][0076][0077]
其中,k3为第八卷积,fo为第二通道子特征应用第八卷积后的特征,m为通道注意力机制权重。
[0078]
最后,对第二通道子特征进行注意力机制的特征提取,获得增强的通道子特征;基于第一卷积特征和增强的通道子特征进行残差连接,获得通道特征。公式如下:
[0079][0080]
其中,为通道激励子单元的输出。
[0081]
可选的,通道分组子单元基于运动特征和通道特征相加后的特征进行特征提取,获得长距离时空特征,包括:将运动特征和通道特征相加后的特征在通道维度上进行分割,获得设定数量的长距离时空子特征;对于第二长距离时空子特征,依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第二长距离时空子特征;对于第n长距离时空子特征,将新的前一距离时空子特征与第n长距离时空子特征进行相加,获得残差特征;对残差特征依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第n长距离时空子特征;
其中,n为大于2的正整数;将第一长距离时空子特征、新的第二长距离时空子特征及新的第n长距离时空子特征在通道维度上进行拼接,获得长距离时空特征。
[0082]
具体的,通道分组子单元基于运动特征和通道特征相加后的特征进行特征提取,获得长距离时空特征的过程如下:首先,将运动特征和通道特征相加后的特征在通道维度上进行分割,获得设定数量的长距离时空子特征。其中,设定数量为4个。每个长距离时空子特征的形状为[n,t,c/4,h,w],
[0083]
对于第一长距离时空子特征,公式如下:
[0084][0085]
其中,当i=1时,xi表示第一长距离时空子特征,为新的第一长距离时空子特征。即新的第一长距离时空子特征与第一长距离时空子特征相同,因此该新的第一长距离时空子特征的感受野是1
×1×
1。
[0086]
对于第二长距离时空子特征,依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第二长距离时空子特征。其中,通道级时序子卷积表示尺寸大小为3的一维卷积,空间子卷积表示尺寸3
×
3的二维卷积。公式如下:
[0087][0088]
其中,conv
temp
为通道级时序子卷积,conv
spa
为空间子卷积。当i=2时,xi表示第二长距离时空子特征。为新的第一长距离时空子特征。
[0089]
对于第三长距离时空子特征,将第三长距离时空子特征与新的第二长距离时空子特征进行相加,获得残差特征,并对残差特征依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第三长距离时空子特征。
[0090]
对于第四长距离时空子特征,将第四长距离时空子特征与新的第三长距离时空子特征进行相加,获得残差特征,并对残差特征依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第四长距离时空子特征。公式如下:
[0091][0092]
其中,表示新的前一距离时空子特征,当i=3时,表示新的第三长距离时空子特征,当i=4,表示新的第四长距离时空子特征。
[0093]
本实施例中,对于第n长距离时空子特征,通过将新的前一距离时空子特征与第n长距离时空子特征进行相加,即加入残差连接,将通道分组子单元从并行结构转换为层叠结构。通过残差连接,新的第四长距离时空子特征的感受野被扩大了三倍。即不同的长距离时空子特征有不同的感受野。
[0094]
最后,采用串联方式将第一长距离时空子特征、新的第二长距离时空子特征及新的第n长距离时空子特征在通道维度上进行拼接,获得长距离时空特征。公式如下:
[0095][0096]
其中,和分别表示新的第一长距离时空子特征、新的第二长距离时空子特征、新的第三长距离时空子特征和新的第四长距离时空子特征,xo为长距离时空特征。长距离时空特征捕捉了不同时间的时空信息。
[0097]
需要说明的是,第一双路激励通道分组模块中的第二瓶颈单元、第三瓶颈单元、以及后续的第二双路激励通道分组模块、第三双路激励通道分组模块、第四双路激励通道分组模块进行进一步的特征提取,提取过程与上述公式(1)-公式(15)的过程一致,区别在于:通道数量和形状维度上在不断变化。
[0098]
本实施例中,目标视频分类模型训练方式为:基于训练集对目标视频分类模型进行训练,获得训练后的目标视频分类模型;基于测试集对训练后的目标图像处理模型进行测试。本实施例中的损失函数为交叉熵损失函数。
[0099]
本实施例,通过双路激励通道分组层增强分类过程中的关键运动信息、通道信息以及长距离时空信息。构建运动激励子单元时,通过将特征在时间维度上切分并进行相邻帧差来强化时间维度上的运动信息,使用sigmoid激活函数对相邻帧间的局部运动进行特征激活,来高效提取第二视频帧间短时序的运动特征,同时采用残差结构存储原帧(第一卷积特征)的静态场景信息;构建通道激励子单元时,通过一维卷积来表征通道特征的时间信息,同样使用sigmoid激活函数自适应校准通道特征,表征通道之间的时间依赖;构建通道分组子单元时,通过将长距离时空子特征和对应的局部卷积(通道级时序子卷积和空间子卷积)划分为一组子集,并加入多层次残差结构,将原本多层次级联结构转换成多层次并行结构,从而提升卷积核的多尺度表征能力,相应地扩大时间维度的等效感受野。
[0100]
本实施例中,运动激励子单元提取相邻视频帧间短时序的运动信息,通道激励子单元自适应调整通道间的时间依赖关系,而通道分组子单元提取长时序的时空信息,将三个子单元集成在瓶颈单元中,通过堆叠瓶颈单元来构建高效的目标视频分类模型。
[0101]
本公开实施例的技术方案,通过获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;将待分类视频对应的第一视频帧输入至目标视频分类模型中,获得待分类视频对应的动作分类结果;其中,目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,稀疏采样层、双路激励通道分组层和分段共识层间级联连接。本公开实施例,通过双路激励通道分组层,不仅利用了视频帧间的关键运动信息、通道间的时间依赖关系以及视频长距离时空信息,还以较少的输入帧数实现了端到端的高效视频分类。本实施例,通过双路激励通道分组层,避免了光流计算的巨大时耗和存储资源的占用,以及多流网络需要独立训练带来的困难,并能够大幅度降低计算量,同时进一步提升推理速度和分类准确率。
[0102]
图4为本公开实施例所提供的一种视频分类装置结构示意图,如图4所示,所述装置包括:待分类视频获取模块410和动作分类结果获得模块420;
[0103]
待分类视频获取模块410,用于获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;
[0104]
动作分类结果获得模块420,用于将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
[0105]
本公开实施例的技术方案,通过待分类视频获取模块获取待分类视频;其中,待分类视频的内容中包括至少一种目标对象的行为动作;通过动作分类结果获得模块将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作
分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。本公开实施例,通过双路激励通道分组层,不仅利用了视频帧间的关键运动信息、通道间的时间依赖关系以及视频长距离时空信息,还以较少的输入帧数实现了端到端的高效视频分类。本实施例,通过双路激励通道分组层,避免了光流计算的巨大时耗和存储资源的占用,以及多流网络需要独立训练带来的困难,并能够大幅度降低计算量,同时进一步提升推理速度和分类准确率。
[0106]
可选的,动作分类结果获得模块具体用于:稀疏采样层对所述第一视频帧进行随机采样,获得第二视频帧,并对所述第二视频帧进行数据增强处理,获得增强后的视频帧;所述数据增强包括随机翻转和/或角度裁剪操作;其中,所述视频帧包括时刻信息;双路激励通道分组层基于所述增强后的第二视频帧进行深层特征提取,获得深层特征;分段共识层根据所述深层特征计算所述待分类视频对应的各视频帧在同一类别上的平均得分;基于设定函数将所述平均得分转换为概率值;基于所述待分类视频在所有类别上的概率值,将最大的概率值对应的动作类别作为动作分类结果,并输出所述动作分类结果。
[0107]
可选的,双路激励通道分组层包括至少四个双路激励通道分组模块,相邻双路激励通道分组模块中的后一双路激励通道分组模块的输入为前一双路激励通道分组模块的输出。动作分类结果获得模块还用于:双路激励通道分组模块基于所述增强后的第二视频帧进行深层特征提取,获得深层子特征。
[0108]
可选的,双路激励通道分组模块包括多个瓶颈单元,各瓶颈单元级联连接,相邻瓶颈单元中的后一瓶颈单元的输入为前一瓶颈单元的输出;所述瓶颈单元包括第一二维卷积子单元、运动激励子单元、通道激励子单元、通道分组子单元和第二二维卷积子单元;所述运动激励子单元和通道激励子单元的输入均为第一二维卷积子单元的输出,将运动激励子单元输出和通道激励子单元的输出进行相加,相加后的输出作为通道分组子单元的输入,通道分组子单元的输出为第二二维卷积子单元的输入。
[0109]
可选的,动作分类结果获得模块还用于:若第一二维卷积子单元所属瓶颈单元为第一瓶颈单元,则第一二维卷积子单元基于所述增强后的第二视频帧进行特征提取,获得第一卷积特征;否则,第一二维卷积子单元基于所述前一瓶颈单元的输出进行特征提取,获得第一卷积特征;运动激励子单元基于第一卷积特征进行特征提取,获得运动特征;通道激励子单元基于第一卷积特征进行特征提取,获得通道特征;通道分组子单元基于所述运动特征和所述通道特征相加后的特征进行特征提取,获得长距离时空特征;第二二维卷积子单元基于所述长距离时空特征进行特征提取,获得第二卷积特征。
[0110]
可选的,动作分类结果获得模块还用于:通过第三二维卷积将所述第一卷积特征进行通道数压缩,获得通道压缩特征;对于相邻时刻的通道压缩特征,通过第四二维卷积对t+1时刻的通道压缩特征进行特征提取,获得第四卷积特征;将所述第四卷积特征与t时刻的通道压缩特征进行相减,获得多个运动子特征;其中t为正整数,且t取值范围在第一设定值至第二设定值之间;将所述多个运动子特征在时间维度上进行拼接,获得第一完整运动子特征;将最后一个时刻的运动特征设置为第三设定值,获得最后一个时刻的运动子特征;将所述第一完整运动子特征与所述最后一个时刻的运动子特征进行串联,获得第二完整运动子特征;通过全局平均池化对所述第二完整子运动特征进行处理,获得第一池化特征;基
于第五卷积将所述第一池化特征的通道数进行调整,获得调整后的第一池化特征;对所述第一池化特征进行注意力机制的特征提取,获得增强的运动子特征;基于所述第一卷积特征和所述增强的运动子特征进行残差连接,获得运动特征。
[0111]
可选的,动作分类结果获得模块还用于:通过全局平均池化对所述第一卷积特征进行处理,获得第二池化特征;通过第六卷积对所述第二池化特征的通道数进行调整,获得调整后的第二池化特征;将所述调整后的第二池化特征的通道维度和时间维度的位置进行互换,获得第三池化特征;其中,第二池化特征包括批大小维度、时间维度、通道维度、高度维度和宽度维度;通过第七卷积对所述第三池化特征进行处理,获得第一通道子特征;将所述第一通道子特征的通道维度和时间维度的位置进行互换,获得第二通道子特征;对所述第二通道子特征进行注意力机制的特征提取,获得增强的通道子特征;基于所述第一卷积特征和所述增强的通道子特征进行残差连接,获得通道特征。
[0112]
可选的,动作分类结果获得模块还用于:将所述运动特征和所述通道特征相加后的特征在通道维度上进行分割,获得设定数量的长距离时空子特征;对于第二长距离时空子特征,依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第二长距离时空子特征;对于第n长距离时空子特征,将新的前一距离时空子特征与第n长距离时空子特征进行相加,获得残差特征;对所述残差特征依次通过通道级时序子卷积和空间子卷积进行处理,得到新的第n长距离时空子特征;其中,n为大于2的正整数;将所述第一长距离时空子特征、新的第二长距离时空子特征及新的第n长距离时空子特征在通道维度上进行拼接,获得长距离时空特征。
[0113]
本公开实施例所提供的视频分类装置可执行本公开任意实施例所提供的视频分类方法,具备执行方法相应的功能模块和有益效果。
[0114]
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开实施例的保护范围。
[0115]
图5为本公开实施例所提供的一种电子设备的结构示意图。下面参考图5,其示出了适于用来实现本公开实施例的电子设备(例如图5中的终端设备或服务器)500的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0116]
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。编辑/输出(i/o)接口505也连接至总线504。
[0117]
通常,以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具
有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0118]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
[0119]
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0120]
本公开实施例提供的电子设备与上述实施例提供的视频分类方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0121]
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的视频分类方法。
[0122]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0123]
在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0124]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0125]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待分类视频;其中,待分类视频的内容中包括至少一
种目标对象的行为动作;将所述待分类视频对应的第一视频帧输入至目标视频分类模型中,获得所述待分类视频对应的动作分类结果;其中,所述目标视频分类模型依次包括稀疏采样层、双路激励通道分组层和分段共识层,所述稀疏采样层、所述双路激励通道分组层和所述分段共识层间级联连接。
[0126]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0127]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0128]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0129]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0130]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0131]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行
任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0132]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0133]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1