一种视频场景识别方法、系统及电子设备与流程

文档序号:23989431发布日期:2021-02-20 12:58阅读:67来源:国知局
一种视频场景识别方法、系统及电子设备与流程

[0001]
本发明涉及计算机技术领域,尤其涉及一种视频场景识别方法、系统及电子设备。


背景技术:

[0002]
随着计算机技术、人工智能的不断发展,场景识别作为计算机视觉的重要研究任务之一,其具有场景物体种类、数量多,语意模糊,类间差异小且类内差异大的难点,而在动态场景识别任务中,还需要处理视频数据,需要考虑到时空关系中视频帧可能存在模糊和变形的情况,这使得视频场景识别更加具有挑战性。
[0003]
在基于图片的场景识别任务日趋饱和后,基于视频的场景识别也逐渐登上了舞台。目前的视频场景识别方法通常考虑视频场景识别中特有的时空关系特点,例如通过基于空间与时间信息融合进行场景识别;或者使用视频数据中除图像外的其他特征进行场景识别,例如:利用音频和视觉特征进行视频场景识别;或者通过新型的网络结构,例如基于回声状态网络(echo state network,esn)进行场景识别、基于三维卷积神经网络(3d convnets)来对时空关系建模以进行场景识别。
[0004]
但是上述场景识别方法均存在视频帧变形模糊的问题。


技术实现要素:

[0005]
本发明实施例的一个目的旨在提供一种视频场景识别方法、系统及电子设备,其能够需要解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0006]
在第一方面,本发明实施例提供一种视频场景识别方法,所述方法包括:
[0007]
接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;
[0008]
将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;
[0009]
将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;
[0010]
对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;
[0011]
根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。
[0012]
在一些实施例中,所述获取所述视频帧图片序列对应的降维特征图,包括:
[0013]
获取接收到的视频帧图片序列的输入通道数;
[0014]
根据预设的超参数,确定所述视频帧图片序列的输出通道数,以生成所述视频帧图片序列对应的降维特征图。
[0015]
在一些实施例中,所述根据预设的超参数,确定所述视频帧图片序列的输出通道数,包括:
[0016]
若所述视频帧图片序列的输入通道数为m,则通过点卷积,将所述视频帧图片序列的每一帧降维至输出通道数为m/k的降维特征图,其中,k为预设的超参数,m≥k>0,且m为k的倍数。
[0017]
在一些实施例中,所述将所述降维特征图基于预设空洞率进行空洞卷积,包括:
[0018]
将所述输出通道数为m/k的降维特征图分为k个分支,并确定所述k个分支中每一个分支对应的预设空洞率;
[0019]
基于所述每一分支对应的预设空洞率,并行对所述每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图。
[0020]
在一些实施例中,所述确定所述k个分支中每一个分支对应的预设空洞率包括:
[0021]
确定所述每一个分支对应的预设空洞率为2
k-1
,k={1,

,k};
[0022]
所述基于每一分支对应的预设空洞率,并行对每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图包括:
[0023]
采用卷积核大小为n
×
n,空洞率为2
k-1
的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图。
[0024]
在一些实施例中,所述将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,包括:
[0025]
确定随意移动池化的最大参数;
[0026]
根据所述最大参数,随机确定卷积核的随机移动的偏移量;
[0027]
根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图。
[0028]
在一些实施例中,所述确定随意移动池化的最大参数,包括:
[0029]
当确定所述随意移动池化的最大参数为r时,确定随意移动池化的最大参数为:r=min(s-1,(k-1)/2-p),其中,s为卷积核的步长,k为卷积核的大小,p为填充量。
[0030]
在一些实施例中,所述根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图,包括:
[0031][0032]
其中,m为通道位置坐标,i为高度位置坐标,j为宽度位置坐标,y
m,i,j
为池化处理后的特征图在(m,i,j)位置的值,s为卷积核的步长,h为空洞处理后的特征图的长度,w为空洞处理后的特征图的宽度,为随机移动的x轴偏移量,为随机移动的y轴偏移量,w
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的权重,x
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的数值。
[0033]
在第二方面,本发明实施例提供一种视频场景识别方法,所述方法包括:
[0034]
获取训练数据集;
[0035]
组合预设视频场景模型以及网络模型,并基于所述训练数据集,对所述预设视频场景模型以及所述网络模型组合后的模型进行训练,以生成视频场景识别模型;
[0036]
将获取到的视频帧图片序列输入所述视频场景识别模型,以输出每一视频帧对应的场景类别预测。
[0037]
在一些实施例中,所述网络模型应用如上所述的视频场景识别方法。
[0038]
在第三方面,本发明实施例提供一种视频场景识别系统,所述系统包括:预设视频场景模型以及网络模型;
[0039]
其中,所述网络模型应用如上所述的视频场景识别方法。
[0040]
在第四方面,本发明实施例提供一种电子设备,包括:
[0041]
至少一个处理器;和
[0042]
与所述至少一个处理器通信连接的存储器;其中,
[0043]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的视频场景识别方法。
[0044]
在第五方面,本发明实施例提供一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行上述的视频场景识别方法。
[0045]
在第六方面,本发明实施例提供一种计算机程序,所述计算机程序包含程序指令,在所述程序指令由电子设备中的一个或多个处理器执行时,使所述电子设备执行上述的视频场景识别方法。
[0046]
本发明实施例的有益效果是:区别于现有技术的情况下,本发明实施例提供的一种视频场景识别方法,所述方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。通过对视频帧图片序列进行降维并基于预设空洞率进行空洞卷积,再通过随机池化处理并将随机池化处理后的特征图进行分层特征融合,根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
附图说明
[0047]
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
[0048]
图1是本发明实施例提供的一种视频场景识别方法的流程示意图;
[0049]
图2是图1中的步骤s101的细化流程图;
[0050]
图3是图1中的步骤s102的细化流程图;
[0051]
图4是图1中的步骤s103的细化流程图;
[0052]
图5是本发明实施例提供的随机移动池化的流程示意图;
[0053]
图6是本发明实施例提供的一种随机移动池化的示意图;
[0054]
图7是本发明实施例提供的移动翻转瓶颈卷积的操作示意图;
[0055]
图8是本发明实施例提供的随机移动池化的操作示意图;
[0056]
图9是本发明实施例提供的另一种视频场景识别方法的流程示意图;
[0057]
图10是本发明实施例提供的一种视频场景识别系统的结构示意图;
[0058]
图11是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
[0059]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
[0061]
在基于图片的场景识别任务日趋饱和后,基于视频的场景识别也逐渐登上了舞台。目前的视频场景识别方法通常考虑视频场景识别中特有的时空关系特点,例如通过基于空间与时间信息融合进行场景识别;或者使用视频数据中除图像外的其他特征进行场景识别,例如:利用音频和视觉特征进行视频场景识别;或者通过新型的网络结构,例如基于回声状态网络(echo state network,esn)进行场景识别、基于三维卷积神经网络(3d convnets)来对时空关系建模以进行场景识别。
[0062]
但是上述场景识别方法均存在视频帧变形模糊的问题。
[0063]
基于此,本发明实施例提出一种视频场景识别方法、系统及电子设备,以提高视频场景识别的准确性。
[0064]
对本发明进行详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
[0065]
(1)点卷积(point-wise convolution),是一种卷积操作,而且是一种特殊的卷积运算,代表着卷积核的大小是1*1。
[0066]
(2)空洞卷积(atrous convolution),是一种不增加参数数量,同时增加输出单元感受野的一种方法,也称为膨胀卷积(dilated convolution)。空洞卷积通过给卷积核插入“空洞”来变相地增加其大小.如果在卷积核的每两个元素之间插入d-1个空洞,卷积核的有效大小为k

=k+(k-1)
×
(d-1),其中d称为空洞率或膨胀率(dilation rate),当d=1时卷积核为普通的卷积核。
[0067]
(3)池化(pooling),又称为汇聚,是指对每个区域进行下采样(down sampling)得到一个值,作为这个区域的概括。池化不但可以有效地减少神经元的数量,还可以使得网络对一些小的局部形态改变保持不变性,并拥有更大的感受野。
[0068]
(4)分层特征融合(hierarchical feature fusion,hff),指的是将预设数量的相同大小的特征图按照一定规则进行拼接,以得到最终的输出特征图。
[0069]
请参阅图1,图1是本发明实施例提供的一种视频场景识别方法的流程示意图;
[0070]
其中,该视频场景识别方法,应用于电子设备,具体的,应用于电子设备的一个或多个处理器。其中,所述电子设备可以为具有图像传感器的扫地机器人、清洁机器人、自移
动机器人等设备,例如:该视频场景识别方法可以应用于扫地机器人,所述扫地机器人包括一电子设备以及摄像头,所述摄像头包括图像传感器,用于获取视频帧图片序列,所述电子设备用于对所述视频帧图片序列进行视频场景识别以确定所述视频帧图片序列中每一帧对应的场景类别。
[0071]
如图1所示,该视频场景识别方法,包括:
[0072]
步骤s101:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;
[0073]
具体的,所述视频帧图片序列由外部设备进行获取,其中,所述视频帧图片序列可以为rgb图像,例如:机器人的摄像头,在实际场景中,机器人在运动过程中,摄像头以预设帧率采集视频帧图片序列,比如以15帧/秒的频率采集视频帧图片序列,再对采集到的图片进行均匀采样,得到数量较少的视频帧图片序列,例如:该视频帧图片序列的大小为n
×
t
×
c
×
h
×
w,其中,n为批次,t为时间维度(如1秒),c为rgb图片的通道数,h和w分别为每一帧图片的长宽。
[0074]
请再参阅图2,图2是图1中的步骤s101的细化流程图;
[0075]
如图2所示,该步骤s101:获取所述视频帧图片序列对应的降维特征图,包括:
[0076]
步骤s1011:获取接收到的视频帧图片序列的输入通道数;
[0077]
具体的,所述视频帧图片序列中的每一帧图像的输入通道数相同,通过获取接收到的视频帧图片序列的每一帧图像均可以确定接收到的视频帧图片序列的输入通道数,优选地,本发明实施例通过获取所述视频帧图片序列的第一帧图像的输入通道数,以获取接收到的视频帧图片序列的输入通道数。
[0078]
步骤s1012:根据预设的超参数,确定所述视频帧图片序列的输出通道数,以生成所述视频帧图片序列对应的降维特征图。
[0079]
具体的,若所述视频帧图片序列的输入通道数为m,则通过点卷积,将所述视频帧图片序列的每一帧降维至输出通道数为m/k的降维特征图,其中,k为预设的超参数,m≥k>0,m、k均为正整数且m为k的倍数。
[0080]
请再参阅图5,图5是本发明实施例提供的随机移动池化的流程示意图;
[0081]
如图5所示,输入的视频帧图片序列中的特征图的输入通道数为m,即m维的特征图,通过预设的超参数k,经过1x1的卷积核,将所述视频帧图片序列的每一帧降维为输出通道数m/k的降维特征图,相当于将该特征图降维为d维的降维特征图,其中,d=m/k。
[0082]
步骤s102:将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;
[0083]
具体的,请再参阅图3,图3是图1中的步骤s102的细化流程图;
[0084]
如图3所示,该步骤s102:将所述降维特征图基于预设空洞率进行空洞卷积,包括:
[0085]
步骤s1021:将所述输出通道数为m/k的降维特征图分为k个分支,并确定所述k个分支中每一个分支对应的预设空洞率;
[0086]
具体的,获取预设的超参数k,所述预设的超参数k用于将所述降维特征图并行为k个分支,使得k个分支基于不同的预设空洞率进行空洞卷积,其中k为正整数且k≥2。
[0087]
具体的,所述确定所述k个分支中每一个分支对应的预设空洞率包括:确定所述每一个分支对应的预设空洞率为2
k-1
,k={1,

,k};
[0088]
步骤s1022:基于所述每一分支对应的预设空洞率,并行对所述每一分支进行空洞
处理,以生成每一分支对应的空洞处理后的特征图。
[0089]
具体的,所述基于每一分支对应的预设空洞率,并行对每一分支进行空洞处理,以生成每一分支对应的空洞处理后的特征图,包括:
[0090]
采用卷积核大小为n
×
n,空洞率为2
k-1
的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图。
[0091]
具体的,将所述降维特征图并行分为k个分支进行处理,每一个分支使用卷积核大小为n
×
n,空洞率为2
k-1
,k={1,...,k}的空洞卷积对所述降维特征图进行处理,以生成每一分支对应的空洞处理后的特征图,其中,k为预设的超参数,n
×
n为卷积核的大小。
[0092]
请再参阅图5,如图5所示,将所述降维特征图并行分为k个分支之后,所述方法还包括:将所述k个分支以不同的有效卷积核大小对每一分支进行空洞卷积,其中,空洞卷积由(输入通道数,有效卷积核大小,输出通道数)表示,每一分支对应的有效卷积核大小为n
k
×
n
k
,其中,n
k
=(n-1)2
k-1
+1,k=1,

,k,其中,k为预设的超参数。
[0093]
在本发明实施例中,所述有效卷积核大小均为n
×
n,优选地,n=3,即对每一分支均以3x3的卷积核进行空洞卷积。
[0094]
步骤s103:将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;
[0095]
具体的,请再参阅图4,图4是图1中的步骤s103的细化流程图;
[0096]
如图4所示,该步骤s103:将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,包括:
[0097]
步骤s1031:确定随意移动池化的最大参数;
[0098]
具体的,假设所述随机移动池化的最大参数为r,则所述确定随意移动池化的最大参数,包括:
[0099]
当确定所述随意移动池化的最大参数为r时,确定随意移动池化的最大参数为:r=min(s-1,(k-1)/2-p),其中,s为卷积核的步长,k为卷积核的大小,p为填充量。可以理解的是,卷积核的大小为kxk。
[0100]
其中,在实际操作中,为了使所有的卷积核中心在空洞卷积之后的特征图以内,需要考虑卷积核的步长s、卷积核的大小k以及填充量p,即填充大小,通过利用卷积核的步长、卷积核的大小以及填充量,确定s-1与(k-1)/2-p中的较小值为随意移动池化的最大参数,本发明实施例能够保证卷积核中心在空洞卷积之后的特征图以内,有利于提高随机池化处理的鲁棒性。
[0101]
步骤s1032:根据所述最大参数,随机确定卷积核的随机移动的偏移量;
[0102]
具体的,在每一次训练迭代时,对于每一个卷积中心(i,j)在{-r,-r+1,

,0,

,r-1,r}中随机选择的值来作为可能的随机移动的偏移量,可以理解的是,当时,该卷积核中心的位置不变,当时,卷积中心向左移动,当卷积中心向右移动,当时,卷积中心向上移动,当时,卷积中心向下移动。其中,所述随机池化处理时每一次卷积的中心都进行随机移动通过对每一次卷积随机确定卷积核的随机移动的偏移量,本发明实施例能够使得池化操作考虑更全面的信
息,并且这样的细化也模拟了图片变形的情况,使得网络对帧变形与模糊更加鲁棒。
[0103]
步骤s1033:根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图。
[0104]
具体的,所述根据所述卷积核的随机移动的偏移量,对每一空洞处理后的特征图进行随机移动池化处理,以确定随机池化处理后的特征图,包括:确定池化处理后的特征图的每一位置的值,如下式所示:
[0105][0106]
其中,m为通道位置坐标,i为高度位置坐标,j为宽度位置坐标,y
m,i,j
为池化处理后的特征图在(m,i,j)位置的值,s为卷积核的步长,h为空洞处理后的特征图的长度,w为空洞处理后的特征图的宽度,为随机移动的x轴偏移量,为随机移动的y轴偏移量,w
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的权重,x
m,i

,j

为空洞处理后的特征图在(m,i

,j

)位置的数值。
[0107]
其中,m∈[1,c],为输入的特征图,池化输出的特征图步长为s,通道数为c,h和w是长和宽,m,i,j分别指通道位置坐标,高度位置坐标,宽度位置坐标。
[0108]
在本发明实施例中,通过类似步卷积(stride convolution)的方式来定义池化操作,采用类似步卷积的方式,用数学表达式来定义池化操作,使得池化操作易于表达,同时,在池化操作中,将卷积核选取覆盖范围对应的最大值作为该池化的结果值。
[0109]
请再参阅图6,图6是本发明实施例提供的一种随机移动池化的示意图;
[0110]
如图6所示,卷积核的步长stride,即s=2,填充量padding,即p=1,卷积核大小为2x2,池化操作为最大池化,即在卷积中心随机移动中,将卷积核选取覆盖范围对应的最大值作为该池化的结果值,比如:在第一次随机池化过程中,卷积核随机选取第一次覆盖范围为则第一次覆盖范围内的最大值为5,此时确定该池化的结果值为5,卷积核再随机选取第二次覆盖范围为则第二次覆盖范围内的最大值为32,此时确定该池化的结果值为32,卷积核再随机选取第三次覆盖范围为则第三次覆盖范围内的最大值为43,此时确定该池化的结果值为43,卷积核再随机选取第四次覆盖范围为则第四次覆盖范围内的最大值为7,此时确定该池化的结果值为7,卷积核经过四次选取覆盖范围之后,组成一个新矩阵以此方式确定第一次随机移动池化操作的结果
为同理,确定第二次随机移动池化操作的结果为确定第三次随机移动池化操作的结果为
[0111]
在本发明实施例中,通过随机移动池化将随机移动细化到每一次卷积,即每一次卷积的中心都进行随机移动,而不是对于每一个通道有统一的随机移动偏移量,并扩大了移动的范围,不仅仅是左上移动、右下和不变的移动,使得池化操作考虑更全面的信息,并且随机移动的细化也模拟了图片变形的情况,使得网络对帧变形与模糊更加鲁棒。
[0112]
步骤s104:对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;
[0113]
可以理解的是,空洞卷积的不合理使用会导致网格伪影,高效空间金字塔卷积模块(esp module)使用大空洞率的堆叠卷积结构也容易形成伪影,本发明实施例通过采用分层特征融合(hierarchical feature fusion,hff)的方式,丰富了空洞卷积的使用方式,有效降低了伪影的形成。
[0114]
具体的,通过使用分层特征融合(hierarchical feature fusion,hff),即k个空洞卷积之后的特征图进行分层相加,再将处理过的k个空洞卷积之后的特征图拼接在一起得到n通道数的融合后的特征图,本发明实施例还能够解决空洞卷积网格化的问题。
[0115]
其中,融合后的特征图作为视频场景识别模型中的高效空洞空间金字塔随机移动池化之后的下一个模块,即压缩与激发网络(squeeze-and-excitation layer,se layer)的注意力操作的输入。
[0116]
请再参阅图5,如图5所示,空洞卷积的卷积核最小(n1xn1)的特征图直接输出,空洞核(n2xn2)特征图作为残差与之前输出求和作为输出,后续的特征图类似此操作得到不同空洞率的融合特征,然后拼接起来,之后与原输入构成残差。分层特征融合通过逐层递进方式得到,与下次的空洞率卷积结果作残差的操作保证了输出的质量,拼接不同层的特征图,保留局部细节与全局语义特征,并且,由于分层特征融合(hierarchical feature fusion,hff)结构允许较大空洞率卷积核的使用,本发明实施例能够加速语义特征的提取。
[0117]
步骤s105:根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。
[0118]
具体的,本发明实施例中的预设视频场景模型包括efficientnet模型,例如:efficientnet-b0网络结构。
[0119]
请再参阅表1,下表1是本发明实施例中的预设视频场景模型的示意,如下表1所示,该预设视频场景模型包括16个mbconv模块、2个conv模块、1个global average pooling模块以及1个fc分类层。
[0120]
表1
[0121][0122][0123]
请再参阅表2,表2是本发明实施例提供的视频场景识别模型的示意,如下表2所示,本发明实施例在预设视频场景模型的基础上,将预设视频场景模型中的阶段4(stage4)中的操作mbconv6,k5x5替换为ourmsb conv1,k5x5,也就是说,将预设视频场景模型中的移动翻转瓶颈卷积(mobile inverted bottleneck convolution,mbconv)中的通道扩张率(expand ratio,e_r)由6替换为1,其中,两者的卷积核的大小保持不变,均为5x5。
[0124]
表2
[0125]
[0126][0127]
同时,本发明实施例还在预设视频场景模型的基础上,将预设视频场景模型中的阶段5(stage5)中的操作mbconv6,k3x3替换为mbconv6,k3x3+mbconv6,k3x3+ourmbpooling6,相当于在预设视频场景模型的阶段5中的操作的基础上,加入移动翻转瓶颈卷积(mobile inverted bottleneck convolution,mbconv)的操作以及随机移动池化操作(ourmbpooling6),其中,随机移动池化操作的通道扩张率为6。
[0128]
请再参阅图7,图7是本发明实施例提供的移动翻转瓶颈卷积的操作示意图;
[0129]
如图7所示,对于移动翻转瓶颈卷积(mobile inverted bottleneck convolution,mbconv),包括如下步骤:
[0130]
步骤s701:对于输入的特征图先进行1
×
1卷积,将输入通道数为c
in
的特征图变为c
in
×
e_r通道数且长宽不变的特征图;
[0131]
具体的,若通道扩张率e_r大于1,则对于输入的特征图先进行1
×
1卷积,将输入通道数为c
in
的特征图变为c
in
×
e_r通道数且长宽不变的特征图;
[0132]
步骤s702:进行保持通道数不变的深度卷积(deepwise conv3x3);
[0133]
步骤s703:经过压缩与激发的注意力操作(se layer);
[0134]
步骤s704:经过时间转移模块(temporal shift module,tsm);
[0135]
步骤s705:通过无偏置项的线性1
×
1卷积(conv1x1,linear)输出通道数为c
out
的特征图。
[0136]
请再参阅图8,图8是本发明实施例提供的随机移动池化的操作示意图;
[0137]
如图8所示,随机移动池化的操作,包括如下步骤:
[0138]
步骤s801:对于输入的特征图先进行1
×
1卷积,将输入通道数为c
in
的特征图变为c
in
×
e_r通道数且长宽不变的特征图;
[0139]
具体的,若通道扩张率e_r大于1,则对于输入的特征图先进行1
×
1卷积,将输入通道数为c
in
的特征图变为c
in
×
e_r通道数且长宽不变的特征图;
[0140]
步骤s802:将c
in
×
e_r通道数的特征图输入高效空洞空间金字塔随机移动池化模块(efficient atrous spatial pyramid random shift pooling);
[0141]
其中,该高效空洞空间金字塔随机移动池化模块用于应用上述实施例中的视频场景识别方法中的步骤s101-步骤s104,即接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;
[0142]
步骤s803:经过压缩与激发的注意力操作(se layer);又次,经过时间转移模块(temporal shift module,tsm);
[0143]
步骤s804:通过无偏置项的线性1
×
1卷积(conv1x1,linear)输出通道数为c
out
的特征图。
[0144]
通过加入随机移动池化操作,本发明实施例能够既减少了计算量,使网络更加轻量,适用于机器人,又使得池化方法能够提取不同尺度的信息,增大了感受野,另外,随机移动池化,相比一般的平均和最大池化,丰富了网络学习的信息,也使得网络对于变形的视频帧更加鲁棒。
[0145]
在本发明实施例中,通过提供一种视频场景识别方法,所述方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。通过对视频帧图片序列进行降维并基于预设空洞率进行空洞卷积,再通过随机池化处理并将随机池化处理后的特征图进行分层特征融合,根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0146]
请再参阅图9,图9是本发明实施例提供的另一种视频场景识别方法的流程示意图;
[0147]
其中,该视频场景识别方法,应用于电子设备,具体的,应用于电子设备的一个或多个处理器。
[0148]
如图9所示,该视频场景识别方法,包括:
[0149]
步骤s901:获取训练数据集;
[0150]
具体的,所述训练数据集包括yup++数据集,其中,所述训练数据集是由一组训练图像构成的集合,所述训练数据集包括至少一张训练图像,其中,所述训练数据集包括训练集和测试集,所述训练集(training set)中的样本是用来训练模型的,也叫训练样本(training sample),而测试集(test set)中的样本是用来检验模型好坏的,也叫测试样本(test sample)。
[0151]
步骤s902:组合预设视频场景模型以及网络模型,并基于所述训练数据集,对所述预设视频场景模型以及所述网络模型组合后的模型进行训练,以生成视频场景识别模型;
[0152]
具体的,将所述网络模型加入所述预设视频场景模型,生成所述预设视频场景模型以及所述网络模型组合后的模型,并基于所述训练数据集,对组合后的模型进行训练,以生成视频场景识别模型。
[0153]
步骤s903:将获取到的视频帧图片序列输入所述视频场景识别模型,以输出每一视频帧对应的场景类别预测。
[0154]
具体的,所述视频场景识别模型用于输出每一视频帧对应的场景类别预测,当获取到的视频帧图片序列输入到所述视频场景识别模型之后,所述视频场景识别模型输出所述视频帧图片序列中的每一视频帧对应的场景类别预测。
[0155]
在本发明实施例中,通过提供一种视频场景识别方法,所述方法包括:获取训练数据集;组合预设视频场景模型以及网络模型,并基于所述训练数据集,对所述预设视频场景模型以及所述网络模型组合后的模型进行训练,以生成视频场景识别模型;将获取到的视频帧图片序列输入所述视频场景识别模型,以输出每一视频帧对应的场景类别预测。通过组合预设视频场景模型以及网络模型,训练生成视频场景识别模型,以输出视频帧图片序列的每一视频帧对应的场景类别预测,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0156]
请再参阅图10,图10是本发明实施例提供的一种视频场景识别系统的结构示意图;
[0157]
如图10所示,该视频场景识别系统100包括:预设场景识别模型10以及网络模型20。
[0158]
其中,所述预设场景识别模型10包括efficientnet模型,例如:efficientnet-b0网络结构,例如:所述预设场景识别模型10包括16个mbconv模块、2个conv模块、1个global average pooling模块以及1个fc分类层。
[0159]
其中,所述网络模型20为高效空洞空间金字塔随机移动池化模块(efficient atrous spatial pyramid random shift pooling),所述网络模型20用于应用上述实施例中的视频场景识别方法中的步骤s101-步骤s104,即接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图。
[0160]
在本发明实施例中,所述预设场景识别模型10还包括压缩与激发网络(squeeze-and-excitation network,senet),即注意力机制。其中,所述融合后的特征图作为所述压缩与激发网络的输入。
[0161]
在本发明实施例中,所述预设场景识别模型10还包括时间转移模块(temporal shift module,tsm),时间转移模块通过沿时间维度移动特征图来执行有效的时间建模。
[0162]
在本发明实施例中,通过提供一种视频场景识别系统,包括预设视频场景模型以及网络模型,所述网络模型应用上述的视频场景识别方法,该方法包括:接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移
动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。通过对视频帧图片序列进行降维并基于预设空洞率进行空洞卷积,再通过随机池化处理并将随机池化处理后的特征图进行分层特征融合,根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0163]
请参阅图11,图11为本发明各个实施例的一种电子设备的硬件结构示意图;
[0164]
如图11所示,该电子设备110包括但不限于:射频单元111、网络模块112、音频输出单元113、输入单元114、传感器115、显示单元116、用户输入单元117、接口单元118、存储器119、处理器1110、以及电源1111等部件,所述电子设备110还包括摄像头。本领域技术人员可以理解,图11中示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于电视机、手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
[0165]
处理器1110,用于接收视频帧图片序列,并获取所述视频帧图片序列对应的降维特征图;将所述降维特征图基于预设空洞率进行空洞卷积,获取空洞卷积之后的特征图;将所述空洞卷积之后的特征图进行随机池化处理获取随机池化处理后的特征图,所述随机池化处理时每一次卷积的中心都进行随机移动;对所述随机池化处理后的特征图进行分层特征融合,得到融合后的特征图;根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别。
[0166]
在本发明实施例中,通过对视频帧图片序列进行降维并基于预设空洞率进行空洞卷积,再通过随机池化处理并将随机池化处理后的特征图进行分层特征融合,根据所述融合后的特征图与预设视频场景模型确定所述视频帧图片序列中每一帧对应的场景类别,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0167]
处理器1110,还用于获取训练数据集;组合预设视频场景模型以及网络模型,并基于所述训练数据集,对所述预设视频场景模型以及所述网络模型组合后的模型进行训练,以生成视频场景识别模型;将获取到的视频帧图片序列输入所述视频场景识别模型,以输出每一视频帧对应的场景类别预测。
[0168]
在本发明实施例中,通过组合预设视频场景模型以及网络模型,训练生成视频场景识别模型,以输出视频帧图片序列的每一视频帧对应的场景类别预测,本发明实施例能够解决视频帧变形模糊的问题,提高视频场景识别的准确性。
[0169]
应当理解的是,本发明实施例中,射频单元111可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器1110处理;另外,将上行的数据发送给基站。通常,射频单元111包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元111还可以通过无线通信系统与网络和其他设备通信。
[0170]
电子设备110通过网络模块112为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
[0171]
音频输出单元113可以将射频单元111或网络模块112接收的或者在存储器119中
存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元113还可以提供与电子设备110执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元113包括扬声器、蜂鸣器以及受话器等。
[0172]
输入单元114用于接收音频或视频信号。输入单元114可以包括图形处理器(graphics processing unit,gpu)1141和麦克风1142,图形处理器1141对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的目标图像进行处理。处理后的图像帧可以显示在显示单元116上。经图形处理器1141处理后的图像帧可以存储在存储器119(或其它存储介质)中或者经由射频单元111或网络模块112进行发送。麦克风1142可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元111发送到移动通信基站的格式输出。
[0173]
电子设备110还包括至少一种传感器115,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1161的亮度,接近传感器可在电子设备110移动到耳边时,关闭显示面板1161和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器115还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
[0174]
显示单元116用于显示由用户输入的信息或提供给用户的信息。显示单元116可包括显示面板1161,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板1161。
[0175]
用户输入单元117可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元117包括触控面板1171以及其他输入设备1172。触控面板1171,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1171上或在触控面板1171附近的操作)。触控面板1171可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1110,接收处理器1110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1171。除了触控面板1171,用户输入单元117还可以包括其他输入设备1172。具体地,其他输入设备1172可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0176]
进一步的,触控面板1171可覆盖在显示面板1161上,当触控面板1171检测到在其上或附近的触摸操作后,传送给处理器1110以确定触摸事件的类型,随后处理器1110根据触摸事件的类型在显示面板1161上提供相应的视觉输出。虽然在图11中,触控面板1171与显示面板1161是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板1171与显示面板1161集成而实现电子设备的输入和输出功能,具体此处不做限定。
[0177]
接口单元118为外部装置与电子设备110连接的接口。例如,外部装置可以包括有
线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元118可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备110内的一个或多个元件或者可以用于在电子设备110和外部装置之间传输数据。
[0178]
存储器119可用于存储软件程序以及各种数据。存储器119可主要包括存储程序区和存储数据区,其中,存储程序区可存储至少一个功能所需的应用程序1191(比如声音播放功能、图像播放功能等)以及操作系统1192等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器119可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0179]
处理器1110是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器119内的软件程序和/或模块,以及调用存储在存储器119内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器1110可包括一个或多个处理单元;优选的,处理器1110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
[0180]
电子设备110还可以包括给各个部件供电的电源1111(比如电池),优选的,电源1111可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0181]
另外,电子设备110包括一些未示出的功能模块,在此不再赘述。
[0182]
在本发明实施例中,所述电子设备110包括但不限于:
[0183]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类电子设备包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0184]
(2)移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类电子设备包括:pda、mid和umpc设备等,例如ipad。
[0185]
(3)便携式娱乐设备:这类设备可以显示和播放视频内容,一般也具备移动上网特性。该类设备包括:视频播放器,掌上游戏机,以及智能玩具和便携式车载导航设备。
[0186]
(4)其他具有视频播放功能和上网功能的电子设备。
[0187]
优选的,本发明实施例还提供一种电子设备,包括处理器1110,存储器119,存储在存储器119上并可在所述处理器1110上运行的计算机程序,该计算机程序被处理器1110执行时实现上述视频场景识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0188]
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被一个或多个处理器执行时实现上述视频场景识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0189]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0190]
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0191]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是移动终端,个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0192]
最后应说明的是:以上结合附图描述的实施例仅用以说明本发明的技术方案,本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1