视频图像处理方法、装置、终端设备和可读存储介质与流程

文档序号:33319167发布日期:2023-03-03 19:05阅读:23来源:国知局
视频图像处理方法、装置、终端设备和可读存储介质与流程

1.本技术涉及视频处理技术领域,尤其涉及一种视频图像处理方法、装置、终端设备和可读存储介质。


背景技术:

2.为降低视频处理过程中的冗余计算,一些现有的视频语义分割方法采用了关键帧选取策略,这些方法在关键帧上用大网络提取高精度语义信息,再用光流或rnn网络等方法将关键帧语义信息传递至非关键帧,通过稀疏地选取关键帧,这些方法可以达到更快的平均速度,但它们的最大延迟受限于关键帧的推理速度,因此不适用于实际场景。


技术实现要素:

3.本技术实施例提供一种视频图像处理方法、装置、终端设备和可读存储介质,该方法大大降低了计算复杂度,使得算法具有较高的运行速度和较低的最大延迟,可以适用于实时的视频分割任务等。
4.本技术的实施例提供一种视频图像处理方法,所述方法包括:
5.对输入的视频图像进行特征提取,得到每帧图像的特征图;
6.对每帧图像的所述特征图进行语义原型提取,得到每帧图像的语义原型;
7.对各帧图像的所述特征图和所述语义原型进行不同维度上下文信息聚合后分割,得到所述视频图像的语义分割预测结果。
8.在一种实施例中,所述对每帧图像的所述特征图进行语义原型提取,包括:
9.对每帧图像的所述特征图进行卷积处理,得到每帧图像的投影矩阵;
10.将每帧图像的所述特征图和所述投影矩阵进行矩阵相乘,得到每帧图像的语义原型。
11.在一种实施例中,所述对各帧图像的所述特征图和所述语义原型进行不同维度上下文信息聚合后分割,包括:
12.对当前帧的所述特征图和当前帧的所述语义原型进行第一非局部操作,得到第一上下文聚合信息;
13.对当前帧的所述特征图和邻近帧的所述语义原型进行第二非局部操作,得到第二上下文聚合信息;
14.基于所述第一上下文聚合信息和所述第二上下文聚合信息进行语义分割,得到所述视频图像的语义分割预测结果。
15.在一种实施例中,所述邻近帧的帧数量为1~4帧;当所述邻近帧的帧数量大于1时,所述对当前帧的所述特征图和邻近帧的所述语义原型进行第二非局部操作,包括:
16.将选取的各邻近帧的所述语义原型进行拼接操作后,再与当前帧的所述特征图进行所述第二非局部操作。
17.在一种实施例中,所述方法利用已训练的视频语义分割模型进行视频图像处理,
所述视频语义分割模型包括语义原型生成网络,所述语义原型生成网络用于进行所述语义原型提取操作;
18.所述语义原型生成网络包括多样性损失函数,所述多样性损失函数为:当所述语义原型的多样性得分小于得分阈值时,函数损失值为所述得分阈值与所述多样性得分的差值;当所述多样性得分大于等于所述得分阈值时,所述函数损失值为零。
19.在一种实施例中,所述视频语义分割模型包括上下文聚合网络,所述上下文聚合网络用于进行所述不同维度上下文信息聚合后分割操作;
20.所述上下文聚合网络包括第一上下文聚合子网络和第二上下文聚合子网络,其中,所述第一上下文聚合子网络用于进行所述第一非局部操作;所述第二上下文聚合子网络用于进行所述第二非局部操作,所述第一非局部操作和所述第二非局部操作的语义分割预测结果的均值作为最终的视频语义分割预测结果。
21.在一种实施例中,所述上下文聚合网络还包括第三上下文聚合子网络,其中,所述第三上下文聚合子网络在所述视频语义分割模型的训练阶段被采用并在实际部署阶段被移除;
22.所述第三上下文聚合子网络用于在训练过程中对每预设帧间隔得到的若干帧图像的特征图进行视频场景分类,得到视频场景分类预测结果以用于提取视频级语义信息。
23.在一种实施例中,所述视频语义分割模型通过预先训练得到,包括:
24.将获得的视频图像样本输入视频语义分割模型,得到相应的语义分割预测结果,并根据所述视频语义分割模型的总损失函数计算所述语义分割预测结果的总损失值,在所述总损失值不满足预设条件时,根据所述总损失值调整所述视频语义分割模型中的网络参数;
25.利用网络参数调整后的视频语义分割模型重复上述步骤,直到计算得到的总损失值满足所述预设条件时停止,得到训练好的视频语义分割模型;
26.其中,所述视频语义分割模型的总损失函数包括所述语义原型生成网络的所述多样性损失函数、所述第一上下文聚合子网络和所述第二上下文聚合子网络的标准交叉熵损失函数和所述第三上下文聚合子网络的二元交叉熵损失函数的加权求和。
27.在一种实施例中,所述方法利用已训练的视频语义分割模型进行视频图像处理,所述视频语义分割模型包括不含输出分类层的特征提取网络,所述特征提取网络用于进行所述特征提取操作;
28.所述特征提取网络包括mobilenetv2网络、resnet18网络或resnet50网络。
29.在一种实施例中,所述对输入的视频图像进行特征提取,之前还包括:
30.对所述输入的视频图像进行基于双线性插值的图像缩放操作;
31.以及,所述得到所述视频图像的语义分割预测结果,之后还包括:
32.对所述语义分割预测结果进行基于双线性插值的图像分辨率恢复操作。
33.本技术的实施例还提供一种视频图像处理装置,包括:
34.特征提取模块,用于对输入的视频图像进行特征提取,得到每帧图像的特征图;
35.语义原型生成模块,用于对每帧图像的所述特征图进行语义原型提取,得到每帧图像的语义原型;
36.聚合分割模块,用于对各帧图像的所述特征图和所述语义原型进行不同维度上下
文信息聚合后分割,得到所述视频的语义分割预测结果。
37.本技术的实施例还提供一种终端设备,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施上述的视频图像处理方法。
38.本技术的实施例还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上执行时,实施上述的视频图像处理方法。
39.本技术的实施例具有如下有益效果:
40.本技术实施例的视频图像处理方法通过依次对视频图像进行特征提取,再通过特征图生成对应的语义原型,之后将原始的特征图和语义原型进行不同维度的上下文聚合操作,最后生成语义分割预测结果。该方法通过在不同维度上下文聚合操作时复用之前帧图像的语义原型,而不需要直接复用其高维的特征图,使得计算量更加可控;还通过优化上下文聚合操作,大大降低了计算复杂度,使得算法具有较高的运行速度和较低的最大延迟,可以适用于实时的视频分割任务等。
附图说明
41.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图所示仅为本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
42.图1所示为本技术实施例的视频图像处理方法的一种流程示意图;
43.图2所示为本技术实施例的视频图像处理方法的语义原型提取的流程示意图;
44.图3所示为本技术实施例的视频图像处理方法的上下文聚合的流程示意图;
45.图4所示为本技术实施例的视频图像处理方法的非局部操作的应用示意图;
46.图5所示为本技术实施例的视频语义分割模型的结构示意图;
47.图6所示为本技术实施例的视频图像处理方法的特征提取网络的一种结构示意图;
48.图7所示为本技术实施例的视频语义分割模型训练的流程示意图;
49.图8所示为本技术实施例的视频图像处理装置的结构示意图。
具体实施方式
50.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
51.通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
52.实施例1
53.请参照图1,本实施例提出一种视频图像处理方法,可应用于如实时视频图像的语
义分割等场合。本实施例中的视频语义分割是指对视频图像中每一个像素点进行分类,以确定每个点的类别(如属于背景、人或车等),从而进行区域划分。
54.示范性地,如图1所示,该视频图像处理方法包括:
55.步骤s110,对输入的视频图像进行特征提取,得到每帧图像的特征图。
56.其中,一个视频包括多帧视频图像,本实施例通过对每帧视频图像分别进行特征提取,以得到各帧视频图像的高维特征信息。
57.在一种实施方式中,示范性地,可利用基于深度学习得到的特征提取网络对每帧图像分别进行特征提取,以得到各帧图像的特征图。例如,该特征提取网络可基于一些轻量级的通用神经网络进行预训练得到,例如,可采用mobilenetv2网络、resnet18网络或resnet50网络等。
58.其中,可根据不同的场景需求,如运行速度、计算量、设备资源等来选取合适的轻量级神经网络进行特征提取。当然,在一些场景中,若没有对运行设备的性能等限制,也可以采用一些更复杂的神经网络来进行更高维度的特征信息提取,这里不作限定。
59.值得注意的是,上述采用的神经网络通常在最后的输出设有分类层,以用于实现网络的分类预测等功能。然而,本实施例所使用的用于特征提取的神经网络将舍弃最后的分类层,即不经过最后的分类层而将得到的特征信息进行输出,以便可以直接进行后续的语义原型等操作。
60.进一步地,在进行特征提取之前,可先对输入的视频图像进行预处理操作,例如,进行基于双线性插值等的图像尺寸缩放操作,使得输入的各帧图像能够适配于该特征提取网络的图像处理尺寸。
61.步骤s120,对每帧图像的特征图进行语义原型提取,得到每帧图像的语义原型。
62.其中,上述的语义原型将包含图像的结构化语义信息,可以理解为是对图像的特征图进行转换处理,即通过进行语义信息的结构化提取,从而得到该图像丰富的语义信息。
63.示范性地,可利用网络卷积等操作来对图像的特征图进行语义原型生成。在一种实施方式中,如图2所示,上述步骤s120包括以下子步骤:
64.子步骤s121,对每帧图像的特征图进行卷积处理,得到每帧图像的投影矩阵。
65.子步骤s122,将每帧图像的特征图和投影矩阵进行矩阵相乘,得到每帧图像的语义原型。
66.其中,上述的投影矩阵可以理解为是对高维的特征图进行降维处理后得到的数据。示范性地,可利用卷积网络来处理,以得到对应的投影矩阵。例如,该卷积网络可以是卷积核为1x1的卷积结构。进而,将该图像的特征图和对应的投影矩阵进行矩阵相乘处理,从而生成该图像的语义原型。
67.步骤s130,对各帧图像的特征图和语义原型进行不同维度上下文信息聚合后分割,得到所述视频图像的语义分割预测结果。
68.现在的视频语义分割算法主要采用了关键帧选取策略,这类方法在关键帧上用大网络提取高精度语义信息,进而再将关键帧的语义信息传递至非关键帧,导致对视频的上下文信息的利用不全面,并且最大延迟还受限于对关键帧的推理速度等。
69.为此,本实施例提出从多个粒度进行上下文信息聚合,通过利用相应帧图像的特征图与语义原型来从不同维度进行上下文信息聚合,以便充分利用帧间的上下文聚合信息
来为语义分割提供参考。
70.值得注意的是,与现有的基于像素与像素的非局部操作不同,本实施例在进行上下文信息聚合时,是基于图像的特征图像素与语义原型进行非局部操作的,通过化简非局部操作,这样可以大大降低计算复杂度,使得该方法可以很好地适用于实时的视频语义分割任务。
71.例如,该不同维度的上下文信息聚合可包括两种,分别是单帧上下文聚合和短时上下文聚合,可以理解,单帧上下文聚合是指将每帧图像进行帧内的信息聚合,而短时上下文聚合是指将距离当前帧较近的一帧或多帧邻近的图像进行帧与帧之间的信息聚合。
72.在一种实施方式中,如图3所示,上述步骤s130包括以下子步骤:
73.子步骤s131,对当前帧的特征图和当前帧的语义原型进行第一非局部操作,得到第一上下文聚合信息。
74.其中,该第一上下文聚合信息是指通过单帧上下文聚合得到的信息。可以理解,这里的第一描述主要是为了与其他的上下文聚合操作所得到的信息进行更好的区分。
75.示范性地,对于该第一非局部操作,其输入的是当前帧的原始特征图和当前帧的语义原型,如图4所示,其中,q、k、v分别代表非局部操作中的索引矩阵、关键词矩阵和价值矩阵,这里由上述当前帧的原始特征图和语义原型得到,通过两次矩阵相乘处理,可以得到上下文增强后的特征信息,进而可用于生成语义分割结果。
76.子步骤s132,对当前帧的特征图和邻近帧的语义原型进行第二非局部操作,得到第二上下文聚合信息。
77.其中,上述的第二上下文聚合信息是指通过短时上下文聚合操作所得到的信息。考虑到视频中一些邻近的图像的信息相关度比较大,这里还将聚合范围扩大到邻近帧,以便充分利用帧间信息进行语义分割。
78.与上述的第一非局部操作不同之外仅在于,该第二非局部操作的输入对象是当前帧的原始特征图和邻近帧的语义原型,即输入分别来自不同帧,因此可以捕获到帧间语义信息。例如,该邻近帧可以是与当前帧相邻的上一帧,也可以是间隔了几帧的之前帧等。值得注意的是,本实施例中,该邻近帧的帧数量并不限于为1帧,也可以是多帧,例如,该邻近帧的帧数量可为1~4帧,具体可根据实际需求来选取,在此并不限定。
79.示范性地,当选取为多个邻近帧图像时,即邻近帧的帧数量大于1时,可先将选取的各个邻近帧的语义原型进行拼接操作后,再与当前帧的特征图进行非局部操作。其中,上述的拼接操作是指concat操作,即将每个邻近帧的语义原型按照channel(通道)或num(数目)维度上进行级联操作。
80.可以理解,进行短时上下文聚合操作时,由于复用的是之前帧的语义原型而不是特征图像,同样基于像素与语义原型进行操作,这样可以大大降低计算量,提升推理速度。另外,上述的第一非局部操作和第二非局部操作可以同时进行,这样不会受到如某些关键帧的限制而影响推理速度。
81.子步骤s133,基于第一上下文聚合信息和第二上下文聚合信息进行语义分割,得到所述视频图像的语义分割预测结果。
82.为了更好地使用这些上下文聚合信息,示范性地,可通过将各个非局部操作所得到的预测结果取均值的方式来得到最终的语义分割预测结果。
83.例如,在一种实施方式中,可基于上述第一非局部操作和第二非局部操作各自所得到的上下文聚合信息,分别进行语义分割预测以得到各自的预测结果,最后将所有的预测结果进行取像素均值,得到该当前视频图像最终的语义分割预测结果。
84.此外,对于上述的不同维度上下文信息聚合,除了单帧和短时上下文聚合外,还可以包括长时上下文聚合等。其中,该长时上下文聚合是指将一段时间内的多帧图像进行帧间信息聚合,以获取对应的视频级语义信息,即用于聚合全局的视频语义信息。
85.例如,对于来自不同城市的街景视频,由于每个视频有其独特的语义信息,比如,不同街道的绿植种类可能不同,有的地区汽车靠左行驶而有的却是靠右行驶等,通过加入该长时上下文聚合处理可以让网络识别输入视频来自哪个城市,甚至是哪个街道等,这样可以使得网络学习到更高维的全局信息,进而有提升语义分割的准确性等。
86.值得注意的是,考虑到一些实际场景的实时性较高,可以将上述的长时上下文聚合操作仅用于网络训练过程中,而在实际推理阶段被移除,这样可以降低视频处理中的帧间大量冗余信息的计算,提升网络在实际预测时的预测速度。
87.进一步地,可对输出的语义分割预测结果进行后处理操作,例如,采用与预处理操作对应的操作,如基于双线性插值等的图像缩放操作,使得输出的语义分割预测结果能够可以恢复到原始图像的分辨率大小。
88.可以理解的是,上述的视频图像处理可应用于需要解析像素级视频内容的场合,除了视频语义分割的场景外,同样可适用于视频图像的人体分割、人像前背景虚化等应用场景。
89.本实施例的视频图像处理方法通过优化上下文聚合操作,提出基于像素到语义原型的非局部操作,大大降低了计算复杂度,并且通过进行不同维度的上下文聚合操作时,可以使得网络推理速度不受限于关键帧等的推理速度,因此更适用于实时视频分割任务;同时,在进行短时的上下文聚合操作时,复用之前帧图像的语义原型,而不需要直接复用高维特征图进行运算,使得计算量更加可控,使得算法具有较高的运行速度和较低的最大延迟,可以适用于实时的视频分割任务等。
90.实施例2
91.基于上述实施例1的视频图像处理方法,本实施例提出一种视频语义分割模型,以用于实现上述的视频图像处理操作,即该视频语义分割模型的输入为上述的视频图像,输出即为视频图像最终的语义分割预测结果。
92.示范性地,如图5所示,该视频语义分割模型主要包括三大网络,分别是特征提取网络、语义原型生成网络和上下文聚合网络,其中,特征提取网络用于进行上述的特征提取操作,语义原型生成网络用于进行上述的语义原型提取操作;而上下文聚合网络则用于进行上述的不同维度上下文信息聚合及分割操作。
93.本实施例中,该特征提取网络将不含输出分类层,即提取的特征图不经分类层输出。例如,该特征提取网络可采用如mobilenetv2、resnet18或resnet50等轻量级神经网络得到,当然,也可以根据实际需求来选取更为复杂的神经网络。由于这些神经网络运用于不同场合下具有不同的功能,这里可以预先对选取的神经网络进行预训练得到,以满足后续能够进行语义分割处理。
94.例如,以resnet18网络为例,如图6所示,其中虚线框内的即为resnet18网络的骨
干网络结构,而实线框内的即为被舍弃的分类层结构。
95.在一种实施方式中,上述的语义原型生成网络包括一个卷积层,其中,该卷积层主要用于对特征图进行卷积处理,以得到投影矩阵。例如,如图8所示,该卷积层可以是卷积核为1x1的卷积网络。通过网络训练,可以自适应学习到最优的投影矩阵,并保证该语义原型的多样性等。
96.为了进一步减小每帧语义原型间的信息冗余,这里提出一种多样性损失函数,它通过计算语义原型的多样性大小,迫使投影矩阵映射不同的像素区域。示范性地,该多样性损失函数的定义为:当获得的语义原型的多样性得分小于设置的得分阈值时,则该多样性损失函数的损失值为该得分阈值与该多样性得分之间的差值;而当该多样性得分大于等于该得分阈值时,则函数损失值为零。
97.在一种实施方式中,例如,该多样性损失函数的表达式如下:
[0098][0099]
l
div
=max(θ
div-div(p
t
),0)。
[0100]
其中,p
t
为第t帧的语义原型,n为语义原型的总数,h和w分别为特征图的高度和宽度,div(p
t
)为语义原型多样性得分;γ为重组(reshape)操作;θ
div
为预设的多样性得到阈值,例如,可设置为0.2~0.4等,具体可根据实际需求来设定,这里不作限定。l
div
为函数损失值。
[0101]
可以理解,当语义原型的多样性得分div(p
t
)小于得分阈值θ
div
时,损失值为正,即l
div
的大小即为额外增加的惩罚值;而当语义原型的多样性得分div(p
t
)大于得分阈值θ
div
时,l
div
为0,即没有额外的惩罚。
[0102]
本实施例中,对于上述的上下文聚合网络,将包括至少两个子网络,在一种实施方式中,该上下文聚合网络包括第一上下文聚合子网络和第二上下文聚合子网络,其中,第一上下文聚合子网络用于进行上述的第一非局部操作;而第二上下文聚合子网络用于进行上述的第二非局部操作,进而,该第一非局部操作和第二非局部操作的语义分割预测结果的均值将作为最终的视频语义分割预测结果。关于该第一上下文聚合子网络和第二上下文聚合子网络的结构,其主要用于进行非局部操作,结构可参见图4。
[0103]
为了得到更好的语义分割结果,这里将为上下文聚合网络添加相应的损失函数。示范性地,对于包含第一上下文聚合子网络和第二上下文聚合子网络的上下文聚合网络,可为该上下文聚合网络添加语义分割任务中的标准交叉熵损失函数作为其损失函数。当然,也可采用其他的相关损失函数,这里不作限定。
[0104]
此外,作为一种可选的实施方式中,该上下文聚合网络还可包括第三上下文聚合子网络,即长时上下文聚合对应的子网络,其中,该第三上下文聚合子网络主要用于在训练过程中对每预设帧间隔得到的若干帧图像的特征图进行视频场景分类,得到视频场景分类预测结果以用于提取视频级语义信息。示范性地,该第三上下文聚合子网络主要包括一个全局平均池化层和一个多层感知机,其中,该多层感知机的中间层可根据实际需求来设定,这里不作限定。
[0105]
然而,对于一些要求实时性较高的场景,优选地,可将该第三上下文聚合子网络只
在训练时被采用,而在推理阶段被移除,这样可以保证在实际使用时具有更快的推理速度。
[0106]
在一种实施方式中,可为第三上下文聚合子网络添加额外的损失函数,例如,可以视频id为标签进行有监督学习,其损失函数可采用标准二元交叉熵(bce)损失函数,当然也可以为其他的损失函数,这里不作限定。例如,该第三上下文聚合子网络的损失函数的表达式如下:
[0107]
l
cls
=bce(video_prediction,video_id);
[0108]
其中,lcls表示bec函数损失值,video_prediction表示长时上下文聚合的网络输出,video_id表示对应的视频场景标签(ground truth)。
[0109]
对于该视频语义分割模型,需要进行训练后再使用,在一种实施方式中,可采用端到端的训练方式,即对包含三个网络的模型进行整体训练。为此,可构建该视频语义分割模型的总损失函数。
[0110]
在一种实施方式中,该总损失函数主要考虑两大部分,分别是语义原型生成时的损失以及上下文聚合时的损失,例如,可以是上述的语义原型生成网络的多样性损失函数、第一上下文聚合子网络和第二上下文聚合子网络的标准交叉熵损失函数,以及在训练过程中增加的第三上下文聚合子网络的标准二元交叉熵损失函数的加权求和。
[0111]
示范性地,该总损失函数可表示如下:
[0112]
l=α
1 l
div
+l
seg
+α2l
cls

[0113]
其中,l为总损失值,lseg、ldiv和lcls分别为上述的多样性损失值、标准交叉熵损失值和二元交叉熵损失值,α1和α2分别为设定的权重,例如,可设置为不大于1的值,α1=1.0,α2=0.4,可以理解,这些权重可以在实际场景中根据实际需求来相应调整,这里仅为一种示例。
[0114]
基于上述的模型结构以及总损失函数,下面对该视频语义分割模型的训练方式进行说明。
[0115]
示范性地,如图7所示,该视频语义分割模型的训练过程,包括:
[0116]
步骤s210,将获得的视频图像样本输入视频语义分割模型,得到相应的语义分割预测结果,并根据视频语义分割模型的总损失函数计算语义分割预测结果的总损失值。
[0117]
步骤s220,在该总损失值不满足预设条件时,根据该总损失值调整该视频语义分割模型中的网络参数。
[0118]
步骤s230,利用网络参数调整后的视频语义分割模型重复上述步骤,直到计算得到的总损失值满足上述预设条件时停止,得到训练好的视频语义分割模型。
[0119]
其中,上述的预设条件是指用于判断是否训练而设定的条件,例如,可以是当最新得到的总损失值在一个趋近于零的足够小的数值范围内,或者也可以是设定的训练次数等,这里不作限定。可以理解,训练好的视频语义分割模型的预测结果应当能满足预测准确率的要求。
[0120]
于是,在得到训练好的视频语义分割模型后,可将第三上下文聚合子网络进行移除再进行部署,可以理解,由于采用的是端到端的训练,第三上下文聚合子网络可以使整个模型网络学到更高维的全局信息,可以有利于其他网络的学习,另外,由于实际推理过程中被移除,可以使得在实际推理过程中可以不影响算法推理速率。
[0121]
实施例3
[0122]
请参照图8,基于上述实施例1的方法,本实施例提出一种视频图像处理装置200,示范性地,该视频图像处理装置200包括:
[0123]
特征提取模块110,用于对输入的视频图像进行特征提取,得到每帧图像的特征图。
[0124]
语义原型生成模块120,用于对每帧图像的特征图进行语义原型提取,得到每帧图像的语义原型。
[0125]
聚合分割模块130,用于对各帧图像的特征图和语义原型进行不同维度上下文信息聚合后分割,得到所述视频的语义分割预测结果。
[0126]
可以理解,本实施例的装置对应于上述实施例1的方法,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
[0127]
本技术还提供了一种终端设备,例如,智能手机、平板、计算机等,示范性地,该终端设备包括处理器和存储器,其中,存储器存储有计算机程序,处理器通过运行所述计算机程序,从而使终端设备执行上述的视频图像处理方法或者上述视频图像处理装置中的各个模块的功能。
[0128]
本技术还提供了一种可读存储介质,用于储存上述终端设备中使用的所述计算机程序。
[0129]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0130]
另外,在本技术各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
[0131]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者模块设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0132]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1