一种光流估计方法和计算机设备与流程

文档序号:30442499发布日期:2022-06-17 22:57阅读:126来源:国知局
一种光流估计方法和计算机设备与流程

1.本技术涉及图像处理技术领域,特别是涉及一种光流估计方法和计算机设备。


背景技术:

2.光流是运动图像分析的重要方法,是空间运动物体在观察成像平面上的像素的瞬时速度;光流在计算机视觉领域中有广泛的应用。
3.目前,随着深度学习的发展,神经网络可以用于光流估计,现有的光流估计方法,通常先确定提取图像的特征,然后根据提取到的特征估计光流,但是现有技术中提取的图像的特征有限,导致光流估计的结果不够精确。
4.因此,现有技术有待改进。


技术实现要素:

5.本发明提供了一种光流估计方法和计算机设备,本发明对提取的特征图进行融合处理,得到每张特征图对应的融合图,融合图相较于其对应的特征图,具有更多层次的特征,再基于各融合图进行光流估计,可以得到更精确的光流估计结果。
6.第一方面,本发明实施例提供了光流估计方法,包括:
7.获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;
8.对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;
9.基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
10.在一种实现方式中,所述确定每张图像帧各自分别对应的若干特征图,具体包括:
11.对于每张图像帧,将该图像帧输入特征金字塔网络,以得到若干金字塔特征图,并从所述若干金字塔特征图中选取部分金字塔特征图,以得到该图像帧对应的若干特征图。
12.在一种实现方式中,所述基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图,具体包括:
13.对于该图像帧的每个特征图对,将该特征图对输入空洞模块,以得到该特征图对对应的空洞特征图;
14.对于该图像帧的每个特征图对,将每个特征图对各自分别对应的空洞特征图输入相加模块,以得到每个特征图对对应的融合特征图。
15.在一种实现方式中,所述该图像帧的每个特征图对包括第一特征图对和若干第二特征图对;
16.所述空洞模块包括第一空洞子模块和若干第二空洞子模块;
17.所述第一空洞子模块的输入项是所述第一特征图对;
18.所述若干第二特征图对与所述若干第二空洞子模块一一对应,每个第二空洞子模块的输入项是一个第二特征图对。
19.在一种实现方式中,所述第一特征图对包括两张最大图像尺寸的第一特征图,每个第二特征图对包括一张第二特征图和所述第一特征图;所述第一空洞子模块包括第一空洞空间金字塔池化单元和拼接单元,每个第二空洞子模块包括加法单元和第二空洞空间金字塔池化单元;
20.所述对于该图像帧的每个特征图对,将该特征图对输入空洞模块,以得到该特征图对对应的空洞特征图,具体包括:
21.对于第一特征图对,将所述第一特征图对中的一张第一特征图输入所述第一空洞空间金字塔池化单元,以得到第一输出结果,并将所述第一输出结果和所述第一特征图对中的另一张第一特征图输入所述拼接单元,以得到第一特征图对对应的空洞特征图。
22.在一种实现方式中,对于每张图像帧,根据该图像帧对应的所有空洞特征图确定空洞特征图序列,所述空洞特征图序列中包括图像尺寸依次减小的:第一空洞特征图、若干第二空洞特征图和第三空洞特征图;所述相加模块包括第一相加单元、若干第二相加单元和第三相加单元;所述若干第二相加单元和所述若干第二空洞特征图一一对应;
23.所述对于该图像帧的每个特征图对,将每个特征图对各自分别对应的空洞特征图输入相加模块,以得到每个特征图对对应的融合特征图,具体包括:
24.对于第三空洞特征图,将所述第一空洞特征图和所述第三空洞特征图输入第一相加单元,以得到第三空洞特征图对应的第三融合特征图;
25.对于每个第二空洞特征图,在所述空洞特征图序列中获取排列在该第二空洞特征图一位的候选空洞特征图,获取所述候选空洞特征图对应的候选融合特征图,将该第二空洞特征图、所述第三空洞特征图以及所述候选融合特征图,输入该第二空洞特征图对应的第二相加模块,以得到该第二空洞特征图对应的第二融合特征图;
26.对于第一空洞特征图,在所述空洞特征图序列中获取排列在所述第一空洞特征图后一位的参考空洞特征图,获取所述参考空洞特征图对应的参考融合特征图,将所述第一空洞特征图和所述参考融合特征图输入第三相加模块,以得到该第一空洞特征图对应的第一融合特征图。
27.在一种实现方式中,所述基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流,具体包括:
28.基于确定得到的每张图像帧各自分别对应的所有融合特征图确定若干融合特征图对,其中,所述融合特征图对中的两张融合特征图与两张图像帧一一对应;
29.基于获取到的若干融合特征图对确定两张图像帧对应的目标光流。
30.在一种实现方式中,所述基于获取到的若干融合特征图对确定两张图像帧对应的目标光流,具体包括:
31.根据所述若干融合特征图对确定融合序列,所述融合序列包括图像尺寸依次减小的第一融合特征图对和若干第二融合特征图对;
32.将所述第一融合特征图对输入光流估计模型,通过所述光流估计模型确定所述第一融合特征图对应的第一预测光流;
33.对于一个第二融合特征图对,在所述融合序列中获取排列在该第二融合特征图对
前一位的候选融合特征图对,获取该候选融合特征图对对应的候选预测光流,将所述候选预测光流和所述第二融合特征图对输入光流估计模型,以得到该第二融合特征图对对应的第二预测光流;
34.继续执行所述对于一个第二融合特征图对,在所述融合序列中获取排列在该第二融合特征图对前一位的候选融合特征图对的步骤,直至得到图像尺寸最小的第二融合特征图对对应的第二预测光流,并将图像尺寸最小的第二融合特征图对对应的第二预测光流作为目标光流。
35.第二方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
36.获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;
37.对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;
38.基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
39.第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
40.获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;
41.对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;
42.基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
43.与现有技术相比,本发明实施例具有以下优点:
44.在本发明实施例中,获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。在本发明中,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图,也就是说,每张融合特征图中融合了目标图像尺寸的特征图,目标图像尺寸的特征图包括更多的图像信息,再基于各融合图进行光流估计,可以得到更精确的光流估计结果。
附图说明
45.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本发明实施例中一种光流估计方法的流程示意图;
47.图2为本发明实施例中具体实施时,确定融合特征图的流程示意图;
48.图3为本发明实施例中根据基于获取到的若干融合特征图对确定两张图像帧对应的目标光流的流程示意图;
49.图4为本发明实施例中计算机设备的内部结构图。
具体实施方式
50.为了使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
51.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
52.本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
53.发明人经过研究发现,光流是运动图像分析的重要方法,是空间运动物体在观察成像平面上的像素的瞬时速度;光流在计算机视觉领域中有广泛的应用。
54.目前,随着深度学习的发展,神经网络可以用于光流估计,现有的光流估计方法,通常先确定提取图像的特征,然后根据提取到的特征估计光流,但是现有技术中提取的图像的特征有限,导致光流估计的结果不够精确。
55.为了解决上述问题,在本发明实施例中,获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。在本发明中,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图,也就是说,每张融合特征图中融合了目标图像尺寸的特征图,目标图像尺寸的特征图包括更多的图像信息,再基于各融
合图进行光流估计,可以得到更精确的光流估计结果。
56.本实施例提供了一种光流估计方法可以应用于电子设备中,用于确定视频中任意两个相邻图像帧所对应的光流,电子设备包括pc机、服务器、手机、平板电脑、掌上电脑、个人数字助理(personal digital assistant,pda)等。
57.下面结合附图,通过对实施例的描述,对发明内容作进一步说明。
58.参阅图1,本实施例提供了一种光流估计方法,包括:
59.s1、获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图。
60.在本发明实施例中,所述两张图像帧是视频中的两个相邻图像帧,所述两张图像帧用于预测两张图像帧对应的目标光流。例如,视频包括有100个连续的图像帧,所述两个相邻图像帧可以是100个连续的图像帧中第1张图像帧和第2张图像帧。
61.在本发明实施例中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同,可以通过特征金字塔网络(feature pyramid network)确定每张图像帧对应的若干特征图,具体的,步骤s1包括:
62.s11、对于每张图像帧,将该图像帧输入特征金字塔网络,以得到若干金字塔特征图,并从所述若干金字塔特征图中选取部分金字塔特征图,以得到该图像帧对应的若干特征图。
63.在本发明实施例中,为了便于描述,将所述两张相邻图像帧分别记为第一图像帧和第二图像帧。对于第一图像帧,将所述第一图像帧输入特征金字塔网络,通过特征金字塔网络确定所述第一图像帧对应的若干特征图,同样,对于第二图像帧,将所述第二图像帧的输入特征金字塔网络,通过所述特征金字塔网络确定所述第二图像帧对应的若干特征图。
64.在本发明实施例中,以第一图像帧作为示例,对确定每张图像帧各自分别对应的若干特征图进行说明。将第一图像帧输入特征金字塔网络,特征金字塔网络输出不同分辨率的金字塔特征图(金字塔特征图的图像尺寸互不相同)。为了减少计算量,从所述若干金字塔特征图中选取部分金字塔特征图,以得到第一图像帧对应的若干特征图,也就是说,第一图像帧对应的若干特征图的数量小于第一图像帧对应的金字塔特征图的数量。由于特征金字塔网络输出不同分辨率的金字塔特征图,进而,第一图像帧对应的若干特征图的图像尺寸互不相同。
65.例如,特征金字塔网络输出的第一图像帧对应的若干特征图的数量为5,即有5张金字塔特征图,从5张金字塔特征图选取3张作为第一图像帧对应的若干特征图。
66.s2、对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图。
67.在本发明实施例中,所述目标图像尺寸可以是最大图像尺寸,即对于每张图像帧的若干特征图,将图像尺寸最大的特征图,作为目标图像尺寸的特征图,图像尺寸最大的特征图为最浅层的特征图。对于每张图像帧的每个特征图,每个特征图均与最浅层的特征图组成特征图对,基于该图像帧对应的所有特征图对可以得到该特征图对应的融合特征图。
68.举例来说,第一图像帧p1对应的若干特征图分别为t11、t12和t13,其中,t11是目标图像尺寸的特征图,则t11对应的特征图对包括:t11和t11;t12对应的特征图对包括:t11和t12;t13对应的特征图对包括:t13和t11。
69.具体的,步骤s2包括:
70.s21、对于该图像帧的每个特征图对,将该特征图对输入空洞模块,以得到该特征图对对应的空洞特征图。
71.在本发明实施例中,该图像帧的每个特征图对包括第一特征图对和若干第二特征图对。将尺寸最大的特征图记为第一特征图,第一特征图对应的特征图对记为第一特征图对,将若干特征图中除了第一特征图以外的特征图均记为第二特征图,将若干特征图对中除了第一特征图对以外的特征图对均记为第二特征图对。
72.所述空洞模块包括第一空洞子模块和若干第二空洞子模块。所述第一空洞子模块的输入项是所述第一特征图对;通过第一空洞子模块得到第一特征图对对应的空洞特征图。所述若干第二特征图对与所述若干第二空洞子模块一一对应,每个第二空洞子模块的输入项是一个第二特征图对;对于每个第二特征图对,通过第二空洞子模块得到第二特征图对对应的空洞特征图。
73.在本发明实施例中,所述第一空洞子模块包括第一空洞空间金字塔池化单元和拼接单元,每个第二空洞子模块包括加法单元和第二空洞空间金字塔池化单元。
74.在本发明实施例中,所述第一空洞空间金字塔池化单元和所述第二空洞空间金字塔池化单元结构相同,均为现有的空洞空间金字塔池化(atrous spatial pyramid pooling,aspp)。aspp对所给定的输入以不同采样率的空洞卷积并行采样,aspp的输入项和输出项的尺寸一样,aspp在提取特征的同时保持分辨率一致,相较于普通的特征提取网络,使用aspp得到的空洞特征图具有更大的感受野。
75.具体的,步骤s21包括:
76.s211、对于第一特征图对,将所述第一特征图对中的一张第一特征图输入所述第一空洞空间金字塔池化单元,以得到第一输出结果,并将所述第一输出结果和所述第一特征图对中的另一张第一特征图输入所述拼接单元,以得到第一特征图对对应的空洞特征图。
77.在本发明实施例中,所述第一输出结果是第一空洞空间金字塔池化单元得到的,所述第一输出结果与所述第一特征图的图像尺寸相同,所述第一空洞空间在金字塔池化单元的空洞率取1、6、12和18。
78.将第一输出结果和第一特征图对中的另一张第一特征图拼接,以得到第一特征图对对应的空洞特征图。所谓拼接,是按照通道数拼接,空洞特征图对应的通道数等于第一特征图的通道数和第一输出结果的通道数的和。
79.例如,第一图像帧对应的第一特征图t11,将t11输入aspp,通过aspp得到t11对应的第一输出结果l11,将l11和t11输入拼接单元,得到t1对应的空洞特征图f1。
80.s212、对于每个第二特征图对,将该第二特征图对中的第一特征图和第二特征图输入该第二特征图对对应的加法单元,以得到第二输出结果,并将所述第二输出结果输入该第二特征图对对应的第二金字塔池化单元,以该第二特征图对对应的空洞特征图。
81.在本发明实施例中,将第二特征图对中的第一特征图和第二特征图相加,由于第一特征图和第二特征图的图像尺寸不同,需要对第一特征图进行处理,以使得第一特征图和第二特征图的图像尺寸相同,对第一特征图进行处理的过程包括:对第一特征图进行下采样处理,以使得下采样处理后的第一特征图与第二特征图的图像分辨率相同,再采用1*1
的卷积核对下采样处理后的第一特征图进行处理,使得通过1*1的卷积核处理后的第一特征图的维度与第二特征图的维度相同,处理后的第一特征图和第二特征图的图像尺寸相同。进而再将处理后的第一特征图和第二特征图相加,以得到第二输出结果。将第二输出结果输入值第二第二金字塔池化单元,得到第二特征图对对应的空洞特征图。
82.s22、对于该图像帧的每个特征图对,将每个特征图对各自分别对应的空洞特征图输入相加模块,以得到每个特征图对对应的融合特征图。
83.在本发明实施例中,对于每张图像帧,根据该图像帧对应的所有空洞特征图确定空洞特征图序列,所述空洞特征图序列中包括图像尺寸依次减小的:第一空洞特征图、若干第二空洞特征图和第三空洞特征图。也就是说,对于每张图像帧对应的所有空洞特征图,将图像尺寸最大的空洞特征图作为第一空洞特征图,将图像尺寸最小的空洞特征图最为第三空洞特征图,其余空洞特征图为所述若干第二空洞特征图。
84.所述相加模块包括第一相加单元、若干第二相加单元和第三相加单元,所述若干第二相加单元和所述若干第二空洞特征图一一对应。
85.具体的,步骤s22包括:
86.s221、对于第三空洞特征图,将所述第一空洞特征图和所述第三空洞特征图输入第一相加单元,以得到第三空洞特征图对应的第三融合特征图。
87.在本发明实施例中,所述第一相加单元的作用与add函数的作用相同,所述第一空洞特征图和第三空洞特征图的图像尺寸不同,需要对第一空洞特征图进行处理,以使得第一空洞特征图的图像尺寸等于第三空洞特征图的图像尺寸;对第一空洞特征图的图像尺寸进行处理的过程包括:对第一空洞特征图进行下采样处理,以使得第一空洞特征图的分辨率与第三空洞特征图的分辨率相同,再采用1*1的卷积核对下采样处理后的第一空洞特征图进行处理,使得处理后的第一空洞特征图的维度与第三空洞特征图的维度相同。至此,处理后的第一空洞特征图与第三空洞特征图的图像尺寸相同,进而再将处理后的第一空洞特征图与第三空洞特征图相加。得到第三融合特征图。
88.s222、对于每个第二空洞特征图,在所述空洞特征图序列中获取排列在该第二空洞特征图后一位的候选空洞特征图,获取所述候选空洞特征图对应的候选融合特征图,将该第二空洞特征图、所述第三空洞特征图以及所述候选融合特征图,输入该第二空洞特征图对应的第二相加模块,以得到该第二空洞特征图对应的第二融合特征图。
89.在本发明实施例中,举例说明,空洞特征图序列中的包括图像尺寸从大到小排列的:r1、r2、r3和r4,其中,r1是第一空洞特征图,r2和r3是第二空洞特征图,r4是第三空洞特征图。对于第二空洞特征图r3,在空洞特征图序列中获取排列在该第二空洞特征图前一位的候选空洞特征图,也就是说,r4是r3所对应的候选空洞特征图,获取r4对应的候选融合图fu4,将fu4、r3和r1输入第二相加模块,则得到r3对应的第二融合特征图。对于r2,在空洞特征图序列中获取排列在该第二空洞特征图前一位的候选空洞特征图,也就是说,r3是r2所对应的候选空洞特征图,获取r3对应的候选融合图fu3,将fu3、r2和r1输入第二相加模块,则得到r2对应的第二融合特征图fu2。
90.s223、对于第一空洞特征图,在所述空洞特征图序列中获取排列在所述第一空洞特征图后一位的参考空洞特征图,获取所述参考空洞特征图对应的参考融合特征图,将所述第一空洞特征图和所述参考融合特征图输入第三相加模块,以得到该第一空洞特征图对
应的第一融合特征图。
91.在上例中,r1、r2、r3和r4,其中,r1是第一空洞特征图,排列在r1后一位的是r2,即r2是r1对应的参考空洞特征图,获取r2对应的融合特征图fu2,将fu2和r1输入第一相加模块,得到r1对应的第一融合特征图。
92.接下来举一个具体实施时的例子,参见图2。
93.对于每张图像帧,根据特征金字塔网络得到该图像帧对应的5张金字塔特征图,从5张金字塔特征图中选取3张金字塔特征图,作为该图像帧对应的若干特征图。将该图像帧对应的若干特征图分别记为:t1、t2和t3,其中,t1的图像尺寸最大,t3的图像尺寸最小。第一特征图对包括两张t1,第二特征图对包括t1和t2,第三特征图对包括t1和t3。
94.将第一特征图对输入第一空洞子模块100,得到t1对应的空洞特征图r1,将第二特征图对输入第二空洞子模块200,得到t2对应的空洞特征图r2,将第三特征图对输入第三空洞子模块300,得到t3对应的空洞特征图r3。将r1和r3相加,得到r3对应的融合特征图fu3,将r1、r2和fu3相加,得到r2对应的融合特征图fu2,将r1和fu2相加,得到r1对应的融合特征图fu1。
95.具体的,将t1输入aspp后,将aspp输出的结果与t1拼接(concat),得到r1。对t1下采样处理至分辨率与t3相同,再对下采样处理后的t1做核为1的卷积,接着与t3相加(add)后做核为3的卷积,再将得到的结果输入aspp,得到r3,将r3和r1相加(add),得到r3对应的融合特征图fu3。再对t1做下采样处理至分辨率与t2相同,再对下采样出后的t1做核为1的卷积,接着与t2相加(add)后做核为3的卷积,再将得到的结果输入aspp,得到r2,将r2、r1和fu3相加(add),得到r2对应的融合特征图fu2。将r1和fu2相加(add),得到r1对应的融合特征图fu1。
96.s3、基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
97.在本发明实施例中,每张图像帧各自分别对应的所有融合特征图包括:第一图像帧对应的若干融合特征图,以及第二图像帧对应的若干融合特征图;第一图像帧对应的若干融合特征图中各融合特征图的图像尺寸互不相同,第二图像帧对应的若干融合特征图中各融合特征图的图像尺寸互不相同,根据第一图像帧对应的若干融合特征图和第二图像帧对应的若干融合特征图确定若干融合特征图对。再根据若干融合特征图对确定目标光流。
98.具体的,步骤s3包括:
99.s31、基于确定得到的每张图像帧各自分别对应的所有融合特征图确定若干融合特征图对,其中,所述融合特征图对中的两张融合特征图与两张图像帧一一对应。
100.在本发明实施例中,每个融合特征图对包括两张融合特征图,两张融合特征图的图像尺寸相同,也就是说,根据图像尺寸将每张图像帧各自分别对应的所有融合特征图划分为若干融合特征图对,其中,每个融合特征图对中包括两张图像尺寸相同的融合特征图,并且两张融合特征图与两张图像帧一一对应。
101.举例说明,第一图像帧对应的所有融合特征图包括图像尺寸从大到小的:fu11、fu12和fu13;第二图像帧对应的所有融合特征图包括图像尺寸从大到小的:fu21、fu22和fu23,则可以得到包括fu11和fu21的融合特征图对,包括fu12和fu22的融合特征图对,以及包括fu13和fu23的融合特征图对。
102.s32、基于获取到的若干融合特征图对确定两张图像帧对应的目标光流。
103.在本发明实施例中,将若干融合特征图对输入光流估计模型,通过光流估计模型确定目标光流。所述光流估计模型是根据多个训练图像组对预设网络训练得到的,所述光流估计模型可以是pwc-net;在后文会介绍对预设网络进行训练的过程。
104.具体的,步骤s32包括:
105.s321、根据所述若干融合特征图对确定融合序列,所述融合序列包括图像尺寸依次减小的第一融合特征图对和若干第二融合特征图对。
106.在本发明实施例中,第一融合特征图对中的融合特征图的图像尺寸大于任意一个第二融合特征图的对中的融合特征图的图像尺寸。
107.举例说明,第一融合特征图对包括fu11和fu21,若干第二融合特征图对一个第二融合特征图对包括fu12和fu22;若干第二融合特征图对中的另一个第二融合特征图对包括fu13和fu23。其中,fu11的图像尺寸等于fu21的图像尺寸,fu12的图像尺寸等于fu22的图像尺寸,fu13的图像尺寸等于fu23的图像尺寸。
108.第一图像帧对应的融合特征图包括图像尺寸从大到小的:fu11、fu12和fu13;第二图像帧对应的融合特征图包括图像尺寸从大到小的:fu21、fu22和fu23,则可以得到包括fu11和fu21的第一融合特征图对,包括fu12和fu22的第二融合特征图对,以及包括fu13和fu23的另一个第二融合特征图对。
109.s322、将所述第一融合特征图对输入光流估计模型,通过所述光流估计模型确定所述第一融合特征图对应的第一预测光流。
110.在本发明实施例中,第一融合特征图对对应的图像尺寸最大,将第一融合特征图对输入光流估计模型,通过所述光流估计模型确定第一融合特征图对应的第一预测光流。
111.s323、对于一个第二融合特征图对,在所述融合序列中获取排列在该第二融合特征图对前一位的候选融合特征图对,获取该候选融合特征图对对应的候选预测光流,将所述候选预测光流和所述第二融合特征图对输入光流估计模型,以得到该第二融合特征图对对应的第二预测光流。
112.在本发明实施例中,步骤s322和步骤s323之间有先后关系,需要先执行步骤s322再执行步骤s323。第二融合特征图对对应的图像尺寸均小于第一融合特征图对。
113.具体实施时,融合特征图对包括第一融合特征图对k1,以及图像尺寸依次减小的第二融合特征图对k2和k3。将k1输入光流估计模型,得到k1对应的第一预测光流of1。对于第二融合特征图对k2,在融合序列中获取排列在k2前一位的候选融合特征图k1,获取k1对应的预测光流of1,将of1和k2输入光流估计模型,得到k2对应的第二预测光流of2;对于第二融合特征图对k3,在融合序列中获取排列在k3前一位的候选融合特征图k2,获取k2对应的预测光流of2,将of2和k3输入光流估计模型,得到k3对应的第二预测光流of3。
114.s324、继续执行所述对于一个第二融合特征图对,在所述融合序列中获取排列在该第二融合特征图对前一位的候选融合特征图对的步骤,直至得到图像尺寸最小的第二融合特征图对对应的第二预测光流,并将图像尺寸最小的第二融合特征图对对应的第二预测光流作为目标光流。
115.在本发明实施例中,对每个第二融合特征图对均执行步骤s323的操作,将融合序列中排列在最后一位的第二融合特征图对对应的预测光流作为目标光流,融合序列中排列
在最后一位的第二融合特征图对对应的图像尺寸最小。
116.参见图3,在具体实施时,基于获取到的若干融合特征图对确定两张图像帧对应的目标光流的过程如下:
117.根据第一图像帧和第二图像帧得到融合特征图对ki,i的取值可以为:1,2,
……
,在此实施例中,i可以为1,2和3,对于图像尺寸最大的k1,将k1输入光流估计模型,得到k1对应的预测光流of1。对于k2,k2对应的上采样光流为of1,将of1和k2输入光流估计模型,得到k2对应的预测光流of2;对于k3,k3对应的上采样光流为of2,将of2和k3输入光流估计模型,得到k3对应的预测光流of3;由于i的最大取值为3,则k3是图像尺寸最小的融合特征图对,则of3为目标光流。
118.光流估计模型包括:warping、cost volume、光流估计器和上下文网络。具体的,将of1和k2输入光流估计模型,得到k2对应的预测光流of2包括:
119.将fu22和of2输入warping,将warping的输出结果和fu12输入cost volume,将cost volume的输出结果、fu12和of2输入光流估计器,光流估计器的输出结果再输入上下文网络,通过上下文网络得到k2对应的预测光流of2。
120.在本发明实施例中,获取两张图像帧,并确定各图像帧各自分别对应的若干特征图,其中,若干特征图中的各特征图的图像尺寸互不相同;对于每张图像帧的每个特征图,基于该特征图以及若干特征图中最大图像尺寸的特征图确定特征图对,并基于确定得到的所有特征图对确定该图像帧对应的若干融合特征图;基于确定得到的所有融合特征图确定两张图像帧对应的目标光流。在本发明中,基于该特征图以及若干特征图中最大图像尺寸的特征图确定特征图对,并基于确定得到的所有特征图对确定该图像帧对应的若干融合特征图,也就是说,每张融合特征图中融合了最大图像尺寸的特征图,最大图像尺寸的特征图即最浅层的特征,包括更多的图像信息,再基于各融合图进行光流估计,可以得到更精确的光流估计结果。
121.接下来介绍对预设网络进行训练得到光流估计网络的过程。
122.l1、获取若干训练图像组,每个训练图像组中包括视频中连续的两张图像帧,分别为第一图像x和第二图像y。
123.l2、对于一个训练图像组中的x和第二图像y,确定x对应的若干图像尺寸从到小的训练特征图:x1、x2和x3,确定x对应的若干训练特征图的过程与步骤s11中确定每张图像帧对应的若干特征图的过程相同,因此,对于确定x对应的若干训练特征图的过程可以参见步骤s11的说明。同样的,确定y对应的若干图像尺寸从到小的训练特征图y1、y2和y3。其中,x1和y1的图像尺寸相同,x2和y2的图像尺寸相同,x3和y3的图像尺寸相同。
124.l3、根据x1、x2和x3,确定x1对应的训练融合特征图fux1、x2对应的训练融合特征图fux2,以及x3对应的训练融合特征图fux3;确定fux1、fux2和fux3的过程与步骤s2中确定图像帧对应的若干融合特征图的过程相同,因此,对于确定fux1、fux2和fux3的过程可以参见步骤s2的说明。同样,确定y1对应的训练融合特征图fuy1、y2对应的训练融合特征图fuy2,以及y3对应的训练融合特征图fuy3。其中,fux1和fuy1的图像尺寸相同,fux2和fuy2的图像尺寸相同,fux3和fuy3的图像尺寸相同。
125.l4、将fux1和fuy1输入预设网络模型,得到x1和y1对应的训练光流ofx1-t,获取x1和y1对应真实光流ofx1-r,根据训练光流ofx1-t和真实光流ofx1-r对预设网络模型进行训
练;
126.将fux2和fuy2输入预设网络模型,得到x2和y2对应的训练光流ofx2-t,获取x2和y2对应真实光流ofx2-r,根据训练光流ofx2-t和真实光流ofx2-t对预设网络模型进行训练;
127.将fux3和fuy3输入预设网络模型,得到x3和y3对应的训练光流ofx3-t,获取x3和y3对应真实光流ofx3-r,根据训练光流ofx3-t和真实光流ofx3-t对预设网络模型进行训练。
128.l5、继续执行步骤l2,直至满足预设网络模型的训练条件,以得到光流估计模型。
129.在步骤l4中,根据训练光流ofx1-t和真实光流ofx1-r对预设网络模型进行训练,具体为,根据训练光流ofx1-t和真实光流ofx1-r通过公式(1)计算损失函数值,根据损失函数值调整预设网络模型的参数,以对预设网络模型进行训练。
[0130][0131]
其中,l(θ)损失函数值,θ是预设网络模型的训练参数,是训练光流,l的取值可以是:x1、x2和x3,l=x1时,表示x1和y1对应的预测光流;是真实光流,l的取值可以是:x1、x2和x3,l=x1时,表示x1和y1对应的真实光流;α和γ是超参数,α和γ的值可以按照经验设定。
[0132]
在本发明实施例中,所述预设训练条件包括损失函数值满足预设要求或者训练次数达到预设次数。所述预设要求可以是根据光流估计模型的精度来确定,这里不做详细说明,所述预设次数可以为预设网络模型的最大训练次数,例如,4000次等。由此,在计算损失函数值后,判断所述损失函数值是否满足预设要求,若损失函数值满足预设要求,则结束训练;若损失函数值不满足预设要求,则判断所述预设网络模型的训练次数是否达到预测次数,若未达到预设次数,则根据所述损失函数值对所述预设网络模型的网络参数进行修正;若达到预设次数,则结束训练。这样通过损失函数值和训练次数来判断预设网络模型训练是否结束,可以避免因损失函数值无法达到预设要求而造成预设网络模型的训练进入死循环。
[0133]
进一步,由于对预设网络模型的参数进行调整是在预设网络模型的训练情况未满足预设条件(例如,损失函数值未满足预设要求并且训练次数未达到预设次数)时执行的,在根据损失函数值对所述预设网络模型的参数进行调整后,需要继续对预设网络模型进行训练。
[0134]
在本发明实施例中,获取两张图像帧,并确定各图像帧各自分别对应的若干特征图,其中,若干特征图中的各特征图的图像尺寸互不相同;对于每张图像帧的每个特征图,基于该特征图以及若干特征图中最大图像尺寸的特征图确定特征图对,并基于确定得到的所有特征图对确定该图像帧对应的若干融合特征图;基于确定得到的所有融合特征图确定两张图像帧对应的目标光流。在本发明中,基于该特征图以及若干特征图中最大图像尺寸的特征图确定特征图对,并基于确定得到的所有特征图对确定该图像帧对应的若干融合特
征图,也就是说,每张融合特征图中融合了最大图像尺寸的特征图,最大图像尺寸的特征图即最浅层的特征,包括更多的图像信息,再基于各融合图进行光流估计,可以得到更精确的光流估计结果。
[0135]
在一个实施例中,本发明提供了一种计算机设备,该设备可以是终端,内部结构如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现一种光流估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0136]
本领域技术人员可以理解,图4所示的仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0137]
本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
[0138]
获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;
[0139]
对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;
[0140]
基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
[0141]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
[0142]
获取两张图像帧,并确定每张图像帧各自分别对应的若干特征图,其中,每张图像帧的若干特征图中的各特征图的图像尺寸互不相同;
[0143]
对于每张图像帧的每个特征图,基于该特征图以及该图像帧对应的若干特征图中目标图像尺寸的特征图,确定该图像帧对应的特征图对,并基于该图像帧对应的所有特征图对确定该图像帧对应的若干融合特征图;
[0144]
基于确定得到的每张图像帧各自分别对应的所有融合特征图确定两张图像帧对应的目标光流。
[0145]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0146]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护
范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1