光流预测方法、电子设备、存储介质及程序产品与流程

文档序号：31725831发布日期：2022-10-05 00:32阅读：49来源：国知局

1.本技术涉及图像处理技术领域，特别是涉及一种光流预测方法、电子设备、存储介质及程序产品。

背景技术：

2.光流预测是计算机视觉研究中的一项基础任务，其在视频处理，目标跟踪，自动假设等诸多领域中有着广泛的应用，相关技术中，采用深度学习的光流预测方案能够提高光流预测的效率和准确性。
3.但采用深度学习的光流预测方案需要大量的带光流标签的光流训练样本，而真实世界的图像对(例如：来自于同一视频的两个视频图像)之间的光流信息无法直接通过人工获取，相关技术通过人工辅助加算法估计的方法来获取真实世界的图像对的光流，进而将获取的光流标记为该图像对的光流标签，作为光流训练样本，然而这类方法耗时巨大，并且光流标签的准确性无法保证，从而导致训练得到的光流预测网络的输出结果不够准确。

技术实现要素：

4.鉴于上述问题，本发明实施例提供了一种光流预测方法、电子设备、存储介质及程序产品，以便克服上述问题或者至少部分地解决上述问题。
5.本发明实施例的第一方面，提供了一种光流预测方法，所述方法包括：
6.针对第一图像和第二图像组成的图像对，通过所述训练完毕的基础光流预测网络，预测所述第一图像与所述第二图像之间的光流；
7.其中，所述基础光流预测网络在训练期间的训练样本包括第一样本图像、新样本图像以及光流标签样本，所述新样本图像为：基于训练期间的基础光流预测网络针对第一样本图像和第二样本图像组成的样本图像对输出的光流预测信息，通过图像生成模块生成的新样本图像，所述光流标签样本为：通过训练期间的基础光流预测网络预测得到的所述第一样本图像至所述新样本图像的光流。
8.可选地，所述方法还包括：
9.将所述第一图像与所述第二图像之间的光流标记为所述第一图像与所述第二图像组成的图像对的光流标签，得到一条光流训练样本。
10.可选地，所述基础光流预测网络的训练是分多个阶段，按照以下步骤训练得到的：
11.基于在当前训练阶段的基础光流预测网络针对所述样本图像对输出的光流预测信息，通过所述图像生成模块按照所述图像生成方法生成所述新样本图像，以及，获得所述在当前训练阶段的基础光流预测网络输出的所述第一样本图像至所述新样本图像的第一光流预测信息；
12.将所述第一光流预测信息标记为所述第一样本图像与所述新样本图像组成的新样本图像对的光流标签样本，得到下一阶段的训练样本；
13.利用所述下一阶段的训练样本，对所述基础光流预测网络进行下一阶段的训练。
14.可选地，所述图像生成模块生成所述新样本图像的所述图像生成方法，包括以下步骤：
15.获得训练过程中的基础光流预测网络输出的第二光流预测信息，所述第二光流预测信息为所述第一样本图像至所述第二样本图像的光流预测信息；
16.对所述第二光流预测信息添加第一程度的扰动，得到扰动后的第二光流预测信息；
17.按照所述扰动后的第二光流预测信息，对所述第一样本图像和所述第二样本图像进行融合，得到所述新样本图像。
18.可选地，按照所述扰动后的第二光流预测信息，对所述第一样本图像和所述第二样本图像进行融合，得到所述新样本图像，包括：
19.按照所述扰动后的第二光流预测信息和所述第一样本图像的深度信息，对所述第一样本图像进行处理，得到具有空洞区域的第一变换样本图像；
20.基于所述第二样本图像，对所述第一变换样本图像上的空洞区域进行填补，得到所述新样本图像。
21.可选地，基于所述第二样本图像，对所述第一变换样本图像上的空洞区域进行填补，包括：
22.获得基础光流预测网络输出的第三光流预测信息，所述第三光流预测信息为所述第二样本图像至所述第一样本图像的光流预测信息；
23.以将所述样本图像对中的运动对象调整至相同像素位置为目标，对所述第三光流预测信息添加第二程度的扰动，得到扰动后的第三光流预测信息；
24.按照所述扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到填充区域；
25.基于所述填充区域对所述第一变换样本图像上的空洞区域进行填补。
26.可选地，按照扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到填充区域，包括：
27.按照扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到具有空洞区域的第二变换样本图像；
28.根据扰动后的第二光流预测信息，得到表征第一变换样本图像中的空洞区域的掩码图；
29.根据所述掩码图，从所述具有空洞区域的第二变换样本图像中截取所述填充区域。
30.可选地，所述样本图像对，是按照以下步骤得到的：
31.获取在多种场景下拍摄的多个视频；
32.从每个视频中提取两个描述同一运动对象的视频帧，作为所述样本图像对。
33.可选地，所述样本图像对为针对同一场景拍摄的视频中的相邻两个视频帧。
34.本技术实施例的第二方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现如本技术实施例公开的所述的光流训练样本生成方法。
35.本技术实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机
程序/指令，该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的光流训练样本生成方法。
36.本技术实施例的第四方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的光流训练样本生成方法。
37.本技术实施例包括以下优点：
38.本实施例提出，针对第一图像和第二图像，通过训练完毕的基础光流预测网络，预测第一图像与第二图像之间的光流；其中，基础光流预测网络在训练期间的训练样本包括第一样本图像、新样本图像以及光流标签样本；本实施例基于训练期间的基础光流预测网络针对第一样本图像和第二样本图像输出的光流预测信息，通过图像生成模块按照图像生成方法得到新样本图像；再利用训练期间的基础光流预测网络针对第一样本图像和新样本图像输出得到光流标签样本，然后，将第一样本图像、新样本图像以及光流标签样本作为新的训练样本继续对训练过程中的基础光流预测网络进行训练，在整个过程中，基础光流预测网络会随着训练的深入而输出越来越准确的光流预测信息，而越来越准确的光流预测信息能够得到越来越准确的新的训练样本，进而训练得到越来越可靠的基础光流预测网络，通过多阶段的训练，从而能够在基础光流预测网络训练完毕时，能够得到一个高精度的光流预测网络，并利用该训练完毕的光流预测网络预测得到准确的光流。
附图说明
39.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
40.图1是本技术实施例中一种光流预测方法的步骤流程图；
41.图2是本技术实施例中一种光流训练样本生成方法的步骤流程图；
42.图3是本技术实施例中一种em算法的迭代优化框架图；
43.图4是本技术实施例中一种光流训练样本生成方法的流程示意框图；
44.图5是本技术实施例中一种对第一变换图像的空洞区域填补的示意图；
45.图6是本技术实施例中一种光流预测装置的结构示意图；
46.图7是本技术实施例中一种电子设备的示意图。
具体实施方式
47.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
48.近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence，ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算
机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(slam)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。
49.为解决相关技术中在通过人工辅助加算法估计的方法来获取真实世界的图像对的光流，进而将获取的光流标记为该图像对的光流标签，作为光流训练样本时，光流标签的准确性无法保证的技术问题，申请人提出：在获取光流训练样本时，利用图像对训练基础光流预测网络，并根据训练过程中的基础光流预测网络输出的光流预测信息得到新的训练样本(新样本图像和光流标签样本)，进而根据新的训练样本继续对训练过程中的基础光流预测网络进行训练，从而能够互相促进，在基础光流预测网络训练完毕时，能够得到一个高精度的光流预测网络，并利用该训练完毕的光流预测网络预测得到准确的光流，可作为携带准确光流标签的光流训练样本。
50.参照图1，图1示出了本技术实施例的一种光流预测方法，该光流预测方法可以用于计算机、手机、平板电脑、服务器等电子设备中，如图1所示，所述光流预测方法包括：
51.针对第一图像和第二图像组成的图像对，通过训练完毕的基础光流预测网络，预测所述第一图像与所述第二图像之间的光流；
52.其中，所述基础光流预测网络在训练期间的训练样本包括第一样本图像、新样本图像以及光流标签样本，所述新样本图像为：基于训练期间的基础光流预测网络针对所述第一样本图像和第二样本图像组成的样本图像对输出的光流预测信息，通过图像生成模块按照图像生成方法生成的所述新样本图像，所述光流标签样本为：通过所述训练期间的基础光流预测网络预测得到的所述第一样本图像至所述新样本图像的光流。
53.本实施例基于训练期间的基础光流预测网络针对第一样本图像和第二样本图像输出的光流预测信息，通过图像生成模块按照图像生成方法得到新样本图像；再利用训练期间的基础光流预测网络针对第一样本图像和新样本图像输出得到光流标签样本，然后，将第一样本图像、新样本图像以及光流标签样本作为新的训练样本继续对训练过程中的基础光流预测网络进行训练，在整个过程中，基础光流预测网络会随着训练的深入而输出越来越准确的光流预测信息，而基于越来越准确的光流预测信息能够得到光流标签越来越准确的新的训练样本，进而训练得到输出结果更加准确的基础光流预测网络，从而在基础光流预测网络训练完毕时，能够得到一个高精度的光流预测网络，并利用该训练完毕的光流预测网络预测得到准确的光流。
54.在本实施例中，第一样本图像和第二样本图像可以为真实世界的图像，即为真实视频数据所得到的图像，以便能够提高得到的光流训练样本的图像的真实性以及图像内容运动模式的真实性，从而能够避免使用制造的虚拟数据作为训练样本对基础光流预测网络进行训练，使训练完成后得到的基础光流预测网络能够很好地进行真实场景下的光流估计。
55.可选地，所述样本图像对，是按照以下步骤得到的：
56.获取在多种场景下拍摄的多个视频；
57.从每个视频中提取两个描述同一运动对象的视频帧，作为所述样本图像对。为了训练得到泛化性较好的基础光流预测网络，即，能够预测不同场景的视频所裁剪的图像对之间的光流信息，在对基础光流预测网络进行训练时，通过获取多种场景下拍摄的多个视频，例如不同时刻的街道场景，各类型的运动场景，以及细微的面部特写场景，并从每个视频中提取两个描述同一运动对象的视频帧，作为图像对，从而能够得到不同视频场景下的多个训练样本图像对，以便能够训练得到泛化性更好的基础光流预测网络。
58.可选地，在上述技术方案的基础上，当需要对目标场景下的图像对进行光流预测时，例如，当想要对街道场景下的图像对进行光流预测，可获取针对街道场景下的训练好的光流预测网络，即，仅仅使用街道场景下的图像对来训练基础光流预测网络，以便训练得到针对目标场景下的训练好的光流预测网络，具体地，第一样本图像和第二样本图像组成的样本图像对可来自于在街道场景下拍摄的视频，在基础光流预测网络训练完毕时，即可得到针对街道场景的光流预测网络，该光流预测网络能够用于预测在街道场景下拍摄的两张图像之间的光流信息，从而能够加快训练速度，快速训练出针对街道场景下的训练好的光流预测网络，且能够得到更加准确的预测结果。
59.可选地，所述样本图像对为针对同一场景拍摄的视频中的相邻两个视频帧。
60.为了训练得到更加准确可靠的基础光流预测网络，在对基础光流预测网络进行训练时，尽量选择针对同一场景拍摄的视频中的相邻两个视频帧作为样本图像对。这是因为，光流所表达的就是图像的变化，其中包含目标物体运动的信息，常用来确定目标物体的运动情况，所以相邻的两个视频帧之间存在连续性，即，这两个视频帧中的物体存在一定的运动关系，能够利用基础光流预测网络从中分析得到光流信息，这样的两个视频帧才是有效的训练样本对。选择针对同一场景拍摄的视频中的相邻两个视频帧作为样本图像对，对基础光流预测网络进行训练，最终才能得到更加准确可靠的基础光流预测网络。
61.在本实施例中，基础光流预测网络为预先建立的具有一定光流预测能力的网络，能够预测图像对之间的双向光流，只是预测得到的双向光流不太准确，需要对基础光流预测网络进行进一步的训练，才能够得到预测结果更加准确的光流预测网络。示例性地，将第一图像和第二图像组成的图像对输入基础光流预测网络，基础光流预测网络能够预测出的不太准确的第一图像到第二图像的光流，以及，预测出的不太准确的第二图像到第一图像的光流。
62.可选地，所述方法还包括：
63.将所述第一图像与所述第二图像之间的光流标记为所述第一图像与所述第二图像组成的图像对的光流标签，得到一条光流训练样本。
64.由于基础光流预测网络已经训练完毕，此时，根据该训练完毕的基础光流预测网络得到的第一图像与第二图像之间的光流为精度较为准确的光流信息，此时，直接将该光流标记为第一图像与第二图像组成的图像对的光流标签，得到一条可靠的光流训练样本。该训练样本中包括第一图像、第二图像以及该第一图像与第二图像组成的图像对的光流标签。使用该光流训练样本训练其它基础光流预测网络，可以提高光流预测网络的准确度。
65.具体的，在上述技术方案的基础上，本技术实施例还提供了一种光流训练样本生
成方法，参照图2，图2示出了所述光流训练样本生成方法步骤流程图，如图2所示，所述方法包括：
66.利用第一样本图像和第二样本图像组成的样本图像对训练基础光流预测网络，其中，在训练期间的基础光流预测网络的训练样本，是根据训练期间的基础光流预测网络输出的光流预测信息得到的；
67.获得在所述基础光流预测网络训练完毕时，针对所述样本图像对生成的新样本图像，以及，获得训练完毕的基础光流预测网络输出的所述第一样本图像至所述新样本图像的第一光流预测信息；
68.将第一光流预测信息标记为所述第一样本图像与所述新样本图像组成的样本图像对的光流标签，得到一条光流训练样本。
69.在训练的过程中，需要对基础光流预测网络进行多个阶段的训练，其中，训练期间的基础光流预测网络的训练样本，是根据训练期间的基础光流预测网络输出的光流预测信息得到的。即，基础光流预测网络输出预测的第一样本图像到第二样本图像的光流，以及，输出预测的第二样本图像到第一样本图像的光流后，即可根据第一样本图像到第二样本图像的光流，以及，第二样本图像到第一样本图像的光流，对第一样本图像或者第二样本图像进行变换，最终得到新的样本图像对，将得到的新的样本图像对作为训练样本，进一步对上一阶段训练后的基础光流预测网络进行训练。
70.在对基础光流预测网络进行多个阶段的训练的过程中，在每个阶段，均会得到一张新的样本图像，以及得到本阶段训练后的基础光流网络，当基础光流网络收敛时，基础光流预测网络训练完毕，此时，获取当前阶段针对图像对生成的新的样本图像，以及，获得训练完毕的基础光流预测网络输出的第一样本图像至所述新样本图像的第一光流预测信息，以便得到光流训练样本。
71.在得到基础光流预测网络训练完毕时，针对样本图像对生成的新的样本图像，以及，获得训练完毕的基础光流预测网络输出的第一样本图像至所述新样本图像的第一光流预测信息后，由于基础光流预测网络训练完毕，则此时，根据基础光流预测网络得到的第一样本图像至新样本图像的第一光流预测信息为满足精度的较为准确的光流信息，此时，直接将第一光流预测信息标记为第一样本图像与所述新样本图像组成的图像对的光流标签，得到一条光流训练样本，以便能够使用该光流训练样本训练其它基础光流预测网络。
72.采用本技术实施例的技术方案，在获取光流训练样本时，利用属于真实世界的图像对的第一样本图像和第二样本图像对基础光流预测网络进行训练，并根据训练过程中的基础光流预测网络输出的光流预测信息得到新的训练样本，进而根据新的训练样本继续对训练过程中的基础光流预测网络进行训练，在整个过程中，基础光流预测网络会随着训练的深入而输出越来越准确的光流预测信息，而越来越准确的光流预测信息能够得到光流标签越来越准确的新的训练样本，进而训练得到输出结果更加准确的基础光流预测网络，从而能够在基础光流预测网络训练完毕时，得到携带准确光流标签的光流训练样本，且同时能够得到一个高精度的光流预测网络。
73.可选地，所述基础光流预测网络的训练是分多个阶段，按照以下步骤训练得到的：
74.基于在当前训练阶段的基础光流预测网络针对所述样本图像对输出的光流预测信息，通过所述图像生成模块按照所述图像生成方法生成所述新样本图像，以及，获得所述
在当前训练阶段的基础光流预测网络输出的所述第一样本图像至所述新样本图像的第一光流预测信息；
75.将所述第一光流预测信息标记为所述第一样本图像与所述新样本图像组成的新样本图像对的光流标签样本，得到下一阶段的训练样本；
76.利用所述下一阶段的训练样本，对所述基础光流预测网络进行下一阶段的训练。
77.在基础光流预测网络当前训练阶段，会利用当前阶段训练后的基础光流预测网络，对样本图像对(第一样本图像与第二样本图像)进行处理，得到新的光流预测信息，基于样本图像对和新的光流预测信息，利用图像生成模块按照所述图像生成方法生成新样本图像，以及，得到在当前训练阶段的基础光流预测网络输出的第一样本图像至新样本图像的第一光流预测信息，其中，第一光流预测信息包括在上一阶段训练后的基础光流预测网络对图像对进行处理后得到的新的光流预测信息中。
78.通过使用当前训练阶段的基础光流预测网络输出第一样本图像至新样本图像的第一光流预测信息，能够得到较为准确的第一样本图像至新样本图像的光流，并将第一光流预测信息标记为第一样本图像与新样本图像组成的图像对的光流标签，得到下一阶段的训练样本，从而能够使下一阶段的训练样本的光流标签相对当前训练阶段的训练样本的光流标签更加准确。
79.得到的下一阶段的训练样本的光流标签相对当前训练阶段的训练样本的光流标签更加准确，通过利用下一阶段的训练样本，对基础光流预测网络进行下一阶段的训练，以便能够训练得到一个更加准确的基础光流预测网络，能够使通过下一训练阶段的训练样本训练得到的基础光流预测网络的输出结果能够更加准确。
80.具体地，基础光流预测网络的训练过程中包含训练样本生成过程，从而能够利用更好的训练样本训练得到更好的基础光流训练网络，同时利用更好的基础光流训练网络进一步生成更好的训练样本，具体可通过em算法进行多个阶段的迭代优化，参照图3，图3示出了本实施例提供的一种em算法的迭代优化框架图，如图3所示，em算法的迭代框架包括两个步骤：e-步骤和m-步骤，其中，e-步骤用于生成训练样本，m-步骤用于训练当前阶段的光流预测网络。从视频帧序列中任意选取两个相邻的视频帧(第一样本图像i1和第二样本图像i2)，根据选取的样本图像对和该样本图像对的光流预测信息，通过图像生成方法生成下一阶段的训练样本，在m-步骤中，利用下一阶段的训练样本训练t-1阶段的光流预测网络，从而对光流预测网络进行参数更新，得到t阶段的光流预测网络。在e-步骤中，利用更新后的t阶段的光流预测网络预测新生成的样本图像对的光流预测信息，再通过图像生成方法生成新的又一阶段(t+1)的训练样本，由此可以进行迭代的光流预测网络训练，最终得到一个高精度的光流预测网络。具体的：
81.e-步骤用于生成训练样本，训练样本生成过程可以用如下公式进行表示：
[0082][0083]
其中，x
t
为训练样本，θ
t-1
是上一阶段训练得到的基础光流训练网络，t为当前训练阶段，r表示本技术实施例提出的训练样本生成方法。
[0084]
m-步骤用于训练基础光流训练网络，具体公式为：
[0085]
[0086]
其中，x
t
＝{x
t
}，x
t
为训练样本集，包含多个训练样本x
t
，θ
t
为当前阶段训练后得到的基础光流训练网络，θ为当前阶段训练前的基础光流训练网络，为基础光流训练网络需要优化的目标函数。
[0087]
通过em算法进行多个阶段的迭代优化，即可获得高质量的训练样本，同时获得一个高精度的基础光流预测网络。
[0088]
示例性的，该基础光流预测网络的训练过程，如下：
[0089]
⑴
[0090]
利用当前训练阶段的基础光流预测网络cnn1，对样本图像对进行处理，得到新的光流预测信息。
[0091]
⑵
样本图1+样本图2
→
样本图2’[0092]
基于样本图像对和新的光流预测信息，利用图像生成模块按照所述图像生成方法生成新样本图像。
[0093]
⑶
[0094]
得到在当前训练阶段的基础光流预测网络输出的第一样本图像至新样本图像的第一光流预测信息。
[0095]
⑷
[0096]
样本图1，样本图2’以及光流标签(1
→2’
)，相当于标记好的训练样本，对当前训练阶段的基础光流预测网络cnn1进行训练，得到cnn2，即，利用下一阶段的训练样本，对基础光流预测网络进行下一阶段的训练，得到一个更加准确的基础光流预测网络。
[0097]
⑸
[0098]
⑹
样本图1+样本图2
’→
样本图2”[0099]
⑺
[0100]
⑻
[0101]
……
[0102]
(n)得到训练完毕的基础光流预测网络模型cnn。
[0103]
采用本技术实施例的技术方案，基于样本图像对和样本图像对的光流预测信息，通过图像生成模块按照图像生成方法生成新样本图像，以及，获得在当前训练阶段的基础光流预测网络输出的第一样本图像至新样本图像的第一光流预测信息；然后，将第一光流预测信息标记为第一样本图像与新样本图像组成的新样本图像对的光流标签样本，得到下一阶段的训练样本(第一样本图像、新样本图像以及光流标签样本)；利用下一阶段的训练样本，对所述基础光流预测网络进行下一阶段的训练，从而使通过下一训练阶段的训练样本训练得到的基础光流预测网络的输出结果更加准确，由此可以利用更可靠的训练样本训练得到更准确的基础光流训练网络，同时利用更准确的基础光流训练网络进一步生成更可靠的训练样本，这样迭代地对训练样本和基础光流训练网络进行优化，最终可以得到一个高精度的光流预测网络。
[0104]
可选地，在上述技术方案的基础上，参考图4，图4是本技术实施例中一种光流训练
样本生成方法的流程示意框图，所述图像生成模块生成所述新样本图像的所述图像生成方法，包括以下步骤：
[0105]
获得训练过程中的基础光流预测网络输出的第二光流预测信息，所述第二光流预测信息为所述第一样本图像至所述第二样本图像的光流预测信息；
[0106]
对所述第二光流预测信息添加第一程度的扰动，得到扰动后的第二光流预测信息；
[0107]
按照所述扰动后的第二光流预测信息，对所述第一样本图像和所述第二样本图像进行融合，得到所述新样本图像。
[0108]
将第一样本图像和第二样本图像组成的图像对输入基础光流预测网络，即可得到第一样本图像和第二样本图像之间的双向光流，其中，第一样本图像和第二图像样本之间的双向光流包括第一样本图像至第二样本图像的光流预测信息，以及，第二样本图像至第一样本图像的光流预测信息，通过获取第一样本图像至第二样本图像的光流预测信息，作为第二光流预测信息。
[0109]
得到第一样本图像和第二样本图像之间的双向光流的具体公式为：
[0110]
f1→2＝θ(i1，i2)，f2→1＝θ(i2，i1)
[0111]
其中，f1→2为第一样本图像至第二样本图像的光流预测信息，f2→1为第二样本图像至第一样本图像的光流预测信息，θ为当前阶段训练前的基础光流训练网络。
[0112]
为了增加生成的训练样本的多样性，可对第二光流预测信息添加第一程度的扰动，得到扰动后的第二光流预测信息，以便生成新的图像。
[0113]
得到扰动后的第二光流预测信息的具体公式可为：
[0114]f′1→2＝αf1→2[0115]
其中，f
′1→2为扰动后的第二光流预测信息，α为第一程度的扰动。
[0116]
由此根据f
′1→2，以及第一样本图像与第二样本图像，得到新样本图像。
[0117]
采用本实施例的技术方案，获得训练过程中的基础光流预测网络输出的第一样本图像至第二样本图像的光流预测信息；通过对该光流预测信息添加第一程度的扰动，按照扰动后的光流预测信息，对第一样本图像和第二样本图像进行融合，得到新样本图像，即，通过对光流进行扰动得到一个新的光流，然后在原来的样本图像对基础上更改得到一个新的与扰动后的光流相符合的图像，由此就得到了一个新样本图像。基础光流预测网络在训练过程中需要大量的训练样本，而以往获取训练样本是直接截取一段视频的视频帧作为训练样本，而对于视频来说，可以截取的视频帧是有限的，通过上述方法，可以在原有的训练样本的基础上，不断生成大量的且相关联的训练样本，由此利用该训练样本可以训练得到更加可靠的基础光流预测网络。
[0118]
可选地，按照所述扰动后的第二光流预测信息，对所述第一样本图像和所述第二样本图像进行融合，得到所述新样本图像，包括：
[0119]
按照所述扰动后的第二光流预测信息和所述第一样本图像的深度信息，对所述第一样本图像进行处理，得到具有空洞区域的第一变换样本图像；
[0120]
基于所述第二样本图像，对所述第一变换样本图像上的空洞区域进行填补，得到所述新样本图像。
[0121]
在本实施例中，第一样本图像的深度信息可通过训练好的单目深度估计网络来估
计，将第一样本图像输入训练好的单目深度估计网络，对第一样本图像进行深度估计，即可得到第一样本图像的深度信息。然后，按照扰动后的第一光流预测信息和第一样本图像的深度信息，对第一样本图像进行图像变换，即，对第一样本图像上的各个像素点进行移动，即可得到具有空洞区域的第一变换图像，具体表达式为：
[0122][0123]
其中，为第一变换图像，d1为第一图像的深度信息，s表示图像变换方法。
[0124]
第一样本图像中的单个运动物体为例，举例说明s所表示的图像变换方法：假设第一样本图像中包含运动的汽车，扰动后的第一光流预测信息为向右移动40个像素点，此时，即可获取汽车的每个像素点的坐标，并将每个像素点向右移动40个像素点，得到新的图像，而汽车的原始像素点的位置处会形成空洞区域，而汽车的原始像素点移动的目标区域则会存在覆盖的情况，此时，可根据第一图像的深度信息，确定哪些像素点会被覆盖，具体地，深度大的像素点会被深度小的像素点覆盖，从而得到具有空洞区域的第一变换图像。
[0125]
为了得到一个真实且完整的生成图，需要对第一变换图像上的空洞区域进行填补，具体地，可直接通过第二图像，对第一变换图像上的空洞区域进行空洞填补，得到一张完整的生成的图像i
′2。
[0126]
通过上述方法，能够得到一张较为真实的图像，且该图像为第一图像通过光流变换得到，所以，其图像内容运动模式也较为真实。最终，可将扰动后的第一光流预测信息标记为第一图像到生成的图像之间的光流标签，作为光流训练样本。
[0127]
可选地，在上述技术方案的基础上，为了得到更加准确的生成的图像，即，提高对第一变换图像上的空洞区域进行填补的准确性，基于所述第二样本图像，对所述第一变换样本图像上的空洞区域进行填补的具体方法可为：
[0128]
获得基础光流预测网络输出的第三光流预测信息，所述第三光流预测信息为所述第二样本图像至所述第一样本图像的光流预测信息；
[0129]
以将所述样本图像对中的运动对象调整至相同像素位置为目标，对所述第三光流预测信息添加第二程度的扰动，得到扰动后的第三光流预测信息；
[0130]
按照所述扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到填充区域；
[0131]
基于所述填充区域对所述第一变换样本图像上的空洞区域进行填补。
[0132]
参照图5，图5是本技术实施例中一种对第一变换图像的空洞区域进行填补的示意图，通过获取第二样本图像至第一样本图像的光流预测信息，作为第三光流预测信息，然后，以图像对中的运动对象调整至相同像素位置为目标，对第三光流预测信息添加第二程度的扰动，得到扰动后的第二光流预测信息，具体公式为：
[0133]f′2→1＝(1-α)f2→1[0134]
其中，f
′2→1为扰动后的第三光流预测信息。
[0135]
在本实施例中，第二程度的扰动与第一程度的扰动之和为1，例如，若第一程度的扰动为α，则第二程度的扰动为1-α，由此，可将第一样本图像中的目标运动对象和第二样本图像中的目标运动对象调整至相同像素位置，具体地，假设第一样本图像中的运动对象为车辆，第一样本图像中的车辆到第二样本图像中的同一车辆的光流为100，即，第二样本图
像中的车辆相对于第一样本图像中的车辆向右移动了100个像素点的距离，此时，若第一程度的扰动为0.4，则第二程度的扰动取值为0.6，即，将第一样本图像中的车辆向右移动40个像素点的距离，将第二样本图像中的同一车辆向左移动60个像素点的距离，此时，第一样本图像中的车辆和第二样本图像中的同一车辆调整到了相同像素位置。
[0136]
然后，将第二样本图像输入训练好的单目深度估计网络，对第二样本图像进行深度估计，即可得到第二样本图像的深度信息，按照扰动后的第三光流预测信息和第二样本图像的深度信息，对第二样本图像进行图像变换，即对第二样本图像上的各个像素点进行移动，得到具有空洞区域的第二变换图像，具体公式为：
[0137][0138]
其中，为第二变换图像，d2为第二样本图像的深度信息。具体方式可参照上述得到具有空洞区域的第一变换图像的内容，在此不再赘述，并利用具有空洞区域的第二变换图像，对第一变换图像上的空洞区域进行填充，具体地，第一变换图像和第二变换图像中的相同的运动对象在相同像素位置，只是第一变换图像和第二变换图像上的空洞区域的位置不同，第一变换图像上空洞区域的位置，在第二变换图像上是完整的，此时，可直接将第二变换图像上与第一变换图像上空洞区域的位置相对应的位置的像素区域填补到第一变换图像上即可。
[0139]
利用本实施例的技术方案，在填充第一变换图像上的空洞区域的过程中，对第二样本图像至第一样本图像的光流预测信息进行了第二程度的扰动，从而使样本图像对中的运动对象调整至相同像素位置，然后，根据该扰动后的光流预测信息对第二样本图像进行变换，得到第二变换图像，最后，利用该第二变换图像来填充第一变换图像上的空洞区域，由此得到新样本图像。通过对第二样本图像进行处理得到第二变换图像，第二变换图像上的目标运动物体与第一变换图像上的同一目标运动物体在相同的像素位置，所以利用第二变换图像来填充第一变换图像上的空洞区域会更加准确，得到的新样本图像会更加真实。
[0140]
可选地，按照扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到填充区域，包括：
[0141]
按照扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到具有空洞区域的第二变换样本图像；
[0142]
根据扰动后的第二光流预测信息，得到表征第一变换样本图像中的空洞区域的掩码图；
[0143]
根据所述掩码图，从所述具有空洞区域的第二变换样本图像中截取所述填充区域。
[0144]
根据扰动后的第二光流预测信息，进行掩码识别，得到掩码图m，掩码图能够明确表示出第一变换图像中的空洞区域，例如，将空洞区域的颜色表示为黑色，其它地方的颜色表示为白色。然后，确定掩码图中的黑色部分在第一变换图像中的位置，即，空洞区域在第一变换图像中的位置，再根据空洞区域在第一变换图像中的位置，确定出第二变换图像中与空洞区域在第一变换图像中的位置相同的区域，从而确定出具有空洞区域的第二变换图像中的填充区域，最后，即可根据第二变换图像中的填充区域，直接对第一变换图像上的空洞区域进行填充，得到完整的第一变换图像，即，得到新样本图像。
[0145]
需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。
[0146]
图6是本发明实施例的一种光流预测装置的结构示意图，如图6所示，该光流预测装置，包括：
[0147]
预测模块，用于针对第一图像和第二图像组成的图像对，通过训练完毕的基础光流预测网络，预测所述第一图像与所述第二图像之间的光流；
[0148]
其中，所述基础光流预测网络在训练期间的训练样本包括第一样本图像、新样本图像以及光流标签样本，所述新样本图像为：基于训练期间的基础光流预测网络针对所述第一样本图像和第二样本图像组成的样本图像对输出的光流预测信息，通过图像生成模块按照图像生成方法生成的所述新样本图像，所述光流标签样本为：通过所述训练期间的基础光流预测网络预测得到的所述第一样本图像至所述新样本图像的光流。
[0149]
可选地，所述装置还包括：
[0150]
标记模块，用于将所述第一图像与所述第二图像之间的光流标记为所述第一图像与所述第二图像组成的图像对的光流标签，得到一条光流训练样本。
[0151]
可选地，所述装置还包括：
[0152]
第一训练模块，用于基于在当前训练阶段的基础光流预测网络针对所述样本图像对输出的光流预测信息，通过所述图像生成模块按照所述图像生成方法生成所述新样本图像，以及，获得所述在当前训练阶段的基础光流预测网络输出的所述第一样本图像至所述新样本图像的第一光流预测信息；
[0153]
第二训练模块，用于将所述第一光流预测信息标记为所述第一样本图像与所述新样本图像组成的新样本图像对的光流标签样本，得到下一阶段的训练样本；
[0154]
第三训练模块，用于利用所述下一阶段的训练样本，对所述基础光流预测网络进行下一阶段的训练。
[0155]
可选地，所述第一训练模块，包括：
[0156]
第一训练子模块，用于获得训练过程中的基础光流预测网络输出的第二光流预测信息，所述第二光流预测信息为所述第一样本图像至所述第二样本图像的光流预测信息；
[0157]
扰动子模块，用于对所述第二光流预测信息添加第一程度的扰动，得到扰动后的第二光流预测信息；
[0158]
融合子模块，用于按照所述扰动后的第二光流预测信息，对所述第一样本图像和所述第二样本图像进行融合，得到所述新样本图像。
[0159]
可选地，所述融合子模块，包括：
[0160]
第一变换单元，用于按照所述扰动后的第二光流预测信息和所述第一样本图像的深度信息，对所述第一样本图像进行处理，得到具有空洞区域的第一变换样本图像；
[0161]
填补单元，用于基于所述第二样本图像，对所述第一变换样本图像上的空洞区域进行填补，得到所述新样本图像。
[0162]
可选地，所述填补单元，包括：
[0163]
第一填补子单元，用于获得基础光流预测网络输出的第三光流预测信息，所述第三光流预测信息为所述第二样本图像至所述第一样本图像的光流预测信息；
[0164]
第二填补子单元，用于以将所述样本图像对中的运动对象调整至相同像素位置为目标，对所述第三光流预测信息添加第二程度的扰动，得到扰动后的第三光流预测信息；
[0165]
第三填补子单元，用于按照所述扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到填充区域；
[0166]
第四填补子单元，用于基于所述填充区域对所述第一变换样本图像上的空洞区域进行填补
[0167]
可选地，所述第三填补子单元，还包括：
[0168]
变换子单元，用于按照扰动后的第三光流预测信息和所述第二样本图像的深度信息，对所述第二样本图像进行处理，得到具有空洞区域的第二变换样本图像；
[0169]
掩码子单元，用于根据扰动后的第二光流预测信息，得到表征第一变换样本图像中的空洞区域的掩码图；
[0170]
截取子单元，用于根据所述掩码图，从所述具有空洞区域的第二变换样本图像中截取所述填充区域。
[0171]
可选地，所述装置还包括：
[0172]
获取模块，用于获取在多种场景下拍摄的多个视频；
[0173]
提取模块，用于从每个视频中提取两个描述同一运动对象的视频帧，作为所述图像对。
[0174]
需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。
[0175]
本发明实施例还提供了一种电子设备，参照图7，图7是本技术实施例提出的电子设备的示意图。如图7所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本技术实施例公开的图像渲染方法中的步骤。
[0176]
本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的光流训练样本生成方法。
[0177]
本发明实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如本技术实施例公开的所述的光流训练样本生成方法。
[0178]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0179]
本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0180]
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中
的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0181]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0182]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0183]
尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0184]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0185]
以上对本技术所提供的一种光流预测方法、电子设备、存储介质及程序产品，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗堃铭韩赟晖罗骜刘帅成
技术所有人：深圳旷视金智科技有限公司
我是此专利的发明人

上一篇：样本检测系统的制作方法
上一篇：储能柜制冷系统的控制装置、方法和机柜空调与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。