视频帧图像处理方法及电子设备与流程

文档序号:27629619发布日期:2021-11-29 15:55阅读:175来源:国知局
视频帧图像处理方法及电子设备与流程

1.本技术涉及图像处理技术领域,具体而言,涉及一种视频帧图像处理方法及电子设备。


背景技术:

2.双目视频帧图像由左右两个带有一定视差的图像组成,需要佩戴特定的设备观看,与单目视频帧图像相比具有更强的立体感和临场感。
3.在现有技术中,制作双目视频帧图像一般需要两台按照人眼眼距架设的摄像机,对同一场景进行拍摄,在这种情况下,两台摄像机拍摄的两个画面之间具有最为精确的视差关系,能产生最接近临场体验的立体效果,但采用上述方式制作双目视频帧图像所需硬件设备较多,制作成本较高。


技术实现要素:

4.为了至少克服现有技术中的上述不足,本技术的目的在于提供一种视频帧图像处理方法及电子设备。
5.第一方面,本技术实施例提供一种视频帧图像处理方法,所述方法包括:
6.获取待处理的单目视频中各视频帧图像的第一深度图像;
7.针对各所述视频帧图像中的每个第一目标视频帧图像,基于所述第一目标视频帧图像的第一深度图像及该第一目标视频帧图像的前一视频帧图像的第一深度图像对所述第一目标视频帧图像的第一深度图像进行时域平滑,得到所述第一目标视频帧图像的第二深度图像,其中,所述第一目标视频帧图像为第一观察视角下的视频图像;
8.根据所述第一目标视频帧图像的第二深度图像,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像;
9.将所述第一目标视频帧图像与所述第二目标视频帧图像进行合成,得到双目视频帧图像。
10.在上述方案中,首先,采用第一观察视角下的单目视频中相邻两视频帧图像的第一深度图像,对单目视频中第一目标视频帧图像的第一深度图像进行时域平滑得到第二深度图像;接着,根据第一目标视频帧图像的第二深度图像得到第二观察视角下的第二目标视频帧图像;最后,将第一目标视频帧图像与第二目标视频帧图像进行合成,得到双目视频帧图像。一方面,以单目视频帧图像为基础合成双目视频帧图像,可以减小对硬件设备的要求(只需一台摄像机),降低制作成本;另一方面,对第一目标视频帧图像的深度图像进行时域平滑可以确保深度图像在视频帧之间具有连续性,并采用平滑后的深度图像确定第二观察视角下的第二目标视频帧图像,在播放由第一目标视频帧图像及第二目标视频帧图像组成的双目视频帧图像时不会存在因深度图像时域不连续而导致的画面抖动问题,确保画面的稳定显示。
11.在一种可能的实现方式中,所述获取待处理的单目视频中各视频帧图像的第一深
度图像的步骤,包括:
12.通过深度计算模型计算所述单目视频中各视频帧图像的第一深度图像;
13.其中,所述深度计算模型包括卷积神经网络、特征融合子模型及输出子模型;
14.所述通过深度计算模型计算所述单目视频中各视频帧图像的第一深度图像的步骤包括:
15.采用所述卷积神经网络分别对所述单目视频中的各视频帧图像进行特征提取得到各视频帧图像对应的图像深度特征;
16.通过所述特征融合子模型分别对各视频帧图像的图像深度特征进行特征融合得到融合特征;
17.将所述融合特征输入所述输出子模型进行处理,得到所述单目视频中各视频帧图像的第一深度图像。
18.在上述方案中,基于卷积神经网络的深度图像获取方法相对于传统的基于运动恢复结构的深度图像获取方法,可以对视频帧图像中的全像素进行深度计算,且不受运动物体影响,具有更强的鲁棒性且场景的适应能力更强。
19.在一种可能的实现方式中,所述基于所述第一目标视频帧图像的第一深度图像及该第一目标视频帧图像的前一视频帧图像的第一深度图像对所述第一目标视频帧图像的第一深度图像进行时域平滑,得到所述第一目标视频帧图像的第二深度图像的步骤,包括:
20.通过运动对象分隔网络获取所述第一目标视频帧图像中的第一运动对象区域掩膜,及所述第一目标视频帧图像的前一视频帧图像中的第二运动对象区域掩膜;
21.基于所述第一运动对象区域掩膜及所述第二运动对象区域掩膜,得到所述第一目标视频帧图像和所述第一目标视频帧图像的前一视频帧图像之间的帧间运动区域掩膜、所述第一目标视频帧图像的背景掩膜及所述第一目标视频帧图像的前景掩膜;
22.基于所述帧间运动区域掩膜、所述第一目标视频帧图像的背景掩膜、所述第一目标视频帧图像的前景掩膜及所述第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像的第二深度图像。
23.在一种可能的实现方式中,所述基于所述帧间运动区域掩膜、所述第一目标视频帧图像的背景掩膜、所述第一目标视频帧图像的前景掩膜及所述第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像的第二深度图像的步骤,包括:
24.基于所述第一目标视频帧图像的前景掩膜及所述第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像中前景区域的深度图像,并基于所述第一目标视频帧图像中前景区域的深度图像与所述第一目标视频帧图像的前一视频帧图像在该前景区域的深度图像,对所述第一目标视频帧图像中前景区域的深度图像进行更新得到所述第一目标视频帧图像的前景深度图像;
25.基于所述第一目标视频帧图像的背景掩膜及所述第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像中背景区域的深度图像,并基于所述第一目标视频帧图像中背景区域的深度图像与所述第一目标视频帧图像的前一视频帧图像在该背景区域的深度图像,对所述第一目标视频帧图像中背景区域的深度图像进行平滑得到所述第一目标视频帧图像的背景深度图像;
26.基于所述帧间运动区域掩膜及所述第一目标视频帧图像的第一深度图像对所述
第一目标视频帧图像的前景深度图像的前景区域与所述第一目标视频帧图像的背景深度图像的背景区域之间的区域进行平滑处理,得到所述第一目标视频帧图像的第二深度图像。
27.在一种可能的实现方式中,所述基于所述帧间运动区域掩膜及所述第一目标视频帧图像的第一深度图像对所述第一目标视频帧图像的前景深度图像的前景区域与所述第一目标视频帧图像的背景深度图像的背景区域之间的区域进行平滑处理,得到所述第一目标视频帧图像的第二深度图像的步骤,包括:
28.基于所述帧间运动区域掩膜与所述第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像中所述帧间运动区域的深度图像;
29.将所述第一目标视频帧图像的前景深度图像与所述第一目标视频帧图像的背景深度图像进行合成,得到合成后的深度图像;
30.采用所述帧间运动区域的深度图像替换所述合成后的深度图像中的相应区域的深度图像,得到所述第一目标视频帧图像的第二深度图像。
31.在一种可能的实现方式中,所述基于所述第一目标视频帧图像中前景区域的深度图像与所述第一目标视频帧图像的前一视频帧图像在该前景区域的深度图像,对所述第一目标视频帧图像中前景区域的深度图像进行更新得到所述第一目标视频帧图像的前景深度图像的步骤包括:
32.采用以下计算公式得到所述前景深度图像中的像素深度:
33.f
g
=α
×
d
ft
+(1

α)
×
d
ft
‑134.所述基于所述第一目标视频帧图像中背景区域的深度图像与所述第一目标视频帧图像的前一视频帧图像在该背景区域的深度图像,对所述第一目标视频帧图像中背景区域的深度图像进行平滑得到所述第一目标视频帧图像的背景深度图像的步骤中包括:
35.采用以下计算公式得到所述背景深度图像中的像素深度:
36.b
g
=α
×
d
bt
‑1+(1

α)
×
d
bt
37.其中,f
g
为所述前景深度图像中的像素深度,b
g
为背景深度图像中的像素深度,d
ft
为第一目标视频帧图像中前景区域的像素深度,d
bt
为第一目标视频帧图像中背景区域的像素深度,d
ft
‑1为第一目标视频帧图像的前一视频帧图像中前景区域的像素深度,d
bt
‑1为第一目标视频帧图像的前一视频帧图像中背景区域的像素深度,α为0~1之间的常数,α大于1

α。
38.在一种可能的实现方式中,所述根据所述第一目标视频帧图像的第二深度图像,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像的步骤,包括:
39.根据所述第一目标视频帧图像的第二深度图像,得到所述第一目标视频帧图像在第二观察视角下的视差图;
40.基于所述视差图对所述第一目标视频帧图像进行像素偏移得到像素偏移后形成的遮挡区;
41.根据所述视差图对所述第一目标视频帧图像中的非遮挡区的像素进行偏移,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像。
42.在一种可能的实现方式中,所述根据所述视差图对所述第一目标视频帧图像中的非遮挡区的像素进行偏移,得到所述第一目标视频帧图像在第二观察视角下的第二目标视
频帧图像的步骤,还包括:
43.获取所述第一目标视频帧图像中的非遮挡区在进行像素偏移后对应的目标位置;
44.基于所述目标位置确定偏移区域;
45.对所述偏移区域中与像素偏移方向一致的一侧边缘进行平滑处理,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像。
46.在一种可能的实现方式中,在所述将所述第一目标视频帧图像与所述第二目标视频帧图像进行合成,得到双目视频帧图像的步骤之前,所述方法还包括:
47.对所述第二目标视频帧图像中前景图像与背景图像之间的缺失区域进行空洞修复,得到修复后的第二目标视频帧图像;
48.在所述将所述第一目标视频帧图像与所述第二目标视频帧图像进行合成,得到双目视频帧图像的步骤之后,所述方法还包括:
49.基于所述双目视频帧图像合成得到双目视频。
50.第二方面,本技术实施例还提供视频帧图像处理装置,所述装置包括:
51.获取模块,用于获取待处理的单目视频中各视频帧图像的第一深度图像;
52.平滑模块,用于针对各所述视频帧图像中的每个第一目标视频帧图像,基于所述第一目标视频帧图像的第一深度图像及该第一目标视频帧图像的前一视频帧图像的第一深度图像对所述第一目标视频帧图像的第一深度图像进行时域平滑,得到所述第一目标视频帧图像的第二深度图像,其中,所述第一目标视频帧图像为第一观察视角下的视频图像;
53.确定模块,用于根据所述第一目标视频帧图像的第二深度图像,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像;
54.合成模块,用于将所述第一目标视频帧图像与所述第二目标视频帧图像进行合成,得到双目视频帧图像。
55.第三方面,本技术实施例还提供一种电子设备,所述电子设备包括处理器及计算机可读存储介质,所述处理器及所述计算机可读存储介质之间通过总线系统连接,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现第一方面所述的视频帧图像处理方法。
56.第四方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的视频帧图像处理方法。
57.基于上述任意一个方面,本技术实施例提供的视频帧图像处理方法及电子设备。一方面,以单目视频帧图像为基础合成双目视频帧图像,可以减小对硬件设备的要求(只需一台摄像机),降低制作成本。另一方面,对第一目标视频帧图像的深度图像进行时域平滑可以确保深度图像在视频帧之间具有连续性,并采用平滑后的深度图像确定第二观察视角下的第二目标视频帧图像,在播放由第一目标视频帧图像及第二目标视频帧图像组成的双目视频帧图像时不会存在因深度图像时域不连续而导致的画面抖动问题,确保画面的稳定显示。
附图说明
58.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要调用的附
图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
59.图1为本技术实施例提供的视频帧图像处理方法的流程示意图;
60.图2为本技术实施例提供的一种深度计算模型的可能结构示意图;
61.图3为图1中步骤s12的子步骤流程示意图;
62.图4为图3中的子步骤流程对应的图像处理过程示意图;
63.图5为图1中步骤s13的子步骤流程示意图;
64.图6为本技术实施例提供的视频帧图像处理装置的功能模块示意图;
65.图7为本技术实施例提供的电子设备的结构示意图。
具体实施方式
66.下面结合说明书附图对本技术进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
67.为了解决背景技术中提及的技术问题,现有技术存在以下两种可能解决方案。
68.第一种可能解决方案是:首先,采用单目图像(左视图)为基准,获取单目图像的深度图像;然后,根据深度图像推算出视差信息,并通过视差信息对原画面进行位移变换,以形成另一观察视角下的图像(右视图);最后,将左视图与右视图进行合成得到双目图像。
69.第二种可能解决方案是:基于单张rgb

d图像合成多个视角图像,以生成一个针对静态场景的多视角3d视频,其中,rgb

d图像由rgb图像与深度图像组成。该方法可以使用分层深度图像(layered depth image,ldi)表达,在ldi中统一边缘修复、深度修复和颜色修复三个子任务,通过将所有修复好的颜色和深度值重新集成到原始ldi中,对场景形成最终的3d纹理网格(mesh)表示,进而可以实时渲染出预设范围内任意视角下的新视图。
70.发明人研究发现上述两种可能的解决方案存在以下不足。
71.针对第一种可能解决方案,该种方案局限于对单张画面的处理,当其拓展到视频中时,因深度图像信息在相邻帧之间存在非一致连续的特点,视图(比如,右视图)中像素位移量也是非时域连续的,故在应用到视频中时,会存在明显的画面抖动情况。
72.针对第二种解决方案中,该种方案基于单张rgb

d图像构建场景的3d纹理网格的构建时间一般在分钟级别,然而双目视频帧图像只需要水平位移的视图,构建场景的3d纹理网格对于双目视频帧图像的生成而言存在大量的计算冗余,并不适合双目视频帧图像的生成场景。
73.为了克服上述缺陷,图1为本技术实施例提供的一种视频帧图像处理方法的流程示意图,本技术实施例提供的视频帧图像处理方法可以由具有图像处理能力的电子设备执行,下面结合图1对视频帧图像处理方法进行详细介绍。
74.步骤s11,获取待处理的单目视频中各视频帧图像的第一深度图像。
75.视频帧图像的第一深度图像中包括视频帧图像中各个像素点的图像深度。
76.步骤s12,针对各视频帧图像中的每个第一目标视频帧图像,基于第一目标视频帧图像的第一深度图像及该第一目标视频帧图像的前一视频帧图像的第一深度图像对第一目标视频帧图像的第一深度图像进行时域平滑,得到第一目标视频帧图像的第二深度图
像。
77.本技术实施例中,第一目标视频帧图像可以为第一观察视角下的视频图像,作为一种示例,第一观察视角可以是人左眼所对应的观察视角,相应地,对应的第一目标视频帧图像可以为左视图。在本技术实施例中,第一目标视频帧图像为单目视频中的非首帧图像。
78.步骤s13,根据第一目标视频帧图像的第二深度图像,得到第一目标视频帧图像在第二观察视角下的第二目标视频帧图像。
79.本技术实施例中,基于第二深度图像可以得到在第二观察视角下的位差图,然后基于位差图对第一目标视频帧图像进行像素偏移则可以得到第二目标视频帧图像。其中,作为一种示例,第二观察视角可以是人右眼所对应的观察视角,相应地,对应的第二目标视频帧图像可以为右视图。
80.步骤s14,将第一目标视频帧图像与第二目标视频帧图像进行合成,得到双目视频帧图像。
81.基于上述方案,一方面,以单目视频帧图像为基础合成双目视频帧图像,相对于采用双摄像机获取双目视频帧图像的方式,可以减少对硬件设备的要求(只需一个摄像机),降低制作成本。另一方面,对第一目标视频帧图像的深度图像进行时域平滑可以确保深度图像在视频帧之间具有连续性,并采用平滑后的深度图像确定第二观察视角下的第二目标视频帧图像,在播放由第一目标视频帧图像及第二目标视频帧图像组成的双目视频帧图像时不会存在因深度图像时域不连续而导致的画面抖动问题,确保画面的稳定显示。
82.在本技术实施例的一种可能实施方式中,步骤s12可以通过深度计算模型计算单目视频中各视频帧图像的第一深度图像。请参照图2,图2示出了一种深度计算模型的可能结构示意图,深度计算模型可以包括卷积神经网络a、特征融合子模型b及输出子模型c,其中,卷积神经网络a用于对单目视频中的各视频帧图像进行特征提取得到各视频帧图像对应的图像深度特征,特征融合子模型b分别对各视频帧图像的图像深度特征进行特征融合得到融合特征,输出子模型c将融合特征进行处理后输出各视频帧图像的第一深度图像。
83.具体地,卷积神经网络a可以包括多个卷积核cnn,多个卷积核cnn形成多层卷积神经网络,其中,视频帧图像从最上层的卷积核cnn输入,在相邻层的卷积核cnn中,上层卷积核cnn的输出在经过下采样后作为下层卷积核cnn的输入。特征融合子模型b可以包括分别与各层卷积核cnn对应的特征融合单元,卷积核cnn输出的深度特征作为对应的特征融合单元的输入。同时在相邻层的特征融合单元中,下层特征融合单元的输出在经过上采样后作为上层特征融合单元的输入,特征融合单元将卷积核cnn输出的深度特征与其下层的特征融合单元输出的深度特征进行特征融合后输出。输出子模型c将最上层特征融合单元输出的深度特征进行处理(通道压缩)后输出得到输入视频帧图像的第一深度图像。
84.在上述方案中,基于卷积神经网络的深度图像获取方法相对于传统的基于运动恢复结构的深度图像获取方法,可以对视频帧图像中的全像素进行深度计算,且不受运动物体影响,具有更强的鲁棒性且场景的适应能力更强。
85.进一步地,在本技术实施例中,请参照图3及图4,图3示例了步骤s12的子步骤流程示意图,图4示例了图3中子步骤流程对应的图像处理过程示意图,下面结合图3及图4对步骤s12的各子步骤进行详细描述。
86.子步骤s121,通过运动对象分隔网络获取第一目标视频帧图像中的第一运动对象
区域掩膜,及第一目标视频帧图像的前一视频帧图像中的第二运动对象区域掩膜。
87.在该子步骤中,可以采用训练好的运动对象分隔网络从视频帧图像中获取对应的运动对象区域掩膜,运动对象区域掩膜与视频帧图像具有相同的像素分布。其中,作为一种可替代的示例,在运动对象区域掩膜中,对应运动对象区域的像素点取值为1,非运动对象区域的像素点取值为0。
88.子步骤s122,基于第一运动对象区域掩膜及第二运动对象区域掩膜,得到第一目标视频帧图像和第一目标视频帧图像的前一视频帧图像之间的帧间运动区域掩膜、第一目标视频帧图像的背景掩膜及第一目标视频帧图像的前景掩膜。
89.在该步骤中,首先,可以将第一运动对象区域掩膜与第二运动对象区域掩膜进行异或操作,得到第一目标视频帧图像和第一目标视频帧图像的前一视频帧图像之间的帧间运动区域掩膜。然后,可以将第一运动对象区域掩膜与第二运动对象区域掩膜进行并操作然后取反,得到第一目标视频帧图像的背景掩膜。最后,可以将第一目标视频帧图像的背景掩膜进行取反操作后,得到第一目标视频帧图像的前景掩膜。
90.子步骤s123,基于帧间运动区域掩膜、第一目标视频帧图像的背景掩膜、第一目标视频帧图像的前景掩膜及第一目标视频帧图像的第一深度图像得到所述第一目标视频帧图像的第二深度图像。
91.具体地,在本技术实施例中,子步骤s123可以通过以下方式实现。
92.首先,基于第一目标视频帧图像的前景掩膜及第一目标视频帧图像的第一深度图像得到第一目标视频帧图像中前景区域的深度图像,并基于第一目标视频帧图像中前景区域的深度图像与第一目标视频帧图像的前一视频帧图像在该前景区域的深度图像,对第一目标视频帧图像中前景区域的深度图像进行更新得到第一目标视频帧图像的前景深度图像。
93.可选地,可以采用以下计算公式得到第一目标视频帧图像的前景深度图像中的像素深度:
94.f
g
=α
×
d
ft
+(1

α)
×
d
ft
‑195.其中,f
g
为第一目标视频帧图像的前景深度图像中的像素深度,d
ft
为第一目标视频帧图像中前景区域的像素深度,d
ft
‑1为第一目标视频帧图像的前一视频帧图像中前景区域的像素深度,α为0~1之间的常数,α远大于1

α,比如α取值为0.99。
96.然后,基于第一目标视频帧图像的背景掩膜及第一目标视频帧图像的第一深度图像得到第一目标视频帧图像中背景区域的深度图像,并基于第一目标视频帧图像中背景区域的深度图像与第一目标视频帧图像的前一视频帧图像在该背景区域的深度图像,对第一目标视频帧图像中背景区域的深度图像进行平滑得到第一目标视频帧图像的背景深度图像。
97.可选地,可以采用以下计算公式得到第一目标视频帧图像的背景深度图像中的像素深度:
98.b
g
=α
×
d
bt
‑1+(1

α)
×
d
bt
99.其中,b
g
为第一目标视频帧图像的背景深度图像中的像素深度,d
bt
为第一目标视频帧图像中背景区域的像素深度,d
bt
‑1为第一目标视频帧图像的前一视频帧图像中背景区域的像素深度,α为0~1之间的常数,α远大于1

α,比如α取值为0.99。
100.最后,基于帧间运动区域掩膜及第一目标视频帧图像的第一深度图像对第一目标视频帧图像的前景深度图像的前景区域与第一目标视频帧图像的背景深度图像的背景区域之间的区域进行平滑处理,得到第一目标视频帧图像的第二深度图像。
101.详细地,可以先基于所述帧间运动区域掩膜与所述第一目标视频帧图像的第一深度图像得到第一目标视频帧图像中帧间运动区域的深度图像;接着将第一目标视频帧图像的前景深度图像与第一目标视频帧图像的背景深度图像进行合成,得到合成后的深度图像;最后采用帧间运动区域的深度图像替换合成后的深度图像中的相应区域的深度图像,得到第一目标视频帧图像的第二深度图像。
102.进一步地,在本技术实施例中,请参照图5,图5示例了步骤s13的子步骤流程示意图,下面结合图5对步骤s13的各子步骤进行详细描述。
103.子步骤s131,根据第一目标视频帧图像的第二深度图像,得到第一目标视频帧图像在第二观察视角下的视差图。
104.在该子步骤中,可以采用以下公式提供的方式得到一目标视频帧图像在第二观察视角下的视差图。
105.disparty=sharpening(1

depth)
×
s+t
106.其中,disparty为第二观察视角下的视差图,depth为步骤s12得到的归一化的第二深度图像,1

depth为归一化的视差图,sharpending(1

depth)为对归一化的视差图进行边缘锐化处理使视差图中前景和后景的边缘分明,s为场景的尺寸,t为偏移量,s表示场景的一般的图像深度,t表示观察点(比如,摄像头)与观察对象(比如,主播)之间的距离,其中s与t根据场景不同设置不同,以直播场景为例,s的取值可以为0

5米,t的取值可以为1m。
107.子步骤s132,基于视差图对第一目标视频帧图像进行像素偏移得到像素偏移后形成的遮挡区。
108.其中,视差图是同一场景在两个不同观察视角下成像的像素的位置偏差,通常两个观察视角水平,故位置偏差为水平方向的偏差,比如在场景中x点在第一观察视角下的坐标为x,在第二观察视角下的坐标为(x+d)。则d就是视差图中x点的值。
109.在该子步骤中,可以基于视差图中各个像素点的值,对第一目标视频帧图像中的各个像素点进行像素偏移,当两个或两个以上的像素点在像素偏移后移动到同一目标位置,则会形成遮挡。利用视差图可以得到第一目标视频帧图像中的像素点偏移后形成的遮挡区,遮挡区在后续计算中不需考虑,为此可以得到遮挡区掩膜之后,将遮挡区掩膜取反操作得到非遮挡区掩膜。
110.子步骤s133,根据视差图对第一目标视频帧图像中的非遮挡区的像素进行偏移,得到第一目标视频帧图像在第二观察视角下的第二目标视频帧图像。
111.在该子步骤s133中,可以通过以下方式实现。
112.首先,获取第一目标视频帧图像中的非遮挡区在进行像素偏移后对应的目标位置。
113.具体地,将第一目标视频帧图像与非遮挡区掩膜相乘可以得到非遮挡区,并基于视差图对非遮挡区的像素点进行位置偏移,得到偏移后像素点的目标位置。
114.接着,基于目标位置确定偏移区域。
115.然后,对偏移区域中与像素偏移方向一致的一侧边缘进行平滑处理,得到第一目
标视频帧图像在第二观察视角下的第二目标视频帧图像。
116.上述步骤中,对偏移区域中与像素偏移方向一致的一侧边缘进行平滑处理可以优化第二目标视频帧图像的观感。
117.在步骤s13形成第二目标视频帧图像的过程中,可能会在第二目标视频帧图像的前景边缘与后景边缘之间会存在缺失区域,为了确保显示效果。进一步地,在步骤s13之后,本技术实施例提供的视频帧图像处理方法还可以对第二目标视频帧图像中前景图像与背景图像之间的缺失区域进行空洞修复,得到修复后的第二目标视频帧图像。
118.具体地可以采用基于时空联合的transformer模型用于填充第二目标视频帧图像中前景图像与背景图像之间的缺失区域。为了填补视频帧图像中的缺失区域,transformer模型通过一个基于多尺度块的注意力模块搜索相关内容,例如包括时间维度和空间维度的内容。从视频帧图像中提取不同尺度的块,以覆盖由复杂运动引起的不同外观变化,transformer模型的不同头部计算不同尺度上空间块的相似性,聚合不同头部的注意力结果,可以检测和为缺失区域转换最相似的块,以实现对缺失区域的填充。
119.进一步地,在步骤s14之后,本技术实施例提供的视频帧图像处理方法还可以包括基于双目视频帧图像合成得到双目视频,具体地,基于双目视频帧图像中第一目标帧图像的时序,将双目视频帧图像进行合成形成双目视频。
120.进一步地,请参照图6,图6为本公开实施例提供的视频帧图像处理装置200的功能模块示意图,本实施例可以根据电子设备执行的方法实施例对视频帧图像处理装置200进行功能模块的划分,也即该视频帧图像处理装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中,该基于视频帧图像处理装置200可以包括获取模块210、平滑模块220、确定模块230及合成模块240,下面分别对该视频帧图像处理装置200的各个功能模块的功能进行详细阐述。
121.获取模块210,用于获取待处理的单目视频中各视频帧图像的第一深度图像。
122.视频帧图像的第一深度图像中包括视频帧图像中各个像素点的图像深度。
123.获取模块210可以用于执行上述的步骤s11,关于获取模块210的详细实现方式可以参照上述针对步骤s11的详细描述即可。
124.平滑模块220,用于针对各视频帧图像中的每个第一目标视频帧图像,基于所述第一目标视频帧图像的第一深度图像及该第一目标视频帧图像的前一视频帧图像的第一深度图像对所述第一目标视频帧图像的第一深度图像进行时域平滑,得到所述第一目标视频帧图像的第二深度图像。
125.第一目标视频帧图像可以为第一观察视角下的视频图像,第一观察视角可以是人左眼所对应的观察视角,对应的第一目标视频帧图像可以为左视图。在本技术实施例中,第一目标视频帧图像为单目视频中的非首帧。
126.平滑模块220可以用于执行上述的步骤s12,关于平滑模块220的详细实现方式可以参照上述针对步骤s12的详细描述即可。
127.确定模块230,用于根据第一目标视频帧图像的第二深度图像,得到所述第一目标视频帧图像在第二观察视角下的第二目标视频帧图像。
128.基于第二深度图像可以得到在第二观察视角下的位差图,然后基于位差图对第一目标视频帧图像进行像素偏移可以得到第二目标视频帧图像。其中,第二观察视角可以是
人右眼所对应的观察视角,对应的第二目标视频帧图像可以为右视图。
129.确定模块230可以用于执行上述的步骤s13,关于确定模块230的详细实现方式可以参照上述针对步骤s13的详细描述即可。
130.合成模块240,用于将所述第一目标视频帧图像与所述第二目标视频帧图像进行合成,得到双目视频帧图像。
131.合成模块240可以用于执行上述的步骤s14,关于合成模块240的详细实现方式可以参照上述针对步骤s14的详细描述即可。
132.需要说明的是,应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以在物理上分开。且这些模块可以全部以软件(比如,开源软件)可以通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理器调用软件的形式实现,部分模块通过硬件的形式实现。作为一种示例,平滑模块220可以由单独处理器运行实现,可以以程序代码的形式存储于上述装置或系统的存储器中,由上述装置或系统的某一个处理器调用并执行以上平滑模块220的功能,其它模块的实现与之类似,在此就不再赘述。此外这些模块可以全部或部分集成在一起,也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路,在实现过程中,上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。
133.请参照图7,图7示出了本公开实施例提供的用于实现上述的视频帧图像处理方法的电子设备10的硬件结构示意图。如图7所示,电子设备10可包括处理器11、计算机可读存储介质12及总线13。
134.在具体实现过程中,处理器11执行计算机可读存储介质12存储的计算机执行指令(例如图6中所示的视频帧图像处理装置200包括的获取模块210、平滑模块220、确定模块230及合成模块240),使得处理器11可以执行如上方法实施例的视频帧图像处理方法,其中,处理器11以及计算机可读存储介质12可以通过总线13连接。
135.处理器11的具体实现过程可参见上述电子设备10执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
136.计算机可读存储介质12可以是,但不限于,随机存取存储器(random accessmemory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmableread

only memory,prom),可擦除只读存储器(erasable programmable read

onlymemory,eprom),电可擦除只读存储器(electric erasable programmable read

onlymemory,eeprom)等。其中,存储器111用于存储程序或者数据。
137.总线13可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
138.上述图7仅仅是本技术实施例提供的电子设备10的一种可能结构示意图,在其他实施例中电子设备10还可以包括更多的部件,比如通信单元,电子设备10可以将合成的双目视频通过通信单元发送给其他通信设备,又比如摄像头,电子设备10可以通过摄像头获取单目视频帧图像。
139.此外,本技术实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的视频帧图像处理方法。
140.综上所述,本技术实施例提供的视频帧图像处理方法及电子设备,首先,采用第一观察视角下的单目视频中相邻两视频帧图像的第一深度图像,对单目视频中第一目标视频帧图像的第一深度图像进行时域平滑得到第二深度图像;接着,根据第一目标视频帧图像的第二深度图像得到第二观察视角下的第二目标视频帧图像;最后,将第一目标视频帧图像与第二目标视频帧图像进行合成,得到双目视频帧图像。一方面,以单目视频帧图像为基础合成双目视频帧图像,可以减小对硬件设备的要求,降低制作成本;另一方面,对第一目标视频帧图像的深度图像进行时域平滑可以确保深度图像在视频帧之间具有连续性,由平滑后的深度图像确定第二观察视角下的第二目标视频帧图像,在播放由第一目标视频帧图像及第二目标视频帧图像组成的双目视频帧图像时不会存在画面抖动的技术问题。
141.此外,除非权利要求中明确说明,本说明书处理元素和序列的顺序、数字字母的使用、或其它名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
142.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
143.以上所描述的实施例仅仅是本技术的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本技术的实施例的详细描述并非旨在限制本技术的保护范围,而仅仅是表示本技术的选定实施例。基于此,本技术的保护范围应以权利要求的保护范围为准。此外,基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本技术保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1