一种视频重建方法、装置、电子设备及存储介质与流程

文档序号:31456899发布日期:2022-09-07 14:52阅读:59来源:国知局
一种视频重建方法、装置、电子设备及存储介质与流程

1.本公开实施例涉及数据处理技术领域,尤其涉及一种视频重建方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术的高速发展,视频在人们生活的方方面面发挥了重要作用。目前,人们已不再满足于二维(two dimensional,2d)视频的观看,而是希望观看到立体感更强的三维(three dimensional,3d)视频。
3.针对3d视频中的光场视频,人们在观看光场视频时,往往希望观看到6自由度(degree of freedom,dof)的多视角信息。但是,目前重建得到的光场视频无法满足这一观看需求,即无法允许人们以6dof进行观看。


技术实现要素:

4.本公开实施例提供了一种视频重建方法、装置、电子设备及存储介质,以重建得到可满足6dof观看需求的光场视频。
5.第一方面,本公开实施例提供了一种视频重建方法,可以包括:
6.获取基于光场采集设备采集到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
7.针对原始视频中的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
8.根据原始视频中于每一帧上采集到的各同步视频帧、以及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
9.第二方面,本公开实施例还提供了一种视频重建装置,可以包括:
10.原始视频采集模块,用于获取基于光场采集设备采集的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
11.虚拟视频帧生成模块,用于针对原始视频中各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
12.光场视频重建模块,用于根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
13.第三方面,本公开实施例还提供了一种电子设备,可以包括:
14.一个或多个处理器;
15.存储器,用于存储一个或多个程序,
16.当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本公开任意实施例所提供的视频重建方法。
17.第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例所提供的视频重建方法。
18.本公开实施例的技术方案,通过获取基于光场采集设备采集到的原始视频,由于光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组内包括多个自由视角采集设备,因此由此采集到的原始视频同时具有竖直方向上以及水平方向上的多视角信息即光场信息;进而,为了在部署稀疏的自由视角采集设备的基础上,重建得到稠密的光场信息,可以针对原始视频中于同一帧上采集到的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;进一步,根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧进行光场重建,得到光场视频。上述技术方案,于采集过程中,在水平方向上的自由视角采集的基础上加入了竖直方向上的自由视角的采集,并且通过各相邻视频帧生成虚拟视频帧来重建得到稠密的光场信息,从而得到了可以满足6dof观看需求的光场视频,由此允许用户基于增强现实(augmented reality,ar)或者头戴式显示设备等方式以6dof来观看该光场视频。
附图说明
19.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
20.图1是本公开实施例中的一种视频重建方法的流程图;
21.图2是本公开实施例中的一种视频重建方法中光场采集设备的摆放示意图;
22.图3是本公开实施例中的一种视频重建方法中相邻视频帧以及虚拟视频帧的示意图;
23.图4是本公开实施例中的再一种视频重建方法的流程图;
24.图5是本公开实施例中的再一种视频重建方法中虚拟视频帧的生成示意图;
25.图6是本公开实施例中的另一种视频重建方法的流程图;
26.图7是本公开实施例中的另一种视频重建方法中虚拟视频帧的生成示意图;
27.图8是本公开实施例中的一种视频重建装置的结构框图;
28.图9是本公开实施例中的一种电子设备的结构示意图。
具体实施方式
29.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
30.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公
开的范围在此方面不受限制。
31.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
32.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
33.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
34.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
35.图1是本公开实施例中所提供的一种视频重建方法的流程图。本实施例可适用于重建光场视频的情况,尤其适用于基于自由视角采集方案重建光场视频的情况。该方法可以由本公开实施例提供的视频重建装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在电子设备上,该电子设备可以是各种终端设备或是服务器。
36.参见图1,本公开实施例的方法具体包括如下步骤:
37.s110、获取基于光场采集设备采集得到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备。
38.其中,光场采集设备可以是预先摆放完成的用于采集原始视频的设备,其可包括至少两组摆放于不同高度上的自由视角采集设备组,由此可以采集得到竖直方向上的多视角信息,该竖直方向可以理解为高度所在的方向,即垂直于地平面的方向;在此基础上,每组自由视角采集设备组可以包括多个自由视角采集设备,由此可以采集得到水平方向上的多视角信息,该水平方向可以理解为平行于地平面的方向。实际应用中,可选的,每组自由视角采集设备组内的各自由视角采集设备可以呈环形摆放,即360
°
环拍(outside-in)摆放,以便可以采集得到水平方向上的更多视角下的光场信息。示例性的,参见图2所示的光场采集设备的摆放示意图(其中的横线表示地平面,并且竖线表示高度),该光场采集设备包括摆放在不同高度上的第一自由视角采集设备组20和第二自由视角采集设备组21,以第一自由视角采集设备组20为例,其中包括多个自由视角采集设备201,这些自由视角采集设备201位于同一高度上,并且在水平方向上部署一圈(图示中仅示意出部分的自由视角采集设备201)。
39.基于光场采集设备采集到的原始视频,可以认为是基于多个自由视角采集设备同时捕获目标空间内来自不同视点即视角的光场样本后得到的视频。正如上文,由于光场采集设备可以同时采集到水平方向以及竖直方向上的光场信息,因此由此重建得到的原始视频具有相对完整的光场信息。
40.s120、针对原始视频中各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻。
41.其中,为了重建出具有全备即稠密的光场信息的光场视频,一种可选方案是部署
非常稠密的自由视角采集设备,但该方案有可能存在如下问题:1)硬件成本较高;2)自由视角采集设备需要做到白平衡和亮度等设备参数的一致性、以及时间同步的一致性,越多数量的自由视角采集设备,越难以统一一致性;3)需要对每个自由视角采集设备进行标定,越多数量的自由视角采集设备会导致标定复杂度的显著上升,从而导致标定时间过长。
42.在此基础上,为了既能够得到上述全备的光场信息,又不会存在上述问题,本公开实施例提出了在稀疏部署的自由视角采集设备的基础上,通过生成虚拟视频帧来得到上述全备的光场信息的技术方案。具体的,各同步视频帧可以是原始视频中于同一帧上采集得到的不同视角下的视频帧,即各组自由视角采集设备组内的各自由视角采集设备同步采集得到的视频帧。相邻视频帧可以是各同步视频帧中的视频帧,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻,如在水平方向、竖直方向上或对角方向上相邻等。示例性的,参见图3,为了简化表述,图示中的视频帧通过view进行表示,不同位置(即图示中的数字表示的坐标对应的位置)下的视频帧的具体含义,如下所述。view(0,0)、view(0,1)、view(1,0)和view(1,1)分别表示某相邻视频帧,其中,view(0,0)与view(0,1)分别对应的自由视角采集设备在水平方向上相邻,view(1,0)与view(1,1)情况类似;view(0,0)与view(1,0)分别对应的自由视角采集设备在竖直方向上相邻,view(0,1)与view(1,1)情况类似;view(0,0)与view(1,1)分别对应的自由视角采集设备在对角方向上相邻。
43.进一步,根据各个相邻视频帧生成虚拟视频帧,该虚拟视频帧可以理解为相应的虚拟视角下的视频帧,即由该虚拟视角对应的虚拟视角采集设备采集到的视频帧。在实际应用中,可选的,上述虚拟视频帧可以通过多种方式生成,如插帧方式或是三维重建方式等,在此未做具体限定。再可选的,虚拟视频帧对应的虚拟视角位于目标范围内,该目标范围可以是各相邻视频帧对应的物理视角构成的范围,如图3中的view(0,0)、view(0,1)、view(1,0)和view(1,1)分别对应的物品视角构成的范围,此时的虚拟视频帧可以是图3中的view(0.6,0.3);也可以是该各相邻视频帧对应的物理视角构成的范围之外的范围,此时的虚拟视频帧可以是图3中的view(0.6,1.2);等等,在此未做具体限定。
44.s130、根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
45.其中,原始视频中包括于每一帧上分别采集得到的各同步视频帧,如光场采集设备包括m组自由视角采集设备组,每组自由视角采集设备组内包括n个自由视角采集设备,m和n均是大于2的整数,则原始视频中包括于每一帧上分别采集到的m*n个同步视频帧。针对每帧上的各同步视频帧,经过上述步骤已经得到该各同步视频帧对应的虚拟视频帧。因此,可以基于每帧上分别采集得到的各同步视频帧、以及该各同步视频帧对应的虚拟视频帧重建得到稠密的光场信息,从而得到具备该稠密的光场信息的光场视频。
46.本公开实施例的技术方案,通过获取基于光场采集设备采集到的原始视频,由于光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组内包括多个自由视角采集设备,因此由此采集到的原始视频同时具有竖直方向上以及水平方向上的多视角信息即光场信息;进而,为了在部署稀疏的自由视角采集设备的基础上,重建得到稠密的光场信息,可以针对原始视频中于同一帧上采集到的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;进一步,根据原始视频
中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧进行光场重建,得到光场视频。上述技术方案,于采集过程中,在水平方向上的自由视角采集的基础上加入了竖直方向上的自由视角的采集,并且通过各相邻视频帧生成虚拟视频帧来重建得到稠密的光场信息,从而得到了可以满足6dof观看需求的光场视频,由此允许用户基于ar或者头戴式显示设备等方式以6dof来观看该光场视频。
47.图4是本公开实施例中提供的再一种视频重建方法的流程图。本实施例以上述实施例中各个可选方案为基础进行优化。在本实施例中,可选的,根据各相邻视频帧生成虚拟视频帧,可包括:将相邻视频帧对应的自由视角采集设备作为相邻视角采集设备,且对各相邻视频帧进行特征匹配,得到各相邻视频帧中匹配的特征点;针对每个相邻视角采集设备,获取相邻视角采集设备的物理标定结果,根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点;根据各相邻视频帧中匹配的特征点分别对应的空间点,确定目标点,并获取待生成的虚拟视频帧对应的虚拟视角采集设备的虚拟标定结果,根据虚拟标定结果对目标点进行投影,得到投影点;根据任一相邻视频帧中的各特征点分别对应的投影点,生成虚拟视频帧。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
48.相应的,如图4所示,本实施例的方法具体可以包括如下步骤:
49.s210、获取基于光场采集设备采集得到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备。
50.s220、针对原始视频中各同步视频帧中的相邻视频帧,将相邻视频帧对应的自由视角采集设备作为相邻视角采集设备,且对各相邻视频帧进行特征匹配,得到各相邻视频帧中匹配的特征点,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻。
51.其中,针对各相邻视频帧执行s220-s250。具体的,将用于采集相邻视频帧的自由视角采集设备作为相邻视角采集设备。对各相邻视频帧进行特征匹配,该特征匹配过程可以基于立体匹配(stereo matching)等算法来实现,从而得到各相邻视频帧中匹配的特征点,如相邻视频帧1中的特征点a1、相邻视频帧2中的特征点a2、相邻视频帧中的特征点a3、及相邻视频帧中的特征点a4匹配。
52.s230、针对每个相邻视角采集设备,获取到相邻视角采集设备的物理标定结果,并根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点。
53.其中,针对每个相邻视角采集设备,物理标定结果可以是对其进行标定后的结果,其可以通过位姿(r,t)和内参(k)进行表示,其中r表示旋转矩阵,t表示平移矩阵。需要说明的是,由于相邻视角采集设备是在物理上实际存在的设备,因此这里将其的标定结果称为物理标定结果。进而,针对相邻视角采集设备采集得到的相邻视频帧中的每个特征点,根据该相邻视角采集设备的物理标定结果对该特征点进行空间投影,从而得到空间点。
54.s240、根据各相邻视频帧中匹配的特征点分别对应的空间点,确定目标点,获取待生成的虚拟视频帧对应的虚拟视角采集设备的虚拟标定结果,根据虚拟标定结果对目标点进行投影,得到投影点。
55.其中,针对各相邻视频帧中匹配的特征点分别对应的空间点,如上述示例中的a1、a2、a3以及a4分别对应的空间点,根据这些空间点确定目标点。在实际应用中,可选的,当各相邻视频帧中存在多少对匹配的特征点,则可以确定出多少个目标点。再可选的,目标点可通过如下方式确定:针对每个相邻视频帧,将该相邻视频帧内的特征点与该特征点对应的空间点进行连接,得到该特征点所在的直线;在得到各相邻视频帧中匹配的特征点各自所在的直线后,将各直线的交点作为目标点。
56.虚拟视角采集设备可以是用于采集待生成的虚拟视频帧的设备,虚拟标定结果可以是其的标定结果。类似于物理标定结果,因为虚拟视角采集设备并非是物理上真实存在的设备,因此将其的标定结果称为虚拟标定结果。根据虚拟标定结果对目标点进行投影,得到待生成的虚拟视频帧上的投影点(即像素点)。在实际应用中,上述由目标点得到投影点的过程,可以理解为对重建结果(即空间点)进行绘制的过程,即将目标点绘制到待生成的虚拟视频帧上的过程。
57.s250、根据任一相邻视频帧中各特征点分别对应的投影点,生成虚拟视频帧。
58.其中,由于各相邻视频帧中匹配的特征点对应于同一投影点,因此可根据任一相邻视频帧中各特征点分别对应的投影点生成虚拟视频。即在得到待生成的虚拟视频帧上的每个投影点后,可以由此生成虚拟视频帧。
59.为了从整体上更好地理解虚拟视频帧的生成过程,下面结合具体示例,对其进行示例性说明。示例性的,如图5所示,以相邻视角采集设备50采集到的相邻视频帧51、以及相邻视角采集设备52采集到的相邻视频帧53为例,相邻视频帧51上的a1和相邻视频帧53上的a2是匹配的特征点,投影a1,得到a1对应的空间点k1;然后,连线a1与k1,得到a1所在的直线l1。a2对应的空间点k2、以及a2所在的直线l2的得到过程类似,在此不再赘述。将a1所在的直线l1与a2所在的直线l2的交点作为目标点m,然后根据虚拟标定结果对目标点m进行投影,得到投影点t。相邻视频帧51和相邻视频帧53上其余匹配的特征点对应的投影点的得到过程类似,在此不再赘述。在得到相邻视频帧51或相邻视频帧53上各特征点对应的投影点后,可以根据这些投影点得到虚拟视角采集设备54采集到的虚拟视频帧55。
60.s260、根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
61.本公开实施例的技术方案,通过将相邻视频帧对应的自由视角采集设备作为相邻视角采集设备,并且对各相邻视频帧进行特征匹配,得到各相邻视频帧中匹配的特征点;进而,针对每个相邻视角采集设备,获取相邻视角采集设备的物理标定结果,并根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点;然后,根据各相邻视频帧中匹配的特征点分别对应的空间点,确定目标点,并获取待生成的虚拟视频帧对应的虚拟视角采集设备的虚拟标定结果,从而根据虚拟标定结果投影目标点,得到投影点;在得到任一相邻视频帧中各特征点分别对应的投影点后,基于这些投影点生成虚拟视频,由此基于三维重建方式达到了生成高精准的虚拟视频的效果。
62.一种可选的技术方案,在上述实施例的基础上,物理标定结果包括内参和位姿,根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点,可以包括:将采集的相邻视频帧作为采集视频帧;根据内参和位姿得到相邻视角采集设备下的物理视角的深度信息,且获取采集视频帧中的特征点的第一像素值;根据深度信息
和第一像素值进行空间反投影,得到内参的反投影矩阵以及位姿的反投影矩阵;根据内参的反投影矩阵和位姿的反投影矩阵,对采集视频帧中的特征点进行投影,得到空间点。
63.其中,在针对每个相邻视角采集设备分别进行阐述时,这里为了简化表述,强调是对该相邻视角采集设备采集到的相邻视频帧进行处理,不是对其余相邻视角采集设备采集到的相邻视频帧进行处理,将该相邻视角采集设备采集到的相邻视频帧作为采集视频帧。进而,根据内参和位姿得到该相邻视角采集设备下的物理视角的深度信息,并且获取采集视频帧中的特征点的第一像素值,该第一像素值可以通过rgb信息进行表示。进一步,根据深度信息和第一像素值进行空间反投影,得到内参的反投影矩阵以及位姿的反投影矩阵。这样一来,可以根据内参的反投影矩阵和位姿的反投影矩阵,对该采集视频帧中的特征点进行投影,得到空间点,例如,继续以上述示例为例,p=[r|t]-1
k-1
p
t
,其中,p
t
表示该采集视频帧中的特征点,k-1
表示内参的反投影矩阵,[r|t]-1
表示位姿的反投影矩阵,p表示空间点。上述技术方案,可以准确得到空间点。
[0064]
另一种可选的技术方案,在上述实施例的基础上,上述视频场景方法,还可包括:分别获取各相邻视频帧中匹配的特征点的第二像素值,并且分别获取各相邻视角采集设备和虚拟视角采集设备间的相距距离;根据相距距离确定与相距距离对应的相邻视角采集设备的权重;根据各第二像素值以及各权重确定投影点的投影像素值;根据任一相邻视频帧中的各特征点分别对应的投影点,生成虚拟视频,可包括:根据任一相邻视频帧中的各特征点分别对应的投影点、以及各特征点分别对应的投影点的投影像素值,生成虚拟视频。
[0065]
其中,分别获取每个相邻视频帧中的匹配的特征点的第二像素值,该第二像素值可以通过rgb信息进行表示。虽然第二像素值是各相邻视频帧中匹配的特征点的像素值,但由于各相邻视角采集设备的位姿不同,这就导致这些第二像素值可能存在差异,如a1偏黑并且a2偏灰等。在此基础上,为了准确确定这些匹配的特征点对应的投影点的投影像素值,可以分别获取各相邻视角采集设备和虚拟视角采集设备间的相距距离,该相距距离可以通过欧式距离、马氏距离、余弦距离、汉明距离或是曼哈顿距离等进行表示,在此未做具体限定。通常情况下,相距距离越小,则具有该相距距离的相邻视角采集设备下的第二像素值对投影像素值的影响程度越大,反义亦然成立,因此可以根据相距距离确定相距距离对应的相邻视角采集设备的权重,从而根据各第二像素值、以及与各第二像素值分别对应的权重确定投影像素值。需要说明的是,上文中阐述的特征点、空间点、目标点和投影点,主要是表示相应的像素点(或是空间点)的位置信息,因此在生成虚拟视频帧时,可以根据各投影点、以及各投影点的投影像素值实现,由此达到了虚拟视频帧的准确生成的效果。
[0066]
图6是本公开实施例中提供的另一种视频重建方法的流程图。本实施例以上述实施例中各个可选方案为基础进行优化。在本实施例中,可选的,根据各相邻视频帧生成虚拟视频帧,可包括:确定各相邻视频帧中在第一方向上相邻的第一视频帧和第二视频帧;在第一方向上,根据第一视频帧以及第二视频帧进行插帧,得到中间视频帧;在与第一方向垂直的第二方向上,根据各中间视频帧进行插帧,得到虚拟视频帧。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
[0067]
相应的,如图6所示,本实施例的方法具体可以包括如下步骤:
[0068]
s310、获取基于光场采集设备采集得到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采
集设备组包括多个自由视角采集设备。
[0069]
s320、针对原始视频中各同步视频帧中的相邻视频帧,确定各相邻视频帧中在第一方向上相邻的第一视频帧和第二视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻。
[0070]
其中,针对各相邻视频帧执行s320-s340。第一方向可以是水平方向或竖直方向,这与实际情况有关,在此未做具体限定。第一视频帧和第二视频帧可以是各相邻视频帧中在第一方向上相邻的两个视频帧。示例性的,如图7所示,为了简化表述,图示中的视频帧是通过view进行表示,不同位置(即图示中的数字表示的坐标对应的位置)下的视频帧的具体含义,如下所述。view(0,0)和view(0,1)可以理解为在水平方向上相邻的两个视频帧,view(1,0)和view(1,1)的情况类似;view(0,0)和view(1,0)可以理解为在竖直方向上相邻的两个视频帧,view(0,1)和view(1,1)的情况类似。
[0071]
s330、在第一方向上,根据第一视频帧和第二视频帧进行插帧,得到中间视频帧,并在与第一方向相垂直的第二方向上,根据各中间视频帧进行插帧,得到虚拟视频帧。
[0072]
其中,在第一方向上,由于存在至少两对第一视频帧和第二视频帧,针对每对第一视频帧和第二视频帧,根据这二者进行插帧,得到中间视频帧,具体插帧方案可以是光流插帧或是基于深度图像的渲染(depth image based rendering,dibr)插帧等,在此未做具体限定。示例性的,以第一方向是水平方向为例,如图7所示,由此插帧得到的中间视频帧分别可以是view(0,0.3)和view(1,0.3)。进一步,在与第一方向垂直的第二方向上,根据插帧得到的各中间视频帧再次进行插帧,得到虚拟视频帧。示例性的,仍以上述示例为例,第二方向是竖直方向,根据view(0,0.3)和view(1,0.3)在竖直方向上插帧得到view(0.6,0.3)。
[0073]
s340、根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
[0074]
本公开实施例的技术方案,通过确定各相邻视频帧中在第一方向上相邻的第一视频帧和第二视频帧;在第一方向上,根据第一视频帧以及第二视频帧进行插帧,得到中间视频帧,然后在与第一方向垂直的第二方向上,根据各中间视频帧进行插帧,得到虚拟视频帧,由此基于插帧方式达到了虚拟视频的快速生成的效果。
[0075]
一种可选的技术方案,在上述实施例的基础上,上述视频重建方法,还可包括:将平行于地平面的方向作为水平方向,并且将垂直于地平面的方向作为竖直方向;获取任意两个自由视角采集设备在水平方向上的水平间隔、及任意两个自由视角采集设备在竖直方向上的竖直间隔;根据水平间隔和竖直间隔间的数值关系,确定将水平方向或是竖直方向作为第一方向。其中,当水平方向上的各自由视角采集设备是等间隔摆放时,任意两个自由视角采集设备在水平方向上的水平间隔相同,否则存在差异,这与实际情况有关,在此未做限定。类似的,当同组内的各自由视角采集设备基本位于同一高度时,任意两个自由视角采集设备在竖直方向上的竖直间隔相同,否则存在,这亦与实际情况有关,在此未做限定。在此基础上,根据水平间隔和竖直间隔间的数值关系,确定将水平方向或是竖直方向作为第一方向,如在水平间隔小于或是等于竖直间隔时,将水平间隔作为第一方向;否则,将竖直间隔作为第一方向。换言之,可以先在间隔更小的那个方向上进行插帧,得到中间视频帧,从而基于此在间隔更大的那个方向上进行插帧,得到虚拟视频帧。这样设置的好处在于,相较于间隔更大的那个方向,在间隔更小的那个方向上插帧得到的中间视频帧的误差较小,
由此可以减少基于中间视频帧插帧得到的虚拟视频帧的累积误差,从而保证了虚拟视频帧的精准性。
[0076]
图8为本公开实施例中提供的视频重建装置的结构框图,该装置用于执行上述任意实施例所提供的视频重建方法。该装置与上述各实施例的视频重建方法属于同一个构思,在视频重建装置的实施例中未详尽描述的细节内容,可以参考上述视频重建方法的实施例。参见图8,该装置具体可以包括:原始视频采集模块410、虚拟视频帧生成模块420和光场视频重建模块430。
[0077]
其中,原始视频采集模块410,用于获取基于光场采集设备采集到的原始视频,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
[0078]
虚拟视频帧生成模块420,用于针对原始视频中各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
[0079]
光场视频重建模块430,用于根据原始视频中于每一帧上采集到的各同步视频帧、以及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
[0080]
可选的,虚拟视频帧生成模块420,可以包括:
[0081]
特征点得到单元,用于将相邻视频帧对应的自由视角采集设备作为相邻视角采集设备,并且对各相邻视频帧进行特征匹配,得到各相邻视频帧中匹配的特征点;
[0082]
空间点得到单元,用于针对每个相邻视角采集设备,获取相邻视角采集设备的物理标定结果,根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点;
[0083]
投影点得到单元,用于根据各相邻视频帧中匹配的特征点分别对应的空间点,确定目标点,并获取待生成的虚拟视频帧对应的虚拟视角采集设备的虚拟标定结果,根据虚拟标定结果对目标点进行投影,得到投影点;
[0084]
虚拟视频帧生成单元,用于根据任一相邻视频帧中的各特征点分别对应的投影点,生成虚拟视频帧。
[0085]
在此基础上,可选的,物理标定结果包括内参和位姿,空间点得到单元,可以包括:
[0086]
采集视频帧得到子单元,用于将相邻视角采集设备采集的相邻视频帧作为采集视频帧;
[0087]
第一像素值获取子单元,用于根据内参和位姿得到相邻视角采集设备下的物理视角的深度信息,并且获取采集视频帧中的特征点的第一像素值;
[0088]
反投影矩阵得到子单元,用于根据深度信息和第一像素值进行空间反投影,得到内参的反投影矩阵以及位姿的反投影矩阵;
[0089]
空间点得到子单元,用于根据内参的反投影矩阵和位姿的反投影矩阵,对采集视频帧中的特征点进行投影,得到空间点。
[0090]
再可选的,上述视频重建装置,还可以包括:
[0091]
相距距离获取模块,用于分别获取各相邻视频帧中的匹配的特征点的第二像素值,并且分别获取各相邻视角采集设备和虚拟视角采集设备间的相距距离;
[0092]
权重确定模块,用于根据相距距离确定相距距离对应的相邻视角采集设备的权
重;
[0093]
投影像素值确定模块,用于根据各第二像素值和各权重确定投影点的投影像素值;
[0094]
虚拟视频帧生成单元,具体可以用于:
[0095]
根据任一相邻视频帧中的各特征点分别对应的投影点、以及各特征点分别对应的投影点的投影像素值,生成虚拟视频帧。
[0096]
可选的,虚拟视频帧生成模块420,可以包括:
[0097]
视频帧确定单元,用于确定各相邻视频帧中在第一方向上相邻的第一视频帧和第二视频帧;
[0098]
中间视频帧得到单元,用于在第一方向上,根据第一视频帧以及第二视频帧进行插帧,得到中间视频帧;
[0099]
虚拟视频帧得到单元,用于在与第一方向垂直的第二方向上,根据各中间视频帧进行插帧,得到虚拟视频帧。
[0100]
在此基础上,可选的,上述视频重建装置,还可以包括:
[0101]
竖直方向得到模块,用于将平行于地平面的方向作为水平方向,并且垂直于地平面的方向作为竖直方向;
[0102]
竖直间隔获取模块,用于获取任意两个自由视角采集设备在水平方向上的水平间隔、以及任意两个自由视角采集设备在竖直方向上的竖直间隔;
[0103]
第一方向得到模块,用于根据水平间隔和竖直间隔间的数值关系,确定将水平方向或是竖直方向作为第一方向。
[0104]
可选的,每组自由视角采集设备组内的各自由视角采集设备呈环形摆放;和/或,虚拟视频帧对应的虚拟视角位于目标范围内,目标范围是各相邻视频帧对应的物理视角构成的范围。
[0105]
本公开实施例提供的视频重建装置,通过原始视频采集模块获取基于光场采集设备采集到的原始视频,由于该光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组内包括多个自由视角采集设备,因此由此采集到的原始视频同时具有竖直方向上及水平方向上的多视角信息即光场信息;进而,为了在部署稀疏的自由视角采集设备的基础上,重建得到稠密的光场信息,通过虚拟视频帧生成模块针对原始视频中于同一帧上采集到的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;进一步,通过光场视频重建模块根据原始视频中于每一帧上采集到的各同步视频帧、及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。上述装置,于采集过程中,在水平方向上的自由视角采集的基础上加入了竖直方向上的自由视角的采集,并且通过各相邻视频帧生成虚拟视频帧来重建得到稠密的光场信息,从而得到了可满足6dof观看需求的光场视频,由此允许用户基于增强现实ar或者头戴式显示设备等方式以6dof来观看该光场视频。
[0106]
本公开实施例所提供的视频重建装置可执行本公开任意实施例所提供的视频重建方法,具备执行方法相应的功能模块和有益效果。
[0107]
值得注意的是,上述视频重建装置的实施例中,所包括的各个单元和模块只是按
照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
[0108]
下面参考图9,其示出了适于用来实现本公开实施例的电子设备(例如图9中的终端设备或服务器)500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0109]
如图9所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0110]
通常,以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图9中示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0111]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom 502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
[0112]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述
的任意合适的组合。
[0113]
在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0114]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0115]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
[0116]
获取基于光场采集设备采集到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
[0117]
针对原始视频中的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
[0118]
根据原始视频中于每一帧上采集到的各同步视频帧、以及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
[0119]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0120]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0121]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,原始视频采集模块还可被描述为“获取基于光场采集设备采集的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组
自由视角采集设备组包括多个自由视角采集设备的模块”。
[0122]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0123]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0124]
根据本公开的一个或多个实施例,【示例一】提供了一种视频重建方法,该方法可以包括:
[0125]
获取基于光场采集设备采集到的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
[0126]
针对原始视频中的各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
[0127]
根据原始视频中于每一帧上采集到的各同步视频帧、以及各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
[0128]
根据本公开的一个或多个实施例,【示例二】提供了示例一的方法,根据各相邻视频帧生成虚拟视频帧,可以包括:
[0129]
将相邻视频帧对应的自由视角采集设备作为相邻视角采集设备,并且对各相邻视频帧进行特征匹配,得到各相邻视频帧中匹配的特征点;
[0130]
针对每个相邻视角采集设备,获取相邻视角采集设备的物理标定结果,并根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点;
[0131]
根据各相邻视频帧中匹配的特征点分别对应的空间点确定目标点,并获取待生成的虚拟视频帧对应的虚拟视角采集设备的虚拟标定结果,根据虚拟标定结果对目标点进行投影,得到投影点;
[0132]
根据任一相邻视频帧中的各特征点分别对应的投影点,生成虚拟视频帧。
[0133]
根据本公开的一个或是多个实施例,【示例三】提供了示例二的方法,物理标定结果包括内参和位姿,根据物理标定结果对相邻视角采集设备采集的相邻视频帧中的特征点进行投影,得到空间点,可以包括:
[0134]
将相邻视角采集设备采集的相邻视频帧作为采集视频帧;
[0135]
根据内参和位姿得到相邻视角采集设备下的物理视角的深度信息,且获取采集视频帧中的特征点的第一像素值;
[0136]
根据深度信息和第一像素值进行空间反投影,得到内参的反投影矩阵以及位姿的反投影矩阵;
[0137]
根据内参的反投影矩阵以及位姿的反投影矩阵,对采集视频帧中的特征点进行投影,得到空间点。
[0138]
根据本公开的一个或是多个实施例,【示例四】提供了示例二的方法,上述光场重建方法,还可以包括:
[0139]
分别获取各相邻视频帧中匹配的特征点的第二像素值,且分别获取各相邻视角采集设备和虚拟视角采集设备间的相距距离;
[0140]
根据相距距离确定相距距离对应的相邻视角采集设备的权重;
[0141]
根据各第二像素值和各权重确定投影点的投影像素值;
[0142]
根据任一相邻视频帧中的各特征点分别对应的投影点,生成虚拟视频帧,可以包括:
[0143]
根据任一相邻视频帧中的各特征点分别对应的投影点、以及各特征点分别对应的投影点的投影像素值,生成虚拟视频帧。
[0144]
根据本公开的一个或多个实施例,【示例五】提供了示例一的方法,根据各相邻视频帧生成虚拟视频帧,可以包括:
[0145]
确定各相邻视频帧中在第一方向上相邻的第一视频帧和第二视频帧;
[0146]
在第一方向上,根据第一视频帧和第二视频帧进行插帧,得到中间视频帧;
[0147]
在与第一方向垂直的第二方向上,根据各中间视频帧进行插帧,得到虚拟视频帧。
[0148]
根据本公开的一个或是多个实施例,【示例六】提供了示例五的方法,上述光场重建方法,还可以包括:
[0149]
将平行于地平面的方向作为水平方向,并且垂直于地平面的方向作为竖直方向;
[0150]
获取任意两个自由视角采集设备在水平方向上的水平间隔、以及任意两个自由视角采集设备在竖直方向上的竖直间隔;
[0151]
根据水平间隔和竖直间隔间的数值关系,确定将水平方向或是竖直方向作为第一方向。
[0152]
根据本公开的一个或是多个实施例,【示例七】提供了示例一的方法,每组自由视角采集设备组内的各自由视角采集设备呈环形摆放;和/或,
[0153]
虚拟视频帧对应的虚拟视角位于目标范围内,目标范围是各相邻视频帧对应的物理视角构成的范围。
[0154]
根据本公开的一个或多个实施例,【示例八】提供了一种视频重建装置,该装置可以包括:
[0155]
原始视频采集模块,用于获取基于光场采集设备采集的原始视频,其中,光场采集设备包括至少两组自由视角采集设备组,各组自由视角采集设备组摆放于不同高度上,各组自由视角采集设备组包括多个自由视角采集设备;
[0156]
虚拟视频帧生成模块,用于针对原始视频中各同步视频帧中的相邻视频帧,根据各相邻视频帧生成虚拟视频帧,其中,各同步视频帧于同一帧上采集得到,任意两个相邻视频帧分别对应的自由视角采集设备在摆放位置上相邻;
[0157]
光场视频重建模块,用于根据原始视频中于每一帧上采集到的各同步视频帧、及
各同步视频帧对应的虚拟视频帧,进行光场重建,得到光场视频。
[0158]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0159]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0160]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1