自由视点视频导播方法及系统与流程

文档序号：13011217阅读：381来源：国知局

本发明涉及计算机视觉领域，特别涉及虚拟视点的合成方法，以及一种基于虚拟视点合成的交互性自由视点视频导播方法及系统。

背景技术：

传统的影视以及广播电视中，观众只能被动的接受拍摄者所拍摄或者导播员所导播的镜头，而且在视角或者镜头的切换过程中存在视点位置和视频画面的跳跃，导致观众缺乏观看的临场感和体验感。随着近年来多媒体显示技术的快速发展，尤其是多媒体终端处理能力的提升，多媒体信息采集设备的采集质量的提升，以及多种多样显示设备的发展，自由视点视频技术应运而生，向观众提供自由可选的观看视点成为一种需求。

舞台场景是最典型的广播电视场景之一。为实现向观众提供多方位、多方向观看体验的目的，舞台场景通常需采用如图1所示的相机拓扑结构进行拍摄。在多视点视频的传输过程中，所需带宽为单一视点视频传输的n倍，n是拍摄相机的数目。相机数目越多，越能够向观众提供更加平滑的视点切换。增加相机的数目提高了对传输带宽的需求，同时提高了采集系统的成本。此外，增加相机的数目也会增大视频录制时的压缩存储压力。自由视点视频需要保留场景不同视角的透视图像信息的正确性，采集到的多个视角的视频不能够进行融合。同时向观众传输n个点的视频增大了网络传输的压力，所需网络带宽为传输单一视点视频的n倍，随着视点数目增多，自由视点传输变成了不可能。

技术实现要素：

本发明的目的是为了解决现有技术中的自由视点视频传输的问题，提出一种自由视点视频导播方法及系统。

本发明的自由视点视频导播方法，包括以下步骤：s1：采集多视点视频；s2：对采集到的所述多视点视频进行匹配处理，得到各相邻视点与其对应视差图形成的“视点+视差图”视频；s3：根据用户的视点位置有选择地向用户传输所述“视点+视差图”视频；s4：依据所述“视点+视差图”视频，合成虚拟视点视频。

选优地，所述步骤s1中，通过宽基线稀疏相机阵列采集多视点视频。

选优地，所述步骤s2中，首先通过对采集到的所述多视点视频进行基于光流的宽基线多视点匹配处理，得到各相邻视点的视差图，然后再将所述多视点视频转换为“视点+视差图”的视频格式。

选优地，所述步骤s3中，根据客户端反馈的视点位置，向用户有选择地传输与所述视点位置相邻的“视点+视差图”视频。

选优地，所述步骤s4中，通过“卷绕”的方法，依据所述“视点+视差图”视频合成虚拟视点视频。

本发明还提出一种自由视点视频导播系统，包括：多视点采集装置，同步采集多视点视频；匹配装置，对采集到的所述多视点视频进行匹配处理，得到各相邻视点与其对应视差图形成的“视点+视差图”视频；合成装置，依据所述“视点+视差图”视频合成虚拟视点视频。

选优地，所述多视点采集装置包括：会聚式相机阵列，采集多视点视频；外同步控制器，控制多相机设备的同步，使得通过所述会聚式相机阵列采集的多视点视频信号一致；视频压缩器，对采集到的所述多视点视频进行压缩处理；视频存储服务器，对所述压缩处理后的多视点视频进行存储。

选优地，所述匹配装置中含有基于光流的宽基线多视点匹配方法程序，所述方法程序能够被执行，用于通过采集到的多视点视频得到各相邻视点的视差图。

选优地，所述合成装包含虚拟视点合成部件和客户端，所述客户端能够向匹配装置反馈用户的视点位置信息，所述虚拟视点合成部件能够依据所述“视点+视差图”视频合成虚拟视点视频。

选优地，所述虚拟视点合成部件中含有卷绕的方法程序，所述卷绕的方法程序能够被执行，用于根据所述“视点+视差图”视频合成虚拟视点视频。

与现有技术相比，本发明的有益效果有：

本发明的自由视点视频导播方法及系统，通过对采集到的多视点视频进行匹配处理，得到各相邻视点的视差图，然后根据用户的视点位置，通过相邻视点与其对应视差图形成的“视点+视差图”视频，能够合成任意视点的虚拟视点视频，从而能够向用户提供自由可选的观看视点视频。由于本发明自由视点视频导播方法及系统，能够根据用户的视点位置有选择地向用户传输“视点+视差图”视频，而不是将采集到的全部视点视频都进行传输，从而降低了网络传输的压力，降低了对传输带宽的需求。

进一步地，本发明通过采用宽基线稀疏相机阵列采集多视点视频，相比于现有的采用相机拓扑结构的采集技术，减少了相机的数量，降低了采集设备的成本，同时也减少了所采集的视点数目，减轻了视频的压缩存储压力。

进一步地，本发明通过对采集到的所述多视点视频进行基于光流的宽基线多视点匹配处理，得到各相邻视点的视差图，又通过“卷绕”的方法，依据所述“视点+视差图”视频合成虚拟视点视频，提高了虚拟视点合成的准确性。

附图说明

图1是本发明现有技术中的相机拓扑结构示意图。

图2是本发明基于虚拟视点合成的自由视点视频导播方法的流程示意图。

图3是本发明基于虚拟视点合成的自由视点视频导播系统的结构示意图。

图4是本发明多视点相机阵列同步采集装置的结构示意图。

图5是本发明基于光流的宽基线多视点匹配方法的流程示意图。

图6是本发明基于卷绕方法生成虚拟视点视频的流程示意图。

具体实施方式

下面结合具体实施方式并对照附图对本发明做进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

针对舞台场景，针对大基线相机阵列采集，本专利提出了一种基于虚拟视点合成的可交互的自由视点视频导播系统及方法，使得自由视点视频导播成为可能。

本发明基于虚拟视点合成的可交互的自由视点视频导播方法，如图2所示，包括以下步骤：s1：采集多视点视频；s2：对采集到的多视点视频进行匹配处理，得到各相邻视点与其对应视差图形成的“视点+视差图”视频；s3：根据用户的视点位置有选择地向用户传输“视点+视差图”视频；s4：依据“视点+视差图”视频合成虚拟视点视频。其中，步骤s1和s2中所说的多视点视频是指2个或2个以上视点视频。

另外，在步骤s2中，首先通过对采集到的多视点视频进行匹配处理，求得各相邻视点的视差图，然后再将多视点视频转换为“视点+视差图”的视频格式；在步骤s3中，根据客户端反馈的视点位置，向用户有选择地传输与所述视点位置相邻的“视点+视差图”视频。

另外，为减少采集设备的成本和减轻压缩存储压力，在步骤s1中，本发明采用宽基线稀疏相机阵列采集多视点视频，相比于现有的技术采用相机拓扑结构，减少了相机的数量，降低了采集设备的成本，减少了所采集的视点数目，减轻了视频的压缩存储压力；在步骤s2中，本发明使用基于光流的匹配算法对采集到的多视点视频进行处理，得到各相邻视点的视差图，然后再将所述多视点视频转换为“视点+视差图”的视频格式，“视点+视差图”的视频格式与原视点的视频格式相比，所占用的存储空间基本相同。因此，整体来说，本发明的基于虚拟视点合成的可交互的自由视点视频导播方法，降低了采集设备的成本，并且减轻了压缩存储压力。

为了降低视频的网络传输压力，在步骤s3中，本发明根据用户的视点位置有选择地向用户传输所述“视点+视差图”视频，或者更优选的方案，根据客户端反馈的视点位置，有选择地向用户传输与所述视点位置相邻的“视点+视差图”视频，而不是将采集到的全部视点视频都进行传输，从而降低了网络传输的压力，降低了对传输带宽的需求。

为保证客户端虚拟视点合成的准确性，两个相邻左右视点视频，左视点相对右视点的视差图，右视点相对左视点的视差图被计算，并被同时传给客户端，用于虚拟视点的生成。在步骤s4中，本发明采用一种基于“卷绕(warping)”的方法生成虚拟视点图像。

本发明基于虚拟视点合成的自由视点视频导播系统的结构示意图，如图3所示。该系统结构由三个主部分组成，一是多视点采集装置，具体的是多视点相机阵列同步采集装置；二是匹配装置，具体的是基于光流法的宽基线多视点匹配装置，其内部含有基于光流的宽基线多视点匹配的方法程序；三是合成装置，具体的是基于虚拟视点合成自由视点视频的合成装置，该合成装置包括虚拟视点合成部件和客户端，虚拟视点合成部件中含有卷绕的方法程序。客户端能够向匹配装置反馈用户的视点位置，通过客户端反馈的视点位置，匹配装置有选择地向虚拟视点合成部件传输与所述视点位置相邻的“视点+视差图”视频，虚拟视点合成部件依据“视点+视差图”视频，合成虚拟视点视频，然后再传输到客户端进行播放。由于客户端能够自由地向匹配装置反馈用户所在的任意视点位置，因此，虚拟视点合成部件依据“视点+视差图”视频，能够合成任意视点的虚拟视点视频，从而能够向用户提供自由可选的观看视点视频。

多视点相机阵列同步采集装置如图4所示，包括会聚式相机阵列、外同步控制器、视频压缩器和视频存储服务器。通过会聚式相机阵列对舞台场景进行采集，采集相机阵列采用宽基线稀疏相机阵列。为保证相机采集信号的一致性，相机阵列采用外同步控制，通过外同步控制器控制多相机设备的同步。采集到的多视点视频通过视频压缩器进行压缩，然后通过视频存储服务器进行存储。

为了满足观众交互性自由视点视频导播的需求，采集到的宽基线稀疏多视点视频需要进行匹配处理，生成“视点+视差图”的视频，以方便进行有效的内容传输和在客户端的基于虚拟视点生成的任意自由视点的播放。如图3所示，对左右两个视点，进行基于光流的宽基线多视点匹配，生成左视差图和右视差图，这里所说的左视点和右视点是左右位置的相对概念，例如在发明的图3中，视点2在视点3的左边，则视点2就是左视点，视点3就是右视点。

如图3中加粗线条所示，视点2和视点3经过匹配装置，将同一像素在视点3中的位置减去在视点2中的位置，然后将所求得的值填充在视点2中所述像素所在的位置，即生成了视点3相对视点2的视差图，简称视点2的左视差图d2l，同理，也得到了视点2相对视点3的视差图，简称视点3的右视差图d3r，将对应视点与对应视差图进行拼接组合，形成“视点+视差图”的视频格式用于打包传输。例如，将左视点2与左视点2的左视差图d2l拼接组合，得到左视点2l|左视差图d2l，将右视点3与右视点3的右视差图d3r拼接组合，得到右视点3r|右视差图d3r。假设客户端向匹配装置反馈的用户所在的视点位置在视点2和视点3之间，则左视点2l|左视差图d2l，右视点3r|左视差图d3r将同时传输到客户端，用于进行虚拟视点的合成。

基于光流的宽基线多视点匹配方法如图5所示，该过程求取的是左视点il(i＝1…n)相对右视点(i+1)r的视差值，通过取得的视差值来进一步获得左视点il相对右视点(i+1)r的视差图。左右两个视点分别进行高斯金字塔分解，视点分解到多尺度空间。分解过程如公式(1)所示，公式(1)中gi代表空间频带i(i＝1…n)，↓表示下采样操作，采样率为0.5，*表示卷积操作，σ表示窗口大小为5x5的高斯核。其中g1＝il。

gi＝↓σ*gi-1(1)

对尺度空间的最高层进行局部块匹配，求得初始光流。针对中的一个像素(x,y)，取中某一像素(x′,y′)进行局部块匹配，通过求取块状区域的差异绝对值之和(sad)来衡量匹配度，从而求得最初的光流。如公式(2)所示，2*patch+1为匹配块的宽度。

在式(2)中，为左视点il的第n个空间频带；为右视点(i+1)r的第n个空间频带；sad为块状区域的差异绝对值之和；patch为匹配块的半宽。

光流的追踪和上采样的过程如公式(3)、公式(4)所示，其中▽为求梯度运算符，↑为上采样运算符，采样率为2。公式(3)为多尺度图像梯度差值平方和,用error表示，(x，y)为像素位置，表示空间频带n的x向光流值，表示空间频带n的y向光流值，公式(4)表示光流的调整迭代方式，使多尺度图像梯度差值平方和error朝着梯度下降最多的方向进行变换，gradstep定义为梯度变化步长。最终求得光流d1为左视点il相对右视点(i+1)r的光流，即垂直和水平的视差值。

dn-1＝↑σ*dn-gradstep·▽error(4)

相应地，右视点(i+1)r相对左视点il(i＝1…n)的视差值，也可以通过上述方法求得，然后通过取得的视差值来进一步获得右视点(i+1)r相对左视点il的视差图。

对采集到的多视点视频进行匹配完成后，得到了各相邻视点与其对应视差图形成的“视点+视差图”视频，通过客户端反馈的视点位置，匹配装置有选择地向虚拟视点合成部件传输与所述视点位置相邻的“视点+视差图”视频，最虚拟视点合成部件依据“视点+视差图”视频合成虚拟视点视频。

本发明采用卷绕(warping)的方法，通过左右视点与其对应视差图生成虚拟视点视频，如图6所示。假设相邻相机阵列之间视差角为δv，如图4所示，设观众的观看视角为v，确定所需传输的“视点+视差图”视频，如公式(5)所示。确定虚拟视点合成所需要的偏移量如公式(6)(7)所示。αl为观看视点相对左视点il的归一化偏移量，αr为观看视点相对右视点(i+1)r的归一化偏移量。这里的观看时点是指客户端向匹配装置反馈的用户所在的视点位置。偏移量与对应视差值的乘积为所需进行的变换量，定义为ω，如公式(8)所示，α取值αl或者αr，由需要合成的虚拟视点位置确定，(x，y)表示像素的位置，ω又被称为视点i中像素点的移动值。基于卷绕的虚拟视点生成可以定义为公式(9)，在公式(9)中，ψ(i,ω)定义为卷绕操作，输入量是视点i和视点i中像素点的移动值ω。isynth为合成的虚拟视点，ω^-1为ω的反向变换。由不同的观看位置决定所需合成的虚拟视点，如公式(10)。为由左视点il和左视差图dil生成的虚拟视点图，为右视点(i+1)r和右视差图d(i+1)r生成的虚拟视点图。当需要求取的虚拟位置靠近左相机视点il时(即：al≤0.5)，当需要求取的虚拟位置靠近右相机视点(i+1)r时(即：al＞0.5)，

αl＝(v-n·δv)/δv(6)

αr＝1-αl(7)

ω(x,y)＝α·d(x,y)(8)

isynth(x,y):＝ψ(i,ω)(x,y):＝i(ω^-1(x,y))(9)

本发明的自由视点视频导播方法及系统，客户端能够向匹配装置反馈用户的视点位置，通过客户端反馈的视点位置，匹配装置有选择地向虚拟视点合成部件传输与所述视点位置相邻的“视点+视差图”视频，虚拟视点合成部件依据“视点+视差图”视频，合成虚拟视点视频，然后再传输到客户端进行播放。由于客户端能够自由地向匹配装置反馈用户所在的任意视点位置，因此，虚拟视点合成部件依据“视点+视差图”视频，能够合成任意视点的虚拟视点视频，从而能够向用户提供自由可选的观看视点视频。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李建成;刘睿;李盼盼;朱艳宏;解松霖;郭南
技术所有人：深圳市佳创视讯技术股份有限公司
我是此专利的发明人

上一篇：一种侧面开槽的电路板的制作方法与工艺
上一篇：视频播放平台和系统的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。