一种基于最小二乘的多视点视频编码视点合成预测方法

文档序号：7857056阅读：378来源：国知局

专利名称：一种基于最小二乘的多视点视频编码视点合成预测方法
技术领域：
本发明涉及一种多视点视频编码视点合成预测方法，尤其是涉及一种基于最小二乘的多视点视频编码视点合成预测方法。
背景技术：
第一代3D显示终端是基于左右格式的，它只提供两路视频流，分别用于左右眼。这意味着基于这种立体终端要求观看者佩戴特殊眼镜坐在一个较为狭窄的范围内观看。虽然，当前的立体显示系统能够提供高质量的3D视频，但在观看上的这些限制影响了观看时的舒适与自然。近来，深度图研究的进步带动了一种新的3D显示终端的发展，即自由视点电视。自由视点电视在不同方向显示不同的立体视频流，它可以为用户提供对于场景的·自由视点选择，而且用户不需要配戴眼镜。为了提供一个宽阔的观赏视角和视点过渡，这种显示需要使用更多数目的视频流。深度图信息将有助于合成中间视点以到达视点无缝过渡的目的。然而，多台摄像机的拍摄导致了数据量的显著增加，需要对多路视频流进行压缩，一个直接的方法是利用最新的多视点视频编码国际标准(MVC)来压缩不同的纹理视点。然而，一方面，在MVC中使用的平移运动模型不足以消除由于不同摄像机拍出的物体的位置不同产生的视点间冗余。另一方面，这种方法忽略了纹理图和对应的深度图之间的关系。因此，在2006年，Martinian等人，首次提出深度辅助的视间预测方法，称为基于视点合成预测(VSP)的多视点视频编码，以提高视间预测效率[I]。这种方法的基本思想是通过三维变换来创建当前视点的一个虚拟视点，在预测的过程中可以作为附加的参考视点。与视差预测相比，VSP可很好地补偿不同视点间的几何差异。2008年，Oh等利用VSP的技术来压缩多视深度数据[2]。此外，在2009年，Sehoon等提出了基于VSP的率失真优化模型[3]。为改变视差矢量的预测，在2010年，Iyer等通过基于VSP的后向变换，提出了一种基于三维变换的视差矢量预测方法[4]。在2011年，Shinya等利用VSP来完成后向运动估计和视差估计[5]。然而，现有的VSP技术仅仅使用了相邻的视点间信息去合成虚拟视点，由于深度信息的不准确，不同相机的异质性，和对象的非朗伯反射，虚拟视点的质量和预测能力是有限的。因此，现有的VSP技术很难大幅度降低码率，而在VSP技术中，虚拟视点不是被用于显示的，而只是用于预测。

发明内容
本发明主要是解决现有技术所存在的技术问题；提供了一种基于最小二乘的多视点视频编码视点合成预测方法。本发明的上述技术问题主要是通过下述技术方案得以解决的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，包括以下步骤
步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；步骤2，将步骤I得到的参考视点帧中的对应像素及其邻域的八个像素，作为虚拟视点帧的当前像素的预测像素；步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，步骤5，对于每个像素重复执行步骤I至步骤4，最终得到虚拟视点帧；步骤6，将步骤5生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。·
在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步骤I中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现，对于虚拟视点帧中的当前像素O1)，其在参考视点帧中的对应像素仏问)通过式一和式二来获取[U，V, w] =R (c) PC1 (c) [x, y, I] D [c, t, x, y] +T (c)式一[x，，y，，z，] = A(c，) ITW ) {[u, v, w]-T(c' )}式二式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；(和七分别表示参考视点标号与视点内时域上的序号；D为深度值；[x，y，I]是虚拟视点帧中的像素坐标，[X' , y’，z’ ]是参考视点巾贞中的像素坐标，[u, V, w]指的是世界坐标。在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，步骤2中，将步骤I得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素，选取方式如下虚拟视点帧的当前像素的预测像素为步骤I中获得的^诉)与其邻域的N个像素。在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所述步骤3中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数，具体采用以下步骤实现，步骤3. I :将先前已解码的帧作为训练样本，训练窗口的选择如下W (T1, T1) = [-T1, T1] X [-T1, T1]式三其中Tl是空间窗口的大小KT1, T1)表示训练窗口；步骤3.2 :设在训练窗口中有M个样本，将窗口中的所有样本写成MX I向量f，定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为IX (N+1)的向量，则训练样本产生一个大小为MX (N+1)的协方差矩阵C，于是，预测系数5由式四和五获得5 = aigmmMSE = argmin|vMxl -Cw、(A,+1)5(A,+1)xl『式四
ad n115 = (CrCr1CrJ)式五其中CMX(N+1)表示所有训练样本及其预测像素所组成的矩阵表示训练样本像素；Ct表示
Cmx (n+i) 的转置。在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，所述步骤4中，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧，采用以下步骤实现在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六所示Psyn(Hl) = dO)式六其中S1为虚拟视点帧中的像素坐标[X，y，I]，<表示对应像素及该像素的邻域像素的坐标。在上述的一种基于最小二乘的多视点视频编码视点合成预测方法，将步骤5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚拟视点帧，对于P视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B帧预测，因此用虚拟视点帧替换LIST_0中的第·一个后向时域参考巾贞，以及LIST_1中的第一个前向时域参考巾贞,对于B视点的锚定巾贞,直接将虚拟视点帧加至LIST_0和LIST_1的末尾；对于B视点的非锚定帧，参考帧列表的管理方式和P视点的相同。因此，本发明具有如下优点1、在合成虚拟视点进行预测时不仅利用了视间信息，还利用了时域信息，使得合成的视点对视点间光照的差异、深度信息的误差更加鲁棒；2、合成的视点更接近于当前视点，使得VSP技术能大幅度降低多视点视频编码码率。

图I是本发明的方法流程示意图。
具体实施例方式下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。实施例本发明技术方案可采用如下步骤进行。为便于实施参考起见，结合附图和实施例详细说明发明技术方案。本发明实施例提供基于最小二乘的视点合成预测多视点视频编码方法，采用MVC参考软件JMVC6. 0作为编码器，选取分辨率为1024 X 768大小的多视点标准测试序列“ballet”和“breakdancers”的第0、1、2视点进行本算法的测试，GOP (图像组)设置为8，QP (量化步长)分别为22，27，32，37，以编码第2视点中的第3帧为例，说明编码当前视点待编码帧时的步骤，流程图见图I :步骤1，通过三维变换找到第3帧的虚拟视点帧的当前像素在参考视点0的第3帧中的对应像素 [u, V, w] =R(C) PC1 (c) [x, y, I] D[c, t, x, y]+T(c)( I)[x，，y，，z，] =A(c，) IT1 (c，) {[u, v, w]-T (c' )}(2)公式I和公式2中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度值；[x，y, I]是虚拟视点帧中的像素的坐标，[X'，y’，z’ ]是参考视点帧中的像素仏沐)的坐标，[U，V，w]指的是世界坐标。步骤2，将步骤I得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素；实施例将步骤I得到的参考视点0的第3帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素。步骤3，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数。为便于实施参考起见，提供具体步骤如下步骤3. I :将先前已解码的帧作为训练样本，训练窗口的选择如下W (T1, T1) = [-T1, T1] X [-T1, T1] (3)其中Tl是空间窗口的大小，在本申请中，Tl设为3。那么训练窗口的大小为7X7。另外，由于先前已解码帧的虚拟视点帧已经被获取，对于一个训练样本，它的预测像素为虚·拟帧中对应位置像素及其周围像素；步骤3.2 :设在训练窗口中有M个样本，将窗口中的所有样本写成MX I向量把训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素写成IX (N+1)的向量，这样所有的训练样本就可以产生一个大小为MX (N+1)的协方差矩阵C，此处，M=49，N=9，于是，预测系数5可以由公式4和公式5求得 = ai-gnmiMffi = ai-gmin||j；Mxl - CMx{A,+1) (iV+1)xl|(4)
ad nMd = (CtC)-1Ct y(5)步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧。为便于实施参考起见，提供具体步骤如下步骤4. I :在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如公式6所示。Ps,,0h) = Ei!!a^( h->(G)其中&为虚拟视点帧中的像素坐标[x，y，I]，<表示对应像素及该像素的邻域像素的坐标；步骤5，将步骤4生成的虚拟视点帧，加入到参考帧列表。为便于实施参考起见，提供步骤具体如下步骤5. I :对于第2视点中的第3帧，LIST_0和LIST_1都用于层次B帧编码，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，根据参考帧列表对当前视点待编码帧进行编码。为说明本发明所取得的技术效果起见，对分辨率为1024X768大小的“ballet”和“breakdancers”多视点序列的第0、1、2视点进行编码测试，测试平台为JMVC6. 0，每个视点的编码帧数为49帧，GOP (图像组)设置为8，QP (量化步长)分别为22，27，32，37，分别将本发明提出的方法、传统的基于视点合成预测的多视点视频编码方法[4]与MVC标准编码方法进行了比较，编码的码率节省结果下表所示，从中可以看出本发明具有更佳的压缩效率。
权利要求
1.一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，包括以下步骤步骤1，通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；步骤2，将步骤I得到的参考视点帧中的对应像素及其邻域的八个像素，作为虚拟视点帧的当前像素的预测像素；步骤3，利用编码器中当前帧之前的重建帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；步骤4，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，步骤5，对于每个像素重复执行步骤I至步骤4，最终得到虚拟视点帧；步骤6，将步骤5生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。
2.根据权利要求I所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，步骤I中，找到虚拟视点帧中的当前像素在参考视点帧中的对应像素的步骤采用以下步骤实现，对于虚拟视点帧中的当前像素4( )，其在参考视点帧中的对应像素通过式一和式二来获取 [u, V, w] =R(C) PC1 (c) [x, y, I] D[c, t, x, y]+T(c)[x, , y' , z' ] = A(c' ) R_1(c' ) {[u, v, wJ-Kc' )}式二式一和式二中，A，R和T分别表示内参矩阵，旋转矩阵和相机的平移矢量；c和t分别表示参考视点标号与视点内时域上的序号；D为深度值；[x，y，I]是虚拟视点帧中的像素坐标，[X' , y’，z’ ]是参考视点巾贞中的像素坐标，[u, V, w]指的是世界坐标。
3.根据权利要求I所述的一种基于最小二乘的多视点视频编码合成预测方法，其特征在于，步骤2中，将步骤I得到的参考视点帧中的对应像素及其周围像素，作为虚拟视点帧的当前像素的预测像素，选取方式如下虚拟视点帧的当前像素的预测像素为步骤I中获得的与其邻域的N个像素。
4.根据权利要求I所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，所述步骤3中，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数，具体采用以下步骤实现，步骤3. I :将先前已解码的帧作为训练样本，训练窗口的选择如下W(T11T1) = [-T1, T1] X [-T1, T1]式三其中Tl是空间窗口的大小I(T1J1)表示训练窗口；步骤3.2 :设在训练窗口中有M个样本，将窗口中的所有样本写成MX I向量，定义训练样本在其虚拟视点帧中的对应像素和它的N个相邻像素为I X (N+1)的向量，则训练样本产生一个大小为MX (N+1)的协方差矩阵C，于是，预测系数5由式四和五获得 a = argminMSE = argmin||j;Mxl —式四 d d 11 11ff=(CrC)-1CrJ 式五其中Cmx _)表示所有训练样本及其预测像素所组成的矩阵和歹表示训练样本像素；Ct表示 Cmx (n+1) 的转置。
5.根据权利要求I所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，所述步骤4中，根据步骤3得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧，采用以下步骤实现在得到预测系数后，对于虚拟视点帧中的当前像素，它的像素值利用其在参考视点帧中的对应像素及该像素的邻域像素线性估计得来，如式六所示式六其中$为虚拟视点帧中的像素坐标[X，y, I]，<表示对应像素及该像素的邻域像素的坐标。
6.根据权利要求I所述的一种基于最小二乘的多视点视频编码视点合成预测方法，其特征在于，将步骤5生成的虚拟视点帧，加入到参考帧列表采用如下方式实现对于P视点锚定帧，只使用LIST_0用于预测，直接在列表末尾增加虚拟视点帧，对于P视点锚定帧，只使用LIST_0预测，直接将虚拟视点帧放至参考帧列表末尾；对于P视点非锚定帧，LIST_0和LIST_1都用于层次B帧预测，因此用虚拟视点帧替换LIST_0中的第一个后向时域参考帧，以及LIST_1中的第一个前向时域参考帧，对于B视点的锚定帧，直接将虚拟视点帧加至LIST_0和LIST_1的末尾；对于B视点的非锚定帧，参考帧列表的管理方式和P视点的相同。
全文摘要
本发明涉及一种基于最小二乘的多视点视频编码视点合成预测方法。本发明首先通过三维变换找到虚拟视点帧的当前像素点在参考视点帧中的对应像素；然后，将得到的参考视点帧中的对应像素，作为虚拟视点帧的当前像素的预测像素；其次，利用先前已解码的帧及其虚拟视点帧，采用最小二乘法训练求得预测系数；再次，根据得到预测系数，将预测像素的像素值通过线性估计来得到当前像素的像素值，对于每个像素执行相同的操作，最终得到虚拟视点帧；最后，将生成的虚拟视点帧，加入到参考帧列表，编码器根据参考帧列表对当前视点待编码帧进行编码。本发明同时利用视点内和视点间的信息来增强合成视点的质量，提高了基于视点合成预测的多视点视频编码效率。
文档编号H04N13/00GK102790895SQ20121026694
公开日2012年11月21日申请日期2012年7月30日优先权日2012年7月30日
发明者段漭, 王中元, 胡瑞敏, 胡金晖, 龚燕申请人:武汉大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡瑞敏;胡金晖;段漭;龚燕;王中元
技术所有人：武汉大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。