深度视频编码的像素级预测方法

文档序号：7775550阅读：216来源：国知局

深度视频编码的像素级预测方法
【专利摘要】本发明属于3D视频编码领域。为充分利用深度视频和彩色视频之间的运动相似性和结构相似性以及可用的帧内及帧间信息，对深度视频中的每个像素提供预测，克服传统视频编码中基于块预测在边界处预测效率低的问题，提高深度视频的预测及编码效率，为此，本发明采取的技术方案是，一种深度视频编码的像素级预测方法，包括下列步骤：1）确定帧间搜索起点；2）搜索帧间匹配像素；3）搜索帧内匹配像素；4）将已编码彩色视频中的匹配像素映射至深度视频；5）计算当前像素的预测深度值。本发明主要应用于3D视频编码。
【专利说明】深度视频编码的像素级预测方法
【技术领域】
[0001]本发明属于3D视频编码领域，涉及一种多视点加深度视频中深度视频编码的像素级预测方法。
【背景技术】
[0002]随着显示技术及计算能力的提升，三维视频技术及相关应用得到了广泛的发展。多视点加深度视频能够利用基于深度图像的绘制(depth-1mage-based rendering, DIBR)技术生成任意视角的虚拟视点，得到了学术界和工业界的关注。为了有效地传输深度视频以节约传输带宽，高效的深度视频预测编码技术显得尤为重要。
[0003]深度视频是用于表示场景几何信息的灰度视频，记录了场景中物体相对相机的距离。深度视频特性不同于传统的灰度视频，深度视频具有分区段平滑特性，即深度视频由大片的平滑区域和尖锐的边界构成。基于该特性，出现了部分不同于传统编码方式的深度编码方法，包括利用更有效地块表示结构、块数据表示函数及利用更多的预测方向等。另一方面，由于深度视频和彩色视频都表示同一个场景，深度视频和彩色视频之间存在运动和结构相似性。通过有效地利用这两种特性，深度视频编码效率能够得到较大的提高。对于帧间编码，Lee等人提出利用已编码的彩色视频的编码信息协助深度视频编码过程中的模式选择；Kim等人提出将彩色视频编码信息中的跳过模式映射至深度编码中以提高编码效率；Grewatsch和Oh等人提出利用彩色视频的运动矢量协助深度视频编码。对于巾贞内编码，Milani等人提出利用彩色视频的分割信息对深度视频进行区域分割，并利用函数对不同区域进行表示；Liu等人提出利用深度视频和纹理视频之间的结构相似性对深度边界区域进行恢复，减少对边界宏块的编码比特进而提升效率，然而该方法受深度图边界质量的影响较大。作者提出的利用基于聚类方法的深度编码方法能够较准确地预测边界宏块，同时提出的深度纹理边界对齐过程可以有效地解决深度图边界质量差的问题，提高预测效率。但帧内方法受限于有限的信息即已编码的当前帧内的邻块信息，对于复杂的宏块仍然不能进行有效地预测。
[0004]现有的帧间编码技术大都为基于块的运动补偿技术，为每个宏块搜索最佳匹配块进行预测，并传输相应的运动矢量至解码端以获得相应参考块。由于运动矢量需要编码传输占据带宽，块尺寸的选择受到限制，而且场景中的真正物体通常没有和块一样的精确边界，因此基于块的运动补偿会导致在块的边界周围未匹配的像素位置出现大残差。特别对于深度编码，由于物体之间的深度值变化较大，导致边界宏块的不匹配像素的残差值较大，严重降低了效率。为此亟须研究针对当前块每个像素的更精确的预测算法。

【发明内容】

[0005]本发明旨在克服现有技术的不足，充分利用深度视频和彩色视频之间的运动相似性和结构相似性以及可用的帧内及帧间信息，对深度视频中的每个像素提供预测，克服传统视频编码中基于块预测在边界处预测效率低的问题，提高深度视频的预测及编码效率。为达到上述目的，本发明采取的技术方案是，一种深度视频编码的像素级预测方法，包括下列步骤:
[0006]I)确定帧间搜索起点；
[0007]2)搜索帧间匹配像素；
[0008]3)搜索帧内匹配像素:
[0009]首先在当前帧中确定当前像素的搜索范围，即设定为所在宏块的邻域已编码像素，然后在待搜索区域中搜索当前像素的匹配像素，搜索方法与帧间搜索匹配像素方法相同；
[0010]4)将已编码彩色视频中的匹配像素映射至深度视频:
[0011]将已编码彩色视频中的匹配像素位置映射至深度视频，并将该位置的深度像素列为当前像素的匹配像素；
[0012]5)计算当前像素的预测深度值:
[0013]利用帧间匹配像素搜索与帧内像素匹配搜索过程中搜索到的匹配像素的深度值计算当前像素的预测深度值(PD)，通常情况下利用中值，即〃/hmgiarKD,)，其中R为匹配像
素集，Di为匹配像素在深度视频中的深度值。
[0014]步骤⑴中的所述确定帧间搜索起点具体为:
[0015]如果当前像素所在宏块在已编码的彩色视频中采用帧间编码时，利用该宏块在已编码的彩色视频中的运动矢量以及参考帧作为当前像素在深度视频中的初始运动矢量及参考帧，当前像素的搜索起点即为当前像素在该参考帧中初始运动矢量指向的像素；
[0016]否则利用基于块的运动搜索技术搜索当前像素所在宏块在深度视频中的最优运动矢量及参考巾贞并设为初始运动矢量和参考巾贞，当前像素的搜索起点即为当前像素在该参考帧中初始运动矢量指向的像素，且当使用基于块的运动搜索技术进行最终宏块编码时，该运动矢量和参考帧索引号需要进行编码传输。
[0017]步骤(2)中的所述搜索帧间匹配像素具体为:
[0018]按设定的搜索顺序搜索以帧间搜索起点为中心的设定搜索范围内的像素，并计算当前像素在已编码彩色视频中的彩色像素值(I。)与搜索像素的对应彩色像素值(Is)的误差，当误差小于设定阈值(T)时，即满足<τ，认为该搜索像素为当前像素的匹配像素。
[0019]本发明的技术特点及效果:
[0020]本发明充分挖掘深度视频和彩色视频之间的像素级的运动相似性与结构相似性，利用可用的帧内及帧间信息对深度视频提供像素级的预测，对物体的边界像素的运动及物体的不规则运动提供有效的预测，克服传统视频编码中基于块预测在物体边界处预测效率低的问题，提供深度视频的编码效率。
【专利附图】

【附图说明】
[0021]图1为帧间匹配像素搜索示意图；
[0022]图2为帧内匹配像素搜索示意图；
[0023]图3深度视频主观对比图，a、为采用现有编码参考软件JM18.2进行编码后的深度视频主观截图，b本为采用发明进行编码后的深度视频主观截图；[0024]图4为利用本发明方法及现有编码参考软件JM18.2分别编码后的深度视频进行视点合成后虚拟视点的主观对比图，a:参考软件JM18.2，b:本发明；
[0025]图5给出了技术方案的流程图。
【具体实施方式】
[0026]本发明的目的是克服现有技术的上述不足，提供一种多视点加深度视频编码中的深度视频像素级预测方法，充分利用结构相似性及像素级的运动相似性对深度视频进行高效预测。本发明采用如下的技术方案:
[0027]一种多视点加深度视频编码中的深度视频高效编码方法，包括下列步骤:
[0028]I确定帧间搜索起点。
[0029]如果当前像素所在宏块在已编码的彩色视频中采用帧间编码时，利用该宏块在已编码的彩色视频中的运动矢量以及参考帧作为当前像素在深度视频中的初始运动矢量及参考帧，当前像素的搜索起点即为当前像素在该参考帧中初始运动矢量指向的像素；
[0030]否则利用基于块的运动搜索技术搜索当前像素所在宏块在深度视频中的最优运动矢量及参考巾贞并设为初始运动矢量和参考巾贞，当前像素的搜索起点即为当前像素在该参考帧中初始运动矢量指向的像素，且当使用本方法进行最终宏块编码时，该运动矢量和参考帧索引号需要进行编码传输。
[0031]2搜索帧间匹配像素。
[0032]按设定的搜索顺序搜索以帧间搜索起点为中心的设定搜索范围内的像素，并计算当前像素在已编码彩色视频中的彩色像素值(I。)与搜索像素的对应彩色像素值(Is)的误差，当误差小于设定阈值(T)时，即满足Iie-1sIcr,认为该搜索像素为当前像素的匹配像素。
[0033]3搜索帧内匹配像素。
[0034]首先在当前帧中确定当前像素的搜索范围，即设定为所在宏块的邻域已编码像素，然后在待搜索区域中搜索当前像素的匹配像素，搜索方法与帧间搜索匹配像素方法相同。
[0035]4将已编码彩色视频中的匹配像素映射至深度视频
[0036]因为深度视频与对应的彩色视频之间存在运动相似性与结构相似性，因此当前像素在已编码的彩色视频中搜索到的匹配像素在深度视频中也与当前像素匹配。将已编码彩色视频中的匹配像素位置映射至深度视频，并将该位置的深度像素列为当前像素的匹配像素。
[0037]5计算当前像素的预测深度值
[0038]因为深度图具有分区段平滑特性，所以当前像素的深度值可由与该像素属于相同区域的像素近似。因此利用以上帧间匹配像素搜索与帧内像素匹配搜索过程中搜索到的匹配像素的深度值计算当前像素的预测深度值(PD)，通常情况下利用中值，SP
，其中R为匹配像素集，Di为匹配像素在深度视频中的深度值。
[0039]下面结合附图对本发明的【具体实施方式】进行描述。
[0040]I确定帧间搜索起点。[0041](a)如果当前像素所在宏块在彩色视频中采用帧间编码时，利用该宏块在彩色视频中的运动矢量(mveaL)及参考帧(refeaL)作为当前像素的初始运动矢量(mvinit)和参考中贞(refinit)，即 mvinit=mvcol, refinit=refcolo
[0042]当前像素的搜索起点(m，n)即为当前像素在参考帧refinit中初始运动矢量mvinit指向的像素，m=i+xinit, n=j+yinit,其中(i, j)为当前像素的坐标，xinit, yinit为初始运动矢Hivinit的水平和垂直分量。图1中，彩色视频中Fn帧表示当前帧，其中黑色加深点表示当前像素在彩色视频中对应的彩色像素，彩色视频中Fn-1帧表示参考帧，其中灰色加深点表示搜索起点；
[0043](b)否则利用基于块的运动搜索技术搜索当前像素所在宏块在深度视频中的最优运动矢量(mvdepth)及参考帧(refdepth)并设为初始运动矢量(mvinit)和参考帧(refinit),即mvinit=mvdepth, refinit=refdeptho当前像素的搜索起点(m, η)即为当前像素在参考帧refinit中初始运动矢量mvinit指向的像素，m=i+xinit, n=j+yinit,其中(i, j)为当前像素的坐标，xinit，yinit为初始运动矢mvinit的水平和垂直分量。当最终宏块编码使用本方法时，将运动矢量HiviniJP参考帧ref ^^索引号进行编码传输。图1中，深度视频中Fn帧表示当前帧，其中黑色加深点表示当前像素在深度视频中对应的深度像素，深度视频中Fn-1帧表示参考帧，其中灰色加深点表示搜索起点。其中基于块的运动搜索技术在本实施方式中指全搜索，即搜索在搜索范围内的全部块。
[0044]2在已编码的彩色视频中搜索当前像素的帧间匹配像素
[0045]在已编码彩色视频中的参考帧refinit中以搜索起点(m，η)为中心的搜索范围内搜索当前待预测像素的匹配像素，匹配准则为Iie-1sIcr,其中I。为当前待预测像素在已编码彩色视频中对应的彩色像素，Is为搜索像素，τ为匹配阈值。当搜索像素满足匹配准则时，将该搜索像素设置为当前像素的匹配像素，并继续搜索剩余像素直至整个搜索范围搜索完成。图1中，加竖线表示的点为匹配像素。
[0046]3搜索帧内匹配像素
[0047]将当前待预测像素所在宏块的邻域已编码像素设定为搜索区域，在本实现中以宏块上方的一行像素及宏块左侧的一列像素设定为搜索区域。然后利用已编码的彩色视频，在待搜索区域中搜索匹配像素，搜索方法与参考帧中搜索帧间匹配像素方法相同，如图2所示。
[0048]4将已编码彩色视频中的匹配像素映射至深度视频
[0049]将已编码彩色视频中搜索到的匹配像素位置映射至深度视频，并将该位置的深度像素列为当前像素的匹配像素，如图1和2中的黑色虚线箭头所示。
[0050]5计算当前像素的预测深度值
[0051]因为深度图具有分区段平滑特性，所以当前像素的深度值可由与该像素属于相同区域的匹配像素近似。在本实现中利用以上帧间匹配像素搜索与帧内匹配像素搜索两步中
搜索到的匹配像素的深度值中值计算当前像素的预测深度值(PD)，其中R
为匹配像素集，Di为匹配像素在深度视频中的深度值，median为中值操作，计算数据集的中值。
[0052]下面结合【专利附图】

【附图说明】实验效果:[0053]为使本发明的效果具有可比性，我们采用ballet测试序列，编码平台采用H.264/AVC的JM18.2，虚拟视点合成采用VSRS3.5。直接采用H.264/AVC编码的左右视点(分别为视点3和5)深度视频，编码帧部分截图如图3左侧图像所示，合成的虚拟视点(视点4)如图4左侧图像所示；经过本发明之后的视点深度视频编码帧部分截图如图3右侧图像所示，边界更加清晰，模糊减少，合成的虚拟视点如图4右侧图像所示，边界更加平滑，合成视图更接近于原始视点图。
【权利要求】
1.一种深度视频编码的像素级预测方法，其特征是，包括下列步骤: 1)确定帧间搜索起点； 2)搜索帧间匹配像素； 3)搜索帧内匹配像素: 首先在当前帧中确定当前像素的搜索范围，即设定为所在宏块的邻域已编码像素，然后在待搜索区域中搜索当前像素的匹配像素，搜索方法与帧间搜索匹配像素方法相同； 4)将已编码彩色视频中的匹配像素映射至深度视频: 将已编码彩色视频中的匹配像素位置映射至深度视频，并将该位置的深度像素列为当前像素的匹配像素； 5)计算当前像素的预测深度值: 利用帧间匹配像素搜索与帧内像素匹配搜索过程中搜索到的匹配像素的深度值计算当前像素的预测深度值(PD)，通常情况下利用中值，即其中R为匹配像素集，Di为匹配像素在深度视频中的深度值。
2.如权利要求1所述的深度视频编码的像素级预测方法，其特征在于，步骤(I)中的所述确定帧间搜索起点具体为: 如果当前像素所在宏块在已编码的彩色视频中采用帧间编码时，利用该宏块在已编码的彩色视频中的运动矢量以及参考帧作为当前像素在深度视频中的初始运动矢量及参考帧，当前像素的搜索起点即为当前像素在该参考帧中初始运动矢量指向的像素；否则利用基于块的运动搜索技术搜索当前像素所在宏块在深度视频中的最优运动矢量及参考巾贞并设为初始运动矢量和参考巾贞，当前像素的搜索起点即为当前像素在该参考中贞中初始运动矢量指向的像素，且当使用基于块的运动搜索技术进行最终宏块编码时，该运动矢量和参考帧索引号需要进行编码传输。
3.如权利要求1所述的深度视频编码的像素级预测方法，其特征在于，步骤(2)中的所述搜索帧间匹配像素具体为: 按设定的搜索顺序搜索以帧间搜索起点为中心的设定搜索范围内的像素，并计算当前像素在已编码彩色视频中的彩色像素值(I。)与搜索像素的对应彩色像素值(Is)的误差，当误差小于设定阈值(T)时，即满足Iie-1sIcr,认为该搜索像素为当前像素的匹配像素。
【文档编号】H04N13/00GK103595991SQ201310540668
【公开日】2014年2月19日申请日期:2013年11月4日优先权日:2013年11月4日
【发明者】雷建军, 朱策, 李帅, 高艳博, 王勇, 李贞贞申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷建军;朱策;李帅;高艳博;王勇;李贞贞
技术所有人：天津大学
我是此专利的发明人

上一篇：多串口集中式数据采集装置及方法
上一篇：一种云计算基于网格化的设备管理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。