一种立体视频流编码/解码器及其立体视频编解码系统的制作方法

文档序号：7902612阅读：176来源：国知局

专利名称：一种立体视频流编码/解码器及其立体视频编解码系统的制作方法
技术领域：
本发明涉及运动图像处理技术，具体涉及一种立体视频数据的编码/解码方法和装置。
源于双目结构的三维视觉特性给我们提供了一个从左右两幅图象中获得真实世界相对深度感的直接而简单的方法，而这种相对深度信息在诸如远程通信(远程医疗，远程会议)、远程机器人(远程遥控，自主航空，监视)、娱乐(交互式HDTV，立体电影)和虚拟现实之类的应用中是至关重要的。但是这种为增加真实性而引入相对深度信息的明显代价是使得其传输和存储的数据量比单视系统增加一倍以上。为了满足数据量的增加，解决方式无外乎增加信道带宽、以高效的协议改进信道利用率和以高效的压缩技术减少信源码率这些途径。但是由于增加存储器容量和网络带宽的不经济性，因此必须采用行之有效的图象压缩技术。
现有技术下立体视频编码的方法在本质上都是利用双目视频流之间的相关性来整体提高两路视频信号的编码效率。大体上有两类方法，第一类为基于MPEG视频编码标准的立体视频流编码方法，其基本原理是对其中一路视频流单独进行编码，而另一路视频流则采用视差估计与补偿技术进行编码。这类方法大都采用混合编码方式，例如与标准兼容的混合清晰度编码(其中一个流的清晰度相对较差)、基于心理特征的比特分配法、基于多分辨率的立体编码以及采用帧估计内插重建右B帧(即，右路视频流B帧不传送，而是在解码端作内插恢复)等方式。这类方法存在的问题是视差估计补偿的效率有待改进；在利用双目视差信息的同时忽略了对右路流运动信息的有效利用，整体编码效率还有较大的上升空间；采用帧估计内插技术的立体编码压缩率虽高，但现有的帧估计内插技术比较简单，重建图象质量不理想；总体上还缺乏成熟完善的立体编码系统。
第二类为基于对象的立体编码方法，其基本原理是对场景中的对象进行分割提取并结合运动及双目深度信息进行编码。但是当场景中有多个物体出现时，这类方法的编码效果并不好，同时由于其计算的复杂性，实时性也较差，离实时系统应用的要求尚远。
本发明的上述目的通过以下技术方案实现一种立体视频流编码器，包括主视频流编码单元，用于对其中一路视频流按照MPEG标准进行编码以生成主视频码流；辅视频流编码单元，其包括视差/运动补偿估计单元，用于利用主视频流内的帧内编码帧和帧间预测帧分别对辅视频流内对应的帧内编码帧和帧间预测帧进行视差估计，并利用辅视频流内先前的帧内编码帧或帧间预测帧对辅视频流内当前的帧间预测帧进行运动估计；补偿预测编码单元，用于对辅视频流内的帧内编码帧的视差估计补偿信息(包括视差矢量和残差图象)以及帧间预测帧的视差估计补偿信息或运动估计补偿信息(包括运动矢量和残差图象)进行编码以生成辅视频码流；复用器，用于将主视频码流和辅视频码流以时分复用方式生成立体视频码流。
比较好的是，在上述立体视频流编码器中，所述视差/运动估计单元采用基于分层马尔可夫概率模型和多级块匹配方式进行视差估计。更好的是，在所述分层马尔可夫概率模型和交叠块匹配方式中，分层等级设定为两级，分割块尺寸分为8×8和16×16两种。
比较好的是，在上述立体视频流编码器中，视差估计的初始值按照下列方式获得利用通过对辅视频流内的帧间预测帧进行运动估计获得的运动矢量对先前的帧内编码帧或帧间预测帧的视差场进行运动补偿预测，并将新的视差场作为视差估计的初始值。
比较好的是，在上述立体视频流编码器中，通过改变视差补偿预测信息中的残差图象DCT量化系数来调整辅视频码流占用的传输信道带宽。
一种立体视频流解码器，包括去复用器，用于将立体视频码流分解为主视频码流和辅视频码流；主视频码流解码单元，用于对主视频码流按照MPEG标准进行解码以生成主视频流；辅视频码流解码单元，其包括视差/运动补偿预测单元，用于根据主视频流中的帧内编码帧和帧间预测帧以及辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流的帧内编码帧和帧间预测帧；帧估计与内插单元，用于根据相应的主视频流双向预测帧、辅视频流内的帧内编码帧和帧间预测帧以及辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流内的双向预测/内插帧；辅视频流重建单元，用于对视差/运动补偿预测单元重建的帧内编码帧和帧间预测帧以及帧估计与内插单元重建的双向预测/双向内插帧按照时间先后排序以生成辅视频流。
比较好的是，在上述立体视频流解码器中，帧估计与内插单元采用基于贝叶斯最小代价方程的立体帧估计和内插方法重建双向预测/内插帧。
在本发明的立体视频流编码器中，由于仅对其中一个视频流按照MPEG标准进行高质量的编码，而在另一个视频流中只有少数帧(帧内编码帧和帧间预测帧)进行编码，其余帧(双向预测/内插帧)则完全“跳过”而在解码端进行帧估计内插恢复，因此大大提高了编码效率，节省了传输带宽。
本发明的目的是提供一种立体视频处理系统，它具有编码压缩率高、解码速率快和可与单视频编码方式兼容的优点。
本发明的上述目的通过以下技术方案实现一种视频处理系统，包含摄取左路和右路视频流的摄像机、使两台摄像机输出的视频流在时间上同步的时基校正器、将经过时基校正器时间同步处理后的两路视频流多路复用以形成立体视频流的帧顺序多路复用器、包含如权利要求1所述的立体视频编码器和如权利要求6所述的立体视频流解码器的计算机系统以及普通显示器和立体显示器，其中，当仅需传输单路视频流时，由立体视频流编码器的主视频流编码单元对视频图像进行编码并将信号送至传输信道，当需要传输两路视频流时，由主视频流编码单元和辅视频流编码单元分别对左右路视频图像进行编码并将信号送至传输信道，当接收的视频码流仅包含一路视频流时，由立体视频流解码器的主视频码流解码单元对编码码流进行解码并将解码信号送至普通显示器，当接收的码流包含左右两路视频流信号时，由主视频码流解码单元和辅视频码流解码单元分别对左右两路编码码流进行解码并将解码信号送至立体显示器。
本发明的视频系统除了具有编码效率高和传输带宽要求低的优点以外，还可与现有的单视频MPEG系列编码标准兼容。这在保持编码兼容性的前提下降低了系统的升级费用，而且提供了对立体显示质量的灵活控制。
图2为采用按照本发明的立体视频流编码/解码器的视频处理系统示意图。

图1为按照本发明的立体视频流编码/解码器的示意图。如图1所示，立体视频流编码器1负责对输入的左右视频流进行编码，以下为描述方便起见假定左视频流为主视频流而右视频流为辅视频流，但是这种假定不应理解为是对本发明的限定，实际上也可以是相反的假定。立体视频流编码器1编码生成的视频码流经信道2传输至立体视频流解码器3。
参见图1，立体视频流编码器1包括作为主视频流编码单元的MPEG编码器4、复用器7以及由视差/运动补偿估计单元5和补偿预测编码单元6构成的辅视频流编码单元。
MPEG数字视频编码技术实质上是一种利用视频序列在时间和空间方向上的统计冗余度实现的图像压缩方法，它依赖于像素之间(interpel)的相关性，包含这样一个假设即在各连续帧之间存在简单的相关性平移运动。因此一个特殊画面上的像素量值，可以采用帧内编码技术根据同帧附近像素来加以预测，或者可以采用帧间技术根据附近帧中的像素来加以预测。
当一个视频序列镜头变化时，各附近帧中像素之间的时间相关性就很小，甚至消失，此时应采用帧内编码技术来开发空间相关性以实现有效的数据压缩。在MPEG压缩算法中，采用离散余弦变换(DCT)编码技术，以8×8像素的画面块为单位来有效开发同一画面各附近像索之间的空间相关性，以下将可根据帧内编码技术压缩的图像帧称为帧内编码帧，并简记为IM或IA，其中上标M和A分别代表主视频流和辅视频流。
如果附近帧中各像素间具有较大的相关性，也就是说，两个连续帧的内容很相似或相同时，就可以采用基于时间预测(帧间的运动补偿预测)的帧间DPCM编码技术，以下将可根据帧间编码技术压缩的图像帧称为帧间预测帧，并简记为PM或PA，其中上标M和A分别代表主视频流和辅视频流。
在MPEG标准中还引入一种称为双向预测帧的图像帧，它可采用过去帧和未来帧作为参考帧还原得到，但是其本身不能作为参考帧，以下将这类图像帧称为双向预测帧，并简记为BM或BA，其中上标M和A分别代表主视频流和辅视频流。
在本发明中，MPEG编码器4对左路视频流按照MPEG标准进行编码以生成主视频码流，该主视频码流由按照一定顺序排列的编码后IM、PM和BM帧序列构成。
如图所示，左右两路视频流都被输入辅视频流编码单元中的视差/运动估计单元5，并在该单元中进行视差和运动估计。具体而言，将主视频流和辅视频流内同步或对应的帧内编码帧IM与IA以及帧间预测帧PM与PA进行比较以获得对辅视频流内图像帧IA或PA的视差估计；将辅视频流先前的帧内编码帧IA或帧间预测帧PA与当前的帧间预测帧PA进行比较以获得对当前帧间预测帧的运动估计。之所以为每幅PA帧提供运动估计信息和视差估计信息是因为，在一般情况下，将运动与视差进行混合补偿可得到最好的预测结果，因此在本发明中，为了使解码端恢复出较高质量的图像帧，视差/运动估计单元5为一幅PA帧提供了运动估计信息(通过将先前的同一视频流内参考帧IA帧或PA帧与当前的PA帧比较得到)和视差估计信息(根据对应的PA和PM帧得到)，这样可以有效解决因时域遮挡与视差遮挡造成的编码效率降低的问题。
视差估计的方法有多种，在本发明中，视差/运动估计单元5采用基于分层马尔可夫概率模型和多级块匹配方式进行视差估计。该方法的优点是可获得一个平滑和相对准确的视差场，这将大大降低视差补偿残差图象的熵，从而进一步提高压缩率。为了与MPEG标准的块尺寸兼容，在采用上述分层马尔可夫概率模型和交叠块匹配方式时，将分层等级设定为两级，分割块尺寸分为8×8和16×16两种。
运动补偿估计是一种基于时间的DPCM编码预测技术，其在MPEG1和MPEG2视频编码标准中得到了广泛应用。运动补偿概念是以对视频帧间运动的估算为基础的，也就是说，若视频镜头中所有物体均在空间上有一位移，则用有限的运动参数(例如对于像素的平移运动，可用运动矢量来描述)来对帧间运动加以描述。由于一些运动矢量之间的空间相关性通常较高，有时可以认为一个运动矢量代表了一个相邻像素块的运动，因此可将一帧画面划分为若干像素块(在MPEG1和MPEG2标准中一个像素块为16×16像素)，并只对代表每个像素块的一个运动矢量进行估算、编码和传送。由于只对预测误差画面(原始画面与运动补偿预测画面之间的差别)加以编码，因此减少了帧间的时间冗余度。
实际观察表明，对于时间上连续的立体视频图象，它们的视差场同样具有高度时间冗余度，因此在本发明中，比较好的是按照下列方式获得视差补偿估计的初始值首先对PA帧进行运动补偿预测以获得运动矢量，然后对同一视频流内先前的参考帧IA(或PA)的视差场进行运动补偿预测，由此得到新视差场即可作为视差估计的初始值。这种方式可大大降低辅视频流编码所需的时间，提高了编码速度。
补偿预测编码单元6与视差/运动估计单元5相连，其对视差/运动估计单元5获得的IA帧视差估计补偿信息以及PA帧的的视差估计补偿信息或运动估计补偿信息进行编码以生成辅视频码流。编码后的IA帧视差估计补偿信息比特流分为三部分视差矢量流、视差补偿残差图象以及四叉树结构，其中，视差矢量流采用差分脉冲编码方法(DPCM)编码，残差图象采用离散余弦变换(DCT)及标量量化方法来编码。
复用器7与MPEG编码器4和补偿预测编码单元6相连，它将主视频码流和辅视频码流以时分复用方式生成立体视频码流。在本发明中，为了提高编码效率，辅视频流内所有的双向预测/内插帧(BA帧)都不作任何编码处理，也不作为辅视频码流一部分送入复用器7以在信道2上传输。
在上述立体视频流编码器中，可以通过改变上述视差补偿后残差图象的DCT量化系数，灵活地改变传输信道的附加带宽以满足各种带宽需求下的立体显示。
再次参见图1，立体视频流解码器3包括作为主视频流解码单元的MPEG解码器9、去复用器7以及由视差/运动补偿预测单元10、帧估计与内插单元11和辅视频流重建单元12构成的辅视频流解码单元。
如图1所示，去复用器8将信道2上传输的立体视频码流分解为主视频码流和辅视频码流并将主视频流提供给MPEG解码器9而将辅视频流提供给视差/运动补偿预测单元10和帧估计与内插单元11。
MPEG解码器9对主视频码流按照MPEG协议进行解码以生成主视频流，其由按照一定顺序排列的恢复后IM、PM和BM帧序列构成。
视差/运动补偿预测单元10还与MPEG解码器9、帧估计与内插单元11和辅视频流重建单元12相连，其根据MPEG解码器9输出的主视频流中帧内编码帧IM和帧间预测帧PM以及去复用器8输出的辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流内相应的帧内编码帧IA和帧间预测帧PA，其重建的IA帧和PA帧被输出至帧估计与内插单元11和辅视频流重建单元12。
帧估计与内插单元11还与MPEG解码器9和辅视频流重建单元12相连，其根据MPEG解码器9输出的主视频流内相应的双向预测帧BM、辅视频流内相应的帧内编码帧IA和帧间预测帧PA(例如该BA前后邻近的IA帧和PA帧)以及辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流的双向预测/内插帧，其重建的BA帧被输出至辅视频流重建单元12。
在辅视频流重建单元12内，视差/运动补偿预测单元10重建的帧内编码帧IA和帧间预测帧PA以及帧估计与内插单元重建的双向预测/内插帧BA按照采集时间先后排序以生成辅视频流。
由于辅视频流内绝大多数为BA帧，因此在立体编解码结构中，BA帧重建速度和图象质量是十分重要的。为此，在本发明中采用一种帧估计方法，其基于贝叶斯最小代价方程的立体帧估计和内插方法(SFEI_BLCF)。该方法利用在解码端获得的运动、视差和图象信息(在图2中以虚线所示箭头表示)以及立体视频序列自身的特点，可以快速合成BA帧，并且重建图象在立体视觉意义上具有可接受的质量。具体重建步骤如下(1)由于BA帧是内插于IA与PA帧之间的，所以对IA与PA帧之间的运动矢量按BA帧到IA帧的距离进行伸缩以确定IA帧内的像素点在BA帧内的位置。
(2)对于同一个像素点，如果其在相应的BM、IA和PA帧内的像素值之差小于设定值，则将其视为可视区域，对这些像素值的加权平均值作为BA帧内相应像素点的取值，并且记录下BA帧内该像素点指向IA和PA帧的运动矢量以及指向BM帧的视差矢量。
(3)对于同一个像素点，如果其在相应的BM、IA和PA帧内的像素值之差大于或等于设定值，则将该像素点视为遮挡点，在其邻域的可视区域中选择与各个像素点相关的运动矢量中的一个作为匹配运动矢量，并根据这个运动矢量映射到相应的图象帧以获得该点的最终像素值。
由上可见，在本发明的立体视频流编码器/解码器中，主视频流的BM帧、辅视频流的IA和PA帧作为帧间补偿预测的参考帧，均需要进行编码传输。但是在解码时，可以直接利用解码端获得的运动和视差矢量值对辅视频流BA帧进行恢复和重建而无需进行匹配搜索，因此本发明具有编码压缩率高和解码速度快的特点。
图2示出了本发明的视频处理系统示意图。如图2所示，该视频处理系统包含两台分别摄取左路和右路视频流的摄像机21a和21b、与摄像机相连的时基校正器22、与时基校正器22相连的帧顺序多路复用器23、计算机系统24以及普通显示器25和立体显示器26，其中计算机系统24包含上述立体视频编码器和立体视频流解码器。
在上述视频处理系统中，当进行编码时，两台摄像机21a和21b输出的左右视频流经时基校正器22进行时间同步处理后输出至帧顺序多路复用器23，经过多路复用形成立体视频流后送入计算机系统24。当只有一路视频流输入计算机系统24或者仅需传输单路视频流时，由立体视频流编码器的主视频流编码单元对视频图像进行编码并将MPEG标准码流信号送至传输信道，当需要传输两路视频流时，由立体视频流编码器的主视频流编码单元和辅视频流编码单元分别对左右路视频图像进行编码并将包含主视频码流和辅视频码流的信号送至传输信道。
解码由计算机系统24的立体视频流解码器完成，当接收的视频流仅包含一路视频流时，由立体视频流解码器的主视频码流解码单元对编码码流进行解码并将解码信号送至普通显示器，当接收的码流包含左右两路视频流信号时，由立体视频流解码器的主视频码流解码单元和辅视频码流解码单元分别对左右两路编码码流进行解码并将解码信号送至自动立体显示器。以下以一个具体应用示例说明本发明的效果。假设图像帧为CIF格式(352×288)，对主视频流按照MPEG编码的语法标准进行编码，该路图象质量相对较高(平均峰值信噪比PSNR在35dB左右)，编码率为0.14MbS～2.55MbS。辅视频流中仅有少数帧进行预测编码和传送，其余帧则完全“跳过”，在编码端被“跳过”的帧在解码端通过帧估计和内插进行实时的恢复，该路视频流的平均编码率为14.8Kbs～108Kbs。通过比较可见，传送辅视频流所需要的附加带宽极低，使得立体数字电视的总比特流仅是通常单视数字电视传输比特流的1.15～1.3倍左右。虽然辅视频流的图象质量比主视频流稍低(平均峰值信噪比PSNR在30dB左右)，但这种具有混合分辨率的左右图象在解码端完全可以利用人体视觉系统特性(HumanVisualsystem，HVS)以及相应的立体显示器合成为具有高度视觉清晰度和足够深度感的立体图象。
权利要求
1.一种立体视频流编码器，其特征在于，包括主视频流编码单元，用于对其中一路视频流按照MPEG标准进行编码以生成主视频码流；辅视频流编码单元，其包括视差/运动估计单元，用于利用主视频流内的帧内编码帧和帧间预测帧分别对辅视频流内对应的帧内编码帧和帧间预测帧进行视差估计，并利用辅视频流内先前的帧内编码帧或帧间预测帧对辅视频流内当前的帧间预测帧进行运动估计；补偿预测编码单元，用于对辅视频流内的帧内编码帧的视差估计补偿信息(包括视差矢量和残差图象)以及帧间预测帧的视差估计补偿信息或运动估计补偿信息(包括运动矢量和残差图象)进行编码以生成辅视频码流；复用器，用于将主视频码流和辅视频码流以时分复用方式生成立体视频码流。
2.如权利要求1所述的立体视频流编码器，其特征在于，所述视差/运动估计单元采用基于分层马尔可夫概率模型和多级块匹配方式进行视差估计。
3.如权利要求2所述的立体视频流编码器，其特征在于，在所述分层马尔可夫概率模型和交叠块匹配方式中，分层等级设定为两级，分割块尺寸分为8×8和16×16两种。
4.如权利要求1-3中任意一项所述的立体视频流编码器，其特征在于，视差估计的初始值按照下列方式获得利用通过对辅视频流内的帧间预测帧进行运动估计获得的运动矢量对先前的帧内编码帧或帧间预测帧的视差场进行运动补偿预测，并将新的视差场作为视差估计的初始值。
5.如权利要求4所述的立体视频流编码器，其通过改变视差补偿预测信息中的残差图象DCT量化系数来调整辅视频码流占用的传输信道带宽。
6.一种立体视频流解码器，其特征在于，包括去复用器，用于将立体视频码流分解为主视频码流和辅视频码流；主视频码流解码单元，用于对主视频码流按照MPEG标准进行解码以生成主视频流；辅视频码流解码单元，其包括视差/运动补偿预测单元，用于根据主视频流中的帧内编码帧和帧间预测帧以及辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流的帧内编码帧和帧间预测帧；帧估计与内插单元，用于根据相应的主视频流双向预测帧、辅视频流内的帧内编码帧和帧间预测帧以及辅视频码流中包含的视差估计补偿信息和运动估计补偿信息重建辅视频流内的双向预测/内插帧；辅视频流重建单元，用于对视差/运动补偿预测单元重建的帧内编码帧和帧间预测帧以及帧估计与内插单元重建的双向预测/双向内插帧按照时间先后排序以生成辅视频流。
7.如权利要求6所述的立体视频流解码器，其特征在于，帧估计与内插单元采用基于贝叶斯最小代价方程的立体帧估计和内插方法重建双向预测/内插帧。
8.一种立体视频处理系统，其特征在于，包含摄取左路和右路视频流的摄像机、使两台摄像机输出的视频流在时间上同步的时基校正器、将经过时基校正器时间同步处理后的两路视频流多路复用以形成立体视频流的帧顺序多路复用器、包含如权利要求1所述的立体视频编码器和如权利要求6所述的立体视频流解码器的计算机系统以及普通显示器和立体显示器，其中，当仅需传输单路视频流时，由立体视频流编码器的主视频流编码单元对视频图像进行编码并将信号送至传输信道，当需要传输两路视频流时，由主视频流编码单元和辅视频流编码单元分别对左右路视频图像进行编码并将信号送至传输信道，当接收的视频码流仅包含一路视频流时，由立体视频流解码器的主视频码流解码单元对编码码流进行解码并将解码信号送至普通显示器，当接收的码流包含左右两路视频流信号时，由主视频码流解码单元和辅视频码流解码单元分别对左右两路编码码流进行解码并将解码信号送至立体显示器。
全文摘要
本发明涉及一种立体视频数据压缩技术。本发明在对立体摄像系统采集的双目视频流进行编码时，对其中一路按照兼容MPEG系列的标准进行编码，对另一路图象分别采用视差补偿预测、联合视差与运动补偿预测以及在解码端通过帧估计和内插进行恢复的方法进行编码传输。其中视差估计采用基于马尔可夫模型的多级分割块估计，帧估计和内插的方法为利用在解码端恢复的参考帧图象以及相应的视差和运动矢量，用基于帧估计概率模型的方法进行估计和内插。解码端分两级解码，一级是只解码主视频流，得到在普通显示设备上显示的单视频，另一级是解码全部双视频流，恢复的立体视频信号由自动立体显示器合成显示立体图像。
文档编号H04N13/00GK1450816SQ0311654
公开日2003年10月22日申请日期2003年4月22日优先权日2003年4月22日
发明者张兆杨, 安平, 骆艳, 戏昌满申请人:上海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张兆杨;安平;骆艳;戏昌满
技术所有人：上海大学
我是此专利的发明人

上一篇：一种移动电话快捷登录网络的方法
上一篇：一种垂直光滑的反射型微镜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。