基于db2小波的可伸缩性视频编解码方法

文档序号：6554776阅读：169来源：国知局

专利名称：基于db2小波的可伸缩性视频编解码方法
技术领域：
本发明涉及一种视频编解码方法。
背景技术：
随着计算机技术和通信技术的发展，人们对视频信息的需求不断增长，要求也越来越多样化，传统的视频编码方法无法根据用户需求和网络条件动态地调整数据流，因此不能很好地适应目前的网络传输状况。于是可伸缩性视频编码(SVC)便应运而生，并且成为近几年视频编码领域的研究热点，取得了显著的研究成果。
目前，可伸缩性视频编解码系统主要有基于离散余弦变换(DCT)和离散小波变换(DWT)两大类，现在MPEG-4视频标准中采用的框架仍是基于DCT，但是DCT在低码率情况下会出现明显的块效应，严重影响视觉效果，而且随着小波理论的日益成熟，基于离散小波变换的编码技术得到越来越多的研究。
在基于离散小波变换的可伸缩性视频编码方法中，运动补偿时域滤波(MCTF)是一个重要的核心技术，它能有效地实现时间(帧速率)的可伸缩性。目前，大部分基于离散小波变换的可伸缩性视频编码方法采用Haar(哈尔)小波来实现运动补偿时域滤波。因为它简单、易于实现，只涉及到相邻的两帧，运动估计只在两帧间进行。但应用该方法进行编解码后重建的视频图像质量差。

发明内容
本发明的目的是提供一种基于db2(Daubechies系中的db2为小波函数)小波的可伸缩性视频编解码方法，以克服现有采用Haar小波来实现运动补偿时域滤波的可伸缩性视频编码方法进行编解码后重建的视频图像质量差的缺点。本发明通过下述步骤实现一、输入的视频序列信号经过编码器1的编码提供同时具备时间、空间和质量要求的可伸缩性的编码后比特流，编码时采用db2小波来实现运动补偿时域滤波；二、从编码器1输出的编码后数据流被送入提取器2，根据用户参数接口9所提供的用户需求对编码后数据流进行编辑，生成提取后比特流，与此同时，编码器1和提取器2共同生成索引文件4，从而与提取后的比特流相匹配；三、提取后的比特流和索引文件4作为解码器3的输入，解码器3完成处理后视频序列数字信号的重建工作；从而符合用户和网络要求。
实验结果表明，本系统与基于Haar小波的可伸缩性视频编解码系统相比，完全重建的视频图像质量和帧速率改变后的重建视频图像质量都有了明显的提高，并且解码时间也有所缩短，具备了更好的实时性。本发明的效果能够通过采取三个测试序列进行测试的测试结果证明“Bus(汽车)序列”、“Foreman(工人)序列”和“Suzie(苏珊)序列”，它们都为QCIF格式，即分辨率为176*144。在相同的层上，采用db2小波实现运动补偿时域滤波得到的低通帧的PSNR值比Haar小波提高了约3dB。基于db2小波的运动补偿时域滤波融入进t+2D(时间域+空间域变换)系统之后整个可伸缩性系统的性能，包括时间、空间、质量三方面的可伸缩性都有较大提高。具体情况如下(1)系统的完全重建性能系统在三方面都不进行提取的情况下对原视频序列的完全重建性能。表3-1、3-2、3-3分别列出了“Bus序列”、“Foreman序列”和“Suzie序列”序列重建后的平均PSNR值，PSNR值是本领域中衡量峰值信噪比质量的通用指标。
表3-1 Bus序列完全重建后的平均PSNR值

表3-2 Foreman序列完全重建后的平均PSNR值

表3-3 Suize序列完全重建后的平均PSNR值

从三个表的对比可以看出，采用db2小波比采用Haar小波在完全重建后平均PSNR值提高了0.4-2.5dB，解码后得到了质量更好的视频图像。图3-图5绘出了不同比特率下各测试序列的PSNR曲线。图3为Bus序列，图4为Foreman序列，图5为Suzie序列。图中，点划线为采用db2小波的系统进行处理的PSNR曲线，实线为采用Haar小波的系统进行处理的PSNR曲线，可以看出采用db2小波的系统得到了更好质量的重建视频序列。为了直观地看出完全重建的图像质量，图6至图11分别显示了这三个视频序列的重建情况，由于视频序列有多帧，这里列出了序列的最后一帧。从图中可见，完全重建后的图像质量很好，这意味着系统的编解码性能很好，在网络条件允许而用户端又没有特殊要求的情况下，系统可以不做任何抽取，直接提供给用户最高质量的视频流。在实际中往往由于网络带宽不同及用户的不同需求，需要提供可伸缩的视频流，为了考察系统的可伸缩性能，下面将从时间、空间、质量三方面来进行实验。
(2)时间可伸缩性能时间可伸缩性主要考察帧速率可依据实际需要来调节的性能。对各测试序列做两层运动补偿时域滤波，提取出一层然后进行解码，可以得到帧速率降低的视频序列。表3-4、3-5、3-6分别列出了各序列在重建后与原序列相应帧相比较的PSNR值。图12至图14绘出了各序列在不同比特率下的PSNR曲线。
表3-4 Bus序列时间抽取一层后的平均PSNR值

表3-5 Foreman序列时间抽取一层后的平均PSNR值

表3-6 Suzie序列时间抽取一层后的平均PSNR值

从表3-4、3-5、3-6中可以看出，时间抽取一层后重建视频序列的PSNR值比基于Haar小波的系统提高了1.0-2.8dB。这意味着运动补偿时域滤波后得到的低通帧效果得到了改善，而且在帧速率改变后重建的图像质量得到了提高。在图12至图14中，点划线为采用db2小波的系统进行处理的PSNR曲线，实线为采用Haar小波的系统进行处理的PSNR曲线，从图中可以看到，在高比特率下采用db2小波系统的优势更加明显，这也体现了采用db2小波做运动补偿时域滤波的优越性，在低比特率下由于db2小波在运动估计上更复杂的处理而使得这种优势无法很好地体现，从这里也可看出，采用db2小波的编码系统更适于高比特率传输的情况，在高比特率下，重建视频序列的质量得到了明显的提高。
为了直观地看出帧速率降低后重建图像的质量，图15至图20给出了时间抽取一层后重建图像的结果，这里，同样由于无法再现整个视频序列的播放情况，所以只给出了序列的最后帧的情况。这里，需要注意一点，以Bus序列为例，原序列共70帧，时间提取一层后帧速率减为原来的2/5，即重建的序列为28帧，图16为重建序列的最后一帧(从第0帧开始)，这一帧并不与原序列的最后一帧(第69帧)严格对应，而是对应于原序列的第66帧，所以这里给出的是第66帧的图像，而不是最后一帧。这种对应关系是由db2小波特殊的分层结构决定的。在网络带宽不允许的情况下，只提供帧速率降低后的视频流，它与原视频流相比只是帧数减小而反映的运动信息却大致相同。这表明系统达到了较好的时间可伸缩性。
(3)空间可伸缩性能空间可伸缩性主要考察空间像素点分辨率的可调节性，编码时做3次离散小波变换，提取出一层以后进行解码可以得到分辨率减半的图像。在上面时间提取的基础上继续进行空间提取，可以得到各测试序列分辨率减半(88*72)的视频序列，如图21至图26所示。可以看到，虽然图像分辨率减半了，但是图像的质量依然很好。这表明系统为视频序列提供了良好的空间可伸缩性。
(4)质量可伸缩性能系统编码时由参数LevelsEZW(嵌入式零树小波(EZW)的层数)来控制图像的质量，编码时将此参数设定为14，编码后的SVC文件经提取不同的层数可以解码得到不同质量的视频序列。图27至图38分别列出了各测试序列不同质量层次的图像。以Bus序列为例，图27为原始序列图像，图28为EZW层数为14时的恢复图像，可以看出图像很清晰，图29为质量提取了两层后恢复的图像，也即EZW层数为12，这时可以看到地面上已经出现了一些模糊，不过在视频序列播放时很难觉察到，图30为提取了三层后恢复的图像，这时地面上的模糊现象加重，并且向上扩散，在播放时已经能看出来模糊现象了。这里需要说明的是，由于运动补偿时域滤波的误差累积效应，所以当EZW层数较少的时候，误差信息会在每一帧组的前面个别帧上较明显地表现出来，而这时在每个帧组中其它帧仍然效果很好。因此这里没有给出序列的最后一帧(此时最后帧效果很好)，而是给出了最后一个帧组中误差累积较明显的一帧。从图中可以看出系统只经一次编码可以提供不同质量层次的视频序列，实现了很好的质量可伸缩性。
(5)完全可伸缩性能完全可伸缩性指时间、空间、质量三方面可伸缩性的同时实现，系统做2层运动补偿时域滤波、3次离散小波变换变换、14层EZW进行编码，时间、空间、质量各提取一层后解码，可同时实现三方面的可伸缩性，也即帧速率减为原视频序列的2/5，空间分辨率降为原视频图像的一半(88*72)，PSNR(质量)也比原视频序列降低了一个等级。图39至图41给出了各测试序列的重建序列的最后一帧图像。其中，图39为Bus序列，图40为Foreman序列，图41为Suzie序列。从图中可以看到，在三方面伸缩性同时实现后，视频图像的效果仍然很好，这表明系统可以很好地实现时间、空间、质量三方面的完整可伸缩性。

图1是本发明编解码的流程示意图，图2是实施方式一中编码器1内信号的流程示意图，图3是不同比特率下Bus序列完全重建后的PSNR值对比图，图4是不同比特率下Foreman序列完全重建后的PSNR值对比图，图5是不同比特率下Suzie序列完全重建后的PSNR值对比图，图6是Bus序列原始图像，图7是本发明方法Bus序列完全重建后的图像，图8是Foreman序列原始图像，图9是本发明方法Foreman序列完全重建后的图像，图10是Suzie序列原始图像，图11是本发明方法Suzie序列完全重建后的图像，图12是高比特率条件下Bus序列PSNR值对比图，图13是高比特率条件下Foreman序列PSNR值对比图，图14是高比特率条件下Suzie序列PSNR值对比图，图15是Bus序列原始图像，图16是本发明方法时间抽取一层后Bus序列重建后的图像，图17是Foreman序列原始图像，图18是本发明方法时间抽取一层后Foreman序列重建后的图像，图19是Suzie序列原始图像，图20是本发明方法时间抽取一层后Suzie序列重建后的图像，图21是Bus序列原始图像，图22是本发明方法图像分辨率减半后Bus序列重建后的图像，图23是Foreman序列原始图像，图24是本发明方法图像分辨率减半后Foreman序列重建后的图像，图25是Suzie序列原始图像，图26是本发明方法图像分辨率减半后Suzie序列重建后的图像，图27是Bus序列原始图像，图28是EZW层数为14时的恢复图像，图29是质量提取了两层后恢复的图像，图30是提取了三层后恢复的图像，图31是Foreman序列原始图像，图32是Foreman序列EZW层数为14时的恢复图像，图33是Foreman序列质量提取了两层后恢复的图像，图34是Foreman序列提取了三层后恢复的图像，图35是Suzie序列原始图像，图36是Suzie序列EZW层数为14时的恢复图像，图37是Suzie序列质量提取了两层后恢复的图像，图38是Suzie序列提取了三层后恢复的图像，图39是三方面伸缩性同时实现后Bus序列重建后的视频图像，图40是三方面伸缩性同时实现后Foreman序列重建后的视频图像，图41是三方面伸缩性同时实现后Suzie序列重建后的视频图像，图42是实施方式二中运动补偿时域滤波器1-1进行运动估计的示意图，图43是实施方式二中基于db2运动估计的像素点分类示意图，图中◎代表I类像素点，☆代表II类像素点，△代表III类像素点，代表IV类像素点，●代表非参考像素点，◇代表多关联像素点，○代表唯一关联像素点；图44是实施方式二中基于db2小波的运动补偿时域滤波示意图，图45是实施方式三中原子结构数据流组织示意图。
具体实施例方式
具体实施方式
一下面结合图1和图2具体说明本实施方式。本实施方式通过下述步骤实现二、从编码器1输出的编码后数据流被送入提取器2，根据用户参数接口9所提供的用户需求对编码后数据流进行编辑，生成提取后比特流，与此同时，编码器1和提取器2共同生成索引文件4，从而与提取后的比特流相匹配；三、提取后的比特流和索引文件4作为解码器3的输入，解码器3完成处理后视频序列数字信号的重建工作；一、输入的视频序列信号经过编码器1的编码提供同时具备时间、空间、质量要求的可伸缩性的编码后比特流，编码过程中的各个参数由参数文件5读入。索引文件4是指报文头、数据包结构等一些打开文件解码时的关键参数。参数文件5是指(关于帧宽、帧长、帧速率、空间级别、时间级别、质量级别、宏块大小、搜索范围的参数)，编码时采用db2小波来实现运动补偿时域滤波；二、从编码器1输出的编码后比特流和索引文件4被送入提取器2，根据用户参数接口9所提供的用户需求对编码后比特流进行编辑，生成提取后比特流，与此同时，编码器1和提取器2共同生成索引文件4，从而与提取后的比特流相匹配；三、提取后的比特流和索引文件4作为解码器3的输入，解码器3完成处理后视频序列数字信号的重建工作；从而符合用户和网络要求。
编码器主要用于对输入的原始序列进行处理从而得到一个具有可伸缩性结构的数据流，提取器则根据用户需求或网络带宽情况从编码端输出的数据流中提取出所需要的一部分，然后解码器对提取的这部分数据流进行解码，这样就得到了系统所需要的输出序列。同时，编码器只需要一次编码，便可通过设定提取器的参数提取出不同帧速率/空间分辨率/满足PSNR质量要求的的比特流，灵活实现了可伸缩编码。
下面结合图2进行具体说明。在步骤一中的编码器1内进行如下步骤I、把输入的视频序列信号首先在运动估计器1-6中进行运动估计；II、运动估计得到的运动矢量阵列送入运动补偿时域滤波器1-1内用于生成低通帧和高通帧；III、紧接着在二维离散小波变换器1-2内分别对低通帧和高通帧进行帧内的二维离散小波变换；IV、在PSNR质量编码器1-3内对生成的低频子带和高频子带的小波系数再分别进行满足PSNR质量要求的伸缩性编码以实现PSNR可伸缩性；与步骤II、III和IV同时进行着步骤V、运动矢量模块1-4对运动矢量阵列进行编码使其同样具有可伸缩性，同时保存相应的运动矢量从而能够恢复原始视频序列；VI、最后在数据流组织模块1-5中将质量编码器1-3输出的数据流和运动矢量模块1-4输出的数据流按照可伸缩性的要求分层次进行分类组织，给提取器2编辑数据流提供一个有效并且便利的数据结构，同时根据数据流的分类组织情况生成索引文件4用于指示各层次数据的分布状况，为提取器2编辑数据流提供依据。
编码器1内的运动补偿时域滤波器1-1、二维离散小波变换器1-2和PSNR质量编码器1-3分别实现数据流的时间(帧速率)、空间(分辨率)、满足PSNR质量要求的可伸缩性。对运动补偿时域滤波、离散小波变换、PSNR编码各自得到的数据流进行分层，分层后的数据流由数据流组织模块1-5进行抽取、组织，得到的数据流送到解码器重建原图像，便同时实现了时间(帧速率)、空间(分辨率)、PSNR(质量)三方面的可伸缩性。
具体实施方式
二下面结合图42至图44具体说明本实施方式。本实施方式与实施方式一的不同点是编码器1内的运动补偿时域滤波器1-1采用下述步骤工作(1)运动估计采用Haar小波做运动补偿时域滤波时，只需对相邻的两帧做运动估计。而采用db2小波，则需要在相邻四帧间做运动估计，一方面，运动矢量大约为Haar小波的两倍，另一方面，像素点的分类情况也相对更为复杂。
对于相邻的四帧，定义为A、B、C、D。考虑到相邻两帧的相关性最强，所以运动估计并不采用传统的单向或双向预测，或是设定多个参考帧。这里，运动估计采用单、双向预测交替进行的方法，在一个帧组中选定预测帧进行双向预测，如图42所示。在这一组帧(A、B、C、D)中，选择B为预测帧，将来存储运动补偿时域滤波得到的高通帧，A帧为B的前向预测参考帧，将来存储运动补偿时域滤波得到的低通帧。同时，B以C为参考作后向预测，C以D为参考作后向预测。这种运动估计的方法将重点放在预测帧B上，因为它直接关系到运动补偿时域滤波产生的高通帧的质量，而低通帧又由高通帧更新得到，从而影响到整体的滤波效果。由于C和D要和其后的两帧(E、F)作为一组进行下一次的运动补偿时域滤波，所以D要作为下一组中的预测帧，以C为参考作前向预测。
运动估计采用基于块的匹配方法，块大小为8×8。运动估计后像素点仍要进行不同的分类，依据高通帧和低通帧的产生方式，将B帧和其它三帧的像素点分别进行分类。图43为像素点的分类情况。
B帧中的像素点分类情况如下I类像素点B中的像素在A、C、D中都没有参考点。
II类像素点B中的像素在A中有参考点，但是在C、D中没有参考点。
III类像素点B中的像素在A、C中都有参考点，但对应C中的参考点在D中没有参考点。
IV类像素点B中的像素在A、C中都有参考点，同时对应C中的参考点在D中有参考点。
A、C、D中的像素点分类情况如下多关联像素点在做运动估计时，用于另一帧中多个像素的参考的像素点。
非参考像素点不用于被其它像素参考的像素点。
唯一关联像素点只用于一个像素参考的像素点。
(2)产生高通帧对于一个序列图像组(A、B、C、D、E、F......)，将初始序列分组前四帧(A、B、C、D)为一组做运动补偿时域滤波，该组中的后两帧(C、D)和后面连续的两帧(E、F)构成下一组，即每隔两帧，连续的四帧构成一组做运动补偿时域滤波。每做一次运动补偿时域滤波，会产生一个高通帧和一个低通帧。其中，高通帧记录了细节信息，低通帧反映了平均信息。
这里采用db2小波系数，即低通系数h0=142(1+3),h1=142(3+3),h2=142(3-3),h3=142(1-3)]]>高通系数g0＝-h3，g1＝h2，g2＝-h1，g3＝h0对于相邻的四帧A、B、C、D，作如下定义首先做运动估计(ME)，B以A为参考做ME，运动估计矢量记为u1，v1，u1、v1分别记录运动估计矢量的横、纵坐标；B以C为参考做ME，运动估计矢量记为u2，v2；C以D为参考做ME，运动估计矢量记为u3，v3。H为高通帧，L为低通帧，(m，n)为当前像素点的坐标。
H(m，n)＝αB(m，n)-[βA(Ax，Ay)+γC(Cx，Cy)+δD(Dx，Dy)](3-4)对B帧中四类不同的像素分别进行处理对于I类像素该类像素无论是前向运动估计还是后向运动估计都找不到可以与之匹配的像素点，所以令β＝γ＝δ＝0，α＝h2，即H(m，n)＝h2B(m，n)(3-5)对于II类像素该类像素在A中有参考点，参考点的坐标记为(Ax，Ay)，则Ax＝m+u1，Ay＝n+v1。由于该类像素在C中无参考点，所以可令γ＝δ＝0。为了确定α和β的值，可以从高通帧的特性来考虑，由于高通帧记录的是细节分量，如果运动估计做得足够好，使得两个相匹配的像素点在实际图像中也是同一个像素点的话，那么理想的情况应该有该细节分量为0的结论。所以从公式3-1中可得α+β＝1，结合db2小波系数考虑，可以得到α＝h2，β＝-h3，即H(m，n)＝h2B(m，n)+h3A(Ax，Ay) (3-6)对于III类像素在C中参考点的坐标记为(Cx，Cy)，则Cx＝m+u2，Cy＝n+v2。此时令δ＝0，而且据前面的分析可得到α+β+γ＝0，同理可得到α＝h2，β＝3/2h3，γ＝1/2h1，即H(m，n)＝h2B(m，n)-(3/2h3A(Ax，Ay)+1/2h1(Cx，Cy))(3-7)对于IV类像素在D中参考点的坐标记为(Dx，Dy)，则Dx＝m+u2+u3，Dy＝n+v2+v3，这种情况下α＝h2，β＝h3，γ＝h1，δ＝-h0，可以由以下公式得到高通帧H(m，n)＝h2B(m，n)-(h3A(Ax，Ay)+h1C(Cx，Cy)-h0D(Dx，Dy)) (3-8)(3)产生低通帧低通帧可由以下公式得到L(m，n)＝σA(m，n)+μH(3-9)对于非参考像素，
L(m，n)＝σA(m，n) (3-10)对于多关联像素点和唯一关联像素点的处理，需要引入一些相关标准。首先定义根据B帧预测A帧中某点位置j的运动矢量记为v1，预测C帧中点位置k的运动矢量记为v2，B帧中对应的点位置为i。由Haar小波的情况可以得到预测最优化的标准(j，k)＝(arg minjE(j)+λ1‖v1‖，arg minkE(k)+λ2‖v2‖) (3-11)其中，E(j)(E(k))是后向(前向)预测方向的细节分量的平均能量。且有E(j)=Σl&Element;S(j)(H(j-l)u(l))2---(3-12)]]>E(k)=Σl&Element;S(k)(H(k-l)u(l))2---(3-13)]]>其中，S(j)是像素点j的一个小邻域。U(1)是该邻域中每个像素点的加权因子，它取决于像素点与中心点的距离。
同时，运动矢量的标准是(j，k)＝arg min(j，k)(‖v1‖+‖v2‖) (3-14)如果只考虑连续一个方向的运动情况，那么运动矢量间最理想的关系应为v1(j)＝-pv2(k)，p＞0。这可以由最小化以下公式得到(j,k)=argmin(j,k)|&lang;v1(j)||v1(j)||,v2(k)||v2(k)||&rang;+1|---(3-15)]]>如果vi＝0，那么vi||vi||=0]]>由以上的标准及公式(3-4)、(3-9)，可以得到μ＝-2，σ＝(-1)/。
通过以上的数学处理，就获得了高通帧和低通帧完整的信息。
(4)多层运动补偿时域滤波后数据流分层取一个帧组(GOP)长度为10，设初始视频序列的帧号从0开始，做一层运动补偿时域滤波后得到4个低通帧L和4个高通帧H，如图44所示，然后接着对这个4个低通帧进行运动补偿时域滤波，得到1个低通帧LL和1个高通帧LH。在程序实现时，每做一次运动补偿时域滤波便把得到的低通帧和高通帧分别存在原始帧的相应位置，如帧0～4这四帧得到一个低通帧L和一个高通帧H，那么L和H分别存储在原始的第0帧和第1帧的空间中，这时原始帧已被得到的L和H所替代，下面在介绍分层时也用相应的帧序号来描述。当做两次帧间变换时，得到如图44所示的三层结构，分层情况如下0-LL帧为第0层(LL前的0代表LL现在的存储位置，因为此时LL已经存在了初始帧第0帧的位置，以下的序号也是同样的意义)第一层2-LH，4-L，6-L；第二层1-H，3-H，5-H，7-H，8，9(其中，8，9为初始帧)。如果只做一次运动补偿时域滤波，那么分层情况如下第0层0-L，2-L，4-L，6-L；第一层1-H，3-H，5-H，7-H，8，9。
这样的分层处理是为了和后续的离散小波变换及嵌入式零树编码进行有机结合，以便数据流组织模块对之进行有序的组织和存储，为提取器方便有效地提取数据流做了必要的准备。
如果要求帧速率降低，那么只恢复到运动补偿时域滤波结构的第二层，舍弃高通帧，用剩余的低通帧来代替原始视频序列进行传输，这样可以看到，原来的10帧已经减为了4帧。如果要求帧速率进一步降低，则只传输LL帧。
具体实施方式
三下面结合图45具体说明本实施方式。本实施方式与实施方式一的不同点是在编码器1内进行的步骤VI中的数据流组织模块1-5采用基于基本原子粒(Atom)的组织方式工作的经过前面几个模块的处理后，得到的视频序列已经具有了一定的层次结构，在时间、空间和质量三方面已具备了可伸缩性，有效地组织这些层次结构，使得生成的视频流能够方便地使提取器根据用户和网络需求进行编辑，是系统中一个关键的问题，在系统中通过数据流组织模块来实现。该数据流组织方式采用基于基本原子粒(Atom)的组织结构。
经过以上几个模块处理后，分层后的数据流依然完好地保留着原来的体系结构，它们之间存在着内在联系在对视频序列应用多层运动补偿时域滤波后，根据帧速率的要求，舍弃特定层的高通帧，只把其它层的帧传送到解码器，而离散小波变换是对上一步抽取出的帧进行，变换后每一帧的小波系数都形成块分层结构，根据空间分辨率舍弃某些层，对保留的层进行编码，编码后形成码流的分层结构，由PSNR来决定将哪些层的数据传送到解码器。这样最后传送到解码器的数据流是依据时间、空间、质量三方面的要求抽取得到的，将之进行解码得到的图像便同时满足了这三方面的可伸缩性。
这里，基本原子粒(Atom)的组织方式是采用原子(Atom)结构来组织数据流的方式。时间、空间、质量的层数分别记为L、M、N，可伸缩性空间大小为L×M×N，图45为结构示意图。该空间由L×M×N个元素组成，这些元素称为原子粒(atoms)。Atom(l，m，n)表示提取出时间l层、空间m层、质量n层数据流后的数据块。例如，Atom(0，0，0)是通过以下方式组织数据流得到的数据块提取运动补偿时域滤波后的所有帧中的第0层LLLL，对之进得离散小波变换后，仅对第0层即最低频子带进行编码，编码后得到的数据流截取阈值为T0时的主、副表。显然，使用Atom(0，0，0)可重建出具有最低级别的PSNR、帧速率和空间分辨率的图像。据此，提取器可根据实际需要提取出合适的数据流。
下面主要说明数据流的存储方式原始视频序列每十帧为一个帧组，为简化说明，这里使用三种伸缩性的较低层次作为示例。视频序列在运动补偿时域滤波中做一级帧间滤波，得到四个低通帧和四个高通帧，然后这几个数据帧经过离散小波变换模块做帧内的1级小波变换，得到体现空间可伸缩性的2层共4个子带，其中包括0级的LL子带及1级的HL，LH和HH子带。最后数据帧在PSNR伸缩性编码模块中做两级门限值得到体现PSNR可伸缩性的2层主副表，经过变换后的序列同时可以具有三种伸缩性。
在存储时，各帧中以Y、U、V为顺序存储各分量，这里主要说明各帧及其Atom结构中l、m、n三分量的存储顺序，以时间、空间、PSNR为顺序，具体存储顺序为(1)时间域0级(0-L)帧中的空间0级(LL)子带和PSNR0级主副表；(2)时间域0级(0-L)帧中的空间0级(LL)子带和PSNR1级主副表；(3)然后依次是时间域0级(2-L、4-L、6-L)帧，这几帧分别按(1)(2)的存储方式存储的空间0级(LL)子带和PSNR0级及PSNR1级主副表；(4)时间域0级(0-L)帧中的空间1级(HL，LH，HH)子带和PSNR0级主副表；
(5)时间域0级(0-L)帧中的空间1级(HL，LH，HH)子带和PSNR1级主副表；(6)然后依次是时间域0级(2-L、4-L、6-L)帧，这几帧分别按(4)(5)的存储方式存储的空间1级(HL，LH，HH)子带和PSNR0级及PSNR1级主副表；(7)时间域1级(1-H)帧中的空间0级(LL)子带和PSNR0级主副表；(8)时间域1级(1-H)帧中的空间0级(LL)子带和PSNR1级主副表；(9)然后依次是时间域1级(3-H、5-H、7-H、8、9)帧，这几帧分别按(7)(8)的存储方式存储的空间0级(LL)子带和PSNR0级及PSNR1级主副表；(10)时间域1级(1-H)帧中的空间1级(HL，LH，HH)子带和PSNR0级主副表；(11)时间域1级(1-H)帧中的空间1级(HL，LH，HH)子带和PSNR1级主副表；(12)然后依次是时间域1级(3-H、5-H、7-H、8、9)帧，这几帧分别按(10)(11)的存储方式存储的空间1级(HL，LH，HH)子带和PSNR0级及PSNR1级主副表。
另外，为了能够使提取器高效的运作，数据流组织模块还必须在有效地组织数据流的同时，生成一个记录其中数据分布情况的索引文件，这样提取器就可以在用户和网络需求参数的指导下，直接根据索引文件读取数据流中必要的数据，缩短读取文件的时间消耗，为解码器提供最精简的输入数据流。
本系统提出了基于db2小波的运动补偿时域滤波新方法。并将该方法与离散小波变换(DWT)、嵌入式零树编码进行有机结合；同时，提出了基于基本原子粒的数据流组织结构(该结构将分层后的数据流进行有效地组织)，实现了具有时间、空间、质量三方面的完整可伸缩性的编解码系统。
权利要求
1.基于db2小波的可伸缩性视频编解码方法，其特征在于它通过下述步骤实现一、输入的视频序列信号经过编码器(1)的编码提供同时具备时间、空间和质量要求的可伸缩性的编码后比特流，编码时采用db2小波来实现运动补偿时域滤波；二、从编码器(1)输出的编码后数据流被送入提取器(2)，根据用户参数接口(9)所提供的用户需求对编码后数据流进行编辑，生成提取后比特流，与此同时，编码器(1)和提取器(2)共同生成索引文件(4)，从而与提取后的比特流相匹配；三、提取后的比特流和索引文件(4)作为解码器(3)的输入，解码器(3)完成处理后视频序列数字信号的重建工作。
2.根据权利要求1所述的基于db2小波的可伸缩性视频编解码方法，其特征在于在步骤一中的编码器(1)内进行如下步骤I、把输入的视频序列信号首先在运动估计器(1-6)中进行运动估计；II、运动估计得到的运动矢量阵列送入运动补偿时域滤波器(1-1)内用于生成低通帧和高通帧；III、紧接着在二维离散小波变换器(1-2)内分别对低通帧和高通帧进行帧内的二维离散小波变换；IV、在PSNR质量编码器(1-3)内对生成的低频子带和高频子带的小波系数再分别进行满足PSNR质量要求的伸缩性编码以实现PSNR可伸缩性；与步骤II、III和IV同时进行着步骤V、运动矢量模块(1-4)对运动矢量阵列进行编码使其同样具有可伸缩性，同时保存相应的运动矢量从而能够恢复原始视频序列；VI、最后在数据流组织模块(1-5)中将质量编码器(1-3)输出的数据流和运动矢量模块(1-4)输出的数据流按照可伸缩性的要求分层次进行分类组织，给提取器(2)编辑数据流提供一个有效并且便利的数据结构，同时根据数据流的分类组织情况生成索引文件(4)用于指示各层次数据的分布状况，为提取器(2)编辑数据流提供依据。
3.根据权利要求2所述的基于db2小波的可伸缩性视频编解码方法，其特征在于编码器1内的运动补偿时域滤波器(1-1)采用下述步骤工作(i)采用db2小波做运动补偿时域滤波时，在相邻四帧间做运动估计；(ii)产生高通帧；(iii)产生低通帧；(iv)多层运动补偿时域滤波后数据流分层。
4.根据权利要求2所述的基于db2小波的可伸缩性视频编解码方法，其特征在于在编码器(1)内进行的步骤VI中的数据流组织模块(1-5)采用基于基本原子粒的组织方式工作。
全文摘要
本发明涉及一种视频编解码方法。基于db2小波的可伸缩性视频编解码方法，它克服了现有采用Haar小波来实现运动补偿时域滤波的可伸缩性视频编码方法进行编解码后重建的视频图像质量差的缺点。本发明通过下述步骤实现一、输入的视频序列信号经过编码器的编码提供同时具备时间、空间和质量要求的可伸缩性的编码后比特流，编码时采用db2小波来实现运动补偿时域滤波；二、从编码器输出的编码后数据流被送入提取器，根据用户参数接口所提供的用户需求对编码后数据流进行编辑，生成提取后比特流，编码器和提取器共同生成索引文件，从而与提取后的比特流相匹配；三、提取后的比特流和索引文件作为解码器的输入，解码器完成处理后视频序列数字信号的重建工作。
文档编号G06T9/00GK1913631SQ20061001041
公开日2007年2月14日申请日期2006年8月18日优先权日2006年8月18日
发明者林茂六, 赵志杰, 林亚, 王华兵申请人:哈尔滨工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林茂六;赵志杰;林亚;王华兵
技术所有人：哈尔滨工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。