内容自适应分数像素运动估计方法

文档序号：7742903阅读：200来源：国知局

专利名称：：内容自适应分数像素运动估计方法
技术领域：
：本发明属于信号处理中的视频编码领域，特别针对最新的国际视频编码标准H.264/AVC提出了新的内容自适应分数像素运动估计方法。可以在确保运动估计精度的基础上，减少分数像素运动估计的计算量。H.264/AVC是由ITU-T和IS0/IEC共同成立的联合视频组JVT(JointVideoTeam)制定的最新视频编码国际标准。在H.264视频编码系统中，运动估计能有效去除视频序列相邻帧的时间冗余，在很大程度上决定了视频编码器的编码速度、压縮率和解码视频质量。因此，化264运动估计模块增加了多种编码技术，例如，1/4像素预测精度，多参考帧，树状结构的运动补偿。H.264/AVC的性能超越了以往所有视频编码器，在相同编码质量的前提下，H.264/AVCBaselineProfile产生的码率比H.263Baseline节省了约40%(参见J5rn0sterma皿，JanBormans，PeterList,DetlevMarpe，MatthiasNarroschke，FernandoPereira，ThomasStockhammer，ThomasWedi.VideocodingwithH.264/AVC:tools,performance,andcomplexity[J].IEEECircuitsandSystemsMagazine,2004，4(1):7-28.)。11.264的高性能是以计算复杂度的提高为代价的，其计算复杂度大约是H.263的4至5倍，其中，运动估计模块的计算量占到整个编码器的50%-90%(参见Yu-WenHuang，Ching—YehChen，Chen_HanTsai，Ch皿—FuShen，Liang_GeeChen.Surveyonblockmatchingmotionestimationalgorithmsandarchitectureswithnewresults[J].JournalofVLSISignalProcessingSystemsforSignal,Image,andVideoTechnology,2006,42(3):297-320.)。H.264编码器中，运动估计包括两个部分整像素运动估计和分数像素运动估计。分数像素运动估计是在获得整像素运动矢量(MV:motionvector)的基础上进行插值运算，搜索得到分数像素精度的运动矢量过程。分数像素运动估计在压縮视频质量和压縮率上可以极大的提高编码器的性能。实验结果显示，使用分数像素运动估计方法比仅使用整像素运动估计方法压縮率平均提高48%，同时，峰值信噪比(PSNR)提高13dB。但是，由于额外的运算，如，插值和分数像素搜索，分数像素运动估计极大的增加了整个运动估计模块的计算量。整像素运动估计方法是近年来的研究热点。H.264标准的JM参考软件采用了两种快速整像素运动估计方法UMHexagonS(参见ZhiboChen，PengZhou，YunHe，YidongChen.FastintegerpelandfractionalpelmotionestimationforJVT[C]，JVT_F017，2002.)禾口EPZS(参见AlexisMichaelTourapis，Hye-YeonCheong，PankajTopiwala.FastMEintheJMreferencesoftware[C]，JVT_P026，2005.)，与全搜索方法相比，大大降低了搜索点数量(每个运动矢量的平均搜索点数减少到10个以下)，计算复杂度降低90%以上。H.264采用树状结构运动补偿，共有7种模式的运动估计，若采用传统的1/4精度分数像素全搜索方法(fullfractionalpixelsearch)，每个模式需要16个搜索点，则每个宏块需要搜索
背景技术：
：112个点。因此，分数像素精度运动估计方法的改进成为整个运动估计模块优化的关键。目前H.264/AVC采纳了两种分数像素运动估计方法，分数像素全搜索方法(FFPS:FullFractionalPixelSearch)和基于中心的分数像素搜索方法(CBFPS:CenterBasedFractionalPixelSearch)。(参见ZhiboChen，PengZhou，Y皿He，YidongChen.FastintegerpelandfractionalpelmotionestimationforJVT[C]，JVT_F017，2002.)FFPS方法如图1所示。FFPS以最佳整像素为中心进行层次搜索首先，计算最佳整像素位置周围的8个1/2像素位置，找到最佳1/2像素匹配点；然后，计算最佳1/2像素周围的8个1/4像素位置，找到最佳1/4像素匹配点，作为FFPS的最佳运动矢量。FFPS需要计算16个像素位置。CBFPS方法如图2所示。CBFPS采用矢量预测和逐步求精的搜索策略首先，通过计算相邻块的运动矢量的中值获得分数像素预测运动矢量(Pred_x，Pred_y)，比较原始搜索中心(0，0)和预测运动矢量(Pred_x，Pred_y)的匹配误差；其中产生最小误差的搜索点作为分像素搜索的起始点；然后，使用菱形模板(参见JoYewTham，SurendraRanganath，MaitreyaRanganath，AshrafAliKassim.Anovelunrestrictedcenter—biaseddiamondsearchalgorithmforblockmotionestimation[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,1998，8(4):369-377.)迭代，以逐步求精，计算最终的分数像素匹配点。和FFPS相比，CBFPS可减少20%的计算量，而图像质量几乎不变，是一种非常有效的快速分数像素搜索方法。H.264/AVC标准的帧间预测比以前的编码标准提供了更大的灵活性。采用树状结构的运动补偿，每个宏块可分为16X16，8X16，16X8，8X8的块；当采用8X8块时，还可以进一步分为更小的8X4，4X8，4X4子块，如图3所示。在进行运动估计时，编码器需要对整个预测模式集合(SKIP(采用SKIP模式，以有效地编码大面积的静止区域和运动一致区域。SKIP模式也是16X16块尺寸的运动补偿预测模式，只是不需要编码任何运动和预测残差信息)，16X16，8X16，16X8，8X8，8X4,4X8,4X4}在每种分割模式下单独进行运动估计，得到各自的运动矢量。编码器综合考虑对残差值进行编码所需的比特数和对运动矢量进行编码所需的比特数，然后选择最佳的预测模式。H.264/AVC选择最优模式的方法称为率失真优化(RateDistortionOptimization,RD0)。基于RD0的模式选择方法通过在各候选模式下编码宏块并比较所得的率失真代价，选取率失真代价最小的模式作为最佳编码模式。率失真代价函数定义如下J(s，c，M0DElQP，入腳E)=SSD(s，c，M0DE|QP)+AM0DER(s，c，MODElQP)(1)其中，Qp为量化参数(QuantizationParameter)，MODE为候选宏土央编码模式，对I帧和P帧，拉格朗日因子"。DE=0.85X2QP/3。SSD为原始信号s与重建信号c的均方差之和，作为失真度量。R为量化参数QP和模式MODE下编码此宏块所需的比特数(包括宏块头信息、运动矢量及残差变换量化后的系数等)。图4所示为某一候选模式下的率失真代价计算过程，可见，为计算候选模式对应的率失真代价，需要运动估计/补偿、变换、量化及熵编码过程以获得此模式下编码所需的比特数，也需要反量化/反变换以获得重建信号，整个过程具有很高的计算复杂度。由公式(1)可见，率失真代价为失真与所需比特数的折衷，比特数所占权重即为拉格朗日因子，其值为量化参数的单调函数。
发明内容本发明的目的是克服已有技术的不足之处，提出一种内容自适应分数像素运动估计方法。可以在确保运动估计精度的基础上，减少分数像素运动估计的计算量。本方法适用于H.264国际标准，但不局限于H.264，可以推广至其它视频压縮国际标准和非国际标准的应用。本发明提出了一种内容自适应分数像素运动估计方法。其特征在于，采用基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法和改进的基于预测矢量的增强型菱形模板搜索方法。基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法具体如下通过检测H.264运动估计7种模式中的模式1的运动矢量是否落在整像素点，判定当前宏块是否是平坦块。对于平坦块，后续模式只进行常规整像素运动矢量搜索，而不进行分数像素运动矢量搜索。对于非平坦块，进行常规整像素和分数像素运动矢量搜索。改进的基于预测矢量的增强型菱形模板搜索方法具体如下第一步由相邻块预测当前块的分数像素运动矢量，获得FMVP，即(Pred_x，Pred_y)。直接以FMVP作为搜索起始点。第二步比较搜索起始点(Pred_x，Pred_y)周围的4个菱形搜索点和(Pred_x，Pred_y)的匹配误差，如果最小绝对误差之和MSAD位于(Pred_x，Pred_y)，则停止分数像素运动矢量搜索，否则进行第三步搜索。第三步如果最佳匹配点和次最佳匹配点相对，则选择最佳匹配点MV为最终分数像素运动矢量；如果最佳匹配点和次最佳匹配点相邻，则计算与其相邻的正方形模板上点的匹配误差，若MSAD仍为菱形最佳匹配点，则选择菱形最佳匹配点MV为最终分数像素运动矢量，否则进行下一步。第四步以第三步中正方形模板上的搜索点为中心，用菱形模板搜索其周围的点。选择MASD的点作为最终分数像素运动矢量。本发明与现有技术相比所具有的优点在于本发明的基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法，充分利用了运动估计模式相关性。根据模式l的运动矢量，预测平坦块SMB。对于SMB，其余6种匹配模式只进行整像素搜索，跳过分像素搜索。实验表明该方法在保证解码图像质量的前提下，可将分数像素运动矢量搜索的计算量减小28.70%56.00%。该方法具有独立性，与本文提出的基于预测矢量的增强型菱形模板搜索方法结合使用，可以进一步减少分数像素运动估计的计算量。内容自适应分数像素运动估计方法和最优方法FFPS相比，平均节省38.5%的计算时间，PSNR损失不超过0.209dB。特别，对于运动平缓的视频序列，可节省46%的计算时间，并保持了与之相当、甚至更优的PSNR。图1为分数像素全搜索(FFPS)示意图。图2为基于中心的快速分数像素搜索(CBFPS)示意图。图3为H.264可变宏块尺寸示意图。图4为某一候选模式下的率失真代价的计算过程。图5为7种模式之间的空间关系。图6为常用搜索模板(a)为菱形模板；(b)为正方形模板；(c)为六边形模板。图7为基于预测矢量的增强型菱形模板搜索示意图。图8为基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法流程图。具体实施例方式本发明提出的内容自适应分数像素运动估计方法结合附图及具体实施方式详细说明如下本发明提出的内容自适应分数像素运动估计方法，包括基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法和改进的基于预测矢量的增强型菱形模板搜索方法。下面分别介绍基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法，包括以下步骤分数像素运动估计可以提高压縮视频质量和压縮率，但是，分数像素运动矢量搜索需要巨大的计算量。如果分数运动矢量搜索获得的最小绝对误差和(MSAD:minim咖sumofabsolutedifference)大于整像素运动矢量搜索获得的MSAD，则选择整像素MV作为最终MV，分数像素运动矢量搜索被视为无效。反之，分数像素运动矢量搜索为有效，选择分数像素MV作为最终MV。对7个标准视频序列的前20帧进行实验(其中，News,Container,Silent属于低空间细节且运动缓慢的测试序列；Paris，Foreman为中等空间细节且运动强度中等的测试序列；Football为高空间细节且运动剧烈的测试序列)，将最终MV是整像素MV所占的比例列于表l。<table>tableseeoriginaldocumentpage6</column></row><table>表1整像素MV所占的比例(10帧，QP=28)视频内容运动平缓的序列，如News、Container、Silent,有超过80%的运动矢量位于整像素位置。实际上，对于视频帧的平坦区域，分数像素搜索对编码性能的提高并不明显，为无效搜索。如果可以预测这些平坦区域块，跳过无效的分数像素搜索，就可以减少不必要的计算。因此，如何使编码器根据视频内容自适应地决定是否进行分数像素搜索，S卩，如何在分数像素运动估计之前，预测视频帧的平坦区域块，是省略无效的分数像素运动估计矢量搜索的关键所在。H.264的7种运动估计模式之间存在较强的相关性(7种模式之间的空间关系如图5)。利用上层模式运动矢量搜索的结果可以预测当前宏块的平坦程度。因此，如果上层模式1(16X16)运动矢量在整像素位置，则定义这样的宏块为平坦块，简称SMB(smoothmacro-block)。对于SMB，下层模式的运动矢量搜索可以跳过分数像素运动矢量搜索。本发明提出的基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法，简称SMBP(smoothmacro-blockprediction)。通过检测模式1运动矢量是否落在整像素点，判定当前宏块是否是平坦块。对于平坦块，后续模式只进行常规整像素运动矢量搜索，而不进行分数像素运动矢量搜素。对于非平坦块，进行常规整像素和分数像素运动矢量搜索。流程图如图8。平坦块预测准确率指被判定为SMB的下层模式进行常规分数像素运动矢量搜索，并且其最终运动矢量落在整像素位置的比率。准确率如公式(2)定义。平坦块预测准确率、整像素MV所占比例统计结果见表2。<formula>formulaseeoriginaldocumentpage7</formula>SMB的数量预测准确率越高，匹配误差越小，因此解码图像质量下降越小，码率变化越小。由表2可见，对于运动缓慢的视频序列，平坦块预测的准确率在91%以上，本发明方法对此类序列能够做出较准确的预测。分数像素MV减少的比例从28.70%56.00%，S卩，本发明方法可将分数像素运动矢量搜索的计算量减少28.70%56.00%。<table>tableseeoriginaldocumentpage7</column></row><table>表2平坦块预测准确率(10帧，QP=28)改进的基于预测矢量的增强型菱形模板搜索方法，包括以下步骤分数像素由整像素插值得到，分数像素搜索窗口内搜索点的相关性远高于整像素搜索点的相关性。当搜索点靠近全局最小点时，匹配误差单调下降。因此，许多快速分数像素运动矢量搜索方法采用了预测运动矢量(FMVPfractionalpredictedmv)作为搜索起始点。如果可以精确预测分数像素运动矢量搜索的初始点，则可以更早地搜索到FMVP附近的最佳MV，及时停止分数像素运动估计搜索。当前块的FMVP由相邻块(上、左、右上块)的分数像素运动矢量的中值决定。FMVP包含两部分信息整像素预测矢量和分数像素预测矢量。用公式(3)提取分数像素预测矢量，其中mv是已搜索得到的整像素运动矢量，以分数像素为单位。％是取模操作，13=4时，搜索精度为1/4像素，13=8时，搜索精度为1/8像素。<formula>formulaseeoriginaldocumentpage7</formula>表3显示了FMVP和由FFPS获得的最佳分数像素MV的匹配程度。匹配表示FMVP等于最佳MV;[-1，1]表示FMVP和最佳MV之间的距离在1个分数像素单位之内。由表3可以发现运动缓慢的测试序列的FMVP和最佳MV的匹配概率大于82%。中高运动强度的测试序列的匹配概率较低，但其FMVP在最佳MV的[-2，2]范围内的概率在:上。因此，可以使用FMVP作为分数像素运动矢量搜索的起始点。<table>tableseeoriginaldocumentpage8</column></row><table>表3FMVP和最佳分数像素MV的匹配程度运动矢量搜索常用三种模板菱形模板、正方形模板和六边形模板。其中，菱形模板最简单，被许多视频编码器采用，如图6(a);正方形模板在菱形模板上增加了对角线上的4个点，计算复杂度和搜索结果准确度增加，如图6(b);六边形适合搜索范围较大的场合，由于分数像素运动矢量搜索范围仅限于两个整像素之间，六边形模板不适用于分数像素运动矢量搜索，如图6(c)。本发明提出基于预测矢量的增强型菱形模板搜索方法。与CBFPS不同的是，由于FMVP和最佳MV有较高的匹配率，本方法不考虑原始搜索中心(0，0)，而直接以FMVP作为搜索起始点；采用增强型菱形模板(EDSP:extendeddiamondsearchpattern)，结合正方形模板准确度较高的优点，在菱形模板的基础上增加对角线上的搜索点；不进行菱形模板的迭代，而将搜索停止在FMVP的[-2，2]范围内，省略[_2，2]范围外的少数对编码效率提高不大的分数像素运动矢量搜索，以减少搜索点数，从而进一步减少计算量。图7为基于预测矢量的增强型菱形模板搜索策略示意图，方法流程如下。第一步由相邻块预测当前块的分数像素运动矢量，获得FMVP，即(Pred_x，Pred_y)。直接以FMVP作为搜索起始点。第二步比较搜索起始点(Pred_x，Pred_y)周围的4个菱形搜索点和(Pred_x，Pred_y)的匹配误差，如果最小绝对误差之和MSAD位于(Pred_x，Pred_y)，则停止分数像素运动矢量搜索，否则进行第三步搜索。第三步如图7(a)，如果最佳匹配点和次最佳匹配点相对，则选择最佳匹配点MV为最终分数像素运动矢量；如图7(b)，如果最佳匹配点和次最佳匹配点相邻，则计算与其相邻的正方形模板上点的匹配误差，若MSAD仍为菱形最佳匹配点，则选择菱形最佳匹配点MV为最终分数像素运动矢量，否则进行下一步。第四步以第三步中正方形模板上的搜索点为中心，用菱形模板搜索其周围的点。选择MASD的点作为最终分数像素运动矢量。本发明提出的内容自适应分数像素运动估计方法在H.264测试平台JM15.0上进行了实验。选择了具有代表性的运动剧烈程度从缓慢到剧烈的6个视频序列进行了测试。JM15.0编码器的与运动估计相关的参数设置见表4。<table>tableseeoriginaldocumentpage9</column></row><table>表4编码器相关参数设置将EDSP，SMBP+EDSP分别与JM15.0采用的FFPS和CBFPS在方法性能上进行了对比(l)搜索点数(分数像素)每个宏块得到最终分数像素运动矢量需要的搜索点数，反映方法的匹配速度；(2)峰值信噪比的变化(APSNR:PeakSignalNoiseRadio):衡量运动估计和补偿后的图像和原始图像的差别，反映方法的预测质量；(3)A计算时间(运动估计节约的计算时间，包括整像素和分数像素)从整体上反映编码器在运动估计模块上消耗的时间。这三个实验参数均以FFPS为标准进行比较。<table>tableseeoriginaldocumentpage9</column></row><table>表5各方法性能比较由表5可见，本文提出的EDSP方法平均每个宏块搜索点数为3.9，比FFPS节约了75.6%;EDSP方法的PSNR和FFPS相比，损失不超过O.13dB。SMBP结合EDSP可以进一步减少运算量，节省运算时间。SMBP+EDSP和EDSP相比，对于运动平缓的视频序列，如News、Container、Silent，平均节省16%的计算时间；运动强度中等的视频序列，如Paris和Forman，平均节省10%的计算时间；运动剧烈的视频序列，如Football,节省7%的计算时间。SMBP+EDSP和最优方法FFPS相比，平均节省38.5%的计算时间，PSNR损失不超过0.209dB;SMBP+EDSP和CBFPS相比，平均节省14.7%的计算时间，PSNR损失不超过0.196dB。权利要求一种用于内容自适应分数像素运动估计方法的采用基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法，其特征在于通过检测H.264运动估计7种模式中的模式1的运动矢量是否落在整像素点，判定当前宏块是否是平坦块；对于平坦块，后续模式只进行常规整像素运动矢量搜索，而不进行分数像素运动矢量搜索；对于非平坦块，进行常规整像素和分数像素运动矢量搜索。2.如权利要求1所述的无效分数像素运动矢量搜索省略方法，其特征在于，采用改进的基于预测矢量的增强型菱形模板搜索方法第一步由相邻块预测当前块的分数像素运动矢量，获得FMVP，即(PrecLx，Pred_y);直接以FMVP作为搜索起始点；第二步比较搜索起始点(PrecLx，PrecLy)周围菱形模板上的4个搜索点和(Pred_X，Pred_y)的匹配误差，如果最小绝对误差之和MSAD位于(Pred_x，Pred_y)，则停止无效分数像素运动矢量搜索省略方法，否则进行第三步搜索；第三步如果最佳匹配点和次最佳匹配点相对，则选择最佳匹配点MV为最终分数像素运动矢量；如果最佳匹配点和次最佳匹配点相邻，则计算与其相邻的正方形模板上点的匹配误差，若MSAD仍为菱形最佳匹配点，则选择菱形最佳匹配点MV为最终分数像素运动矢量，否则进行下一步；第四步以第三步中正方形模板上的搜索点为中心，用菱形模板搜索其周围的点；选择MSAD的点作为最终分数像素运动矢量。全文摘要本发明属于信号处理中的视频编码领域，涉及内容自适应分数像素运动估计方法。包括基于平坦区域宏块预测的无效分数像素运动矢量搜索省略方法通过检测H.264运动估计7种模式中的模式1的运动矢量是否落在整像素点，判定当前宏块是否是平坦块。对于平坦块，后续模式只进行常规整像素运动矢量搜索。对于非平坦块，进行常规整像素和分数像素运动矢量搜索。改进的基于预测矢量的增强型菱形模板搜索方法采用了改进的搜索模板，将搜索停止在预测运动矢量的[-2，2]范围内，省略计算[-2，2]范围外的少数对编码效率提高不大的分数像素采样点。内容自适应分数像素运动估计方法比分数像素全搜索方法(FFPS)在峰值信噪比(PSNR)有微小降低(0.095～0.209dB)的情况下，平均减少了75.6％的分数像素搜索点，整个运动估计模块平均节省了38.5％的计算量。本发明的自适应分数像素运动估计方法可以在确保运动估计精度的基础上，减少分数像素运动估计的计算量。文档编号H04N7/26GK101795409SQ201010117539公开日2010年8月4日申请日期2010年3月3日优先权日2010年3月3日发明者田隽,祝世平申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：祝世平;田隽
技术所有人：北京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。