编码方法及其装置与流程

文档序号：13450505阅读：175来源：国知局

本申请涉及信息处理领域，并且更具体地，涉及一种编码方法及其装置。

背景技术：

高度压缩数字视频编解码器标准h.264视频编码标准在获得高压缩比的同时，是以提高视频编码复杂度为代价的。在低带宽下的视频实时通信以及视频编码计算资源有限的情况下，h.264的高计算复杂度将不再适用。

人类有70%的信息是通过人类视觉系统（humanvisualsystem，hvs）获取的，虽然在同一时刻，大量的外界信息会通过人的眼睛进入大脑，但是只有其中的部分信息，会通过视神经系统的筛选被人脑接收，这称为视觉选择性注意（visualselectiveattention，vsa）机制。在vsa机制的作用下，人眼会不自觉的对某些区域产生更多的兴趣，这些在视频帧或图像中的区域就称为感兴趣区域（regionofinterest，roi）。

通常情况下，视频的视觉质量取决于视频感兴趣区域的图像质量，在确保感兴趣区域和不感兴趣区域的质量平滑过渡条件下，不感兴趣区域的降质也对视频的整体质量影响同样较小。

针对h.264视频编码标准的高计算复杂度使得其在视频实时传输以及编码计算资源有限的情况下，如何在不改变视频质量的前提下，缩短视频编码的时间和降低编码的复杂度是目前亟待解决的问题。

技术实现要素：

本申请提供一种图像编码的方法，能够降低图像编码的复杂度，缩短编码时间。

第一方面，提供一种图像编码方法，包括：确定待处理图像的roi，所述roi包括多个宏块；根据所述多个宏块中每个宏块的感知权重，确定每个宏块的roi等级，其中，宏块的感知权重越高，该宏块的roi等级越高，roi等级包括n个等级，n为正整数；根据每个宏块的roi等级，将所述roi划分为n等级个掩膜区域，其中每个掩膜区域中宏块的roi等级相同；为不同roi等级的掩膜区域分配资源，其中，roi等级越高，资源越多；roi等级越低，资源越少。

结合第一方面，在第一方面的第一种可能的实现方式中，所述为不同roi等级的掩膜区域分配资源，包括：在所述待处理图像的运动估计中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

结合第一方面及其上述实现方式，在第一方面的第二种可能的实现方式中，所述为不同roi等级的掩膜区域分配资源，包括：在所述待处理图像的帧内预测编码中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

结合第一方面及其上述实现方式，在第一方面的第三种可能的实现方式中，所述为不同roi等级的掩膜区域分配资源，包括：对所述待处理图像的选择模式进行率失真优化，其中，等级越高的掩膜区域的率失真的结果精度越高，等级越低的掩膜区域的率失真的结果精度要求越低。

第二方面，提供一种图像处理装置，包括：确定单元，所述确定单元用于确定待处理图像的roi，所述roi包括多个宏块；所述确定单元还用于根据所述多个宏块中每个宏块的感知权重，确定每个宏块的roi等级，其中，宏块的感知权重越高，该宏块的roi等级越高，roi等级包括n个等级，n为正整数；处理单元，所述处理单元用于根据每个宏块的roi等级，将所述roi划分为n等级个掩膜区域，其中每个掩膜区域中宏块的roi等级相同；所述处理单元还用于为不同roi等级的掩膜区域分配资源，其中，roi等级越高，资源越多；roi等级越低，资源越少。

结合第二方面，在第二方面的第一种可能的实现方式中，所述处理单元具体用于：在所述待处理图像的运动估计中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

结合第二方面及其上述实现方式，在第二方面的第二种可能的实现方式中，所述处理单元具体用于：在所述待处理图像的帧内预测编码中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

结合第二方面及其上述实现方式，在第二方面的第三种可能的实现方式中，所述处理单元具体用于：对所述待处理图像的选择模式进行率失真优化，其中，等级越高的掩膜区域的率失真的结果精度越高，等级越低的掩膜区域的率失真的结果精度要求越低。

第三方面，提供了一种装置，用于上述方法，具体地，该终端设备可以包括用于执行上述终端设备相应步骤的模块或者单元。如，处理单元、确定单元等。

第四方面，提供了一种装置，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得终端设备执行上述的终端设备的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第六方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明针对h.264视频编码标准的高计算复杂度使得其在视频实时传输以及编码计算资源有限的情况，基于roi的计算资源分配，利用视频帧序列中的不同区域的感兴趣程度不同，将有限的计算资源更多的分配给感兴趣区域，降低不感兴趣区域的计算复杂度，实现基于roi的计算资源分配，在不改变视频质量的前提下，缩短视频编码的时间和降低视频编码的计算复杂度。

附图说明

图1示出了本申请一个实施例的方法的示意性流程图。

图2示出了本申请一个实施例的roi检测计算资源分配框图。

图3示出了本申请一个实施例的方法的示意性框图。

图4所示为上述装置的结构示意图。

图5示出了本发明实施例的装置500的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

现有方案描述如下：在h.264视频编码器前端，输入原始视频帧序列，通过特定的算法和视频帧本身的特性，提取出感兴趣区域和不感兴趣区域掩膜，并将其作为控制信息输入到h.264编码器中，用其控制h.264编码器编码当前帧相应的编码参数，包括量化参数，运动估计时的搜索区域大小和参考帧数目，以及预测模式范围等。roi提取模块起到预处理和控制器的作用，感兴趣区域提取和编码器之间交互的只有感兴趣区域这一个信息。

因此，上述描述的方法在帧的空间相关性上利用简单，求出的感兴趣区域误差较大，存在噪声点较多。针对消耗70%-80%编码时间的帧间、帧内预测算法并没有进行计算资源优化处理，该算法的编码复杂度和计算量方面也没有降低。

图1示出了本申请一个实施例的方法的示意性流程图。其中，宏块是编码中编码器先将输入的当前帧分割成若干相互独立的nxn的单元块，也就是编码操作的基本单位。

如图1所示，该方法包括：

步骤110，确定待处理图像的roi，所述roi包括多个宏块；

步骤120，根据所述多个宏块中每个宏块的感知权重，确定每个宏块的roi等级，其中，宏块的感知权重越高，该宏块的roi等级越高，roi等级包括n个等级，n为正整数；

步骤130，根据每个宏块的roi等级，将所述roi划分为n等级个掩膜区域，其中每个掩膜区域中宏块的roi等级相同；

步骤140，为不同roi等级的掩膜区域分配资源，其中，roi等级越高，资源越多；roi等级越低，资源越少。

可选地，作为本申请一个实施例，所述为不同roi等级的掩膜区域分配资源，包括：在所述待处理图像的运动估计中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

可选地，作为本申请一个实施例，所述为不同roi等级的掩膜区域分配资源，包括：在所述待处理图像的帧内预测编码中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

可选地，作为本申请一个实施例，所述为不同roi等级的掩膜区域分配资源，包括：对所述待处理图像的选择模式进行率失真优化，其中，等级越高的掩膜区域的率失真的结果精度越高，等级越低的掩膜区域的率失真的结果精度要求越低。

图2示出了本申请一个实施例的roi检测计算资源分配框图。如图2所示，本申请中的roi检测以视频图像中的宏块为基本处理单元，判断是否为roi区域，如果不是roi区域，则将其权重等级设置为0，针对roi区域，计算每一个宏块的感知权重，根据感知权重的不同将roi区域进行等级划分，等级由高到低分别为n~1，其复杂度也逐渐降低。由roi检测模块提取的roi不同等级的掩膜，作为运动估计、帧间预测以及模式选择的参数，在这几个模块中，针对等级不同的宏块分配不同的计算资源，等级越高的宏块，分配的计算资源越多。

进一步地，进行帧内预测编码和运动估计（帧间预测编码的过程之一），其中，帧内预测编码是指通过当前帧中已重建的图像信息对当前宏块进行预测的一种编码方式。jvt在h.264中首次提出在空域进行多模式、多方向的帧内预测。此种方法能充分利用相邻宏块在空间上的相关性，通过当前像素点的上边和左边的已解码重建的像素进行估计，求出其预测值，然后将它的预测值插值和实际值进行编码传输，仅用较少的比特数资源就能能表达像素块的信息。

运动估计和帧内编码的计算复杂度与运动矢量搜索区域大小、参考帧数目的多少和编码预测模式的选择范围的多少等参数有关。本发明中的运动估计和帧内预测编码则根据roi等级掩膜信息，对不同等级的roi掩膜区域设置不同的参数。

应理解，掩膜区域包括等级相同的一个或多个宏块。

等级越高的掩膜设置的参数越高，相应的计算复杂度越高；等级越低的掩膜区域设置的参数越低，相应的计算复杂度越低。

例如，等级最高的roi掩膜区域分配100%初始搜索区域，参考帧数目最高参数，执行所有帧间帧内模式运动估计模式，这样该roi掩膜区域具有较高的计算复杂度。

进一步地，需要对每个等级的roi掩膜区域进行模式选择，在h.264中，每个宏块都要完成9种4x4预测模式和4种16x16预测模式，然后通过预测模式选择，得出一种最佳预测模式使得编码后的图像在码流和图像质量两者权衡后的获得一个最佳。其过程是使用率失真优化模式选择，根据率失真模型，结合拉格朗日乘数法，将率失真代价最优化求解转化为求极值问题，从而寻找码率和失真的最佳平衡。

在本申请中，本申请的模式选择是根据roi掩膜的等级信息，对不同等级的roi掩膜区域进行模式选择的率失真计算，由于率失真计算的复杂度与搜索范围有直接的关系，在加上roi等级较低的区域计算率失真的结果精度要求可相对减低，因此，在总的计算复杂度上，roi的等级信息可以降低模式选择的计算复杂度。

也就是说，roi等级较低的掩膜区域选择的模式计算复杂度越低，roi等级越高的掩膜区域选择的模式计算复杂度越高。

进一步地，通过模式选择得到的编码模式，经过dct变换、量化，然后进行编码传输，另一方面，经过量化后的信息，通过图像重构模块，得出参考图像，供运动估计的帧间预测使用。

实现了多参考帧的运动区域搜索和补偿技术，参考帧缓冲器则负责存储多帧重构图像。同时，为了降低运动估计模块的计算复杂度，在参考帧缓冲器中，可根据roi等级信息对重构图像宏块划分的预处理。

图3示出了本申请一个实施例的方法的示意性框图。

应理解，在运动估计、帧内预测和模式选择中，都需要根据不同roi等级对掩膜区域进行处理，这样可以提供等级高的掩膜区域的计算复杂度，提升图像编码质量；降低等级低的掩膜区域的计算复杂度，在不影响人眼视觉的情况下，节省计算资源。

本发明在视频中存在人脸的情况下，进行仿真验证，实验方法中采用foreman视频，该视频具有全局晃动，且感兴趣区域晃动剧烈的特点，采用jm标准代码和本文算法代码对该视频序列进行测试，仿真结果如下：

表1测试结果比较

视频方法比特信噪比时间

foremanjm18.4314.9740.43269.93

本发明320.4740.3869.75

差值（%）+1.70-0.12-74.16

从实验数据中可以看出，在降低感兴趣区域编码复杂的时候，压缩后比特数增加，比特消耗略有增加，视频帧整体psnr值略有上升，但是节省编码时间约70%左右。达到了降低编码复杂度的效果。

因此，本申请实施例提供的方法可应用在视频序列中存在人脸中的情况，配合使用人脸检测技术，在视频中人脸检测并动态跟踪，提取roi区域并进行roi宏块等级，进行计算资源的分配，提高视频编码的效率和降低复杂度。对于在宽带资源有限的情况下，其应用价值更能凸显。

基于roi的计算资源分配方案，在不降低感兴趣区域视频编码质量情况下，节省编码时间约70%以上，编码效率更高。

图4所示为上述装置的结构示意图。该装置能够执行本发明实施例提供的确定工作路径方法。其中，该装置包括：处理器401、接收器402、发送器403、以及存储器404。其中，该处理器401可以与接收器402和发送器403通信连接。该存储器404可以用于存储该网络设备的程序代码和数据。因此，该存储器404可以是处理器401内部的存储单元，也可以是与处理器401独立的外部存储单元，还可以是包括处理器401内部的存储单元和与处理器401独立的外部存储单元的部件。

可选的，装置还可以包括总线405。其中，接收器402、发送器403、以及存储器404可以通过总线405与处理器401连接；总线405可以是外设部件互连标准（peripheralcomponentinterconnect，pci）总线或扩展工业标准结构（extendedindustrystandardarchitecture，eisa）总线等。所述总线405可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器401例如可以是中央处理器（centralprocessingunit，cpu），通用处理器，数字信号处理器（digitalsignalprocessor，dsp），专用集成电路（application-specificintegratedcircuit，asic），现场可编程门阵列（fieldprogrammablegatearray，fpga）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，单元和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等等。

接收器402和发送器403可以是包括上述天线和发射机链和接收机链的电路，二者可以是独立的电路，也可以是同一个电路。

图5示出了本发明实施例的装置500的示意性框图，该装置500中各单元分别用于执行上述方法中终端设备所执行的各动作或处理过程，这里，为了避免赘述，详细说明可以参照上文中的描述。

装置500包括：确定单元，所述确定单元用于确定待处理图像的roi，所述roi包括多个宏块；所述确定单元还用于根据所述多个宏块中每个宏块的感知权重，确定每个宏块的roi等级，其中，宏块的感知权重越高，该宏块的roi等级越高，roi等级包括n个等级，n为正整数；处理单元，所述处理单元用于根据每个宏块的roi等级，将所述roi划分为n等级个掩膜区域，其中每个掩膜区域中宏块的roi等级相同；所述处理单元还用于为不同roi等级的掩膜区域分配资源，其中，roi等级越高，资源越多；roi等级越低，资源越少。

可选地，作为本申请一个实施例，所述处理单元具体用于：在所述待处理图像的运动估计中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

可选地，作为本申请一个实施例，所述处理单元具体用于：在所述待处理图像的帧内预测编码中，为等级越高的掩膜区域分配的运动矢量搜索区域越大，参考帧数目越多，帧间预测编码模式越多；为等级越低的掩膜区域分配的运动矢量搜索区域越小，参考帧数目越少，帧间预测编码模式越少。

可选地，作为本申请一个实施例，所述处理单元具体用于：对所述待处理图像的选择模式进行率失真优化，其中，等级越高的掩膜区域的率失真的结果精度越高，等级越低的掩膜区域的率失真的结果精度要求越低。

需要说明的是，本实施例中的处理单元可以由图4中的401实现，本实施例中的通信单元可由图4中的接收器402和发送器403实现。

本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者第二设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-onlymemory）、随机存取存储器（ram，randomaccessmemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏红杨
技术所有人：郑州云海信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。