一种基于目标的视频编码方法及系统与流程

文档序号：11844817阅读：194来源：国知局

本发明属于视频图像压缩技术领域，特别涉及一种基于目标的视频编码方法及系统。

背景技术：

数字视频压缩标准开始于20世纪80年，经过30多年的发展，现有的标准有国际电信联盟远程通信标准化组织(简称ITU-T，ITU-T for ITU Telecommunication Standardization Sector)系列的H.261、H.263，国际标准化组织(简称ISO、International Organization for Standardization)的MPEG-1、MPEG-4，以及两个组织共同制定的MPEG-2/H.262、H.264/AVC、HEVC。其中HEVC(High Efficiency Video Coding)是一种新的视频压缩标准，于2013年最新发布，可以替代H.264/AVC编码标准。除了上述国际化的编码标准外，还有其他组织的标准，比如国内的AVS、微软的VC-1、谷歌的VP8等。相同的是，这些标准都采用基于块的混合编码方法，融合预测编码、变换编码、以及熵编码3大编码技术。

在视频监控的应用中，通常情况下用户对图像中不同区域的关注程度不一样，对运动的物体、特定目标的关注度高，即目标区域；而对其他背景部分不太关心，即背景区域。例如道路监控中，用户只关注道路上运动车辆等目标，对路面、绿化带等背景不关心。同时，在监控系统中，由于采集点比较多，每个采集点都24小时不间断录像，产生大量的数据，用户不可能实时查看每路视频数据。而是在需要的时候，特别是事故发生时，从录像中查找相关视频，从视频中检索特定的信息，这些信息通常与运动物体相关。

但是，上述提到的现有编码标准将图像等分为编码块后，采用光栅扫描方式依次编码，并不区分编码块属于背景区域或是目标区域。在进行预测编码时，每个编码块与当前帧相邻块相关联，也与参考帧的块相关，而这些相关的块有可能并不属于同一物体。这样，在进行视频检索的时候，需要将整帧图像解码，才能获得用户关注区域的图像，解码整帧图像需要消耗很多计算资源以及内存带宽，花费时间多，检索速度慢。

技术实现要素：

本发明的目的是提供一种基于目标的视频编码方法及系统，本发明从待编码图像中提取目标图像和背景图像，对目标图像和背景图像进行独立编码；最后，将每个对象产生的码流按照一定顺序复合在当前图像码流中，通过标识符将不同对象的码流分隔开，同时图像的码流包含头信息，以记录目标的位置信息和参考关系信息等，能够提高视频检索效率，只需要在码流找到目标码流进行解码即可。同时，可以通过目标的预测关系，确定目标的运动轨迹

为实现上述目的，本发明的一个方面提供了一种基于目标的视频编码方法，包括，获取待编码图像；基于待编码图像提取目标图像和背景图像；基于目标图像进行帧间预测编码；基于背景图像进行帧间预测编码；将目标图像编码后产生的目标码流和背景图像编码后产生的背景码流，复合成单独码流。

其中，所述基于目标图像进行帧间预测编码的步骤进一步包括：基于目标图像划分编码块；当对当前编码帧的目标图像进行编码时，将与当前帧图像中的目标区域对应的前一帧图像中的目标区域作为参考帧进行帧间预测编码。

其中，所述基于背景图像进行帧间预测编码的步骤进一步包括：当对当前编码帧的背景图像进行编码时，将与当前帧图像中的背景区域对应的前一帧图像中的背景区域作为参考帧进行帧间预测编码。

其中，所述单独码流包括头信息、目标码流信息和背景码流信息；所述头信息包括目标区域的位置信息、参考关系信息；所述目标码流信息和所述背景码流信息包括起始码标识。

其中，所述进行帧间预测编码的步骤还包括：当对当前编码帧的目标图像进行编码时，若当前编码帧中有新的目标图像出现时，将新的目标图像作帧内编码处理。

根据本发明的另一方面，提供了一种基于目标的视频编码系统，包括获取模块、提取模块、目标编码模块、背景编码模块和码流复合模块；获取模块，用于获取待编码图像；提取模块，用于基于待编码图像提取目标图像和背景图像；目标编码模块，用于基于目标图像进行帧间预测编码；背景编码模块，用于基于背景图像进行帧间预测编码；码流复合模块，用于将目标图像编码后产生的目标码流和背景图像编码后产生的背景码流，复合成单独码流。

其中，所述目标编码模块进一步包括：编码块划分单元，用于基于目标图像划分编码块；和目标参考单元，用于当对当前编码帧的目标图像进行编码时，将与当前帧图像中的目标区域对应的前一帧图像中的目标区域作为参考帧进行帧间预测编码。

其中，所述背景编码模块进一步包括：背景参考单元，用于当对当前编码帧的背景图像进行编码时，将与当前帧图像中的背景区域对应的前一帧图像中的背景区域作为参考帧进行帧间预测编码。

其中，所述目标参考单元还包括：切换编码处理模块，用于若当前编码帧中有新的目标图像出现时，将新的目标图像作帧内编码处理。

如上所述，本发明通过采用将目标和背景分成不同对象进行单独编码的方式，能够有效提高检索效率。将单独编码后的码流按照一定的顺序进行复合形成新的单独码流，使得后期在对视频进行检索时，首只需要在码流找到目标码流进行解码即可。同时，可以通过目标的预测关系，确定目标的运动轨迹。

附图说明

图1是现有技术中基于块的混合编码过程示意图；

图2是现有技术中基于块的混合编码的解码过程示意图；

图3是现有技术中块编码顺序的过程示意图；

图4是现有技术中进行预测编码的过程示意图；

图5是现有技术中进行帧间预测时的P帧多帧参考示意图；

图6是现有技术中进行帧间预测时的B帧多帧参考示意图；

图7是存在感兴趣区域的视频图像；

图8是本发明的基于目标的视频编码方法原理示意图；

图9是本发明的基于目标的视频编码方法的流程示意图；

图10是本发明的目标图像和背景图像进行单独编码后复合形成单独码流的原理示意图；

图11是本发明的基于目标的视频编码方法中目标图像和背景图像进行帧间编码的原理示意图；

图12是本发明的步骤S3的流程图；

图13是本发明的步骤S4的流程图；

图14是本发明的基于目标的视频编码系统的结构示意图；

图15是本发明的目标编码模块的结构示意图；

图16是本发明的背景编码模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

为了更清楚的描述本发明，首先对涉及到的专业术语进行解释：

帧内预测，是指在预测编码时，只采用本帧的数据做预测。

帧间预测，是指在预测编码时，可以采用其它帧的数据做预测。

重建图像，是指编码后又解码出来的图像，主要用于参考。

DCT/ICT：DCT(Discrete Cosine Transform，简称DCT变换)是离散余弦变换，一种变换编码方式；ICT是整数余弦变换，是在DCT的基础上发展出来的一种变换方式。

图像集合(Group of Pictures，简称GOP)，I帧及其后与其直接或间接存在参考关系的刷新P帧、普通P帧组成的一个图像集合，一个GOP就是一组连续的画面。

图1是现有技术中基于块的混合编码过程示意图。

如图1所示，现有技术中，基于块的混合编码方法是：将要编码的图像先进行分块处理，分成16x16的块，称作宏块(Macroblock)(HEVC的块大小可以变化，从8x8到64x64，叫做最大编码单元LCU)。针对每个宏块，首先进行预测编码，利用前面一帧重建图像或者宏块周围已经编码部分做参考，获得预测后的残差数据；然后对残差数据进行空间的变换编码，采用DCT或者ICT按不同大小块对残差数据进行变换，得到频域中的变换系数；变换系数经过量化后，送到熵编码中，获得最终的码流。为了有效地对下一帧图像进行编码，当前量化后的数据需要经过反向处理，也就是反量化、反变换，再与预测数据相加获得解码出来的图像，也就是重建图像，重建图像放在参考缓存中，作为下一帧图像编码的参考图像。

图2是现有技术中基于块的混合编码的解码过程示意图。

如图2所示，现有技术中，基于块的混合编码方法是：编码码流经过熵解码、反量化、反变换后，再与预测的图像进行相加就得到了解码的图像(即视频信号)。最后将解码出的图像进行存储，以作下一帧解码的参考图像使用。

图3是现有技术中块编码顺序的过程示意图。

如图3所示，在现有技术中进行编码时，宏块按照从左至右、从上至下的光栅扫描顺序进行编码。

图4是现有技术中进行预测编码的过程示意图。

如图4所示，现有技术中，在进行预测编码时，根据预测数据来源不同，可以把编码图像分成I帧(帧内预测帧、Intra)、P帧(帧间预测帧、Prediction)、B帧(双向预测帧、Bi-Prediction)。如图4所示，I帧在进行预测编码时，只采用本帧的数据进行预测，I帧在解码时，可以独立解码，不依赖其他帧。P帧在进行预测编码时，采用前面一帧已编码图像的重建图像作为参考，P帧在解码时，必须等参考帧的图像解码完成后才能解码。B帧在进行预测编码时，可以同时采用前面帧和后面帧作参考，成为双向参考帧，B帧在解码时，必须等前面参考帧和后面参考帧都解码成功后才能解码。此外，P帧、B帧在编码时除了用其它帧作参考，也可以像I帧一样用本帧数据作参考，在编码时，选择最优的参考方式进行编码即可。由于I帧可以独立进行解码，通常将其用作随机插入使用，比如数字电视要求1～1.5秒插入I帧，这样能够保证用户切换频道时，能够尽快看到图像。但这样做同时也带来一个问题，就是I帧压缩效率低，码率比较大，通常是P帧的4～10倍，甚至几十倍。就压缩效率来说，通常情况下I帧<P帧<B帧，就运算复杂度来说，通常情况下I帧<P帧<B帧。

图5是现有技术中进行帧间预测时的P帧多帧参考示意图。

P帧在进行帧间预测时，可以采用前面多个重建图像做参考帧，如图5所示，在编码第2个P帧时，采用前面两帧图像做P帧的参考帧。

图6是现有技术中进行帧间预测时的B帧多帧参考示意图。

如图6所示，B帧在进行帧间预测时，B帧的前向参考帧有两帧，后向参考帧为一帧。如图6所示，在编码第B帧时，采用前面两帧图像和后面一帧作B帧的参考帧。多帧参考可以提高压缩效率，同时也会增加运算的复杂度。

图7是存在感兴趣区域的视频图像。

如图7所示，图像中区域1、区域2、区域3为运动物体或特定目标区域(可以称这些区域为目标区域)，其他部分都是背景部分，用户只关注这3个目标区域，其他部分不是很关心。

现有技术中，基于块的混合编码的视频编码方法，在进行编码时，将图像等分为编码块，采用光栅扫描方式依次编码，并不区分编码块属于哪个物体中。在进行预测编码时，每个编码块与当前帧相邻块相关联，也与参考帧的块相关，而这些相关的块有可能并不属于同一物体。这样，在进行监控视频的检索时，需要将整帧图像解码，才能获得用户关注区域的图像，解码整帧图像需要消耗很多计算资源以及内存带宽，花费时间多，检索速度慢。基于上述缺陷，本发明提出了基于目标的视频编码方法。

图8是本发明的基于目标的视频编码方法原理示意图。

如图8所示，本发明采用基于目标的视频编码方法，首先将待编码的图像分成目标和背景，目标可以有多个。在编码时，每个目标以及背景都是单独的编码对象，进行独立编码产生对应的码流。最后将每个编码对象产生的码流按照顺序复合成单独码流。目标编码和背景编码仍然采用现有的编码方式，即基于块的混合编码方法。

图9是本发明的基于目标的视频编码方法的流程示意图。

如图9所示，本发明的基于目标的视频编码方法包括：

步骤S1，获取待编码图像。

在本步骤中，实时获取需要编码的图像。

步骤S2，基于待编码图像提取目标图像和背景图像。

在本步骤中，从实时获取的待编码图像中，提取出目标图像和背景图像。

步骤S3，基于目标图像进行帧间预测编码。

在本步骤中，从待编码图像中提取出目标图像和背景图像，对提取出的目标图像和背景图像进行独立编码，提取出的目标图像可以有多个，如图8所示，目标1和目标2是提取出的多个目标。其中，在对目标图像进行编码时，仍然采用现有的编码方法，即基于块的混合编码方法。

所述步骤S3进一步包括下面的步骤S31-S32。

步骤S4，基于背景图像进行帧间预测编码。

在本步骤中，在对提取出的背景图像进行编码时，同样采用现有的编码方法，即基于块的混合编码方法，参见图8。

所述步骤S4进一步包括下面的步骤S41-S42。

这里，步骤S3和步骤S4的执行顺序不唯一，可以先后执行或同时执行。

步骤S5，将目标图像编码后产生的目标码流和背景图像编码后产生的背景码流，复合成单独码流。

在本步骤中，将单独进行编码的目标图像和背景图像进行复合，形成单独码流，参见图10。

图10是本发明的目标图像和背景图像进行单独编码后复合形成单独码流的原理示意图。

如图10所示，将单独编码后产生的码流按照图10的方式复合在一起，当前图像对应码流的最前面是头信息，所述头信息包括但不限于目标区域的位置信息、参考关系信息等；随后是每个对象(即目标图像和背景图像)的码流信息。可选的，可以是先排每个目标的码流信息，再排背景的码流信息。也可以是先排背景的码流信息，再排目标的码流信息。其中，每个对象的码流信息都有起始码标识，目的是便于区分。

图11是本发明的基于目标的视频编码方法中目标图像和背景图像进行帧间编码的原理示意图。

如图11所示，在对目标进行编码时，首先将目标等分成编码块，对每个块进行编码。编码同样分成帧内编码和帧间编码，帧内编码采用现有的编码方式，即基于块的混合编码方法。而在帧间编码时，与现有的编码方式在参考帧的选择上有所不同，并不是将前一帧图像整个作为参考帧，而是将前一帧对应目标区域作为参考帧，参见图11，图像2中的目标1参考图像1中的目标1，图像2中的目标2参考图像1中的目标2。当然，如果当前编码帧有新的目标出现，在前一帧并没有对应的目标，比如图11中的目标3，这时可以将该目标做帧内编码处理。

参见图11，在对背景进行编码时，首先将背景图像中的目标空洞部分进行填充(填充任意值)以形成整帧图像。在编码的过程中，遇到填充部分编码块，直接跳过，只对填充部分之外的编码块进行编码。帧内编码与现有标准类似；而在帧间编码时，编码块的参考图像只能来自参考帧的背景部分，而不能来自目标区域。

图12是本发明步骤S3的流程图。

本发明的前述步骤S3进一步包括下述步骤：

步骤S31，基于目标图像划分编码块。

具体的，在对目标图像进行编码时，将目标图像等分成编码块，对每个块进行编码。

步骤S32，当对当前编码帧的目标图像进行编码时，将与当前帧图像中的目标区域对应的前一帧图像中的目标区域作为参考帧进行帧间预测编码。

具体的，在编码时，同样分成帧内编码和帧间编码，帧内编码采用现有的编码方法。而本发明在帧间编码时，与现有的编码方法在参考帧的选择上有所不同，现有的编码方法是将前一帧图像整个作为参考帧，而本发明是将前一帧对应目标区域作为参考帧，如图11所示，图像2中的目标1参考图像1中的目标1，图像2中的目标2参考图像1中的目标2。当然，如果当前编码帧有新的目标出现，在前一帧图像中并没有对应的目标，如图11中的目标3，此时，将新的目标图像即目标3，作帧内编码处理。

图13是本发明步骤S4的流程图。

如图13所示，本发明的前述步骤进一步S4包括下述步骤：

步骤S41，基于背景图像将目标区域填充以得到整帧图像。

在本步骤中，在对背景图像进行编码时，优选的，可以将背景图像中的目标空洞部分进行填充(填充任意值)，如图8所示，将目标1和目标2进行填充，以形成整帧图像。

本实施例中，步骤S41的基于背景图像将目标区域填充以得到整帧图像不是必需执行步骤，优选的作为一种辅助手段来作为下文的步骤S42的补充。也就是说，如果步骤S41中未对所述背景图进行填充，则可能触发后面的步骤S42，即基于背景图像进行帧间预测编码。

步骤S42，当对当前编码帧的背景图像进行编码时，将与当前帧图像中的背景区域对应的前一帧图像中的背景区域作为参考帧进行帧间预测编码。

具体的，在对背景图像的进行编码时，遇到填充部分编码块，即图8中的目标1和目标2，直接跳过，只对填充部分之外的编码块进行编码，即只对图8中的背景部分进行编码。在进行帧内编码时，同样采用现有的编码方法；而在进行帧间编码时，编码块的参考图像只能来自参考帧的背景部分，而不能来自目标区域，即目标和背景间不互相参考。

图14是本发明的基于目标的视频编码系统的结构示意图。

如图14所示，本发明另一实施方式的基于目标的视频编码系统包括获取模块1、提取模块2、目标编码模块3、背景编码模块4和码流复合模块5。

获取模块1，用于获取待编码图像。具体来说，通过该模块实时获取需要编码的图像。

提取模块2与所述获取模块1连接，用于基于待编码图像提取目标图像和背景图像。具体来说，从实时获取的待编码图像中提取出目标图像和背景图像，将提取出的目标图像发送给目标编码模块3进行单独编码，将提取出的背景图像发送给背景编码模块4进行单独编码。

目标编码模块3与所述提取模块2连接，用于基于目标图像进行帧间预测编码。具体来说，将提取模块2发送来的目标图像进行单独编码，形成目标码流。在进行帧内编码时，采用现有的编码方法；在进行帧间编码时，如图11所示，基于目标图像进行帧间预测编码。

背景编码模块4与所述提取模块2连接，用于基于背景图像进行帧间预测编码。具体来说，将提取模块2发送来的背景图像进行单独编码，形成背景码流。在进行帧内编码时，采用现有的编码方法；在进行帧间编码时，如图11所示，基于背景图像进行帧间预测编码。

码流复合模块5与所述目标编码模块3和所述背景编码模块4连接，用于将目标图像编码后产生的目标码流和背景图像编码后产生的背景码流，复合成单独码流。具体来说，目标编码模块3对目标图像进行单独编码产生目标码流，背景编码模块4对背景图像进行单独编码产生图像码流，码流复合模块5将产生的目标码流和背景码流进行复合，形成单独码流。所述码流信息详见图10，此处不再赘述。

图15是本发明的目标编码模块3的结构示意图。

如图15所示，在本发明的一可选实施方式中，目标编码模块3进一步包括编码块划分单元31和目标参考单元32。

编码块划分单元31，用于基于目标图像划分编码块。具体来说，在对目标图像进行单独编码时，首先将目标图像划分成编码块，再对每个编码块进行编码。

目标参考单元32与所述编码块划分单元31连接，用于当对当前编码帧的目标图像进行编码时，将与当前帧图像中的目标区域对应的前一帧图像中的目标区域作为参考帧进行帧间预测编码。具体来说，如图11所示，图像2是当前帧图像，图像1是前一帧图像，此时在对图像2中的目标1进行编码时，目标1进行帧内编码时，采用现有的编码方法；而在进行帧间编码时，目标1的参考帧为图像1的目标1，而不是整个图像1。同理，目标2的参考帧是图像1中的目标2，而不是整个图像1.最后，目标1经过编码形成目标码流，目标2经过编码也形成目标码流。

另外，所述目标参考单元32还包括切换编码处理模块，用于若当前编码帧中有新的目标图像出现时，将新的目标图像作帧内编码处理。如图11中的目标3，在对图像2进行编码时，出现新的目标3，此时将目标3作帧内编码处理。

图16是本发明的背景编码模块4的结构示意图。

如图16所示，在本发明的一可选实施方式中，背景编码模块4进一步包括填充单元41和背景参考单元42。

填充单元41，用于基于背景图像将目标区域填充以得到整帧图像。具体来说，在对提取模块2提取出的目标图像进行单独编码时，可以将背景图像中的目标空洞部分进行填充(任意值)以得到整帧图像，然后对该整帧图像进行编码，在编码的过程中，遇到填充部分的编码块，直接跳过，只对填充部分之外的编码块进行编码，参见图8。此外，也可以不对背景图像中的目标空洞部分进行填充，在后续基于背景图像进行帧间预测编码时，遇到该目标空洞部分直接跳过，只对目标空洞部分之外的编码块进行编码。在进行帧内编码时，采用现有的编码方法；而在进行帧间编码时，背景图像的参考图像只能是来自参考帧的背景部分，而不能来自目标区域，即目标和背景间不互相参考。

目标参考单元32与所述编码块划分单元31连接，用于当对当前编码帧的目标图像进行编码时，将与当前帧图像中的目标区域对应的前一帧图像中的目标区域作为参考帧进行帧间预测编码。具体来说，如图8所示，背景图像在进行帧内编码时，采用现有的编码方法；而在进行帧间编码时，背景图像只参考前一帧图像的背景部分，如图11所示，即图像1中的背景部分，而不是整个图像1。

另外，如图11所示，如果在对当前帧图像进行编码时，出现了新的目标图像，在前一帧图像并没有对应的目标，如图11中的目标3，此时，将该目标3作帧内编码处理，即采用现有的编码方法进行编码。

如图8所示，最后，将目标1形成的目标码流、目标2形成的目标码流、目标3形成的目标码流以及背景图像形成的背景码流，进行复合形成最终的码流。

如上所述，详细介绍了本发明的基于目标的视频编码系统，所述基于目标的视频编码系统将目标和背景分成不同对象进行单独编码，将单独编码后形成的目标码流和背景码流进行复合形成新的码流。所述新形成的码流中包目标码流信息，使得用户在对视频进行检索时，只需要在码流中找到目标码流进行解码即可，提高了视频检索效率。同时，本发明形成的单独码流中包含目标码流信息，所述目标码流信息中包括目标区域的位置信息和参考关系信息，使得用户可以通过目标的预测关系，确定目标的运动轨迹，扩大了所述编码码流的适用范围。

如上所述，本发明提供了一种基于目标的视频编码方法和系统，本发明通过将目标和背景分成不同对象进行单独编码，提高了视频检索效率。同时，本发明的单独码流中的目标码流信息中包括目标区域的位置信息和参考关系信息，使得用户可以通过目标的预测关系，确定目标的运动轨迹，扩大了所述编码码流的适用范围。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武晓阳;浦世亮;沈林杰;俞海;
技术所有人：杭州海康威视数字技术股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。