一种感知视频编码方法

文档序号：7780992阅读：677来源：国知局

一种感知视频编码方法
【专利摘要】本发明提供了一种感知视频编码方法。具体方法为：将人眼视觉感知中的自由能量原则与视频编码原理相结合，根据自由能量中知觉优化预测能力的原则，实现视频编码中空时域预测准确性的全局优化；根据自由能量中行为减少预测误差的原则，实现视频编码中残差量化率失真性能的全局优化。有效地将人眼视觉感知中的自由能量原则与视频编码原理相结合，提高视频编码的压缩性能。该方法于单视点（普通/高清/超高清）、立体及多视点等多种类型的视频编码，具有很好的通用性。
【专利说明】一种感知视频编码方法
【技术领域】
[0001]本发明涉及一种感知视频编码方法，特别是涉及一种适用于多媒体技术和互联网技术发展中，对于视频信息基于人眼感知的视频编码方法。
【背景技术】
[0002]随着多媒体技术和互联网技术的迅速发展，视频信息已经遍布到世界各个角落，深刻地改变着人们的生活和工作方式。视频信息在多媒体信息中的核心地位，决定了视频处理技术在多媒体技术中扮演着重要的角色。由于视频信息数据量巨大，如何高效的压缩视频数据成为视频存储及在相对有限带宽下传输的关键。由IS0/IEC和ITU两大国际组织制定的国际视频编码标准H.264/AVC，融入了视频编码技术的优秀研究成果，在相同的编码图像质量下，该标准相对于以往的标准至少节省50%以上的码率，有效地推动了视频压缩技术的发展。
[0003]然而，随着信息的迅速膨胀传统视频业务已无法满足人们的要求，高清/超高清数字电视、立体/多视点视频等新兴视频应用需求的出现又对视频压缩技术提出了新的挑战。虽然，高清视频编码标准(High Efficiency Video Coding，HEVC)和多视点视频编码标准(Mult1-view Video Coding,MVC)的出现在一定程度上提高了视频压缩的性能。但这类通过改进信号处理技术来消除视频冗余信息的方法，由于信号处理技术的约束其在压缩性能的改善上并没有实质性的技术突破，所以目前高清/超高清、立体/多视点视频的数据量仍是传统视频数据量的2倍以上，这是制约其广泛应用的主要瓶颈之一。
[0004]考虑到大部分视频信息的最终消费者是“人眼”，近年来国内外学者越来越多地关注到了感知视频编码(Perceptual Video Coding, PVC)技术的研究,其核心思想是:将人类视觉系统(Human Visual System, HVS)的研究成果引入视频编码技术中，以主观质量为依据优化视频编码资源分配。从现有的研究成果上看，这类方法与传统视频编码技术优化方法相比，更有可以突破性地提高视频压缩性能。
[0005]然而，现有的感知视频编码技术还没有达到最佳的编码效果，其原因主要在于:1)采用基于亮度、纹理、运动等相对简单、低级的视觉感知特性，难于充分准确地使用视觉感知特性来优化视频压缩性能；2)仍是以块为处理单元独立优化编码，难于实现以全局视觉感知为依据的整体率失真性能优化。对此，充分准确地利用人眼视觉感知特性，实现一种以全局视觉感知为依据的率失真性能优化编码框架，可以最大化视频压缩性能，从而更好地满足高清/超高清、立体/多视点等大数量视频应用的需求与发展。

【发明内容】

[0006]本发明要解决的技术问题是提供一种可以最大化视频压缩性能的感知视频编码方法。
[0007]本发明采用的技术方案如下:一种感知视频编码方法，具体方法为:将人眼视觉感知中的自由能量原则与视频编码原理相结合，根据自由能量中知觉优化预测能力的原贝U，实现视频编码中空时域预测准确性的全局优化；根据自由能量中行为减少预测误差的原则，实现视频编码中残差量化率失真性能的全局优化。
[0008]具体方法步骤为:步骤一、基于自由能量，进行全局视觉感知建模与感知优化的编码图像预处理；步骤二、对编码图像进行感知优化的空时域预测；步骤三、基于自由能量，进行全局率失真性能分析与全局视觉感知优化的量化参数图计算；步骤四、采用上一步中得到的量化参数图，对预测残差进行感知优化的变换与量化；步骤五、进行熵编码输出。
[0009]所述步骤一中进行全局视觉感知建模的方法为:根据人眼视觉感知的自由能量原贝U，以当前原始图像和其时域相关的已编码图像为基础，建立人眼视觉系统感知当前原始图像视觉信息的内部生成模型。
[0010]所述步骤一中进行全局视觉感知优化的编码图像预处理的方法为:根据视觉感知建模中得到的内部生成模型，计算原始图像中人眼视觉系统最大可感知的图像内容，并以所述最大可感知图像内容替代原始图像作为当前编码图像，用于后续的视频编码。
[0011]所述步骤二的具体方法为:根据视觉感知建模中得到的内部生成模型，建立当前编码图像与预测图像间的预测残差图像的自由能量计算模型，并以所述自由能量计算模型作为率失真优化中失真度的度量，按照传统视频编码中基于块的空时域预测方法，通过率失真优化技术获取当前编码图像的最佳预测图像，并对预测参数进行编码输出。
[0012]所述步骤三中进行全局率失真性能分析的具体方法为:由当前编码图像与最佳预测图像得到预测残差图像，根据视觉感知建模中得到的内部生成模型，分别建立自由能量与量化参数图的关系模型和编码码率与量化参数图的关系模型。
[0013]所述步骤三中进行全局视觉感知优化的量化参数图计算的方法为:分别以所述自由能量与量化参数图的关系模型和编码码率与量化参数图的关系模型作为率失真优化中失真度和编码码率的度量，通过率失真优化技术获取当前编码图像的最优量化参数图。
[0014]所述步骤四的具体方法为:按照传统视频编码中，基于块的预测残差变换与量化方法对预测残差图像进行正弦/余弦变换并量化，并对量化系数进行熵编码输出。
[0015]采用线性回归模型来构建所述视觉信息的内部生成模型。
[0016]与现有技术相比，本发明的有益效果是:有效地将人眼视觉感知中的自由能量原则与视频编码原理相结合，其优势在于:1)根据自由能量原则实现视觉感知建模，相比与传统的感知视频编码技术，可以更充分准确地利用视觉感知特性来优化视频压缩性能；2)以全局视觉感知为依据的率失真性能优化，相比与传统基于块的优化编码，可达到更好的编码性能优化效果。同时本发明方法可兼容现有提高视频编码性能的研究成果，并在其基础上进一步改善视频编码的性能，实现一种更为高效的感知视频编码策略。本发明的感知视频编码框架输出的视频流完全符合现有视频编码标准，可适用于单视点(普通/高清/超高清)、立体及多视点等多种类型的视频编码，具有很好的通用性。
【专利附图】

【附图说明】
[0017]图1为本发明其中一实施例的流程示意图。
【具体实施方式】
[0018]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0019]本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。
[0020]如图1所示，一种感知视频编码方法，具体方法为:将人眼视觉感知中的自由能量原则(Free-energy principle)与视频编码原理相结合,根据自由能量中知觉优化预测能力的原则(Perception to optimize the bound),实现视频编码中空时域预测准确性的全局优化；根据自由能量中行为减少预测误差的原则(Action to minimize a bound onsurprise)，实现视频编码中残差量化率失真性能的全局优化，从而有效提高视频编码的压缩性能。
[0021]具体方法步骤为:步骤一、基于自由能量，进行全局视觉感知建模与感知优化的编码图像预处理；步骤二、对编码图像进行感知优化的空时域预测；步骤三、基于自由能量，进行全局率失真性能分析与全局视觉感知优化的量化参数图计算；步骤四、采用上一步中得到的量化参数图，对预测残差进行感知优化的变换与量化；步骤五、进行熵编码输出。
[0022]所述步骤一中进行全局视觉感知建模的方法为:根据人眼视觉感知的自由能量原贝U，以当前原始图像I和其时域相关的已编码图像为基础，建立人眼视觉系统感知当前原始图像包含的视觉信息的内部生成模型ζ (θ)。其中，θ表示内部生成模型用于感知场景视觉信息的可变参数向量。
[0023]本实施例中，采用线性自回归模型来构建内部生成模型
[0024]ζ = xk(x) ? a+e
[0025]其中，X表示图像中的像素点；Xk(X)是由k个邻域(空间和时间)像素构建的一个向量；&=(&1，&2，...，&1/是自回归模型系数；6是零均值、精度为0的加性高斯噪声。自回归模型系数矢量a可被假定来自一个零均值、精度为α的球形高斯噪声。由此，内部生成模型的参数Θ可由自回归模型的参数a、α和β拟合
[0026]P ( Θ ) =P (a I α ).P ( α ).P ( β )
[0027]其中，P (.)表示概率计算。
[0028]所述步骤一中进行全局视觉感知优化的编码图像预处理的方法为:根据视觉感知建模中得到的内部生成模型ζ (Θ)，计算原始图像I中人眼视觉系统最大可感知的图像内容I’，并以所述最大可感知图像内容I’替代原始图像I作为当前编码图像，用于后续的视频编码。在本实施例中，以简单的经验阈值方法计算最大可感知的图像内容I’
[0029]I，=I+AI，F“，ΛΙ)≤F0
[0030]FU，ΔΙ)=-1οδΡ(ΔΙ ζ )=-log f Ρ(ΔΙ, θ | ζ )d θ
[0031]其中，Λ I表示原始图像I与最大可感知的图像I’的差异；Ftl是给定的自由能量阈值；F(4，Λ I)是根据内部生成模型ζ (Θ)得到的图像I’的自由能量。
[0032]所述步骤二的具体方法为:根据视觉感知建模中得到的内部生成模型ζ (Θ)，建立当前编码图像I’与预测图像Ip间的预测残差图像Ik的自由能量计算模型F( ζ，ΙΕ)
[0033]Ie=I' -1p
[0034]F ( ζ，IK) =-logP (IE | ζ ) =_log f P (ΙΕ, θ | ζ ) d θ[0035]并以所述自由能量计算模型F( ζ，Ie)作为率失真优化中失真度的度量，按照传统视频编码中基于块的空时域预测方法，通过率失真优化技术获取当前编码图像的最佳预测图像I’ P，并对预测参数进行编码输出。
[0036]其率失真优化选择过程如下:
[0037]
【权利要求】
1.一种感知视频编码方法，具体方法为:将人眼视觉感知中的自由能量原则与视频编码原理相结合，根据自由能量中知觉优化预测能力的原则，实现视频编码中空时域预测准确性的全局优化；根据自由能量中行为减少预测误差的原则，实现视频编码中残差量化率失真性能的全局优化。
2.根据权利要求1所述的编码方法，具体方法步骤为:步骤一、基于自由能量，进行全局视觉感知建模与感知优化的编码图像预处理；步骤二、对编码图像进行感知优化的空时域预测；步骤三、基于自由能量，进行全局率失真性能分析与全局视觉感知优化的量化参数图计算；步骤四、采用上一步中得到的量化参数图，对预测残差进行感知优化的变换与量化；步骤五、进行熵编码输出。
3.根据权利要求2所述的编码方法，所述步骤一中进行全局视觉感知建模的方法为:根据人眼视觉感知的自由能量原则，以当前原始图像和其时域相关的已编码图像为基础，建立人眼视觉系统感知当前原始图像视觉信息的内部生成模型。
4.根据权利要求3所述的编码方法，所述步骤一中进行全局视觉感知优化的编码图像预处理的方法为:根据视觉感知建模中得到的内部生成模型，计算原始图像中人眼视觉系统最大可感知的图像内容，并以所述最大可感知图像内容替代原始图像作为当前编码图像，用于后续的视频编码。
5.根据权利要求4所述的编码方法，所述步骤二的具体方法为:根据视觉感知建模中得到的内部生成模型，建立当前编码图像与预测图像间的预测残差图像的自由能量计算模型，并以所述自由能量计算模型作为率失真优化中失真度的度量，按照传统视频编码中基于块的空时域预测方法，通过率失真优化技术获取当前编码图像的最佳预测图像，并对预测参数进行编码输出。
6.根据权利要求5所述的编码方法，所述步骤三中进行全局率失真性能分析的具体方法为:由当前编码图像与最佳预测图像得到预测残差图像，根据视觉感知建模中得到的内部生成模型，分别建立自由能量与量化参数图的关系模型和编码码率与量化参数图的关系模型。
7.根据权利要求6所述的编码方法，所述步骤三中进行全局视觉感知优化的量化参数图计算的方法为:分别以所述自由能量与量化参数图的关系模型和编码码率与量化参数图的关系模型作为率失真优化中失真度和编码码率的度量，通过率失真优化技术获取当前编码图像的最优量化参数图。
8.根据权利要求7所述的编码方法，所述步骤四的具体方法为:按照传统视频编码中，基于块的预测残差变换与量化方法对预测残差图像进行正弦/余弦变换并量化，并对量化系数进行熵编码输出。
9.根据权利要求3所述的编码方法，采用线性回归模型来构建所述视觉信息的内部生成模型。
【文档编号】H04N19/147GK103702121SQ201310697833
【公开日】2014年4月2日申请日期:2013年12月18日优先权日:2013年12月18日
【发明者】张蕾, 刘思远, 陈乾友, 熊荣东申请人:四川九洲电器集团有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张蕾;刘思远;陈乾友;熊荣东;
技术所有人：四川九洲电器集团有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。