基于显著性和最小可察觉失真的感知视频编码方法

文档序号:7813008阅读:220来源:国知局
基于显著性和最小可察觉失真的感知视频编码方法
【专利摘要】本发明涉及一种基于显著性和最小可察觉失真的感知视频编码方法,属于视频编码领域。其技术特点是:分别计算待处理视频帧图像的显著值和最小可察觉失真值,根据视频帧图像的显著值调整最小可察觉失真值,得到显著性最小可察觉失真阈值;根据显著性最小可察觉失真阈值对视频编码过程中的残差进行滤波,得到基于显著性和最小可察觉失真的感知视频编码。本发明设计合理,其在HEVC的框架基础上,将人眼视觉两大感知模型——视觉注意力模型和视觉敏感模型相结合构成一种显著性和最小可察觉失真(Saliency-JustNoticeableDistortion,S-JND)算法,能够进一步挖掘并去除视频数据中的视觉冗余,在不影响主观质量的情况下,有效减小了视频编码码率,提高了视频编码效率。
【专利说明】基于显著性和最小可察觉失真的感知视频编码方法

【技术领域】
[0001] 本发明属于视频编码【技术领域】,尤其是一种基于显著性和最小可察觉失真的感知 视频编码方法。

【背景技术】
[0002] 随着技术的进步和人们对视频质量要求的不断提高,高清/超高清视频编码技术 作为未来家庭影院、数字广播电视、网络视频等业务的基础核心技术成为业界关注的焦点。 当前,高清视频编码标准主要有H. 264/AVC、MPEG-2、AVS等;对于超高清视频,业内相关机 构正在进行关键技术研究与系统实验,其视频编码标准尚未统一。1?清/超1?清视频业务 的发展对现有的图像和视频压缩技术提出了新的要求:视频编码的压缩效率需要进一步提 高,图像和视频应更加注重主观质量。为此,国际标准化组织IS0/IEC(MPEG)和ITU-T启动 了下一代数字视频压缩标准的规划,并且于2011年2月份完成第八次JCT-VC会议,下一代 数字视频压缩标准目前命名为高效视频编码(High Efficiency Video Coding,HEVC)。目 标是在H. 264/AVC高档次的基础上,将压缩效率提高一倍以上。
[0003] 视频编码的主要目的是在保证高质量视觉效果的前提下最大限度地降低码率,即 实现压缩。传统的图像/视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进 行压缩编码,这一类编码技术以增加编码端计算复杂度为代价来获取编码性能的提高,如 H.264/AVC等,其性能提升速度已日趋缓慢。近年来,研究人员开始尝试将人体感知、图形 学和视觉系统特性应用到视频编码框架。这里我们将利用人类视觉系统(Human Visual System,HVS)的视觉特征、非线性特性和心理效应来进行提高压缩效率的视频编码技术定 义为感知视频编码(Perceptual Video Coding, PVC)。
[0004] 如今我国的数字媒体产业迅猛发展,年均产值已超万亿元,这些事实无一不表明, 音视频编解码标准的地位日趋重要。目前,针对下一代视频编码标准HEVC的研究工作正在 如火如荼的进行着,国内外众多研究机构和专家学者对本领域进行了大量的研究和探讨。 HEVC提案的征集,为感知视频编码技术的研究提供了一个良好的契机。作为一个新的多学 科交叉的编码技术,PVC将有效地促进现有视频编码技术的进一步发展,具有极其重要的应 用和理论研究意义。
[0005] 目前,国际上的数字高清视频制式的主流是1080i/1080p,其分辨率 为1920 X 1080,而未来超高清晰度电视(Super Hi-Vision)的图像分辨率则高达 7680X4320。面对有限的传输带宽和存储容量,必须对海量的高清/超高清视频数据采用 更为高效的压缩编码。最新的HEVC测试模型(HEVC Test Model,HM)采用了一系列的新技 术来提高系统的整体压缩性能。由于采用了更加复杂的设计,HEVC的压缩比相对H. 264/ AVC提高了 40%,编码时间为原来的0.9?2. 4倍。如:在图像编码结构中引入了大尺寸块 以及灵活的子块划分机制,支持更大尺寸、不对称的运动分割;采用了任意方向帧内预测算 法(Arbitrary Direction Intra,ADI),引入了更多的预测模式和方向。巾贞间预测引入了 运动矢量竞争机制,以提高帧间预测的精度;变换量化中加入了新的DST和旋转变换;熵编 码则采用了自适应系数扫描技术,放弃了 CAVLC,而只保留CABAC等。
[0006] 通过对人眼视觉特性的生理学和心理学实验,研究人员发现人眼对事物的观察受 到掩蔽效应的影响,包括:频带掩蔽效应、图像模式掩蔽效应、亮度掩蔽效应和时空掩蔽效 应等。通过将这些视觉特性引入到视频编码,形成了基于视觉感知机理的视频编码,主要包 括基于最小可察觉失真(Just Noticeable Distotion,JND)模型的视频编码、基于感兴趣 区域的视频编码、基于中央凹的视频编码及基于主观评价准则的视频编码等。下面对现有 的基于上述JND模型的视频编码以及基于感兴趣区域的视频编码分别进行说明:
[0007] (l)JND 模型
[0008] JND模型通过一个阈值量化表现视觉感知冗余,低于这个阈值的改变,人眼无法察 觉。该模型考虑了人类在感知图像信息过程中的多通道、非线性及多种视觉掩蔽特性,能够 使最终获取的客观测量结果与主观评价结果具有高度的一致性。若能在图像编码过程中充 分利用上述掩蔽效应,则可以在主观感觉图像失真相同的条件下允许更大的实际失真,从 而根据Shannon率失真理论,采用更低的编码比特率同时图像的主观质量保持不变。
[0009] 至今为止,提出的JND模型大概被分为两类:像素域的JND模型和基于变换域的 JND模型。1995年,Chou等首次提出的空间JND模型,将灰度图像中对比掩蔽和亮度自适 应掩蔽的影响纳入JND模型中,对这两类掩蔽效应采用"二选一"的方式,将计算得到的两 种掩蔽效应中数值较大者作为最终的JND阈值。但简单取亮度自适应掩蔽和对比掩蔽二者 最大值的方法并不科学。Chou扩展空间JND模型,加入时域掩藏效应,将时间域作为一个 扩展因子,得到了一个适用于视频的JND模型。生理、心理学实验证明,视网膜上感光细胞 的分布不均,在中央凹区域视锥细胞分布浓密,敏感性高,随着与中央区域的距离增大,感 光细胞密度减小,相应的敏感性也就减小。所以基于这个事实,Chen提出了 FJND (Foveated JND)模型,该模型首先设定多个注意点,然后计算出其Foveation信息,然后,将Foveation 信息作为传统的JND模型的伸缩尺度,以提高JND模型的精度。
[0010] 但是像素域方法没有结合描述人类视觉对每个频率段敏感度的对比灵敏度函数 (Contrast Sensitivity Function, CSF),不能充分把人眼的视觉特性加入到模型中。于 是,Ahumada和Peterson最早尝试在变换域进行JND建模,他们研究了由DCT分解和图像 亮度变化引起的空域掩蔽效应并进行了 JND建模。JPEG图像编码标准中,DCTune算法成功 地采用该模型对量化矩阵进行优化,明显提高了同码率下的图像质量。在视频编码中,由于 大多数编码压缩方案都基于DCT变换,所以近年来DCT域的JND模型引起了很多研究者的 兴趣。不过由于人类对视觉系统特性还没有完全认识清楚,现有的DCT域JND模型仍然不 能和人眼特性完全吻合,精确度仍需要不断改进和提高。
[0011] (2)视觉显著性区域模型
[0012] 视觉注意机制作为视觉系统的一项重要的心理调节机制,是人类从外界输入的大 量信息中选择特定感兴趣区域的一个关键手段。由于可以在一定程度上实现有选择性地获 取所关注目标的显著(Saliency)信息,从而大量降低信息处理量。其研究现状如下:
[0013] Itti和Koch等提出的算法被认为是目前最具代表的视觉注意计算模型。该算法 将多种类型、多种尺度的视觉空间中通过"中心-周边"算子得到的显著性度量结果合成为 一幅显著图(Saliency Map),按照图中显著值由强到弱的顺序依次找到显著区域的位置, 并结合一个固定尺寸,得到显著区域的范围。然而,现有的基于像素的视觉显著性区域检测 算法通常都是一次计算一个像素的显著性,计算量大;有些算法还需要建立高维向量查找 树来加速执行,这将使得算法的空间复杂度也相当高。因此很多视觉显著性区域检测算法 仅仅只检测得到粗糙的视觉显著性结果。Hou等人和Guo等人的方法都是从分析图像频谱 的角度计算图像中的显著性区域Judd等人则是从机器学习的角度来获取图像中的显著 性区域。
[0014] 综上所述,现有的感知视频编码方法通常只是使用视觉敏感度模型和视觉显著性 模型中的一种,不能同时发挥这两种模型的优点以达到更高的视频编码效率。


【发明内容】

[0015] 本发明的目的在于克服现有技术的不足,提供一种设计合理且效率高的基于显著 性和最小可察觉失真的感知视频编码方法。
[0016] 本发明解决现有的技术问题是采取以下技术方案实现的:
[0017] 一种基于显著性和最小可察觉失真的感知视频编码方法,包括以下步骤:
[0018] 步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像 的显著值s (k,i,j)和最小可察觉失真值JND (k,i,j),根据视频帧图像的显著值S (k,i,j) 调整最小可察觉失真值JND (k,i,j),得到显著性最小可察觉失真阈值S-JND (k,i,j),其中 k表示视频序列的第k帧图像,i和j分别表示像素的横纵坐标;
[0019] 步骤2、根据显著性最小可察觉失真阈值S_JND(k,i,j)对视频编码过程中的残差 进行滤波,得到基于显著性和最小可察觉失真的感知视频编码。
[0020] 而且,所述步骤1的具体处理步骤为:
[0021] 步骤1. 1、将视频帧图像进行色彩空间转换,由YUV色彩空间转换为CIEL*a*b*色 彩空间;
[0022] 步骤1. 2、对CIEL*a*b*色彩空间的帧图像进行显著性监测,获得每一像素的显著 值 S(k,i,j);
[0023] 步骤1. 3、对CIEL*a*b*色彩空间的巾贞图像进彳丁 JND建|旲,犾得每一像素的最小可 察觉失真值JND(k,i,j);
[0024] 步骤1. 4、根据帧图像的显著值S(k,i,j)调整最小可察觉失真值JND (k,i,j),获 得显著性最小可察觉失真阈值S-JND (k, i, j)。
[0025] 而且,所述步骤1. 2获得每一像素的显著值S(k,i,j)的方法为:
[0026] (1)按100%、80%、50%、30%比例分别缩放图像,形成四种尺度图像;
[0027] (2)将每一种尺度的图像分成7x7的块,块与块之间有50%的重叠;
[0028] (3)根据下式计算块与块之间的相异度d(Pi,Pj):
[0029]

【权利要求】
1. 一种基于显著性和最小可察觉失真的感知视频编码方法,其特征在于包括以下步 骤: 步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像的显 著值s (k,i,j)和最小可察觉失真值JND (k,i,j),根据视频帧图像的显著值S (k,i,j)调整 最小可察觉失真值JND(k, i, j),得到显著性最小可察觉失真阈值S-JND(k, i, j),其中k表 示视频序列的第k帧图像,i和j分别表示像素的横纵坐标; 步骤2、根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行 滤波,得到基于显著性和最小可察觉失真的感知视频编码。
2. 根据权利要求1所述的基于显著性和最小可察觉失真的感知视频编码方法,其特征 在于:所述步骤1的具体处理步骤为: 步骤1. 1、将视频帧图像进行色彩空间转换,由YUV色彩空间转换为CIEL*a*b*色彩空 间; 步骤1. 2、对CIEL*a*b*色彩空间的帧图像进行显著性监测,获得每一像素的显著值 S(k, i, j); 步骤1. 3、对CIEL*a*b*色彩空间的巾贞图像进行JND建|旲,获得每一像素的最小可察觉 失真值 JND(k,i,j); 步骤1. 4、根据帧图像的显著值S(k,i,j)调整最小可察觉失真值JND (k,i,j),获得显 著性最小可察觉失真阈值S-JND(k,i,j)。
3. 根据权利要求2所述的基于显著性和最小可察觉失真的感知视频编码方法,其特征 在于:所述步骤1. 2获得每一像素的显著值S(k,i,j)的方法为: (1) 按100% ,80150130%比例分别缩放图像,形成四种尺度图像; (2) 将每一种尺度的图像分成7x7的块,块与块之间有50%的重叠; (3) 根据下式计算块与块之间的相异度d(Pi,Pj):
式中,口1和口」分别表示以第i个像素和第j个像素为中心的块,cUOT(Pi, Pj)表示 CIEL*a*b*色彩空间下块Pi和ρ』的欧氏距离,ρρ表示块Pi和ρ』的位置欧氏距 离,计算公式分别如下:

式中分别是第i个像素和第j个像素周围像素的CIEL*a*b*色 彩空间的三个分量,1表示块中的像素编号,每个7x7的块中49个像素,编号从0?48, X 和y分别表示像素 i,j的横纵坐标; (4) 像素 i的显著性定义为:
式中K = 64,r为缩放比例,取值为100%、80%、50%、30%。
4. 根据权利要求2所述的基于显著性和最小可察觉失真的感知视频编码方法,其特征 在于:所述步骤1. 3获得每一像素的最小可察觉失真值JND (k,i,j)的方法为: (1) 对变换色彩空间后的帧图像进行8x8的离散余弦变换; (2) 计算亮度分量的最小可察觉失真值JNDl s(k,n,i,j); (3) 计算颜色分量的最小可察觉失真值JNDc s(k,n,i,j); (4) 将获得的亮度最小可察觉失真JND^s(k,n,i,j)和颜色最小可察觉失真JND。 s (k,n,i,j)进行离散余弦反变换,得到像素的最小可察觉失真JND (k,i,j)。
5. 根据权利要求2所述的基于显著性和最小可察觉失真的感知视频编码方法,其特征 在于:所述步骤1. 4显著性最小可察觉失真阈值S-JND (k,i,j)采用如下计算公式获得: S-JND(k, i, j) = JND(k, i, j) XF(k, i, j) 式中F(k,i,j)是显著值调整因子,通过下式计算获得: F(k, i, j) = τ -S(k, i, j) 式中τ = 1. 5。
6. 根据权利要求1所述的基于显著性和最小可察觉失真的感知视频编码方法,其特征 在于:所述步骤2根据显著性最小可察觉失真阈值S_JND(k,i,j)对视频编码过程中的残差 进行滤波是采用如下公式计算公式获得:
式中R(i,j)、
S-JND(i,j)分别表示像素(i,j)的原始编码残差、当前处理的DCT 块的平均残差值、像素(i,j)的S-JND显著性最小可察觉失真阈值。
【文档编号】H04N19/176GK104219525SQ201410438723
【公开日】2014年12月17日 申请日期:2014年9月1日 优先权日:2014年9月1日
【发明者】王琳, 王辉淇, 于洋, 李敬娜 申请人:国家广播电影电视总局广播科学研究院, 北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1