一种基于时域预测的关注度提取方法

文档序号：7697843阅读：112来源：国知局

专利名称：一种基于时域预测的关注度提取方法
技术领域：
本发明属于视频分析领域，特别是涉及利用图像特征的关注度提取方法。
背景技术：
人类的视觉系统既要求有处理大量输入信息的能力，又要求具有实时反应能力，视觉心理学研究表明，在分析复杂的输入景象时，人类视觉系统采取了一种串行的计算策略，即利用选择性注意机制，根据图像的局部特征，选取景象的特定区域，并通过快速的眼动扫描，将该区域移到具有高分辨率的视网膜中央凹区，实现对该区的注意，以便对其进行更精细的观察与分析。选择性注意机制是人类从外界输入的大量信息中选择特定信息的一个关键技术。如果能将这种注意机制引入视频编码中，提前标注出容易引起观察者注意的区域，则为感兴趣区域编码提供重要的支撑。 Itti等人提出的关注度图(Saliency M即)方法充分利用了神经生理学中感受
野，侧抑制神经网络等研究成果，模拟了人的视觉注意力机制，认为像素与背景的对比是吸
引人注意的重要因素，并把这种对比定义为该点的关注值(saliency)。综合考虑亮度、颜
色、方向、运动等多种特征的关注值就得到视频图像的关注度图。由于这种方法综合了多种
视觉特征，所以选取的注视点和人观察图像时的实际注视点比较吻合。关注度图(Saliency M即)是一幅表明图像各点的关注性的二维图像，关注度图中
的点和输入图像的像素有拓扑上的对应关系。可以认为不同视觉特征(如颜色、方向等)
对关注性有不同的贡献，但它们之间没有相互作用。对于视觉注意来说重要的是特征的对
比，而不是特征的局部的绝对值。使用不同尺度的高斯差函数(Difference of Gaussians)
对图像的不同特征滤波，把得到的各个特征的响应求和，作为图像中该点的关注值。获取关注度图涉及亮度、颜色、方向、运动等多种特征的关注度子图的提取及合
并，现有的关注度提取方法的复杂度高，不能针对视频编码实时应用。

发明内容
为了解决现有的关注度提取方法的复杂度高，不能针对视频编码的实时应用的问题，本发明提供一种基于时域预测的关注度提取方法。本发明解决其技术问题提供的技术方案为根据当前帧及相邻的至少一帧先前帧图形的关注度图预测下一帧图像的关注度图，包括以下步骤，步骤l，特征提取，即提取当前帧及相邻的至少一帧先前帧图像，把每帧图像表示为高斯金字塔，从高斯金字塔每层中提取各种纹理视觉特征得到纹理参数特征图，从高斯金字塔每层中提取运动参数特征得到运动参数特征图；步骤2，关注度子图生成，即针对纹理参数特征图提取关注值得到纹理关注度子图，针对运动参数特征图提取关注值得到运动关注度子图；步骤3，关注度子图预测，即用当前帧及相邻的至少一帧先前帧图像的纹理关注度子图预测下一帧图像的纹理关注度子图，用当前帧及相邻的至少一帧先前帧图像的运动关注度子图预测下一帧图像的运动关注度子图；步骤4，关注度预测图生成，即合并步骤3预测所得下一帧图像的纹理关注度子图和运动关注度子图，作为下一帧图像的关注度预测图。而且，所述纹理视觉特征包括亮度特征、颜色特征和方向特征；提取亮度特征得到亮度特征图，对亮度特征图提取关注值得到亮度关注度子图；提取颜色特征得到颜色特征图，对颜色特征图提取关注值得到颜色关注度子图；提取方向特征得到方向特征图，对方向特征图提取关注值得到方向关注度子图。本发明采用时域预测方式支持感兴趣区域编码中的感兴趣区域提取，从当前帧及相邻的至少一帧先前帧的关注度图预测出下一帧关注度预测图，用预测出的下一帧关注度预测图代替计算的关注度图，以减少计算复杂度。从而解决了感兴趣区域编码中感兴趣区域提取实时性的问题；克服了现有的关注度提取方法的计算复杂度高，不能针对视频编码的实时应用的缺陷。应用本发明所提供技术方案，可以在实时视频编码的准确性和实时性中达到平衡。

图1为实施例的关注度提取原理图；
图2为预测中涉及的三种像素点示意图
具体实施例方式
本发明公开了一种基于时域预测的关注度提取方法，其基本原理是利用关注区域的纹理视觉特征和运动参数特征的时域相关性，根据当前帧及相邻的至少一帧先前帧的关注度图推算出下一帧的关注度预测图，以减少计算复杂度。以下参考

发明的实施例。通过对结合附图的实施例的详细描述，本发明的优点和特征，及其实现方法对本领域技术人员来讲更加清楚，然而，本发明的范围不局限于说明书中所公开的实施例，并且本发明也可以其他形式来实现。纹理视觉特征可以包括多种特征，实施例选择考察其中的亮度特征、颜色特征和方向特征。具体实施时，可以在精确度要求不高的情况下，只考察其中两种特征，这样实现更简便。参见附图1，时域预测综合当前帧图像、与当前帧相邻的至少一帧先前帧图像的特征进行预测，可标识为第n帧到第 n-i帧，i取l或以上的整数。针对当前的输入图像(第n帧)，分别提取当前帧图像(第n 帧)和先前帧图像(第n-l帧至第n-i)的纹理特征(亮度、颜色及方向)和运动特征，分别进行纹理特征预测和运动特征预测，预测下一帧(第n+l帧)的相应特征信息，最后特征合并得到下一帧的关注度预测图。最简单的情况是i取1，即只用当前帧和先前一帧预测的情况。具体实施时，本领域技术人员可以根据需要设定i值。本发明分成特征提取，关注度子图生成，关注度子图预测，关注度预测图生成4个步骤，实施例中每个步骤说明如下
1.特征提取提取当前帧及相邻的至少一帧先前帧图像，把每帧图像表示为9层的高斯金字塔。其中第0层是输入图像，1到8层分别是用5x5的高斯滤波器对输入图像进行滤波和采样形成的，大小为输入图像的1/2， 1/4， 1/8， 1/16， 1/32， 1/64， 1/128， 1/256。然后对高斯金字塔的每一层分别提取各种纹理视觉特征亮度、颜色(分为红色、绿色、蓝色、黄色)、方向，形成亮度金字塔I(o)，色度金字塔R(o)， G(o)， B(o)， Y(o)和方向金字塔O(o ，9)。色度金字塔R(o)，G(o)，B(o)，Y(o)分别与红色、绿色、蓝色、黄色相应。o取值为0到8，分别代表9个不同尺度。
各个特征的提取方法如下
( — )亮度特征设r， g， b分别为图像中红、绿、蓝三个分量，并且归一化到(O，l)。可由公式(1)求得亮度特征I I = (r+g+b)/3 (1)
( 二 )颜色特征将图像在红色、绿色、蓝色、黄色四个通道上的分量来计算其颜色特征，得到红色通道颜色特征R、绿色通道颜色特征G、蓝色通道颜色特征B、黄色通道颜色特征Y :
g + 6、
2
r+ 6、
"g、
(2)
(3)
(4)
_6
(5)
2 2
(三)方向特征方向金字塔0( o ， e )是对亮度特征I在尺度o上用方向9的Gabor函数滤波得到的Gabor金字塔。其中，o G
， e G {0° ，45° ，90° ，135° }。
(四)运动特征设(mvx， mvy)为图像帧中当前块的运动矢量，maxMV为该图像最大的运动矢量数
值，可由公式(6)求得运动参数特征MV
經:
,x +歸>>
(6)
maxMV 通过以上(一 )、(二 )、(三)部份的计算，从金字塔每层中提取各种纹理视觉特征得到各层的纹理参数特征图，可以将纹理参数特征表示为9个特征金字塔亮度1个，色度4个，方向4个。受视网膜中感受野信息处理方式的影响，吸引视觉注意的是特征的对比而不是特征的绝对值。本发明对各种纹理参数特征分别在特征金字塔的不同尺度间作差，来模拟感受野的中心-外周拮抗的结构。感受野的中心对应于尺度c的特征图的一个点(cG {2，3，4})，感受野的外周对应于尺度8的特征图中的对应点(s = c+S， S G {3，4})。由于不同尺寸的特征图大小不同，在做差时需要把大尺寸s下的特征图插值，得到和小尺寸c下的特征图一样大小的图像。然后逐点作差。这个过程用表示。做差得到的是中心(尺度c)和外周(尺度c+ S )的特征的对比
5
I(c， s) = |l(c) I(s) I (7)RG(c， s) = I (R(c)-G(c)) (G(s)-R(s)) | (8)BY(c， s) = I (B(c)-Y(c)) (Y(s)-B(s)) | (9)
o(c， s， e) = |o(c， e) o(s， e) | (10)
由于中心尺度c和外周尺度s之间有3x2 = 6种组合，所以上面的(7) ， (8) ， (9)，(10)式一共可以得到42个不同尺度的特征图，分别是6个亮度特征图，12个颜色特征图，24个方向特征图。其中公式(7)计算亮度特征图I(c， s)，公式(8)计算红绿色的颜色特征图RG(c， s)， (9)计算蓝黄色的颜色特征图BY(c， s)，公式(10)计算方向特征图O(c， s，e)。由于运动参数MV的绝对值已经代表了关注度模型的运动参数的对比，故不考虑用特征金字塔来模拟运动参数的感受野的中心-外周拮抗的结构，仅用图像帧当前块的运
动参数特征MF二V附狄组成唯一一幅运动参数特征图。maxMV由此得到仅用图像帧当前块的运动参数特征jyy = >vx2 + fflV>;2组成唯一一幅运
maxMV
动参数特征图和42幅不同尺度的纹理参数特征图。
2.关注度子图生成计算关注度子图需要将上面得到的42幅纹理参数特征图和1幅运动参数特征图综合起来，由于这些特征图由不同的计算方法得到，各图的取值范围不同，很可能在综合之后将某些图中很关注的区域掩盖掉。因此，实施例在计算之前将特征图进行标准化，方法如下 1)将各图中各点的值标准化到一个固定的区间[O，M]中。
2)找到图中全局最大值M，然后计算其他局部极大值的平均值m。
3)图中所有的点的值乘(M-m)2。这种标准化方法使每个特征图只保留少数几个关注值，而且特征不是很明显的关注度子图会被抑制，从而在叠加多个关注度子图时能把同时有多种显著特征的点突现出来。本发明把这种标准化方法定义为N。为了简化计算，本发明实施例把特征图进行合并。分别把每一类(亮度、颜色、方
向)归一化后的特征图在第四等级尺度上(o=4)相加，得到对应三类特征的关注度子
图
<formula>formula see original document page 6</formula>
<formula>formula see original document page 6</formula>
MV = N(MV) (14) 其中@表示特征图之间的求和运算。求和时先把纹理参数特征图下采样到第4级，再逐点求和。这样就分别得到了 1个亮度关注度子图I， 1个颜色关注度子图C， 1个方向关注度子图0。对于运动关注度子图MV，在进行N操作前把运动参数特征图同样采样到第4级，这样就得到了 1个运动关注度子图。
3.关注度子图预测本发明实施例需要对上面得到的亮度关注度子图，颜色关注度子图，方向关注度子图，运动关注度子图作预测。实施例所用的是一种运动估计(MVE)方法，通过对至少2帧图像的关注度子图做运动估计，得到关注度子图之间的运动矢量(MV)信息，并以此计算下一帧关注度子图和已有的关注度子图间的MV信息，最后利用MV信息预测计算下一帧的关注度子图。以亮度关注度子图I来举例说明。利用当前两帧亮度关注度子图In—2和的亮度特征矩阵预测出第n帧亮度关注度子图In。此过程包括以下步骤
(1)求In中每个4x4的块的MVm(B^)禾P MVa (B^) 根据In—2和In—:得到In—:的运动矢量，再根据现有的光流法可得到在In上的运动矢量，可推得In—i中的块对应于In的外推块。对于In上的一个4x4块来说，可能有多个In—工上的4x4块投影到此块上，每个In—工上的4x4块都有一个运动矢量。此时，本发明需要求解In上每一个4x4块可能存在的两种运动矢量MVm(Bni)和MVJBJ 。 MVjBj是具有最大的权重 "的外推块的运动矢量，MVa(B』)是和预测块有重叠的所有外推块的运动矢量的加权平均。如图2所示，In上的当前待预测4x4块有4个块投影到其上，S卩外推块l、外推块2、外推块3、外推块4。
重叠区域的像素个数可以用来计算出预测的权重w」'J'。
《=Z,乂如)'i = 1，2……，M;j = 1，2……，M (15)
Pe《
其中M表示一帧亮度关注度子图中4x4块的数量
其中，EBnj表示用来预测In的参考帧上的第j个4x4外推块，Bni表示In上的第i
={1' p《
个4x4预测块 NV迈(BnO由(15)求得:
其中，/ = arg max {w二' MVa(Bni)由(16)求得
(16)
1，2.
'，M;j = 1，2.
'，M 其中，MV (EBnj)表示EBnj的MV 。另外，如果块Bj没有被任何外推块覆盖，则B』块的MV为空。[(Km ] (2)求In中的每个像素点的MV集合MVSp (Pnx'y)。
7
(17)
Pnx'y表示In中坐标为(x， y)的像素点。MVE方法将预测帧In上的每个点(在这里称为像素)分成三类 A类至少被一个4x4外推块覆盖的像素点。如图2所示，预测块的4x4个像素点标识为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16。预测块1中属于A类的像素包括{1，2，3，4，5，6，7，9， 13， 14， 15}，这些像素点分别被外推块1、外推块2、外推块3、外推块4覆盖。
B类没有被任何一个4x4外推块覆盖的像素点，但该像素所属的4x4块和某些外推块有重叠。如图2所示，预测块1中属于B类的像素包括{8， 10， 11， 12， 16}。
C类没有被任何一个4x4外推块覆盖的像素点，且该像素所属的4x4块和任何外推块都没有重叠。如图2所示，预测块2的像素点属于C类。 A类中的像素点至少有一个的In—J卜推块覆盖其上，因此这些像素点的MVSp(P/'0包括所有覆盖该点的外推块的MV， B类和C类中的像素点MVSp(Pnx'0为空。
综合考虑块运动向量MVm(Bni) ，MVa(Bni)以及像素运动向量MVS。 (Pnx'y)，该像素点的MV集合MVS (Pnx'y)可归纳如下对A类的像素点，<formula>formula see original document page 8</formula>
其中<formula>formula see original document page 8</formula>
对b类的像素点，<formula>formula see original document page 8</formula> 对C类的像素点，MK5(if"—MF(/^》其中MV(P『广50表示前一帧相同位置像素的MV 最后可以求得每一个像素的MV为MVS(Pnx'y)中个分量的平均值。
(3)预测出下一帧图像的亮度关注度子图根据MV信息，预测关注度子图的点A时可以找到前一帧关注度子图的对应位置B，并将B的值赋给A，从而得到亮度关注度子图Su(Pnx'y)。
<formula>formula see original document page 8</formula>
同理可得色度、方向、运动的关注度子图。大于两帧的关注度子图预测，可以两帧的预测为基础，以得出的运动矢量加权的形式来实现。本技术领域技术人员可参考实施例实现大于两帧的关注度子图预测，本发明不予赘述。 4.关注度预测图生成综合所有特征的关注性，将所有预测出的子图合并，就得到对应输入图像的关注度预测图S
<formula>formula see original document page 8</formula> 其中，Su(I)为预测所得的亮度关注度子图(为了便于标识各种类关注度子图，此处将求取过程中的亮度关注度子图标识Su(P/'y)改为Su(I))，Su(C)为预测所得的颜色关注度子图，Su(O)为预测所得的方向关注度子图，Su(MV)为预测所得的运动关注度子图。本实施例采用的这种求平均值的合并生成方式简便易行，具体实施时，也可对各种类关注度子图分别设置权值进行合并，加重较重要种类的权值可以更好地反映关注度。
权利要求
一种基于时域预测的关注度提取方法，其特征在于根据当前帧及相邻的至少一帧先前帧图形的关注度图预测下一帧图像的关注度图，包括以下步骤，步骤1，特征提取，即提取当前帧及相邻的至少一帧先前帧图像，把每帧图像表示为高斯金字塔，从高斯金字塔每层中提取各种纹理视觉特征得到纹理参数特征图，从高斯金字塔每层中提取运动参数特征得到运动参数特征图；步骤2，关注度子图生成，即针对纹理参数特征图提取关注值得到纹理关注度子图，针对运动参数特征图提取关注值得到运动关注度子图；步骤3，关注度子图预测，即用当前帧及相邻的至少一帧先前帧图像的纹理关注度子图预测下一帧图像的纹理关注度子图，用当前帧及相邻的至少一帧先前帧图像的运动关注度子图预测下一帧图像的运动关注度子图；步骤4，关注度预测图生成，即合并步骤3预测所得下一帧图像的纹理关注度子图和运动关注度子图，作为下一帧图像的关注度预测图。
2. 根据权利要求1所述的关注度提取方法，其特征在于所述纹理视觉特征包括亮度特征、颜色特征和方向特征；提取亮度特征得到亮度特征图，对亮度特征图提取关注值得到亮度关注度子图；提取颜色特征得到颜色特征图，对颜色特征图提取关注值得到颜色关注度子图；提取方向特征得到方向特征图，对方向特征图提取关注值得到方向关注度子图。
全文摘要
本发明公开了一种基于时域预测的关注度提取方法，其方法利用关注度图存在的时域相关性，从当前帧及相邻的至少一帧先前帧的关注度图预测下一帧关注度图。本发明先提取特征和关注度得到关注度子图，然后对关注度子图进行时域预测，最后合并预测出的关注度子图，得到下一帧图像的关注度预测图。本发明通过关注度区域预测技术，大幅降低关注度模型的计算复杂度，解决现有的关注度提取方法的计算复杂度高而不能针对视频编码的实时应用的难题。
文档编号H04N7/36GK101697593SQ200910063890
公开日2010年4月21日申请日期2009年9月8日优先权日2009年9月8日
发明者夏洋, 张岿, 毛丹, 汪欢, 王中元, 王啟军, 胡瑞敏, 钟睿, 陈皓申请人:武汉大学;

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡瑞敏;夏洋;张岿;王中元;王啟军;陈皓;毛丹;钟睿;汪欢
技术所有人：武汉大学
我是此专利的发明人

上一篇：高清晰度多媒体接口长距离无损光纤传输装置的制作方法
上一篇：一种可信计算平台密钥迁移系统及其密钥迁移方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。