一种基于hvs的视频感兴趣区域提取方法

文档序号：7778965阅读：259来源：国知局

一种基于hvs的视频感兴趣区域提取方法
【专利摘要】本发明公开了一种基于HVS的视频感兴趣区域提取方法，首先根据视频的帧间相关性和帧内相关性分别度量视频的时域信息量和空域信息量，然后采用特征融合策略将分别代表视频时域特征和空域特征的时域信息量和空域信息量融合获得视频信息量分布，再以基于人眼视觉系统（HVS）的视觉迟滞映射模型将视频信息量映射为视觉显著度，最后将视频的视觉显著度经过自适应阈值判断获得视频的感兴趣区域。本发明提出的基于HVS特性映射模型能将视频特征转化为符合人眼视觉特性的视频显著度，同时采用信息量度量视频的时域和空域特征，算法复杂度低且精度较高。
【专利说明】—种基于HVS的视频感兴趣区域提取方法
【技术领域】
[0001]本发明涉及一种视频信号的处理方法，特别涉及一种基于HVS的视频感兴趣区域提取方法。
【背景技术】
[0002]视频服务的终端用户对视频质量的评价是最可靠的结果。然而这种主观评价方法，因其不具备实时性、耗时长并且过程繁琐。实际研究和工程中会使用多种结合了人眼视觉特性的客观评价方法来模拟主观评价效果。通过这样的途径获得与主观评价相匹配的结
果O
[0003]人眼视觉特性包括视觉空间特性和时间特性，这是由人眼的结构特性决定的。神经生物学的观点认为，人眼视觉敏感度决定了图像和视频在人眼中的感官质量变化。在静止的图像中，人眼视觉敏感度主要体现在空间特性上，常用的人眼视觉特性为视觉非线性、对比敏感度、多通道结构和掩盖效应等。而对时间连续的视频序列，人眼视觉会还有时间特性上的敏感性，视频质量评价中用运动检测等方法来体现这种时间上的敏感性。同时，这些人眼视觉系统(HVS)的生理的和心理视觉的显著特征，决定了人眼对视频序列中多个场景的感兴趣程度会不同。换言之，人眼会将注意力集中在少数几个显著的视觉对象上，这些视觉对象被称为感兴趣区域(R0I)。我们认为视频中感兴趣区域的存在，是人眼视觉特性的时间和空间特性的综合体现。首先，将ROI这种HVS特性加入客观评价方法，能显著提高评价结果的可靠性和真实性，即更符合主观评价结果。其次，基于ROI加权策略的客观评价方法，只对ROI内的视觉对象进行质量评估，能大大降低算法复杂度。因此，如何提取ROI是一个很值得关注的问题。
[0004]视频感兴趣区域是视觉感兴趣程度大于某个阈值的视觉对象的集合。现有很多方法用于表示视觉感兴趣程度。为了获得视觉感兴趣映射图，有些方法采用了运动检测，有些方法计算视频帧的空间特性。然而，ROI是HVS的时间和空间特征的综合体现。仅计算了空间或者时间感兴趣程度的方法，所获得的感兴趣区域精确度较低。另外，有的方法采用综合了多种视觉特征的概率密度函数来表示视觉感兴趣程度，这类方法需要在高维空间中计算，十分复杂。
[0005]视频或图像中一个区域的视觉信息量大小能影响其视觉显著程度。1991年T.N.Topper提出用香农自信息量来度量静止图像的显著度。而图像的显著度只是空间性的显著度，对于视频来说，需要加入时域显著度，并且将时域空域显著度恰当结合才能提取到更准确的感兴趣区域。已有一种基于视觉信息量的ROI提取方法，其模型中将视频表示为时空域块的集合，巧妙地表示了每块区域的时空显著度，从而能得到基于视觉信息的ROI映射。然而，视觉显著度与感兴趣程度的映射并非为线性的，比如两个重要的人眼视觉特性:运动敏感性和视觉迟滞性，这两个特性将对视频显著度造成影响。
[0006]本发明从信息论的角度，基于视频的帧间相关性和帧内相关性，提取出视频的时域信息量和空域信息量，并以一定策略加权获得视频视觉信息量。同时，采用了基于HVS的非线性映射，将视觉信息量映射为视觉显著度。最后，使用自适应阈值对视觉显著度进行判断，获得的感兴趣区域与主观结果一致性较高。

【发明内容】

[0007]本发明所要解决的技术问题是提供一种以较低的算法复杂度、提取的感兴趣区域精度较高的基于HVS的视频感兴趣区域提取方法。
[0008]本发明所述的一种基于HVS的视频感兴趣区域提取方法，该方法至少包括如下的步骤:
[0009]步骤1:将视频时域特征和空域特征分别表示为视频的时域信息量和空域信息量，根据视频的帧间相关性和帧内相关性计算出时域信息量I一。Ml和空域信息量Ispatial;
[0010]步骤2:采用特征融合策略将视频时域信息与空域信息加权，如下式计算视频信
息量;
_] I = a Itemporal+β Ispatial
[0012]其中系数α与 β取决于视频序列的运动复杂度和空间复杂度的相对强度；
[0013]步骤3:定义视频特征为视频信息量，定义人眼实际观察到的视频特征为视觉显著度，根据下式的视觉迟滞性映射模型可以由视频信息量获得视频的视觉显著度；
[0014]S = F(I)
[0015]步骤4:依据视频序列当前帧的视觉显著度分布，获取一个自适应阈值，将该帧视觉显著度二值化，从而提取当前帧的视觉感兴趣区域。
[0016]本发明所述的一种基于HVS的视频感兴趣区域提取方法，步骤I中的视频时域信息量的计算其步骤为:
[0017]步骤11:将视频序列中出现在t时刻的视频帧分为RXC个尺寸为8X8的视频子块，其中空间位置为(X，y)的子块定义为B(X，y, t)，将空间位置相同的具有相关性的N个视频子块组成的集合表示为 V (X，y, t) = {B (χ, y, t), B (x, y, t_l),..., B(x, y, t-N+1)}；
[0018]步骤12:将连续V(x，y，t)的N个元素进行DCT变换得矩阵E，则块B (x，y，t)的一个 DCT 分量可表示为 E(i, j, t), t = I, 2,..., N ；
[0019]步骤13:N个块的第(i，j)个分量组成的矩阵为E(i，j,:)，求该矩阵的概率矩阵Pi;Jj；feB(X，y，t)的第(i，j)个分量取值的概率为Pi,」(t)；
[0020]步骤14:视频子块B(x，y，t)在t时刻这一帧视频中出现的概率为条件概率

g C
m0r,r,r) I1}) =，根据香农信息论块B (x, y, t)包含的时域信息量为.M
/flw/W(tf(-v._v./)) =j/) I V(x, vJ — I))) ? -1og2 nnL

'I J I
[0021]本发明所述的一种基于HVS的视频感兴趣区域提取方法，步骤I中的视频空域信息量计算其步骤为:
[0022]步骤15:将t时刻的这一帧视频所包含的时间事件表示为F(t)，解释为视频帧F(t)上所有其他位置视频子块的集合；
[0023]步骤16:将t时刻帧F⑴逐块进行DCT变换得矩阵D，块B (x, y, t)的一个DCT分量可表示为D(x, y, i, j),其中(x，y)表示块的帧内空间位置，(i, j)表示块内DCT分量位置，i = l，2，...，R;j = 1，2，...，C;
[0024]步骤17:所有块的第(i，j)个分量组成的矩阵为D (:，:，i，j)，求该矩阵的概率矩阵Pu (即矩阵值的概率值组成的新矩阵)，块B(X，y，t)的第(i，j)个分量取值的概率为Pi, j (χ, y)；
[0025]步骤18:这一帧视频中视频子块B(x，y，t)出现的概率表示为条件概率
P(B(x,yJ) I Fm) = ΠΠ P；,；(x,y)，块B (x, y, t)包含的空域信息量表示为下式。
【权利要求】
1.一种基于HVS的视频感兴趣区域提取方法，其特征在于，该方法至少包括如下的步骤: 步骤1:将视频时域特征和空域特征分别表示为视频的时域信息量和空域信息量，根据视频的帧间相关性和帧内相关性计算出时域信息量Itemporal和空域信息量Ispatial; 步骤2:采用特征融合策略将视频时域信息与空域信息加权，如下式计算视频信息量；
I =αItemporal+β Ispatial 其中系数α与β取决于视频序列的运动复杂度和空间复杂度的相对强度；步骤3:定义视频特征为视频信息量，定义人眼实际观察到的视频特征为视觉显著度，根据下式的视觉迟滞性映射模型可以由视频信息量获得视频的视觉显著度；
S = F(I) 步骤4:依据视频序列当前帧的视觉显著度分布，获取一个自适应阈值，将该帧视觉显著度二值化，从而提取当前帧的视觉感兴趣区域。
2.根据权利要求1所述的一种基于HVS的视频感兴趣区域提取方法，其特征在于，步骤I中的视频时域信息量的计算，其步骤为: 步骤11:将视频序列中出现在t时刻的视频帧分为RXC个尺寸为8X8的视频子块，其中空间位置为(x，y)的子块定义为B(x，y，t)，将空间位置相同的具有相关性的N个视频子块组成的集合表示为 V (X，y, t) = {B (X，y, t), B (x, y, t_l),..., B(x, y, t-N+1)}；步骤12:将连续V(x，y, t)的N个元素进行DCT变换得矩阵E，则块B(x，y, t)的一个DCT 分量可表示为 E(i, j, t), t = I, 2,..., N ；步骤13:N个块的第(i，j)个分量组成的矩阵为E(i，j,:)，求该矩阵的概率矩阵Pu，块B(x，y，t)的第(i，j)个分量取值的概率为Pi，j(t)；步骤14:视频子块B (X，y, t)在t时刻这一帧视频中出现的概率为条件概率
3.根据权利要求1所述的一种基于HVS的视频感兴趣区域提取方法，其特征在于，步骤I中的视频空域信息量计算，其步骤为: 步骤15:将t时刻的这一帧视频所包含的时间事件表示为F(t)，解释为视频帧F(t)上所有其他位置视频子块的集合；步骤16:将t时刻帧F (t)逐块进行DCT变换得矩阵D，块B (X，y, t)的一个DCT分量可表示为D(x, y, i, j),其中(x，y)表示块的帧内空间位置，(i, j)表示块内DCT分量位置，i=1, 2,..., R; j = I, 2,..., C ；步骤17:所有块的第(i，j)个分量组成的矩阵为D(:，:, i, j)，求该矩阵的概率矩阵Pu (即矩阵值的概率值组成的新矩阵)，块B(x，y，t)的第(i，j)个分量取值的概率为Pi, j (χ, y)；步骤18:这一帧视频中视频子块B (X，y, t)出现的概率表示为条件概率
4.根据权利要求1所述的一种基于HVS的视频感兴趣区域提取方法，其特征在于，步骤2中的采用特征融合策略将视频时域信息与空域信息加权，计算视频信息量，其步骤为:步骤21:分别按照如下公式将所求得时域和空域信息量进行线性归一化；
5.根据权利要求1所述的一种基于HVS的视频感兴趣区域提取方法，其特征在于，步骤3中的根据视觉迟滞性映射模型，由视频信息量获得视频视觉显著度，其步骤为: 步骤31:定义人眼所能察觉的信息量下限为Llower，最大信息量为Luppct ；步骤32:根据双曲正切函数的特征和人眼视觉敏感性，我们采用映射模型S =
6.根据权利要求1所述的一种基于HVS的视频感兴趣区域提取方法，其特征在于，步骤4中的根据视频视觉显著度提取感兴趣区域，其步骤为:

【文档编号】H04N19/167GK103686178SQ201310645819
【公开日】2014年3月26日申请日期:2013年12月4日优先权日:2013年12月4日
【发明者】邓佳君, 路兆铭, 温向明, 傅彬, 邵华, 王鲁晗, 王刚, 廖青, 赵振民申请人:北京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓佳君;路兆铭;温向明;傅彬;邵华;王鲁晗;王刚;廖青;赵振民;
技术所有人：北京邮电大学;
我是此专利的发明人

上一篇：基于GoP场景复杂度的视频质量评价方法
上一篇：一种租户网络生成和标签报文处理的方法，及相关设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。