动静结合估计视频视觉显著度的方法

文档序号：7839913阅读：465来源：国知局

专利名称：动静结合估计视频视觉显著度的方法
技术领域：
本发明涉及一种动静显著结合自动估计视频视觉显著度的方法，特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。
背景技术：
目前，随着网络和存储技术的发展，视频等数字媒体数据增长非常迅速。多媒体信息呈现出爆炸式增长，海量的视频数据需要高效的浏览、检索工具来对媒体数据进行管理和访问。视频中含有丰富的时空信息，要逐一对媒体中的所有细节都进行处理、分析提取语义，进行语义标注是不现实也是不可能的。海量的视频数据迫切需要计算机能自动进行显著计算，选择出其中最有意义和价值的内容，从而进行进一步的分析和理解。注意力是一个生理学上的专业名词，表示视觉系统对单一对象、景色的关注程度。灵长类动物的视觉系统时刻都收到丰富的信息，但是灵长类动物的视觉系统却只处理其中的一部分信息，大量的非重要视觉信息并没有进行细致处理和加工。视觉系统注意力机制使得人脑合理而巧妙地通过感官有选择地接受和处理外来信息，注意机制在视觉信息处理中指挥大脑将资源有选择有先后地分配给被认为是重要的或感兴趣的信息。利用注意力选择机制进行媒体中视觉关注内容的选取，然后对这些显著内容进行分析和理解，可以避免 “平均”对所有时空信息进行处理。视觉显著性(Visual Salience or Visual Saliency)是一种独特的主观知觉性质，这种性质使得一些事物与其周围景物分辨开并立即吸引人们的注意力。目前，显著度提取的策略主要包括两种采用自底向上(bottom-up)控制策略的，通过低层视觉特征进行输入景象的显著性计算；采用自顶向下(top-down)控制策略，它通过调整选择准则，以适应外界命令的要求，从而达到将注意力集中于特定目标的目的。到目前为止，对前者的认识比对后者的深入，如在论文“Computational Modeling of Visual Attention”(视觉注意力计算模型，Itti，Koch, NatureReviews-Neuroscience, 2001)中提出模拟人类视觉系统探测局部视觉特性与其周围明显不同显著度计算模型，用的颜色、边方向、亮度或运动方向等简单视觉特征表示分显著图，然后通过“胜者优先，，机制得到最终显著图。中国专利 (03134423. 2) “一种基于显著兴趣点的图像检索方法”，主要通过低层特征计算每个像素点的兴趣测度，进行兴趣点和显著区域选择。美国专利(7274741) "Systems and methods for generating a comprehensive user attentionmodel，，(产生全面用户注意；O模型白勺系统和方法)，其主要思想是用多角度的显著度模型得到不同的分特征分布图，最后将分显著图融合得到整体显著图。然而，上述方法对显著估计的法主要问题是局限于静态场景，即处理从关键帧得到的低层特征并得到各分显著图，然后进行融合得到整体显著图。视频数据包括丰富的时空信息，显著注意的对象可能是静态的对象也可能是动态的运动区域。因此，这样得到的显著区域，静态特性表现很充分，而动态(运动)对象的显著性会得到“抑制”。因此，需要发明一种动静结合，解决静态和动态显著特性融合的自动显著估计的方法。

发明内容
为了克服现在有方法的不足，本发明的解决的技术问题是通过关键帧提取以静态显著为主的“静态显著分图”，同时得到以运动对象特征为主的“动态显著分图”，然后通过融合技术得到总体显著分布图。本发明以镜头(或场景)作为语义理解和语义标注的基本单位，提供一种动静结合自动估计视频视觉显著度的方法。1.实现本发明的技术方案为动静结合估计视频视觉显著度的方法，主要包括以下步骤(1)首先，将视频镜头进行解压处理，得到帧序列、帧切片，并提取关键帧；(2)接着，在第一步的基础上，对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图；(3)其次，根据关键抽取得到信息，进行动态信息抽取；(4)再次，提取镜头的动态信息图像的动态显特征，并计算动态显著度；(5)最后，用脉冲耦合神经网络动进行静态显著融合，计算最终视频视觉显著度。2.本发明中将视频镜头进行解压处理得到帧序列和帧切片并提取关键帧，包括以下步骤(1)按镜头为单位进行解压缩得到镜头解压帧序列，在首帧和尾帧之间等时间间隔选取10中间帧。10个中间与首帧和尾帧组成固定12帧的帧切片；(2)对帧切片中的每一帧，提取平均颜色、纹理和形状三视觉信息底层特征。分别计算12帧的颜色、纹理和形状平均值。然后计算12个的帧切片图像与3低层特征的差异值；(3)选取帧切片中与3低层特征平均值差异最小对应的帧作为关键帧。3.本发明中根据关键抽取得到信息进行动态信息抽取，包括以下步骤(1)对12帧的帧切片采样图像，计算得到11个帧切片帧间差(Frame Segment Difference, FsD)；(2)利用连续几帧的帧差掩模图像，将较长一段时间内保持不动的像素认为是可靠的镜头背景，即镜头背景信息图像为连续6个以上帧间差为0像素点组成；(3)镜头背景信息示性函数提取；(4)动态信息图像提取。4.本发明中提取镜头的动态信息图像的动态显特征，并计算动态显著度，包括以下步骤(1)计算动态信息图像亮度、颜色通道信息；(2)将I，RG, BY用于构造多尺度的高斯金字塔；(3)然后进行中心-环绕差运算，得到亮度显著、颜色对显著征图I(c, s) = |l(c) Θ I(s)RG (c，s) = I (R(c)-G(c)) (G(s)-R(s))BY (c，s) = I (B (c) -Y (c)) (Y(s)-B(s)) | ；(4)得到正规化的亮度分特征图表示动态分显著图
权利要求
1.一种动静结合估计视频视觉显著度的方法，其特征在于包括以下步骤(1)首先，在镜头解压帧序列的首帧和尾帧之间等时间间隔选取中间帧，组成固定的帧切片；选取帧切片中与3低层特征平均值差异最小对应的帧作为关键帧；(2)其次，在(1)基础上，对关键帧计算静态显著特征，得到静态显著图；(3)再次，利用帧间差掩模图像，把较长一段时间内部保持不动的像素认为是可靠的镜头背景，提取动态运动对象，根据运动对象提取镜头动态信息图像的动态显著特征，计算得到动态显著图；(4)最后，将步骤( 和步骤C3)得到的静态、动态显著图利用脉冲耦合神经网络进行显著融合，得到最终视频的显著度。
2.如权利要求1所述的方法，其特征是按镜头为单位解压缩得到镜头帧序列，在首帧和尾帧之间等时间间隔选取10中间帧，并与首帧和尾帧组成固定12帧的帧切片，抽取每帧的平均颜色、纹理和形状3个视觉信息低层特征，选取帧切片中与3个低层特征平均值差异最小的对应帧作为关键帧。
3.如权利要求1所述的方法，其特征是所述动态运动对象提取包括以下步骤(1)首先，计算帧切片的11个帧间差；(2)其次，利用帧差掩模图像，把连续6个以上帧间差为0对应的像素点认为是可靠的镜头背景，得到镜头背景BI ；(3)提取镜头背景信息图像示性函数，得到动态运动对象D{x, y) = FkDM{χ, y). Β (χ, y) + FkBDM{χ, y). ΒΙ(χ, y)其中，FkDM表示关键帧与前帧的帧间差掩模图像(若关键帧为第一帧，则表取与帧的帧间差)，FKBDM表示关键帧与镜头背景信息图像差的掩模图像。将非背景信息图像中的运动对象和背景信息图像中的运动对象、静止对象检测出，组成动态信息图像。
全文摘要
本发明公开了一种动静结合估计视频视觉显著度的方法，特别是一种通过图形图像处理技术和人工神经网络技术估计视频视觉显著度的方法。本方法主要包括以下步骤先将视频镜头进行解压处理，得到帧序列、帧切片，并提取关键帧；然后对关键帧提取早期视觉特征图、显著图正规化处理、最终的静态显著图；根据视频中稳定的背景信息和帧间差进行动态运动信息提取镜头的动态信息图像的动态显著图；最后用脉冲耦合神经网络进行动静态显著融合得到视觉显著度。根据本发明能综合静态和动态的显著对象特征计算得到较满意的显著结果，适用于估计动、静特征丰富的视频数据显著度。
文档编号H04N7/26GK102088597SQ200910216538
公开日2011年6月8日申请日期2009年12月4日优先权日2009年12月4日
发明者何嘉, 刘文清, 叶斌, 舒红平, 邹书蓉, 魏敏, 魏维申请人:成都信息工程学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏维;邹书蓉;舒红平;何嘉;刘文清;魏敏;叶斌
技术所有人：成都信息工程学院
我是此专利的发明人

上一篇：数字视频电子稳像方法
上一篇：一种可平衡代价的前向安全数字签名方法与系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。