基于蚁群的压缩域显著性检测算法_2

文档序号:9711941阅读:来源:国知局
局最优解上更有优势。时域方面,采用从压缩码流中直接提取运动矢量作为时域特征,避免 了繁复且耗时的解码过程;空域方面,考虑的特征种类齐全,包括亮度、色度、纹理特征,时 空域信息结合更符合人眼视觉规律,自适应融合方式使得最终检测效果更加符合人眼主观 感知特性。同时,本发明不依赖于视频内容变化W及编码时参数设置的影响,具有良好的鲁 棒性W及较强的可扩展性,当加入其它特征时,同样可W使用本方法进行检测。
【附图说明】
[0047] 图1是本发明的整体流程图;
[0048] 图2是不同融合算法所获得的显著性图的ROC曲线图;
[0049] 图3是几个示例序列显著性点到中屯、点的欧式距离的分布直方图;
[0050] 图4是采用不同显著性检测方法获得的显著性图的对比图。
【具体实施方式】
[0051] W下结合附图对本发明实施例做进一步详述。
[0052] 一种基于蚁群的压缩域显著性检测方法,是考虑了蚁群算法的性质W及它与显著 性检测的关系,提出的全新的使用蚁群算法的压缩视频显著性检测算法。我们将压缩视频 的每一帖都转换为一个图,如此将显著性检测问题转换为一个基于图的排序问题,同时从 压缩视频码流中提取出四种不同的空域特征W及一种时域特征来构建蚁群算法中需要用 到的启发矩阵。与传统的显著性检测算法不同,蚁群算法是一种基于数值的启发性优化算 法,它具有随机性,正反馈,分布式协作W及最优化路径的特征,是一种解决显著性检测问 题的全新思路。
[0053] 如图1所示,本发明包括W下步骤:
[0054] 步骤1、将视频帖划分为块,并使用块构建图的节点,进而将帖建模成一个图。
[0055] 在本步骤中,首先将每一帖进行块的划分,为每一帖构建一个图G(V,E),划分的块 被作为图中的节点V,转移概率P则被用于作为图的边E。由于本实施例中使用的视频均为 H. 264编码,我们将块大小设为4 X 4化.264中最小块),因此对于本实施例中352 X 288尺寸 的序列,我们可W首先划分为88X72个小块。对于划分获得的块,我们可W直接使用它们作 为结点构建图;此外,对于不同的视频帖,我们可W根据H. 264编码过程中的宏块划分结果, 对基础块进行组合,W此构建图。
[0056] 步骤2、直接从压缩码流中提取每个节点的时域和空域特征,构建时空域启发矩 阵。
[0057] 在本步骤中,首先提取压缩码流中空域和时域特征包括对应时域特征的运动矢量 MV,对应空域特征包括:对应于亮度的直流分量的亮度特征L,对应于色度Cb的直流分量的 色度特征Cl,对应于色度Cr的直流分量的色度特征C2, W及对应于亮度的所有交流分量的和 的纹理特征T。然后进行启发矩阵的构建,具体构建过程如下:
[0058] 针对每种特征fE化,U,V,T,MV},按照下面公式获得时空域启发矩阵:
[0060]式中,f(i,j)和f(l,m)分别表示坐标为(i,j)的块和坐标为(l,m)的块的特征值。f £{1,11,¥,1',1¥},〇是一个控制启发矩阵强度的常数,本实施例中设其值为1。采用该公式是 由于该公式应用广泛,并且在显著性检测方面展现出了出色的效果(C. Yang, L. Zhang, H. Lu,X .民uan,and M.-H. Yang,('Sal iency detectionvia graph-based manifold ranking,,,in Computer Vision and Pattern民ecognition(CVP民),2013IEEE Conference on.IE邸,2013,PP?3166-3173)O
[0061] 步骤3、使用蚁群算法,根据时空域启发矩阵分别获得时空域显著性图。具体实现 方法如下:
[0062] 对于一个单层的图G(V,E),我们可W通过两个步骤完成完整的蚁群算法:妈蚁的 运动 W及信息素的更亲if (M.Dori邑O and M.Birattari , ('Ant colony optimization," in 化巧clopediaof Machine Learning. Springer ,2010,卵.36-39)。我们首先随机选一个节 点V并将一只妈蚁放到V的位置,我们将它的运动方向设为边E,并通过计算转移概率得到E 的值。妈蚁运动的同时会将信息素留在节点上,我们通过挥发和衰减可W对信息素矩阵进 行更新,进而获得显著性图。
[0063] 首先,在运单层的图G(V,E)上一次性随机洒出共K只妈蚁,并使每只妈蚁爬行L步。 运个过程记为构造过程,在一次计算中,该构造过程需要被重复执行脚欠。在第n次构造过程 中,第k只妈蚁从节点Q J)移动向节点(l,m)的概率可W通过转移概率进行计算,计算公式 如下:
[0065] 其中T和Tl分别指代信息素矩阵和启发矩阵。a和0是影响因子,根据相关论文,在本 实施例中,我们采用a = l,e = 0.1,Q (I,"指代当前节点的邻居节点。获得转移概率之后,妈 蚁即转向转移概率最大的方向爬行。
[0066] 当第k只妈蚁完成了第n个构造过程中的第1步爬行时,信息素矩阵会根据下面公 式进行更新:
[0068] 其中P是衰减率,最优路径指第k只妈蚁根据转移概率矩阵计算结果经过的所有节 点的集合。另外,AjW是通过启发矩阵决定的二脚三
[0069] 当第n个构造过程中的所有K只妈蚁均完成了 L步爬行之后,信息素矩阵会根据下 面法则进行更新:
[0070] T树'[1 一 [打)+ 皆T(O)
[0071] 其中tW指代每个构造过程中信息素矩阵最初的值,巧指代信息素挥发系数, 取G (0,1],在本实施例中,我们采用巧=0.0吕。
[0072] 步骤4、根据人眼视觉特性和时空域显著性图的特征,自适应融合时域和空域显著 性图像,得到图像显著区域。具体方法为:
[0073] 利用启发矩阵,我们可W得到四个不同的空域显著性图(Sl,Su,Sv和St) W及一个 时域显著性图(Smv)。为了获得最终的显著性图,我们需要将运些显著性图通过一种适合人 眼视觉系统的方式进行融合。在(C.畑amaret,J.-C.化evet,and 0丄e Meur, "Spatio-temporal combinationof saliency maps and eye-tracking assessment of differentstrategies."in ICIP.Citeseer,2010,pp. 1077-1080)中,作者提出了众多具有 不同标准的融合方法。在运些方法中,相干归一化方法是基于先验知识的,因此在本文中不 作考虑。我们对其他立种融合方法进行了实验测试并且分别绘制了 ROC曲线,如图2所示。其 中,全局非线性归一化方法(G化NS方法)的结果明显优于其他几种融合方法。因此,我们采 用全局非线性归一化方法(GNLNS方法)进行自适应融合,进行自适应融合的公式如下:
[0075] 式中Mi为显著性图SMi中的最大值,HU是显著性图SMi中除最大值外所有其他值的 平均值,N是归一化运算符。
[0076] 下面按照本发明的方法进行实验,说明本实施例的实验效果。
[0077] 测试环境:Visual SUidio 2013,MATLAB 2013b
[0078] 测试序列:所选测试序列和其对应标准显著性图(groundtruth)来自S即数据库 (HadiHadizadeh,Mario J Enriquez,and Ivan V Bajic,"Eye-tracking database for a set of standard video sequences,,,Image Processing,IEEE Transactions on, vol?21,no?2,pp?898-903,2012?)和CRCNS数据库化?IttiandP?Baldi/'Aprincipled approach to detecting surprising eventsin video,,,in Computer Vision and Pattern 民ecognition,2005.CVP民2005. IEEE Computer Society Conference on, ¥〇1.1.1目邸,2005,口口.631-637),其中包含的序列如下:
[0079] 表一测试序列I (SFU数据库)
[0081] 表二测试序列2(CRCNS数据库)
[008引测试指标;
[0084] (1)、本文使用了两种评价指标,分别为曲线下面积(简称AUC)和偏置性曲线下面 积(简称sAUC),其中AUC为接收机工作特性曲线(简称ROC曲线)下覆盖的面积。ROC曲线是判 决过程中真正确率(简称TPR)随判决过程中假错误率(简称FPR)变化的曲线,其中ITR表示 将参考标准显著性图像中显著性点检测为显著性点的比例,FPR表示将非显著性点检测为 显著性点的比例,AUC值越大,表示视频显著性检测模型越好;
[0085] (2)、由于一些模型广泛使用中屯、偏置的原则,导致实验结果对数据库的依赖性非
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1