图像引导的视频语义对象分割方法及装置与流程

文档序号:12722661阅读:210来源:国知局
图像引导的视频语义对象分割方法及装置与流程

本发明涉及计算机视觉与多媒体分析领域,尤其涉及一种图像引导的视频语义对象分割方法及装置。



背景技术:

随着计算机视觉、多媒体分析技术的发展,以直观形象为特征的多媒体信息资源日益丰富且深受社会大众的喜爱,如何高效地从视频信息中定位并分割出需要的视频资源亦成为了研究热点。

视频语义对象分割是一种针对特定语义类别,从输入视频中定位并分割出属于该类别对象的视频像素的技术。该技术可应用于大规模互联网分析,影视制作中的视频编辑,以及基于视频的三维建模等。目前的视频语义对象分割方法主要为参数化方法,所谓参数化方法,就是在视频中对对象的所处位置进行一一标注,并收集大量已经标注了对象位置或对象轮廓的图像视频,从中学习出一个统一的、由参数作为表达形式的视觉模型,并将该视觉模型应用于输入的测试视频,基于该学习得到的视觉模型对该测试视频中的目标对象进行对象分割。例如,美国乔治亚理工大学的Kundu等人提出了基于特征空间优化的视频语义对象分割方法,该参数化方法通过大量精确标注的视频帧学习卷积神经网络得到视觉模型。美国密西根大学的Lei等人于2016年提出了机器学习模型递归时域深度场(Recurrent Temporal Deep Field),并应用于视频语义对象分割。然而,这类参数化的方法存在以下问题:一方面,采用参数化方法需要对大量的图像进行精确标注得到训练样本,因此训练样本的收集过程较为困难且耗时较长;另一方面,训练得到的参数模型难以根据新增加的图像进行高效地更新和迭代,因此对于视觉资源的动态增长的适应性不好。例如,若在已有的视觉系统中增加新的训练样本或者语义类别,采用参数化方法则需要重新训练视觉模型,而该模型的训练过程是耗时耗力的,对于现代的机器学习模型,可能需要数天甚至数周的时间。



技术实现要素:

本发明提供一种图像引导的视频语义对象分割方法及装置,该方法属于非参数化的视频语义对象分割方法,基于仅标注了语义类别标签的样本图像集合得到对象样例,并根据该对象样例对输入的视频进行语义对象分割。相比现有技术中的参数化方法,本发明能够充分利用互联网上广泛存在的弱标注图像集,不需要像参数化方法那样对训练样本进行精确标注;通过建立输入视频与图像集的匹配,定位视频语义对象,省略了对视觉模型的训练过程,还能够支持图像集的动态增长,简单且高效地实现对视频的语义对象分割。

本发明提供一种图像引导的视频语义对象分割方法,包括:

根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;

对输入视频中的每帧图像进行候选区域的提取;

根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;

对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;

对选出的所述高分候选区域进行前景与背景的初始分割处理;

基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;

将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。

本发明还提供一种图像引导的视频语义对象分割装置,包括:

定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;

提取模块,用于对输入视频中的每帧图像进行候选区域的提取;

匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;

排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;

处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;

计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;

传播模块,用于将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。

本发明的图像引导的视频语义对象分割方法及装置,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。

附图说明

图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;

图2a、图2b为图1所示实施例的对象样例的示意图;

图3为图1所示实施例的视频帧的示意图;

图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;

图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图1所示,本实施例示出的图像引导的视频语义对象分割方法,包括:

步骤101、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。

具体的,根据事前给定的语义类别,在包含该语义类别对象的大量图像中共定位出目标对象,从而构造得到对象样例。如在图2a、图2b所示的图像中,假定语义类别为“牛”,则根据语义类别“牛”在图2a和图2b的样本图像中分别对“牛”的目标对象进行定位,定位后的结果分别如图2a和图2b中的矩形框所示,需要注意的是,此处,定位得到的对象样例虽然是根据语义类别“牛”进行的定位,但是有可能定位得到的结果是错误的,例如图2b中,“牛”的图像被错误定位到了“树”的图像。其中,定位目标图像的方法可以采用现有技术中的共定位方法,如2015年法国国家信息与自动化研究所、巴黎高等工程学院与法国国家科学研究中心的联合WILLOW实验室的Cho等人所提出的“概率哈夫匹配”(Probabilistic Hough Matching)共定位算法。该算法首先从每幅图像中提取大量候选矩形区域,然后计算每个矩形区域的“共显著性”(Co-Saliency),并在每幅图像中选取共显著性最高的区域作为对象样例。该过程是完全自动的,因此存在对象定位不精确甚至错误的情况。

步骤102、对输入视频中的每帧图像进行候选区域的提取。

如图3所示,假设该图为输入视频中的其中一帧图像,根据预设的候选区域选择算法,在每帧图像中进行候选区域的提取,被提取的候选区域如图3中的各个矩形框所示(如标号1-6所示)。该候选区域的提取无需依据给定的语义类别,随机进行候选区域的选定。

步骤103、根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数。

具体的,针对标注同语义类别的输入视频,在每一帧上提取候选区域集合并根据之前得到的对象样例,将每个候选区域与对象样例进行匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分。如图3所示,经过匹配处理后,与图2a中的“牛”对象样例匹配度高的候选区域得到的相似度分数高,例如,标号为6的候选区域的得分最高。由于图2b中的错误对象样例的存在,标号为1的候选区域的得分可能也较高。对图3中的每个候选区域都进行相似度的评分处理。

步骤104、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。

根据预设的候选区域个数,选出视频帧中得分较高的几个高分候选区域以对其进行后续处理。

步骤105、对选出的高分候选区域进行前景与背景的初始分割处理。

步骤106、基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合。

具体的,为每一高分候选区域构造初始前景与背景分割,联合分割的一致性与无二义性约束从候选区域集合中选取最优的对象区域集合;由于视频与对象样例匹配过程可能的错误以及图像对象样例本身的不精确性,得最高分的候选区域不一定能够精确定位视频对象。为此,该步骤通过视频分割的一致性与无二义性,在各视频帧上联合优化选取正确的候选区域,得到最优的候选区域集合。

步骤107、将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。

本实施例的图像引导的视频语义对象分割方法,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。

图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图4所示,进一步的,在上述实施例的基础上,本实施的图像引导的视频语义对象分割方法,具体包括:

步骤401、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。

步骤402、对输入视频中的每帧图像进行候选区域的提取。

具体的,可以采用斯坦福大学Philipp与Vladlen Koltun在2014年提出的“测地线对象假设”(Geodesic Object Proposals)提取候选区域。

步骤403、在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。

具体的,为视频帧的每一候选区域快速找到对象样例中外观相似的图像区域,然后保持对象样例中的匹配图像区域与该对象样例的相对坐标和尺寸关系,在原输入视频帧上构造一个新的对象区域。通过该方式可以构造大量的对象区域。由于图像对象样例存在不精确或者错误,因此所构造对象区域也存在部分不精确的情况。为了解决该问题带来的影响,本发明利用迁移得到的大量对象区域(新的对象区域)为每一候选区域进行打分。这一步骤可以从两个方面有效解决对象样例不精确或者存在错误的问题:首先,所提取的候选区域利用了视频帧本身的信息,一般能够紧密贴合对象边界;其次,利用大量的对象样例(新的对象区域)进行打分,对于少量样例不精确的情况,具有较强的鲁棒性。

相似度分数的具体算法如下:针对从视频帧提取的候选区域集合中的某一候选区域采用KD树算法匹配得到K个外观最相似的图像区域。对于第k个匹配区域保持该区域与所在图像对象样例的相对坐标和尺寸关系,并在原视频帧上构造一个新的对象区域位置最后可以构造个对象样例。采用如下公式为每一候选区域打分。以候选区域为例,其得分为:

其中表示区域与对象样例的外观相似性,定义为

其中表示区域的外观特征向量,本发明采用VGG深度网络的fc7层输出作为特征。大括号内的分母δf为常量,一般取其分子的平均值。上式表示区域与前K个最相似度对象样例的平均相似度。表示区域的“可迁移性”(新的对象区域),结合局部空间上下文关系定义。具体而言,若通过该区域所迁移得到的对象位置与通过其邻近区域迁移得到的对象位置较为相似,则该区域的“可迁移性”较高。定义为:

其中,

在上式中,表示区域的第k个匹配区域,c为该匹配区域的置信度,由“概率哈夫匹配”算法输出得到;为区域的邻近区域集合,表示通过邻近区域集合所迁移的对象位置的平均值。δr与δn为高斯核控制参数,可设为相应分子的平均值,Zc、Zr与Zn为归一化常量,分别为Zc=Zr=K,表示区域与某一迁移得到的对象位置的相似度。定义为

其中对象位置表示为5维向量,包括其包围矩形中心点的横纵坐标、宽和高、以及尺度(面积的平方根)。当采用上述高斯核形式的时候,候选区域的打分可以看作一个双边滤波过程。采用2011年美国斯坦福大学Philipp与Vladlen Koltun提出的卷积算法,可在线性时间内为所有候选区域打分。

步骤404、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。

步骤405、对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。

具体的,对于输入视频的第t帧的所有候选区域(即候选区域集合)及各个候选区域的得分,采用非极大值抑制(Non-Maximal Suppression)算法得到少量得分较高,且相互重叠区域较少的高分候选区域集合针对每一高分候选区域构造前背景初始分割。前景(背景)分割即为视频每一超像素赋予一个前景(背景)概率值。对于视频的每一超像素前景分割的构造方法为:

其中,为至少有50%的区域被所覆盖的候选区域集合,为区域所包含的超像素集合,为区域的“对象性”得分,由“测地线对象假设”算法输出得到。背景初始分割则是对于属于的超像素赋值为0,否则赋值为1。将所有超像素的前景(背景)概率连成初始前背景分割向量,分别记为初始前景分割向量与初始背景分割向量

步骤406、对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量。

具体的,构建视频的超像素图(即第一超像素图)。每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。将初始前背景分割与沿着视频超像素图(即第一超像素图)传播至所有帧,传播过程采用流行排序算法(Manifold Ranking),得到传播后的前背景分割与

步骤407、根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到每帧上的最优初始分割。

具体的,结合分割的一致性与无二义性。求解优化函数:

其中表示第t帧上的高分候选区域集合,为所选取对象区域的打分,ψa与ψc分别表示分割的无二义性约束项和一致性约束项。求解过程需要满足的条件为:每一帧的候选区域集合中最多选取一个区域;选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)。无二义性约束项ψa此时可定义为每个超像素前背景概率值的差异:

其中

其中为超像素个数。一致性约束项ψc则定义为:

其中为权重向量,是将与的每个分量取绝对值后,在向量的相同位置取较小的分量构造而成的。运算符⊙表示两个向量的逐分量相乘。由于上述问题难以求解,首先将替换为其上界此时该问题可看作定义在分离拟阵(Partition Matroid)上的子模最大化(Submodular Maximization)问题,可采用下述贪婪算法得到较优的近似解。该算法遍历T次,在第t次执行中,1)选取第t帧上得分最高的候选区域,加入最优对象区域集合;2)在未选取的某帧上,选取一个高分候选区域能使得目标函数的增益最大;3)重复步骤2)直到所选取的区域数量超过γT。T次执行完毕后可以得到T组解,选取目标函数值最大的一组作为最优解。

步骤408、根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。

具体地,精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;给定的视频帧数可以根据步骤207中的γ确定,即选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)在所选取的对象区域集合上建立超像素图。给定的每帧上的高分候选区域的个数应该大于等于一个,且小于步骤204中的高分候选区域的预设个数阈值,具体而言,每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。以所选取对象区域相应的前景分割作为超像素的初始前景概率,在上述超像素图上采用随机游走(Random Walk)算法进行传播,得到传播后的前景概率分布。再以传播后的超像素前景概率分布作为初始分布,再次在视频的超像素图上采用随机游走算法进行二次传播,得到最终的超像素前景概率分布。将超像素前景概率分布归一化到0和1之间,并取出大于一定阈值的超像素作为目标视频对象分割结果。本发明中,该阈值设定为0.2。通过上述两步传播,使得在优化选取的候选区域内传播得到较为精细的视频分割结果,然后再次传播至整体视频区域。相比一次传播至整体视频,能够得到更为精细的分割结果。

本实施例所公开的图像引导的视频语义对象分割方法,包括:给定语义类别,在包含该类别对象的大量图像中共定位出对象样例;在每一帧上提取候选区域集合并建立到图像区域的匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分;为每一高分候选区域构造初始前背景分割,联合分割的一致性与无二义性约束从候选区域中选取最优的对象区域集合;采用双阶段随机游走算法传播所选取对象区域对应的初始前景分割到整体视频,得到最终分割结果。本发明能够广泛应用于国防军事、电影制作、公共安全等领域的计算机视觉系统。

图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图,如图5所示,该图像引导的视频语义对象分割装置包括:

定位模块1,用于根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例;提取模块2,用于对输入视频中的每帧图像进行候选区域的提取;匹配模块3,用于根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;排序模块4,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;处理模块5,用于对选出的高分候选区域进行前景与背景的初始分割处理;计算模块6,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;传播模块7,用于将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。

本实施例的装置,可用于执行图1所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

进一步地,在上述实施例的基础上,该图像引导的视频语义对象分割装置中的匹配模块3,具体用于在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。

可选的,处理模块5,具体用于对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。

可选的,计算模块6,具体用于对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量;根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到最优的候选区域集合。

可选的,传播模块7,具体用于根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。

本实施例的装置,可用于执行图4所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1