用于对象检测的方法、设备和计算机程序产品与流程

文档序号：17049786发布日期：2019-03-05 19:56阅读：138来源：国知局

本解决方案通常涉及计算机视觉和人工智能。特别地，本解决方案涉及用于对象检测的方法和技术设备。

背景技术：

许多实际应用依赖于关于例如图像、视频等的媒体内容的语义信息的可用性。语义信息由元数据表示，元数据可以表示场景的类型、特定动作/活动的发生、特定对象的存在等。可以通过分析媒体来获得这种语义信息。

从视频中语义地分割对象仍然是一个开放性挑战，最近的进步依赖于通过交互式初始化或校正所提供的先备知识。然而，全自动语义视频对象分割在以下场景中仍然有用：循环中的人是不切实际的，例如视频识别或总结概括或3d建模。

语义视频对象分割，其旨在根据已知的语义标签识别和分割视频中的对象，最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展，这使得能够构建视频对象的显式语义概念。然而，这些方法通常无法捕获长程和高级上下文，因此可能由于改变对象外观和遮挡而引入显著的错误。

技术实现要素：

现在已经发明了一种改进的方法和实施该方法的技术设备，通过该方法和技术设备可以至少减轻问题。本发明的各个方面包括一种方法、设备和包括存储在其中的计算机程序的计算机可读介质，其特征在于独立权利要求中所述的内容。在从属权利要求中公开了本发明的各种实施例。

根据第一方面，提供了一种方法，包括：接收包括视频帧的视频作为输入；从视频中生成一组对象提议；生成包括在视频的连续帧中出现的区域的对象轨迹片段，所述区域对应于具有预定置信水平的对象提议；构建包括对象提议和超像素的图，所述超像素是从帧的像素分组的；根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数；根据帧中的超像素计算对象提议似然性的第二成本函数；使第一和第二成本函数彼此最小化；计算每个超像素的后验概率；以及为每个超像素分配具有最大后验概率的对象类以构成语义对象分割。

根据一个实施例，该方法还包括从所述图确定所述图的节点对之间的链接。

根据一个实施例，该方法还包括计算对于在每个对象提议和其组成超像素之间的连接的第一权重。

根据一个实施例，该方法还包括计算对于在空间上或时间上相邻的超像素之间的连接的第二权重。

根据一个实施例，该方法还包括计算对于在同一轨迹内的对象提议之间的连续连接之间的连接的第三权重。

根据一个实施例，第一权重和第二权重用作第一成本函数中的权重。

根据一个实施例，第一权重和第三权重用作第二成本函数中的权重。

根据一个实施例，根据贝叶斯(bayes)规则计算每个超像素的后验概率。

本发明的第二和第三方面涉及一种设备和一种计算机可读介质，所述计算机可读介质包括存储在其中的用于执行所述方法的计算机程序。

鉴于下面进一步详细说明的实施例，本发明的这些和其他方面以及与其相关的实施例将变得显而易见。

附图说明

在下文中，将参考附图更详细地描述本发明的各种实施例，其中

图1示出了根据实施例的适用于计算机视觉处理的计算机系统；

图2示出了适用于计算机视觉系统的卷积神经网络的示例；

图3示出了根据实施例的方法的流程图；

图4示出了从视频序列中提取的轨迹片段的示例；以及

图5示出了根据实施例的无向图。

具体实施方式

在下文中，将在计算机视觉的背景下描述本发明的若干实施例。特别地，本发明实施例涉及视频对象检测，其目的是检测视频中某个类的语义对象的实例。视频对象检测应用于计算机视觉的许多领域中，例如跟踪、分类、分割、字幕和监控中。

图1示出了根据实施例的适用于图像处理中(例如计算机视觉处理中)的计算机系统。将根据系统的功能块解释计算机系统的通用结构。可以用单个物理设备执行若干功能，例如如果需要的话，所有计算程序都可以在单个处理器中执行。根据图1的示例的设备的数据处理系统包括主处理单元100、存储器102、存储设备104、输入设备106、输出设备108和图形子系统110，它们都经由数据总线112彼此连接。

主处理单元100是包括处理器电路的处理单元，并且被配置为处理数据处理系统内的数据。存储器102、存储设备104、输入设备106和输出设备108可以包括本领域技术人员认识的传统部件。存储器102和存储设备104存储在数据处理系统100内的数据。计算机程序代码驻留在存储器102中，用于实现例如计算机视觉处理。输入设备106将数据输入到系统中，而输出设备108从数据处理系统接收数据并向例如显示器、数据发送器或其他输出设备转发数据。数据总线112是传统的数据总线，并且虽然示出为单条线，但它可以是以下的任何组合：处理器总线、pci总线、图形总线、isa总线。因此，技术人员容易认识到该设备可以是任何数据处理设备，例如计算机设备、个人计算机、服务器计算机、移动电话、智能电话或因特网访问设备(例如因特网平板计算机)。

需要理解的是，不同实施例允许在不同元件中执行不同部分。例如，计算机视觉系统的各种过程可以在一个或多个处理设备中执行；例如，完全在一个计算机设备中，或在一个服务器设备中或跨多个用户设备。计算机视觉过程的元件可以实现为驻留在一个设备上的软件部件，或如上所述分布在多个设备上，例如使得设备形成所谓的云。

一般用于分析数据特别是视觉数据的一种方法是深度学习。深度学习是机器学习的子领域。深度学习可能涉及采用监控或无监控方式的非线性处理单元的多层的学习。这些层形成层的层级结构，其可以称为人工神经网络。每个学习层从输入数据中提取特征表示，其中来自较低层的特征表示低级语义(即，更抽象的概念)。无监控学习应用可以包括模式分析(例如，聚类、特征提取)，而有监控学习应用可以包括图像对象的分类。

深度学习技术可以非常准确地识别和检测图像或视频中的对象，优于先前的方法。与先前的方法相比，深度学习图像识别技术的一个区别是学习从原始数据直接识别图像对象，而先前的技术基于从手工设计的特征(例如，sift特征)识别图像对象。在训练阶段，深度学习技术构建分级层次，其提取越来越抽象级别的特征。

因此，提取器或特征提取器可以用于深度学习技术。深度学习技术中的特征提取器的示例是卷积神经网络(cnn)，如图2所示。cnn可以由一个或多个卷积层组成，顶部具有全连接层。cnn比其他深度神经网络更容易训练，并且具有更少的待估计参数。因此，cnn已被证明是一种非常有吸引力的架构，尤其是用于图像和语音应用中。

在图2中，cnn的输入是图像，但是也可以使用任何其他媒体内容对象，例如视频或音频文件。cnn的每一层代表一定的抽象(或语义)级别，cnn提取多个特征图。为简单起见，图2中的cnn仅具有三个特征(或抽象或语义)层c1、c2、c3，但是表现最佳的cnn可具有超过20个特征层。

cnn的第一卷积层c1包括从第一层(即，从输入图像)提取4个特征图。这些图可以表示输入图像中的低级特征，例如边和角。cnn的第二卷积层c2包括从前一层提取6个特征图，增加了所提取特征的语义级别。类似地，第三卷积层c3可以表示在图像中找到的更抽象的概念，例如边和角的组合、形状等。cnn的最后一层(全连接的mlp)不提取特征图。相反，它可以使用来自最后一个特征层的特征图来预测(识别)对象类。例如，它可以预测图像中的对象是房屋。

可以理解，神经网络的目标是将输入数据转换为更有用的输出。一个示例是分类，其中输入数据被分类为n个可能类别之一(例如，如果图像包含猫或狗则分类)。另一示例是回归，其中输入数据被转换成实数(例如，确定歌曲的音乐节拍)。然而，另一示例是从噪声分布产生图像。

尽管图像对象检测具有显著的性能提升，但视频对象检测对如何有力地且有效地解决对于视频的对象检测问题提出了新的挑战。语义视频对象分割，其旨在根据已知的语义标签识别和分割视频中的对象，最近通过结合中级和高级视觉信息(例如对象检测)取得了很大进展，这使得能够构建视频对象的显式语义概念。这种与对象识别和分割的集成不仅有利于整体对象模型，而且还提供了用于描绘语义对象的中级几何表示。然而，由于缺乏分割和上下文的推断以及联合建模，这些现有的基于检测分割的方法通常无法捕获长程和高级上下文。它们通常直接使用本地上下文，即，从时域中关联的独立帧检测到的对象提议，作为约束以加强标记一致性。但是，对象检测以及时间关联可能包含由于改变对象外观和遮挡而导致的显著错误。

本发明实施例涉及构建新颖的图形模型，其考虑各种尺度的上下文信息。该多尺度上下文信息可以由轨迹片段、对象提议和超像素表示，其中每个节点从粗粒度到细粒度捕获各种空间-时间上下文和语义。

图3以简化的方式示出了根据实施例的用于视频对象检测的方法。该方法包括接收(300)包括视频帧的视频作为输入；从该视频生成(302)一组对象提议；生成(304)包括在该视频的连续帧中出现的区域的对象轨迹片段，所述区域对应于具有预定置信水平的对象提议；构建(306)包括对象提议和超像素的图，所述超像素是从帧的像素分组的；根据对象轨迹片段中的对象提议计算(308)超像素似然性的第一成本函数；根据帧中的超像素计算(310)对象提议似然性的第二成本函数；使第一和第二成本函数彼此最小化(312)；计算(314)每个超像素的后验概率；并且为每个超像素分配(316)具有最大后验概率的对象类以构成语义对象分割。

在下文中，以更详细的方式讨论这些步骤。

可以通过计算由系统接收的输入视频帧的分层分割来生成对象提议。该输入视频帧可以由包括图1的计算机系统的摄像机设备获得。替代地，该输入视频帧可以通过通信网络从在图1的计算机系统外部的摄像机设备接收。

为了生成对象提议，可以使用已知的对象检测器，例如快速r-cnn(基于快速区域的卷积神经网络)。快速r-cnn将视频帧和一组对象提议作为输入。该网络首先利用若干卷积层和最大池化层处理视频帧以产生特征图。然后，对于该组对象提议中的每个对象提议，感兴趣区域(roi)池化层从特征图提取固定长度的特征向量。每个特征向量被馈送到一系列全连接层中，这些层最终分支成两个兄弟输出层：一个产生softmax概率，另一个产生每个类别的边界框回归偏移(per-classbounding-boxregressionoffset)。负对象提议被消除，剩余对象提议具有预定(即足够)置信水平。

对于每个对象类别，例如通过跟踪具有所述预定置信水平的对象提议来生成轨迹片段。这里，例如，kang，k.、ouyang，w.、li，h.和wang，x.在2016年cvpr第817-82页描述的方法，“用卷积神经网络从视频管束中检测物体(objectdetectionfromvideotubeletswithconvolutionalneuralnetworks)”，可用于生成轨迹片段，其可以包含噪声检测，即误报检测(falsepositivedetection)。该上下文中的轨迹片段指的是从连续视频帧中提取的时间关联的一组对象提议。图4示出了从视频序列中提取的轨迹片段的示例。

在对象检测领域中，图像通常用有限数量的像素组而不是单个像素来表示，因此显著减少了具有图像的计算节点的数量，以及计算复杂度。这些像素组通常称为超像素。

为了处理各种规模或级别的上下文信息，形成无向图g＝(v，e)，超像素和来自轨迹片段的对象提议分别作为节点v＝{x，y}。图5示出了这种图的示例。在图5的上部，矩形表示轨迹片段，每个轨迹片段包括由圆圈表示的一组对象提议。如线所示，对象提议被反映到该图(图5的下部)。在该图中，每个帧被划分成超像素图，超像素图包括由圆圈表示的、覆盖帧的区域的多个相同尺寸的超像素。在每个帧上，可能存在多于一个的重叠或非重叠对象提议，对应于多个或相同的对象实例。因此，该一个或多个对象提议可以反映到相同的超像素，并且从一个对象提议可以有到两个或更多个超像素的链接。

图4和图5示出了如何在三个级别上提供上下文信息。轨迹片段级节点对长程上下文和更高级别语义协同作用进行编码。对象提议节点加强短程依赖性和局部几何表示，而超像素节点扮演感知有意义的原子区域的角色，以保证有效和准确的分割，尽管它们的信息量较少。跨各种粒度的节点的信息流使得能够实现有效的推断，其解释了自下而上和自上而下的语义线索。

简单地使用更高级别的上下文信息加强标记超像素通常会由于不准确的上下文信息而导致错误分割。然而，图3的方法步骤和与其相关的实施例提供了一种新颖的软标记一致性约束，以允许在一定程度上灵活地标记同一圈子内的节点。

根据一个实施例，该方法还包括从所述图确定图节点对之间的链接。这里，图节点对之间的链接被定义为边，标示为e＝{exy，exx，eyy}。exy可以被称为交叉上下文边，exx可以被称为超像素边，eyy可以被称为对象提议边。这些边的存在基于图中如下所述的可用多尺度上下文线索来确定。

根据一个实施例，该方法还包括计算每个对象提议和其组成超像素之间的连接的第一权重。每个对象提议和其组成超像素之间的连接被添加为交叉上下文边exy。对象提议包括对象实例的更高级别线索，例如外观和位置信息，并且超像素保留局部上下文信息，同时与强度边对齐。超像素xi和对象提议ym之间的边上的第一权重被定义为

其中[·]是指标函数，pr(xi|ym)是给定对象提议ym的概率密度函数(pdf)的观察xi的似然性。对象提议的概率密度可以通过任何合适的密度估计来估计，例如使用yang，c.、duraiswami，r.、gumerov，n.和davis，l在2003年iccv第一卷第464页“改进的快速高斯变换和高效核密度估计(improvedfastgausstransformandefficientkerneldensityestimation)”中公开的快速核密度估计，将其应用于例如cielab颜色上。跨上下文边将对象实例级别线索转移到超像素中，每个对象提议可以合并本地上下文线索的补充信息。

根据一个实施例，该方法还包括计算空间上或时间上相邻的超像素之间的连接的第二权重。所有空间上或时间上相邻的超像素被连接以形成超像素边exx。空间上相邻是基于超像素邻域，而时间上相邻的超像素是通过连续帧上的至少一个光流运动矢量在时间上连接的。边的第二权重被定义为反映局部外观相似性以及空间/时间距离，如下所述。设定为xi的空间和时间邻域中的超像素集，

其中，χ²(hi，hj)是超像素xi和xj各自的l1标准化cielab颜色直方图hi、hj之间的距离为χ2，d^s(xi，xj)表示xi和xj之间的空间或时间距离。时间距离通过两个超像素内的像素的比率来测量，所述两个超像素通过两个超像素的并集上的运动矢量连接。

根据一个实施例，该方法还包括计算同一轨迹片段内的对象提议之间的连续连接之间的连接的第三权重。同一轨迹片段内的提议之间的连续连接形成对象提议边eyy。如上所述，偶尔不准确的对象提议可能导致噪声更高级别的上下文信息，其进而传播到超像素。尽管如此，构成相同轨迹片段的对象提议共同编码对象的动态内在结构，即不仅考虑了对象的运动，还考虑了外观随时间的演变。对象提议边被定义为同一轨迹内的提议之间的顺序连接。这些边使得在更高级别的上下文线索内流动的信息能够补偿本地噪声信息。两个对象提议ym和yn之间的边的第三权重被定义为

其中，是其轨迹片段中ym的邻域，f.是提议的l2标准化cnn特征，<·>表示内积。第三权重利用深度特征空间中的高级语义。

为了分别促进对于超像素和对象提议的似然性的联合推断，可以将第一和第二成本函数定义为二次成本函数，从而将互补的上下文信息彼此利用。

可以通过以有原则的方式将对象提议似然性vl结合为更高级别的上下文线索来推断超像素似然性ul。通过表征图中所有节点之间的关系，超像素似然性ul相对于标签l的第一二次成本函数如下。设定节点度矩阵的对角元素定义为

其中λ和π是参数。超像素概率是关于标签l的初始似然性。来自对象提议似然性vml∈vl的超像素xi的估计似然性被定义为其对应的对象提议似然性的加权平均值，

其中，在第一成本函数中，和分别是拟合约束和平滑约束，而是上下文约束。

在第一成本函数中，鼓励超像素具有初始似然性，该初始似然性通过测量推断的似然性应当与初始似然性一致的程度的λ^x来控制。促进位于特征空间中紧邻的相邻节点之间的推断似然性的连续性。促进每个超像素的推断以了解更高级别的上下文信息。结果，轨迹片段中的对象提议编码对象的更丰富的语义和内在动态，其可以在推理期间被传播到其组成超像素。

为了求解等式(1)，还需要通过参考图g中的超像素似然性ul来估计对象提议似然性vl。类似于(1)，对象提议似然性vl的第二二次成本函数定义如下。设定节点度矩阵的对角元素定义为

其中λ^y和ψ是参数，是给定标签l的对象提议m的初始似然性，并且通过结合局部上下文线索(即，超像素似然性ul)来定义对象提议ym的估计似然性被计算为其组成超像素似然性的加权平均值：

其中，

类似地，等式(2)由三项组成，即，和在第二成本函数中，是拟合约束，其鼓励每个对象提议具有其初始似然性。是平滑约束，其促进同一轨迹片段中对象提议之间的标签连续性，以保持对象的时空一致性。第三项是上下文约束，其以自下而上的方式收集局部上下文线索，以使用更多本地信息的超像素似然性ul来细化对象提议似然性vl，因为它不能保证对象提议始终被提取，从而保留自然图像中的真实对象边界。

由于第一和第二成本函数ul和vl彼此互补，它们优选地彼此同时最小化。根据一个实施例，第一和第二成本函数被重新表述为分别关于来自初始似然性和的似然性和的矩阵形式，

其中，和图g中超像素和其对应的对象提议之间的上下文依赖关系由和表示。nx×nx矩阵λ^x＝diag([λ^x，…，λ^x])和ny×ny矩阵λ^y＝diag([λ^y，…，λ^y])的对角元素分别是参数λ^x和λ^y。

通过分别关于ul和vl区分和

其中p^x＝d^x-1w^x(或p^y＝d^y-1w^y)和i^x(或i^y)是单位矩阵(identitymatrix)。

通过将所有似然性标示为zl＝[ul；vl]和初始似然性标示为可以将等式(5)和(6)联合转换成

标示b＝i(i-γ)п，等式(7)可以通过稀疏矩阵求逆来求解。

根据一个实施例，根据贝叶斯规则计算每个超像素的后验概率。例如，然后可以在贝叶斯规则之后计算每个超像素相对于标记l的后验概率

最后每个超像素被分配有对应于具有最大后验概率的类的标签，其构成语义对象分割，

根据实施例的设备包括用于接收包括视频帧的视频作为输入的装置；用于从该视频生成一组对象提议的装置；用于生成包括在该视频的连续帧中出现的区域的对象轨迹片段的装置，所述区域对应于具有预定置信水平的对象提议；用于构造包括对象提议和超像素的图的装置，所述超像素是从帧的像素分组的；用于根据对象轨迹片段中的对象提议计算超像素似然性的第一成本函数的装置；用于根据帧中的超像素计算对象提议似然性的第二成本函数的装置；用于使第一和第二成本函数彼此最小化的装置；用于计算每个超像素的后验概率的装置；用于为每个超像素分配具有最大后验概率的对象类以构成语义对象分割的装置。

本领域技术人员理解，上述任何实施例可以实现为与一个或多个其他实施例的组合，除非明确或隐含地标明某些实施例仅是彼此的替代。

各种实施例可提供优于现有技术的优点。由于轨迹片段、对象提议和超像素的三重图形模型，这里描述的实施例使得能够考虑各种规模或级别的上下文线索。除了中级和高级视觉信息之外，实施例还能够向语义对象分割过程提供长程和更高级别的上下文信息。

本发明的各种实施例可以借助于驻留在存储器中的计算机程序代码来实现，并使相关设备实现本发明。例如，设备可以包括：用于处理、接收和发送数据的电路和电子品，存储器中的计算机程序代码，以及当运行计算机程序代码时使设备执行实施例的特征的处理器。此外，诸如服务器的网络设备可以包括：用于处理、接收和发送数据的电路和电子品，存储器中的计算机程序代码，以及当运行计算机程序代码时使网络设备执行实施例的特征的处理器。

显然，本发明不仅限于上述实施例，而是可以在所附权利要求的范围内进行修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王廷槐
技术所有人：诺基亚技术有限公司
我是此专利的发明人

上一篇：一种淀粉微球及其制备方法和应用与流程
上一篇：包括加固构件的相机模块及包括该相机模块的电子装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。