一种全景分割方法、装置及设备与流程

文档序号:17744687发布日期:2019-05-24 20:33阅读:256来源:国知局
一种全景分割方法、装置及设备与流程

本申请属于图像处理领域,尤其涉及一种全景分割方法、装置及设备。



背景技术:

全景分割作为一个新兴领域,在很多领域有重要的应用价值和发展前景,如安保布控、工业机器人应用、汽车辅助驾驶等。但形态各异的实例个体、复杂多样的背景环境、行人与视角之间动态变化的场景、系统实时性与稳定性的严格要求等,语义分割和实例分割早已不能满足当下的需求,全景分割应运而生来补充和解决当下的问题,并对全景分割问题提出了很大挑战。

目前基于深度学习的全景分割方法,大多依赖于测定候选框架区域的选取,存在不能对所有像素或共享像素进行识别和分割,并且目前的全景分割方法通常是多个子网络的联合,不能达成端到端的框架。



技术实现要素:

有鉴于此,本申请实施例提供了一种全景分割方法、装置及设备,以解决现有技术中的全景分割方法,不能对所有像素或共享像素进行识别和分割,不能达成端到端的框架的问题。

本申请实施例的第一方面提供了一种全景分割方法,所述全景分割方法包括:

获取待分割的原始图像;

对所述原始图像进行语义分割,以及通过嵌入空间的度量距离学习方法,对所述原始图像进行实例分割;

将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割;

采用聚类损失函数进一步区分不同实例,得到全景分割结果。

结合第一方面,在第一方面的第一种可能实现方式中,所述对所述原始图像进行语义分割的步骤包括:

采用基于vgg模型的全连接层的完全卷积结构作为骨骼框架,以包含有紧密连接对的递归神经网络的条件随机作为模型的最终层,对所述原始图像进行语义分割。

结合第一方面或第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割的步骤包括:

将实例分割得到的目标和背景作为实例,确定实例的中心点;

根据预先设定的实例排斥力半径,使嵌入空间的实例中心互相排斥,以及根据预先设定的吸引力半径,对实例的像素点进行聚类。

结合第一方面,在第一方面的第三种可能实现方式中,所述聚类损失函数为:

l=α·lpull+β·lpush+γ·lnor+θ·lseg

其中:

s表示标准数据当中标定的聚类个数,es代表了聚类s当中包含的所有元素,xi代表嵌入空间,μ代表s的所有聚类中心,||||代表着深度空间当中的距离,ηpull和ηpush分别表示引力与斥力在嵌入空间当中的作用边缘阈值,ns表示s聚类实例当中包含的像素个数,α、β、γ、θ为调节参数。

结合第一方面,在第一方面的第四种可能实现方式中,所述将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割的步骤包括:

根据语义分割生成原始图片中的语义标定和掩码,通过嵌入空间的实例分割生成多维像素嵌入的实例,通过深度度量空间进行聚类融合,输出聚集的分割图像。

本申请实施例的第二方面提供了一种全景分割装置,所述全景分割装置包括:

原始图像获取单元,用于获取待分割的原始图像;

分割单元,用于对所述原始图像进行语义分割,以及通过嵌入空间的度量距离学习方法,对所述原始图像进行实例分割;

融合单元,用于将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割;

损失训练单元,用于采用聚类损失函数进一步区分不同实例,得到全景分割结果。

结合第二方面,在第二方面的第一种可能实现方式中,所述融合单元包括:

实例确定子单元,用于将实例分割得到的目标和背景作为实例,确定实例的中心点;

聚类单元,用于根据预先设定的实例排斥力半径,使嵌入空间的实例中心互相排斥,以及根据预先设定的吸引力半径,对实例的像素点进行聚类。

结合第二方面,在第二方面的第二种可能实现方式中,所述聚类损失函数为:

l=α·lpull+β·lpush+γ·lnor+θ·lseg

其中:

s表示标准数据当中标定的聚类个数,es代表了聚类s当中包含的所有元素,xi代表嵌入空间,μ代表s的所有聚类中心,||||代表着深度空间当中的距离,ηpull和ηpush分别表示引力与斥力在嵌入空间当中的作用边缘阈值,ns表示s聚类实例当中包含的像素个数,α、β、γ、θ为调节参数。

本申请实施例的第三方面提供了一种全景分割设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述全景分割方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述全景分割方法的步骤。

本申请实施例与现有技术相比存在的有益效果是:在获取到待分割的原始图像后,通过基于语义分割图像对原始图像进行语义分割,通过嵌入空间的度量距离学习方法对原始图像进行语义分割,基于语义分割图像进行嵌入空间聚类操作,得以对图像所有像素进行处理,并通过损失函数进一步区分不同实例,从而实现了端到端的全景分割网络框架。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种全景分割方法的实现流程示意图;

图2是本申请实施例提供的一种全景分割的系统结构示意图;

图3是本申请实施例提供的一种嵌入空间的实例结构示意图;

图4是本申请实施例提供的一种全景分割装置的示意图;

图5是本申请实施例提供的全景分割设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。

图1为本申请实施例提供的一种全景分割方法的实现流程示意图,详述如下:

在步骤s101中,获取待分割的原始图像;

所述待分割的原始图像,可以为单个的图片,也可以视频中的图像序列。

在步骤s102中,对所述原始图像进行语义分割,以及通过嵌入空间的度量距离学习方法,对所述原始图像进行实例分割;

语义分割用于对图片中所有像素,根据所表达的语义含义进行不同的分组或标定类别标签。

在本申请中,可以采用基于vgg模型的fcn(英文全称为:fullyconnectedlayer,中文全称为全连接层)完全卷积结构作为骨骼框架,以包含有紧密连接对的递归神经网络的条件随机场作为模型的最终层。

借此基于vgg模型的全连接层的完全卷积结构框架和设计,可以进一步提高语义分割像素级别的分割质量,并校准检测和输出之间的像素标准。值得注意的是,整个过程是一个可微分推导的场过程。本申请通过采用这一过程的输出作为下一阶段实例检测的标识。

为了进一步解析语义所分割得到的目标和背景的语义,我们设计了第二个支路用于引入嵌入空间的实例分割。目前,主流方法都是基于候选框检测后进行分割和识别。然后这种基于候选框检测后进行分割和识别的方式并不适用于本申请的全景分割任务,正是本申请进行改进的初衷和所关注的缺陷。因此,我们采用了基于嵌入空间的度量距离学习方法,这样不仅易于嵌入标准的前馈网络,而且能够达成端到端的框架应用。

在步骤s103中,将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割;

通过语义分割生成原始图像中的语义标定和掩码,通过嵌入空间的实例分割处理生成n维像素嵌入,使得实例分割可以很好的匹配语义分割的输出,经过深度度量空间进行聚类融合,输出高度聚集的分割图像。

在本申请中,我们可以将语义分割所得到的目标和背景都看作一个实例,通过在语义分割输出图的引导下,需要在嵌入空间的每一个实例间和实例内达成两个目的:

(1)实例间排斥力:将嵌入空间当中的实例之间的中心互相排斥。

(2)实例内吸引力:在一个实例所属的范围内将相关的像素嵌入点吸引至实例中心相应的,我们为排斥力和吸引力的作用范围各自设定了作用距离阈值,即分别设定实例排斥力半径和吸引力半径。如图2所示,在确定实例的中心点后,通过设定的实例排斥力半径,当嵌入空间的实例的中心点之间的距离小于所述两倍所述排斥力半径时,这两个实例中心互相排斥,使得实例分割更加准确;当嵌入空间的像素与实例的中心点的距离小于所述吸引力半径时,则会受到吸引力对像素点进行聚类。

这样,在嵌入空间的实例的中心点,在作用范围内不对其他中心域的像素产生过多的吸引力,在多个中心点之间保证了足够的排斥性,从而不会产生过多过少的负效果。除此以外,这样可以保证嵌入像素尽可能的靠拢中心而不会存在独立点的情况。适当的约束和放松达成了在嵌入空间的聚类效果如图2所示。通过多次迭代,采用聚类算法,得到像素级别的分割,达成了基于语义叠加实例的全景分割方法。

在步骤s104中,采用聚类损失函数进一步区分不同实例,得到全景分割结果。

将多任务和模块做到了集成进入一个端到端的框架当中,实现了全景分割这一任务时,需要计算联合损失。通过采用聚类损失函数,可以对实例分割这一支路得到更好的训练。因此,我们的损失函数可以集中在实例分割和嵌入空间部分。所述损失函数可以为:

l=α·lpull+β·lpush+γ·lnor+θ·lseg

其中:

s表示标准数据当中标定的聚类个数,es代表了聚类s当中包含的所有元素,xi代表嵌入空间,μ代表s的所有聚类中心,||||代表着深度空间当中的距离,ηpull和ηpush分别表示引力与斥力在嵌入空间当中的作用边缘阈值,ns表示s聚类实例当中包含的像素个数,α、β、γ、θ为调节参数。

另外,我们可以设置一个正则化过程,以能够保证迭代计算不会过于超出空间,在予以分割部分采用公共的交叉熵计算损失,可以取得很好的效果。如果斥力半径阈值大于或等于5倍于引力半径阈值时,可以结束迭代过程,可以提高系统的迭代效率。作为本申请优选的一种实施方式中,通过随机梯度下降,α和β为1,γ为0.001,θ为0.7。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

图3为本申请实施例提供的一种全景分割框架示意图,如图3所示,输入待分割的原始图像至端到端的网络框架后,在所述端到端的网络框架中,可以先对所述原始图像进行共享解码,解码后的数据分为两个分支进行处理,下方的语义分割分支用于训练生成图片当中的语义标定和掩码,上方的分支通过嵌入空间的实例分割,生成n(n为自然数)维的像素嵌入,这样,实例分割分支部分可以很好的匹配语义分割的输出。然后两个分支经过融合,在语义分割输出图的引导下,对嵌入空间的每一个实例间进行排斥迭代,以及对实例内进行吸引迭代计算,得到像素级别的分割,达成基于语义叠加实例的全景分割。

然后通过设定的损失函数,进一步区分不同实例,实现了端到端的全景分类网络框架,输出全景分割图像。

图4为本申请实施例提供的一种全景分割装置的结构示意图,详述如下:

所述全景分割装置包括:

原始图像获取单元401,用于获取待分割的原始图像;

分割单元402,用于对所述原始图像进行语义分割,以及通过嵌入空间的度量距离学习方法,对所述原始图像进行实例分割;

融合单元403,用于将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割;

损失训练单元404,用于采用聚类损失函数进一步区分不同实例,得到全景分割结果。

优选的,所述融合单元包括:

实例确定子单元,用于将实例分割得到的目标和背景作为实例,确定实例的中心点;

聚类单元,用于根据预先设定的实例排斥力半径,使嵌入空间的实例中心互相排斥,以及根据预先设定的吸引力半径,对实例的像素点进行聚类。

优选的,所述聚类损失函数为:

l=α·lpull+β·lpush+γ·lnor+θ·lseg

其中:

s表示标准数据当中标定的聚类个数,es代表了聚类s当中包含的所有元素,xi代表嵌入空间,μ代表s的所有聚类中心,||||代表着深度空间当中的距离,ηpull和ηpush分别表示引力与斥力在嵌入空间当中的作用边缘阈值,ns表示s聚类实例当中包含的像素个数,α、β、γ、θ为调节参数。

图4所述全景分割装置,与图1所述全景分割方法对应。

图5是本申请一实施例提供的全景分割设备的示意图。如图5所示,该实施例的全景分割设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如全景分割程序。所述处理器50执行所述计算机程序52时实现上述各个全景分割方法实施例中的步骤。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能。

示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述全景分割设备5中的执行过程。例如,所述计算机程序52可以被分割成:

原始图像获取单元,用于获取待分割的原始图像;

分割单元,用于对所述原始图像进行语义分割,以及通过嵌入空间的度量距离学习方法,对所述原始图像进行实例分割;

融合单元,用于将实例分割得到的目标和背景作为实例,通过语义分割输出图进行引导,使嵌入空间的实例之间的中心互相排斥,实例范围内的像素吸引至实例中心,对图像进行分割;

损失训练单元,用于采用聚类损失函数进一步区分不同实例,得到全景分割结果。

所述全景分割设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述全景分割设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是全景分割设备5的示例,并不构成对全景分割设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述全景分割设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述全景分割设备5的内部存储单元,例如全景分割设备5的硬盘或内存。所述存储器51也可以是所述全景分割设备5的外部存储设备,例如所述全景分割设备5上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器51还可以既包括所述全景分割设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述全景分割设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1