一种基于语义一致性的人体衣物分割方法与流程

文档序号:16250626发布日期:2018-12-12 00:00阅读:340来源:国知局
一种基于语义一致性的人体衣物分割方法与流程

本发明涉及计算机视觉领域,特别地涉及一种基于语义一致性的人体衣物分割方法。

背景技术

衣物语义分割作为一种低层视觉技术,常作为一些高层视觉任务的辅助信息,如衣物检索、衣物属性分析等。衣物分割的目标是给定一张图像,预测图片中每个像素点的分类标签。衣物分割的关键因素主要包括衣物种类类内表观差异性巨大、衣物的非刚性以及衣物的极度可变形特点。传统方法一般将衣物分割任务看成一个语义分割问题,尽管一些方法在分类精度上取得了突破,但是其没有充分利用已有数据的信息。

由于统计建模的有效性,目前基于学习的方法逐渐被应用到语义分割任务中。现有的基于学习方法主要是采用端到端的深度学习框架,输入一张原始三通道颜色图片,输出预测的语义分割图。深度学习能够有效地解决特征表示的问题,但是在面对衣物分割中缺乏足够的精确标注的数据集的问题时,数据量的不足限制了深度学习的效果,同时衣物的可变形特点使得普通的卷积无法提取到合理的特征。



技术实现要素:

针对以上问题及实际中配电网建设的需要,本发明提供了一种基于语义一致性的人体衣物分割方法。本发明具体采用的技术方案如下:

一种基于语义一致性的人体衣物分割方法包括以下步骤:

s1、获取用于训练人体衣物分割的图像数据集,并定义算法目标;

s2、对数据集中每个单帧图像寻找其在语义空间中的相邻图片并组成图片对;

s3、对每一组图片对在流型空间(即语义空间)中的相邻关系进行联合建模;

s4、建立衣物分割的预测模型;

s5、使用所述预测模型解析图片中衣物的语义信息。

作为优选,所述s1中的图像数据集包括单帧图像itrain和人工标注的语义分割图ptrain;所述的算法目标为预测单帧图像中的衣物语义分割图

作为优选,所述s2包括以下子步骤:

s21、对于每个单帧图像itrain,从预训练好的人体姿态估计模型openpose中提取人体姿态特征cpose和图像表观特征cappearance,通过串接cpose和cappearance,得到单帧图像itrain对应的图片特征gi;

s22、对图像数据集中的图片两两计算相似度,其中,任意两张图片itrain和i′train的相似度α计算如下:

其中cempty为与gi图片大小一样且值全部为0的一张图像的图片特征;c′i为对于单帧图像i′train,根据与单帧图像itrain相同的方法得到的图片特征;euclidean()表示计算欧氏距离;

s23、通过相似度计算和比较,对每个单帧图像itrain,检索到与之最相似的图像i'train,得到图片对(itrain,i'train)以及对应的相似度值α。

作为优选,所述s3包括以下子步骤:

s31、使用四层卷积操作和池化操作对图片对中的itrain和i′train分别提取特征得到si和s′i,即:

si=fsingle(itrain;θ)

s′i=fsingle(i′train;θ)

其中fsingle()为四层卷积操作和池化操作构建的函数,θ为卷积参数;

s32、对s31中得到的特征si和s′i进行融合得到融合后特征sinteraction:

sinteraction=(1-α)*si+α*s′i

s33、使用三层卷积操作对融合后特征sinteraction进行图片语义信息的重构,得到大小为图像itrain八分之一大小的语义分割图同时使用四层卷积和上采样操作对单个图像特征si进行语义信息重构,得到与图像itrain大小一致的语义分割图

s34、对所有的图片对执行s31-s33的操作。

作为优选,所述s4包括以下子步骤:

s41、建立深度卷积神经网络,神经网络的输入为一对图片对(itrain,i′train),输出为相对于图片itrain的语义分割图像神经网络的结构表示为映射用公式表示为:

其中θ1为预测模型预测语义分割结果时所用的卷积参数,f()为深度卷积神经网络的预测函数;

s42、神经网络的损失函数为:

其中p和psmall分别表示对应的真实语义分割图像和对应的真实语义分割图;表示原始尺度的预测语义分割图和其真实语义图片的损失误差;表示小尺度的预测语义分割图和其真实语义图片的损失误差,所述小尺度为原始尺度的八分之一;λ为权重参数;

s43、使用adam优化方法和反向传播算法在损失函数l下训练整个神经网络,直到神经网络收敛。

本方法基于深度神经网络,利用相似图片在流型空间中语义信息的相邻关系,采用可变形卷积对衣物的变形特征进行建模,能够更好地适应不同场景下的衣物语义分割。相比于传统的衣物语义分割方法,本发明具有如下收益:

首先,本发明的衣物语义分割方法定义了衣物语义分割中三个重要的问题,即衣物的极度可变形特点、相似图片的语义一致关系的建模以及计算准确性。通过寻求这两个方向的解决方法,可以有效地解决在数据量不足下的衣物语义分割。

其次,本发明的衣物语义分割方法基于深度卷积神经网络,建立了语义一致性模型,并同时具有计算准确性的优点。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征的提取和对应结构化模型的学习被统一在同一个框架里,提高了方法的最终效果。

最后,本发明的衣物语义分割方法提出了通过利用卷积神经网络建模相似图片对的语义一致性关系,以此预测衣物语义分割,并针对衣物可变性的特点使用可变性卷积来提取衣物的特征信息。这种方法能够有效地挖掘内容相似的图片对的语义一致性关系,并在语义空间中保持对这种语义一致性结构进行约束。

本方法在衣物检索和衣物属性分析中,能够有效提高检索和分析的准确度和效率,具有良好的应用价值。例如,在服装电商零售的应用场景里,本方法能够快速和准确地分析出模特身上的衣物区域与类别,从而能够快速完成模特身上的衣物种类,为同款检索的电商零售提供依据。

附图说明

图1为本发明的流程示意图;

图2为本发明的实验效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1,一种基于语义一致性的人体衣物分割方法包括以下步骤:

s1、获取用于训练人体衣物分割的图像数据集,并定义算法目标;

本步骤中所述的图像数据集包括单帧图像itrain和人工标注的语义分割图ptrain;所述的算法目标为预测单帧图像中的衣物语义分割图

s2、对数据集中每个单帧图像寻找其在语义空间中的相邻图片并组成图片对;

本步骤包含以下子步骤:

s21、对于每个单帧图像itrain,从预训练好的人体姿态估计模型openpose中提取人体姿态特征cpose和图像表观特征cappearance,通过串接(即直接拼接)cpose和cappearance,得到单帧图像itrain对应的图片特征gi;

s22、对图像数据集中的图片两两计算相似度,得到任意两张图片见的相似度。其中,任意两张图片itrain和i′train的相似度α计算如下:

其中cempty为与gi图片大小一样且值全部为0的一张图像的图片特征;c′i为对于单帧图像i′train,根据与单帧图像itrain相同的方法得到的图片特征;euclidean()表示计算欧氏距离;

s23、通过相似度计算和比较,对每个单帧图像itrain,检索到与之最相似的图像i'train,得到图片对(itrain,i'train)以及对应的相似度值α。

s3、对每一组图片对在流型空间(即语义空间)中的相邻关系进行联合建模;

本步骤包含以下子步骤:

s31、使用四层卷积操作和池化操作对图片对(itrain,i'train)中的itrain和i'train分别提取特征得到si和s′i,即:

si=fsingle(itrain;θ)

s′i=fsingle(i′train;θ)

其中fsingle()为四层卷积操作和池化操作构建的函数,θ为卷积参数;

s32、对s31中得到的特征si和s′i进行融合得到融合后特征sinteraction:

sinteraction=(1-α)*si+α*s′i

其中α为该组图片的相似度值;

s33、使用三层卷积操作对融合后特征sinteraction进行图片语义信息的重构,得到大小为图像itrain八分之一大小的语义分割图同时使用四层卷积和上采样操作对单个图像特征si进行语义信息重构,得到与图像itrain大小一致的语义分割图

s34、对所有的图片对执行s31-s33的操作。

s4、建立衣物分割的预测模型;

本步骤包含以下子步骤:

s41、建立深度卷积神经网络,神经网络的输入为一对图片对(itrain,i′train),输出为相对于图片itrain的语义分割图像神经网络的结构表示为映射用公式表示为:

其中θ1为预测模型预测语义分割结果时所用的卷积参数,f()为深度卷积神经网络的预测函数;

s42、神经网络的损失函数为:

其中p表示对应的真实语义分割图像,即图像itrain的真实语义分割图,psmall表示对应的真实语义分割图,即大小为图像itrain八分之一的真实语义分割图;表示原始尺度的预测语义分割图和其真实语义图片(即s1中已标注的语义分割图)的损失误差;表示小尺度的预测语义分割图和其真实语义图片(即s1中已标注的语义分割图)的损失误差,所述小尺度为原始尺度的八分之一,与尺度保持相同;λ为权重参数,此处取值为0.125;

s43、使用adam优化方法和反向传播算法在损失函数l下训练整个神经网络,直到神经网络收敛。

s5、使用所述预测模型解析图片中衣物的语义信息。

下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施,分别为:

fashionistav0.2数据集:该数据集包含685张图像,有56类语义标签。

refinedfashionista数据集:该数据集包含685张图像,有25类语义标签。

cfpd数据集:该数据集包含2682张图像,有23类语义标签。

本实例在每个数据集上选取一张图片进行实验,先通过计算相似度得到最相近的图片,然后分别提取两张图片的特征,并对这一组图片对在流型空间中的相邻关系进行联合建模,得到最终的语义分割图,如图2所示。图中,groundtruth表示真实语义分割图,我们的方法得到的预测语义分割图与真实语义分割图基本一致。

本实施例检测结果的检测精度如下表所示,主要采用平均acc以及iou两个指标对各种方法的检测精度进行比较,其中平均acc指标是指每个像素点的分类结果准确度,可以较好的反应预测结果;iou是指语义区域与真值区域之间面积的交并比。如表中所示,本方法与其它传统方法相比,平均acc和iou指标均存在明显优势。

上述实施例中,本发明的衣物语义分割方法首先对每一组内容相似的图片在流型空间中的相邻关系进行联合建模。在此基础上,将原问题转化为端到端的结构化学习问题,并基于深度神经网络建立衣物语义分割模型。最后,利用训练好的衣物语义分割模型来预测新的一帧的衣物语义信息。

通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于语义一致性的人体衣物分割方法。本发明可以利用相似图片在流型空间中语义信息的相邻关系,并采用可变形卷积对衣物的变形特征进行建模,能够更好地适应不同场景下的衣物语义分割。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1