一种复杂场景下的绘画物体识别与提取方法与流程

文档序号:14249998阅读:1047来源:国知局

本发明涉及图像识别与分割技术领域,特别涉及一种复杂场景下的绘画物体识别与提取方法。



背景技术:

图像识别与分割是计算机视觉领域重要和基础性的问题,也是颇具挑战性的任务。近年来,深度学习技术的发展,在计算机视觉领域大放异彩,尤其在图像识别领域取得了超越人类的结果,在端到端的图像分割上也正发力。

绘画识别在少儿绘画教育、少儿认知启蒙等领域都大有用处。然而,不同于自然图像的识别,绘画会表现得更加抽象,尤其是少儿的绘画,会更加简要、天马行空,这就意味着图像上拥有更少的特征信息以及同一类别内更大的变化性,这都让绘画识别变得更加困难。

目前,针对绘画的识别主要着力于画板上图像的识别与分析,主要有两种方法,一种是针对绘画数据设计的基于手工特征表示的识别方法,另一种是基于深度卷积神经网络的端到端检测识别方法。junguo等提出利用gabor特征构建低维表示,并进一步利用稀疏编码构建高层特征,进而使用支持向量机分类方法完成分类识别【1】;赵鹏等提出使用深度学习方法来完成绘画的识别,针对简笔绘画中信息更少的问题,提出增加卷积核大小的方法【2】;这些方法都应用在只包含了绘画图像的公开数据集上,虽然取得了接近于人的效果,但在实际应用中,并不能处理复杂的场景信息(非绘画内容);中国发明专利“一种绘画辅导方法及装置”【3】,公开了一种绘画辅导方法,包括以下步骤:接收用户的绘画信息;根据图像识别技术提取出绘画信息中的线条轮廓,识别出不同前景背景物体;分析粗细、光滑和长短的变化规律;对物体进行直线检测,识别视平线和心点;进行图像处理光照分析,识别图像中的高光、阴影和投影;指定一种绘画风格作为限定条件,对用户的绘画信息图像进行辅导,给出修正意见;同样只能处理画纸上区域,然而,在摄像头拍摄绘画内容时,由于光照、角度、阴影、距离等原因,获取到的图像更加复杂时,在诸如室内客厅、教学课堂等场景,并不能准确地完成识别过程,因而需要一些技术方法从这些复杂场景下完成绘画图像的识别与分割。目前,并没有一种方法能够完成此任务。

以下给出检索的相关文献:

【1】guoj,wangc,chaoh,etal.buildingeffectiverepresentationsforsketchrecognition[c].nationalconferenceonartificialintelligence,2015:3776-3782.

【2】赵鹏,王斐,刘慧婷,等.《基于深度学习的手绘草图识别[j]》.四川大学学报(工

程科学版),2016,48(3):94-99.

【3】中国发明专利《一种绘画辅导方法及装置》,申请人:厦门优莱柏网络科技有限公司,专利号:201610964775.x。



技术实现要素:

针对上述现有技术的缺陷及存在的技术问题,本发明提供了一种复杂场景下的绘画物体识别与提取方法,具有尺度和旋转不变性、识别准确率高、识别范围广、适应性好的特点。

本发明解决其技术问题所采用的技术方案是:一种复杂场景下的绘画物体识别与提取方法,包括以下步骤:

步骤1:构建检测与识别模型,选定深度学习领域中的神经网络检测模型,并利用已有物体框和物体类别准确标注的图像集作为该模型输入,以反向传播(bp)算法训练该模型,至模型收敛;

步骤2:使用图像采集设备,如摄像头、相机,采集包含用户绘画内容的场景图像;

步骤3:利用训练完的检测与识别模型,以采集得到的图像为输入进行模型计算,在图像中定位出绘画区域,并识别出绘画物体类别;

步骤4:选出绘画区域,利用绘画物体与背景上的显著区别特性,使用图像边缘检测确定绘画物体轮廓,使用图像分割技术提取出绘画物体轮廓区域。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤1中构建的检测与识别模型为深度神经网络模型,需要利用大量已有物体框和物体类别标注的图像数据进行模型的训练,直至模型的参数收敛到预定的范围。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述深度神经网络模型在训练时应指定固定数量类别,指定网络输入图像的尺寸,指定网络的结构类型。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤1中使用的标注图像集可以进行预先筛选,确定要识别的绘画物体类别以及增加训练样本的多样性,对训练数据的处理能够使得神经网络模型具有更好地泛化能力,避免模型的过拟合问题,对于新的数据的处理有更稳定和准确的效果。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤1中的深度神经网络模型,可以通过选取最优模型结构,提高模型的表征能力,进而提高模型的识别能力。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤2中的图像采集设备,可以通过提高分辨率来增加获取图像的信息,但提高的分辨率最高为神经网络模型的限定的分辨率。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中使用的采集的复杂场景图像应首先调整到网络输入图像的尺寸。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中的绘画区域与绘画物体识别,是在待检测图像经过网络计算之后,两个输出端输出的结果。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中所得到的绘画区域,是相对于调整图像之后的候选框图像坐标点,共包含4个数据。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中所得到的识别类别,是包含类型和概率的多组数据。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中定位出绘画区域,在神经网络模型输出的多个预测的长方形区域框中,往往会出现相似候选框覆盖同一物体的问题,为此,可以使用非极大值抑制算法,选出最优的候选框,提高准确性。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤3中识别出绘画物体,在神经网络的输出中会包含有多种概率的多个结果,通过设定筛选阈值,可以选出具有较大概率的结果。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤4中的图像轮廓,首先需要对框选图像进行边缘检测,确定绘画物体的外边缘,之后,在和框选图像同样尺寸的蒙版上填充候选区域内部。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤4中的框选图像由原图经网络检测得到的物体框选取局部得到。

本发明所述的一种复杂场景下的绘画物体识别与提取方法,其中,所述步骤4中基于识别框区域的轮廓提取,可以对图像进行二值化处理。

本发明的有益效果是:对比现有技术,本发明的一种复杂场景下的绘画物体识别与提取方法具有以下优点:

1、本发明能够实现对多种绘画物体的识别,通过构建深度神经网络模型,识别过程,不依赖于具体物体图像和具体姿态,具有很好的泛化能力;

2、本发明能够直接以复杂场景下的图像为输入,可以不限定拍摄的范围,快速准确地完成端到端的识别与检测;

3、本发明能够完成绘画物体的轮廓提取。

附图说明

图1是本发明的流程图。

其中:s1为步骤1,s2为步骤2,s3为步骤3,s4为步骤4。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明,进一步阐明本发明的优点及相对于现有技术的突出贡献,可以理解的,下述的实施例仅是对本发明较佳实施方案的详细说明,不应该解释为对本发明技术方案的任何限制。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

如图1所示,本发明实施例的一种复杂场景下的绘画物体识别与提取方法的实施步骤如下:

步骤1:构建检测与识别模型,并利用已有物体框和物体类别标注的图像集训练该模型;

步骤2:采集包含用户绘画内容的场景图像;

步骤3:利用训练完的检测与识别模型在图像中定位出绘画区域,并识别出绘画物体类别;

步骤4:选出绘画区域,利用图像分割技术提取出绘画物体轮廓区域。

步骤1中,在模型构建阶段,可以通过比选多种网络结构,确定出具有最优效果的网络模型,本例采用了resnet-101的基础网络模型,该模型相比vgg网络、googlenet网络等拥有更深的层次,同时仍具有较低的复杂度,这其实得益于采用了一种减轻网络训练负担的残差学习框架。模型输入设置为600x600。为了实现物体框的检测功能,在基础网络resnet-101之上,本实例使用了ssd的物体检测模型方法,将整个检测过程整合成一个深度卷积网络,便于训练和优化,同时提高检测速度。在模型的训练阶段,整个模型的优化目标可以表示为:其中,n是匹配的训练样本数,l_loc是定位损失函数,采用了平滑一范数损失项,其和输入图像x,预测框l,真值框g有关;置信损失函数l_conf是在多类置信度的基础上的softmax损失;α是权重项,设为1,网络训练的学习率初始化为0.001,动量0.9,权重衰减0.0005,批量大小32,网络训练所使用的数据为精确标注的包含绘画物体的数据,包括3万多图像和5万多物体真实框,在使用gpu服务器,经过10万次迭代之后,网络的训练损失降低到2以下,趋于稳定,本实例认为网络已经收敛。

步骤2中,本实例选用了高清摄像头以实时采集720p的图像,图像由usb连接通道传到网络预处理模块,图像的大小经过重映射,变为600x600。

步骤3中,利用已经训练的网络,去除网络中只和训练相关的结构,包括dropout层,损失函数计算层,以重映射得到的图像为输入,经过神经网络模型的计算,得到两组输出结果,分别为绘画物体类别的预测以及定位区域的预测,在此实例中,采用了非极大值抑制算法,去除结果中重叠区域大于45%的结果,同时设定预测的阈值为0.6,即预测概率高于0.6时,本实例才认为是可信的物体。

步骤4中,首先根据神经网络的检测和识别结果,从原始图像中获取检测到包含物体的局部区域,之后,将局部彩色图像转换为灰度图像,之后对图像进行二值化,进而使用sobel算子在水平和竖直方向上对图像进行处理,得到图像的边缘信息,sobel算子是一种常用的边缘检测方法,根据像素点上下、左右邻点灰度加权差,在边缘处达到极值这一现象检测边缘,对噪声具有平滑作用,提供较为精确的边缘方向信息,在边缘图像的基础上,使用连通域检测,确定绘画物体的精准区域。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1