一种基于长短期记忆网络的物体和部件联合检测方法与流程

文档序号:16037193发布日期:2018-11-24 10:10阅读:160来源:国知局
本发明涉及图像目标检测方法,具体涉及了一种基于长短期记忆网络的物体和部件联合检测方法。
背景技术
目标检测旨在用矩形框标记出图像中的目标及其类别。当下的目标检测方法绝大部分专注于检测图像中的物体,而不是物体上的部件,更不要说将物体和部件联合起来,同时检测。另一方面,物体检测和部件检测是可以相互促进的。物体检测往往需要更大的感受野,这意味着物体的特征能够提供更多的上下文信息;而部件往往对物体的姿态和部分遮挡问题更加鲁邦。如果我们能够将物体和部件联合起来检测,这意味着我们可以利用物体为部件提供上下文信息,利用部件为物体提供姿态鲁邦的信息,从而达到让物体检测和部件检测相互促进的目的。然而物体和部件联合检测本身是一个十分困难的问题。两个问题需要首先得到解决:第一、如何对物体和部件之间的关系进行建模,即在什么条件下可以用物体指导部件检测,同理可以用部件指导物体检测。第二、如何利用物体和部件之间的关系同时提升物体和部件检测的性能。技术实现要素:本发明的目的在于提供一种基于长短期记忆网络的物体和部件联合检测方法。本方法首先生成物体和部件的候选区域及其对应的区域特征。然后将这些特征输入到关系建模模块,得到要进行特征融合的物体-部件候选区域对。接着对每一个物体候选区域,融合对应的部件区域特征,同理对每一个部件候选区域,融合对应的物体区域特征,得到融合之后增强的物体和部件区域特征,输入到区域分类和坐标回归模块,得到最终检测的结果。本发明采用的技术方案是包括如下步骤:(1)采集多幅已知物体和部件目标框标签的图像i,物体是由部件构成,物体目标框是含有单个物体的图像区域,物体目标框标签为oi=[oci,oxi,oyi,owi,ohi],其中i表示物体目标框的序号,oci表示物体目标框内包含物体的类别,oxi,oyi分别表示物体目标框中心点的x坐标和y坐标,owi,ohi分别表示物体目标框的宽度和高度;部件目标框是含有单个部件的图像区域,部件目标框标签为pj=[pcj,pxj,pyj,pwj,phj],其中j表示部件目标框的序号,pcj表示部件目标框中包含部件的类别,pxj,pyj,pwj以及phj分别表示部件目标框的中心点x坐标,y坐标,以及宽度和长度。(2)对图像i进行处理获得特征图fi,再在特征图fi基础上获取物体候选区域集合ro及物体候选区域集合ro对应的区域特征fo,以及部件候选区域集合rp及部件候选区域集合rp对应的区域特征fp,候选区域表示该区域内可能存在物体或者部件;(3)构建基于长短期记忆网络(lstm)的物体和部件联合检测网络,将物体和部件的候选区域集合及其区域特征输入到物体和部件联合检测网络中,利用带动量(momentum)的sgd算法训练物体和部件联合检测网络;(4)采用训练后的物体和部件联合检测网络对未知物体和部件目标框标签的待测图像进行处理获取物体和部件的检测结果。所述步骤(2)包括卷积层、候选区域网络(rpn)模型和感兴趣区域池化(roipooling)模型,具体为:使用卷积层提取输入图像i的特征图fi,卷积层采用vgg16模型中的卷积层,然后使用候选区域网络模型对特征图fi处理得到图像上物体候选区域集合ro和部件候选区域集合rp,使用感兴趣区域池化模型对特征图fi以及物体候选区域集合ro和部件候选区域集合rp进行处理得到每一个物体候选区域对应的区域特征集合fo以及每一个部件候选区域对应的区域特征集合fp。对于物体或者部件,均采用相同方式进行处理。例如针对物体来说,物体候选区域集合ro采用以下方式处理获得:所述的候选区域网络预先设定b个不同尺度的参考框,然后对于特征图fi上每一个像素点位置构建b个不同尺度的参考框,并预测计算像素点位置的b个候选区域:每一个候选区域由预测值集合[s,tx,ty,tw,th]描述,其中s表示候选区域中包含物体的预测概率,tx,ty分别表示候选区域中心点相对参考框中心点(xa,ya)的预测偏移值,tw,th分别表示候选区域的宽w和长h相对参考框宽wa和长ha的预测偏移值。在预先定义了参考框的中心点(xa,ya)以及宽wa和长ha的情况下,具体采用以下公式计算候选区域的位置和大小:xr=txwa+xayr=tyha+yawr=exp(tw)wahr=exp(th)ha其中,xr、yr、wr、hr分别表示候选区域中心点的横纵坐标以及宽和长,xa、ya、wa、ha分别表示参考框的中心点横纵坐标以及宽和长,exp()表示指数函数;初始计算[s,tx,ty,tw,th]随机生成,在之后的每次迭代运算中,在获得所有像素点位置对应的候选区域后,从所有候选区域中选择候选区域包含物体的预测概率s最高的前no个候选区域组成候选区域集合ro输出。所述的感兴趣区域池化模型将候选区域集合ro中每一个候选区域在特征图fi上对应的区域池化成固定长度的特征fo,具体是:首先,将候选区域均分成k×k个小格子,采用以下公式计算每个小格子的特征,组成k×k维候选区域特征:fo(i,j)=∑p∈bin(i,j)fi(p)/nij其中,p表示小格子bin(i,j)处内部的像素点,nij表示小格子bin(i,j)处内部像素点的总数,i和j表示小格子的横纵序号,i、j=1~k;fi(p)表示特征图fi中的像素点p处的特征,fo(i,j)表示小格子bin(i,j)的特征;然后,输出的k×k维候选区域特征再经过两个输出神经元个数都为np的全连接层得到每一个候选区域对应的固定长度为np的候选区域特征fo。所述步骤(3)中,物体和部件联合检测网络包括关系建模(relationshipmodeling)模块、特征融合(featurefusion)模块、分类和坐标回归(classification&regression)模块、关系损失函数模块lr以及检测损失函数模块ld;首先物体候选区域集合ro和部件候选区域集合rp输入到关系建模模块中输出需要做特征融合的物体和部件候选区域对的集合g以及n对物体-部件候选区域对需要做特征融合的概率pn,将n对物体-部件候选区域对需要做特征融合的概率pn输入到关系损失函数模块lr中;接着,将物体候选区域的区域特征集合fo、部件候选区域的区域特征集合fp以及集合g输入特征融合模块,输出融合有所有部件特征的新物体候选区域特征以及融合有所有物体特征的新部件候选区域特征然后,新物体候选区域特征和新部件候选区域特征输入到分类和坐标回归模块,输出得到物体检测结果do和部件检测结果dp;最后将物体检测结果do和部件检测结果dp输入到检测损失函数模块ld计算检测结果的损失函数值。所述的关系建模模块是主要由fc1层、fc2层和softmax层依次连接组成,fc1层主要由一个输出神经元个数为n1的全连接层和一个relu层依次连接组成,fc2层主要由一个输出神经元个数为2的全连接层和一个relu层依次连接组成,softmax层是在自身输入的第二个维度上进行softmax操作;softmax层自身输入具有两个维度,分别为特征的数目和特征的长度。输入的物体和部件候选区域的区域特征集合fo和fp首先两两组合,具体是将物体候选区域的区域特征集合fo中的一物体区域特征和部件候选区域的区域特征集合fp中的一部件区域特征组合构成一对物体-部件候选区域对,将排列组合获得的所有n对物体-部件候选区域对,将所有n对物体-部件候选区域对的区域特征集合依次输入经过fc1层、fc2层和softmax层,得到n对物体-部件候选区域对需要做特征融合的预测概率pn,选择预测概率pn大于0.5的物体-部件候选区域对组成集合g。所述的特征融合(featurefusion)模块是主要由一个长短期记忆网络(longshorttermmemory,lstm)组成。所述的特征融合(featurefusion)模块中,对于物体或者部件均采用相同方式进行处理,以针对物体为例来说,物体候选区域集合ro采用以下方式处理获得:对于物体候选区域的区域特征集合fo中每一个物体候选区域的区域特征进行以物体为中心的特征融合(object-centricfeaturefusion),根据集合g获得包含有区域特征的所有np对物体-部件候选区域特征对,将所有np对物体-部件候选区域特征对输入到长短期记忆网络(lstm)当中,得到针对物体候选区域的融合后的物体候选区域特征一个物体候选区域得到一个融合后的物体候选区域特征然后对物体候选区域的区域特征集合fo中所有物体候选区域进行上述重复操作得到针对图像的融合后的物体新候选区域特征同理,对于fp中每一个部件的候选区域特征也可以进行以部件为中心的特征融合(part-centricfeaturefusion),根据g得到要和它进行特征融合的物体子集,将和子集中所有物体的候选区域特征进行两两组合,输入到lstm当中,得到融合之后新的部件的候选区域特征对fp中所有部件的候选区域进行上述操作得到融合之后部件的候选区域的新特征所述的分类和坐标回归模块是使用fasterrcnn模型中的分类和坐标回归部分,得到每一个候选区域对应的类别和坐标。所述的关系损失函数lr采用以下公式计算损失值:其中,k表示集合g中物体-部件候选区域对的序数,n表示集合g中物体-部件候选区域对的总数,pn(k)表示第k对物体-部件候选区域对需要进行特征融合的预测概率,q(k)表示第k对物体-部件候选区域对需要进行特征融合的真实概率,由已知物体和部件目标框标签获得;当第k对物体-部件候选区域对中部件是属于该物体的一部分,例如人的头部属于人的一部分,则真实概率q(k)为1,否则真实概率q(k)为0。所述的检测损失函数模块ld是使用fasterrcnn模型的交叉熵分类损失函数以及smooth-l1坐标回归损失函数。所述步骤(4)具体为:针对未知物体和部件目标框标签的待测图像,采用所述步骤(2)得到待测图像中物体和部件的候选区域集合ro和rp及对应的区域特征集合fo和fp,然后输入到去掉所有损失函数模块(包括关系损失函数lr和检测损失函数模块ld)训练后的物体和部件联合检测网络中,得到所有物体和部件候选区域的检测结果,即候选区域的预测类别和坐标位置。本发明方法构造一个深度神经网络,在普通目标检测网络的基础上增加一路部件检测分支,同时利用一个关系建模模块学习目标和部件之间的关系,并利用学习得到的关系指导目标和部件之间的特征融合。融合之后的特征用于目标或部件的分类和坐标回归。本发明的有益效果是:本发明方法利用关系建模模块学习物体和部件之间的关系,并据此指导物体和部件候选区域之间的特征融合,通过融合部件的特征,让物体获得更多姿态鲁邦性信息;通过融合物体的特征,让部件获得更多上下文信息,从而达到物体检测和部件检测相互促进的目的。本发明和以往独立的目标检测或者部件检测相比,能够利用目标和部件之间的关系同时提高目标和部件检测的性能。附图说明图1是本发明方法的流程示意图。图2是关系建模(relationshipmodeling)模块示意图。图3是特征融合(featurefusion)模块示意图。图4中可见:上半部分子图表示输入一张包含飞机的图像,通过我们的模型能准确地对图中的飞机进行定位。下半部分子图表示对于和上半部分同样一张输入图像,通过我们的模型能准确地对飞机的机身、机翼、引擎以及尾翼进行定位。具体实施方式下面对本发明进行进一步说明。按照本发明
发明内容的完整方法实施的实施例及其实施过程是:(1)采集一幅已知物体及部件目标框标签的图像i,物体目标框是含有单个物体的图像区域,其标签为oi=[oci,oxi,oyi,owi,ohi],其中i表示物体目标框的序号,oci表示物体目标框内包含物体的类别,oxi,oyi分别表示物体目标框的中心点的x坐标和y坐标,owi,ohi分别表示物体目标框的宽度和高度。部件目标框是含有单个部件的图像区域,其标签为pj=[pcj,pxj,pyj,pwj,phj],其中j表示部件目标框的序号,pcj表示部件目标框中包含部件的类别,pxj,pyj,pwj以及phj分别表示部件目标框的中心点x坐标,y坐标,以及宽度和长度。(2)对图像i进行处理,获得其特征图fi,并在此基础上获取物体的候选区域集合ro及其对应的区域特征fo,以及部件的候选区域集合rp及其对应的区域特征fp。候选区域表示该区域内可能存在物体或者部件。使用vgg16模型中的卷积层(convs)提取输入图像i的特征图fi;使用rpn模型对特征图fi处理,得到图像上物体的候选区域集合ro以及部件的候选区域集合rp;使用roipooling模型对特征图fi以及候选区域集合ro和rp进行处理,得到每一个物体候选区域对应的区域特征集合fo以及每一个部件候选区域对应的区域特征集合fp。具体实施中,vgg16模型采用simonyank,zissermana.verydeepconvolutionalnetworksforlarge-scaleimagerecognition文献中的计算方法。rpn模型和roipooling模型采用rens,hek,girshickr,etal.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks文献中的计算方法。(3)构建基于长短期记忆网络的物体和部件联合检测网络。如图1所示,具体包括关系建模(relationshipmodeling)模块、特征融合(featurefusion)模块、分类和坐标回归(classification&regression)模块以及关系损失函数模块lr以及检测损失函数模块ld。物体和部件的候选区域特征集合fo和fp输入到关系建模模块当中,输出需要做特征融合的物体和部件候选区域对的集合g以及n对物体-部件候选区域对需要做特征融合的概率pn,n对物体-部件候选区域对需要做特征融合的概率pn输入到关系损失函数模块lr中。然后将物体候选区域的特征集合fo,部件候选区域的特征集合fp,以及集合g输入特征融合模块,输出融合了部件特征的新的物体候选区域特征以及融合了物体特征的新的部件候选区域特征新的物体和部件候选区域特征和输入到分类和坐标回归模块,得到物体检测结果do和部件检测结果dp。do和dp输入到检测损失函数模块ld计算检测结果的损失函数值。所述的关系建模模块如图2所示,所述的特征融合模块如图3所示。(4)将物体和部件的候选区域集合及其区域特征输入到物体和部件联合检测网络中,利用带动量(momentum)的sgd算法训练物体和部件联合检测网络。具体实施中,动量设置为0.9,一共迭代90000次,前50000次的学习率设置为10-2,后40000次的学习率设置为10-3。(5)训练结束后,针对未知物体和部件目标框标签的待测图像,采用所述步骤(2)得到物体和部件的候选区域集合ro和rp,以及它们对应的特征集合fo和fp,将特征集合通过去掉所有损失函数模块的基于长短期记忆的物体和部件联合检测网络中,得到所有物体和部件候选区域的检测结果,即候选区域的预测类别和坐标。图4展示了一些物体和部件联合检测的结果示例。本实施例最后在标准数据集pascal-part(chenx,mottaghir,liux,etal.detectwhatyoucan:detectingandrepresentingobjectsusingholisticmodelsandbodyparts[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2014:1971-1978.)上评估,使用训练集进行训练,使用验证集进行测试。使用目标检测的标准评判准则map进行评价,下表给出了本方法和单独检测物体以及单独检测部件方法的map值,map值越大,说明性能越好。方法物体检测map(%)部件检测map(%)单独检测物体67.0-单独检测部件-46.5本方法69.750.1从上表可见,本方法的物体检测的map以及部件检测的map值均要高出单独检测的方法,可见本方法能够利用物体和部件之间的关系,通过联合检测同时提高物体检测和部件检测的效果。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1