本发明涉及图像识别领域,尤其涉及一种基于多特征图融合的野生动物视频目标检测方法。
背景技术:
生物资源是人类赖以生存和发展的自然基础,是生态系统平衡与稳定的有力保障。野生动物资源是生物资源的重要组成部分,具有珍稀性和生命脆弱性,保护和合理利用野生动物资源对可持续发展有着重要意义。然而,当下对于野生动物的监测保护是通过实地探查,或者使用昂贵的实时录像机进行不间断的定点录像,需要投入大量的人力物力。因此,将目标检测的研究成果运用于野生动物视频检测领域,对辅助科学研究有重要意义。
近年来,国内外研究学者在野生动物领域做了一系列的分类与检测识别研究工作。随着深度卷积网络的不断发展,基于深度学习的目标检测方法凭借其强大的特征学习能力,表现出了巨大优势。在基于深度学习的目标检测领域,有人结合selectivesearch算法与svm分类器,提出了基于区域的卷积神经网络r-cnn,其提取出的特征鲁棒性高、通用性好,但存在时间开销大的缺点;有人使用卷积神经网络直接产生候选框区域对r-cnn进行改进,提出的fasterr-cnn模型解决了r-cnn模型的时空开销大的问题;基于回归的yolo模型,使用端到端的训练方法,提升了目标检测的速度,但其检测精度低;ssd模型对全图各个位置的多尺度区域进行回归,目标检测精度高,但检测速度不及yolo模型;有人通过darknet-53卷积神经网络与金字塔网络,对全图进行三个不同尺度的特征图检测,得到检测速度与检测精度的平衡。在上述模型中,yolov3模型的综合性能最优,在保持yolo模型检测速度的同时,达到了ssd模型的检测精度。
然而,针对yolov3在野生动物视频目标检测领域中,存在的前后视频帧同区域关系难以描述的缺点,这会导致平均准确率的下降。
因此,如何提高野生动物视频目标检测的平均准确率,成为了本领域技术人员急需解决的问题。
技术实现要素:
针对现有技术中存在的上述不足,本发明需要解决的问题是:如何提高野生动物视频目标检测的平均准确率。
为解决上述技术问题,本发明采用了如下的技术方案:
一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:
s1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;
s2、判断视频序列图像中的相邻帧图像是否满足融合条件;
s3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;
s4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。
优选地,判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括:
基于
若两相邻帧图像的相似度p大于或等于融合阈值σ,两相邻帧图像是否满足融合条件。
优选地,图像中任一像素点的rgb值为(a,b,c),基于公式
优选地,基于公式fn'=ω*fn+1+fn+ω*fn-1'采用线性迭代的方式进行相邻帧图像的特征图融合,式中,fn-1'=ω*fn+fn-1+ω*fn-2',fn为第n帧图像的特征图,fn'为第n帧图像的融合后的特征图,fn+1为第n+1帧图像的特征图,fn-1为第n-1帧图像的特征图,fn-1'为第n-1帧图像的融合后的特征图,fn-2为第n-2帧图像的融合后的特征图,ω为相邻视频帧的相关因子,ω∈[0,1]。
优选地,
优选地,采用下述方法计算两相邻帧图像的相似度均值:
设任意两个视频序列图像a和b的互信息熵为h(a)和h(b);
式中,pa(i)为h(a)发生的概率,pb(j)为h(b)发生的概率;
i(a,b)=h(a)+h(b)-h(a,b)
i(a,a)=h(a)+h(a)-h(a,a)
x=i(a,b)/i(a,a),x∈(0,1]
式中,h(a,b)表示视频序列图像a和视频序列图像b的联合熵,h(a,a)表示视频序列图像a与视频序列图像a的联合熵,i(a,b)表示视频序列图像a与视频序列图像b的互信息熵,i(a,a)表示视频序列图像a与视频序列图像a的互信息熵,a、b分别为a、b的特定值,pab(a,b)为a、b一起出现的联合概率,paa(a,a)为a、a一起出现的联合概率。
综上所述,本发明公开了一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:获取视频序列图像,提取视频序列图像中每一帧图像的特征图;判断视频序列图像中的相邻帧图像是否满足融合条件;若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。与现有技术相比,本发明的方法更适合对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。
附图说明
图1为本发明公开的一种基于多特征图融合的野生动物视频目标检测方法的流程图;
图2为当前帧与视频序列帧的相关因子变化曲线的示意图;
图3为相邻视频帧相似度的示意图;
图4为yolov3模型与本发明的方法的实验结果对比示意图;
图5为yolov3模型与本发明的方法在wvdds数据集上的p-r变化曲线。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1所示,本发明公开了一种基于多特征图融合的野生动物视频目标检测方法,包括如下步骤:
s1、获取视频序列图像,提取视频序列图像中每一帧图像的特征图;
将darknet-53残差神经网络作为特征提取网络,对输入图像进行特征提取,能够得到三个不同尺度的特征图。本发明中,可以使用darknet-53网络对视频帧进行特征提取,从而提取到三个不同尺度特征图。提取特征图为现有技术,在此不再赘述。
s2、判断视频序列图像中的相邻帧图像是否满足融合条件;
s3、若相帧图像满足融合条件,则对相邻帧图像进行特征图融合;
考虑到将视频拆分为连续的图像帧进行处理时,会丢失帧间相关性,本发明中将yolov3模型、图像相似度与时间序列关系相结合,对darknet-53网络提取到的连续前后视频帧的特征图进行线性迭代融合,以提升野生动物视频目标检测的准确率。
s4、对融合后的特征图进行类别与目标框的预测,获得具有目标语义关联信息的最终检测结果。
与现有技术相比,本发明的方法更适合对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。
具体实施时,判断视频序列图像中的相邻帧图像是否满足融合条件的方法包括:
基于
若两相邻帧图像的相似度p大于或等于融合阈值σ,两相邻帧图像是否满足融合条件。
在相邻帧融合之前,引入直方图均衡计算图像相似度的方法,对相邻视频图像进行相似度度量。若为视频“镜头切换”,相邻视频帧则不存在时间序列关系,若仍对其进行特征图融合,会导致识别率降低。
具体实施时,图像中任一像素点的rgb值为(a,b,c),基于公式
对图像进行直方图计算时,是将像素点拆分成r、g、b三通道的值进行分别计算;按照上述公式计算,所得的结果便为直方图数据。
具体实施时,基于公式fn'=ω*fn+1+fn+ω*fn-1'采用线性迭代的方式进行相邻帧图像的特征图融合,式中,fn-1'=ω*fn+fn-1+ω*fn-2',fn为第n帧图像的特征图,fn'为第n帧图像的融合后的特征图,fn+1为第n+1帧图像的特征图,fn-1为第n-1帧图像的特征图,fn-1'为第n-1帧图像的融合后的特征图,fn-2为第n-2帧图像的融合后的特征图,ω为相邻视频帧的相关因子,ω∈[0,1]。
为充分利用视频序列所包含的目标信息,本发明对经过darknet-53提取到的视频图像特征图进行有效融合,以提升目标检测准确率。
本发明中,当前帧在与其前后帧图像进行特征图融合时,采用线性迭代的方式,并将原特征图更新为融合后的特征图。
具体实施时,
在特征融合中,如何有效选取相关因子ω的值是一个重点。ω决定了在特征融合时,前后各帧的重要性,选择合适的ω将决定融合最终的效果。本发明中,采用互信息熵对估计ω值,能够自适应的融合不同重要性的特征。针对相关因子的选取,我们使用互信息熵计算图像相似度,对得到的相似度进行高斯变化,并与距离权重相乘。具体实施时,σ可取0.6,μ可取0.6,x可取0.69,distance_weight可取1。
采用下述方法计算两相邻帧图像的相似度均值:
具体实施时,设任意两个视频序列图像a和b的互信息熵为h(a)和h(b);
式中,pa(i)为h(a)发生的概率,pb(j)为h(b)发生的概率;
i(a,b)=h(a)+h(b)-h(a,b)
i(a,a)=h(a)+h(a)-h(a,a)
x=i(a,b)/i(a,a),x∈(0,1]
式中,h(a,b)表示视频序列图像a和视频序列图像b的联合熵,h(a,a)表示视频序列图像a与视频序列图像a的联合熵,i(a,b)表示视频序列图像a与视频序列图像b的互信息熵,i(a,a)表示视频序列图像a与视频序列图像a的互信息熵,a、b分别为a、b的特定值,pab(a,b)为a、b一起出现的联合概率,paa(a,a)为a、a一起出现的联合概率。
综上所述,本发明公开的方法具有以下技术效果:
(1)使用线性迭代的方式对视频前后帧三个不同尺度的特征图分别进行融合;
线性迭代的方式在融合当前帧的时候,采用的是前面各帧融合后的新特征表示,因此有效融合更准确的前面各帧的信息。
(2)通过图像互信息熵拟合出视频相邻帧融合的相关因子;
在视频相邻帧融合时,最大的挑战在于如何融合周边各帧的信息,如果只是简单的对前后各帧进行融合(例如求和),无法达到满意的效果。因此,本发明提出了一种新的特征融合方法,即根据其他各帧与当前帧的互信息熵作为融合的依据。
(3)引入直方图均衡计算图像相似度的方法,确定相邻帧的融合条件。
在视频帧融合时,遇到的另一个挑战是视频存在镜头切换问题,因此本发明引入直方图均衡计算图像相似度来判断是否存在镜头切换问题,从而保证信息融合的可靠性。
下面为采用本发明公开的基于多特征图融合的野生动物视频目标检测方法的具体实例:
实验环境
本实例的实验环境与配置为:ubuntu14.04操作系统,interxeone5-2623v3处理器,64gb内存,nvidiateslak80显卡,以及keras深度学习框架。
数据集
实验数据集采用基于视频的野生动物检测数据集wvdds。wvdds数据集包含了12个类别,253段视频片段,视频按照每5帧标注一次的频率进行标注,标注采用pascalvoc格式,共6601视频图像。
参数设置
模型再训练参数
为了与yolov3在同等条件下进行检测性能的比较,我们在原作者提供的权重文件基础上,使用wvdds数据集进行再训练。其再训练模型的参数如表1所示:
表1模型再训练的参数表
相关因子
为了验证视频序列图像相似度的变化关系,选取视频中的第一帧作为当前帧,对视频所有序列图像与当前帧使用互信息熵进行相似度计算,并进行归一化。视频序列中,当前帧与视频序列帧的相关因子变化曲线如图2所示。距当前帧越近,其相似度越大;据当前帧越远,其相似度越小。相似度呈下降趋势,且保持在0.1上下。
表2使用互信息熵对视频的相邻两帧分别进行相似度计算,相似度均值作为x的取值。如表2所示,x的取值为0.69。
表2视频相邻帧的互信息熵相似度
本发明使用直方图均衡对视频相邻帧的相似度进行判断。图3展示了相邻视频帧相似度。若相邻帧的相似度s大于一个阈值,则进行相邻特征图融合;反之,则判断为视频“镜头切换”,不进行融合。
为了与yolov3算法进行对比,本发明的方法将初始训练参数设定为与yolov3原模型一致。在进行检测任务时,阈值scores=0.5,iou=0.5。图4为yolov3模型与本发明的方法的实验结果对比。其中,(1)(3)(5)(7)为yolov3模型的检测结果,(2)(4)(6)(8)为本发明的方法的检测结果。如图4所示:(2)(4)(6)(8)相对于(1)(3)(5)(7)的目标检测率得到了提升。其中,(1)(2)为背景遮挡,(3)(4)为自遮挡,(5)(6)与(7)(8)为形变的检测结果对比。
平均准确率
检测性能使用平均准确率ap进行评估,其通过数值积分对p-r曲线进行计算,p代表precision准确率,r代表recall召回率。其中:
式中,tp表示truepositives;tn表示truenegatives;fp表示falsepositives;fn表示falsenegatives。
f1值为模型准确率与召回率的加权平均,其反映了模型准确率与召回率的综合性能。它的取值在0-1之间。f1的计算公式如下,
表3为yolov3模型与本发明的方法(即context-awareyolo模型)在iou为0.5时的p-r变化结果,表3说明本发明的方法相对于yolov3模型的f1值提升了2.4%,map提升了4.71%;
表3yolov3模型与本发明的方法的对比
表4为yolov3模型与本发明的方法在wvdds数据集上的类别平均准确率对比实验结果;图5中(1)和(3)为yolov3模型(1)(3)在wvdds数据集上的p-r变化曲线,(2)和(4)为采用本发明的方法在wvdds数据集上p-r变化曲线。
表4yolov3模型与本发明的方法在wvdds数据集上的类别平均准确率
如表4,采用本发明的方法准确率均高于yolov3模型;参照图5,由于本发明融合前后帧特征图信息,更能对遮挡、形变目标进行准确检测,检测成功的目标数量与检测置信度得到了提升。因此,模型的整体检测性能也得到了提升。
上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落入本发明要求保护的范围。