一种图像行为识别方法、设备及计算机可读存储介质与流程

文档序号:17049738发布日期:2019-03-05 19:56阅读:126来源:国知局
一种图像行为识别方法、设备及计算机可读存储介质与流程

本发明涉及图像处理技术领域,特别是涉及一种图像行为识别、设备及计算机可读存储介质。



背景技术:

近年来,随着监控电子设备在各个领域的不断普及,更加高效的从监控视频中监测有价值信息的需求日益凸显。传统的监测方法是采用人工进行监测,但人工监测视频的方法效率低、准确度难以保证,所以迫切需要一种能够智能判别视频中的行为的方法,并能够对视频中的感兴趣行为进行检测。



技术实现要素:

本发明提供一种图像行为识别方法、设备及计算机可读存储介质,用以在电池容量不变情况下,终端实现功耗控制的问题。

为实现上述发明目的,本发明采用下述的技术方案:

依据本发明的一个方面,提供一种图像行为识别方法,所述方法包括:

对待识别图像中的目标所在区域进行子部件的划分,确定每个子部件所在的区域;

从所述每个子部件所在的区域中提取每个子部件的特征,根据每个子部件的特征确定所述目标所属的行为类别。

可选地,所述对待识别图像中的目标所在区域进行子部件的划分,确定每个子部件所在的区域,包括:

根据预设的子部件平均比例值对所述目标所在区域进行子部件的划分;

利用区域分割算法对划分的每个子部件区域进行前景背景分割,得到子部件的前景分割结果。

可选地,在根据预设的子部件平均比例值对所述目标所在区域进行子部件的划分之前,还包括:

对样本数据集中的包含目标的图像进行子部件的标注;

根据标注的子部件的区域,确定子部件所占图像的比例值;

统计所述样本数据集中相同子部件所在图像的比例值的和值,根据所述和值确定所述所述子部件平均比例值,其中,所述子部件平均比例值为不同子部件的和值的比值。

可选地,所述区域分割算法包括以下至少一种:grabcut算法、graphcut算法以及randomwalker算法。

可选地,所述从所述每个子部件所在的区域中提取每个子部件的特征,根据每个子部件的特征确定所述目标所属的行为类别,包括:

对所述子部件所在的区域和所述目标所在区域分别进行特征提取;

将子部件提取的特征与所述目标所在区域提取的特征进行级联,级联后的特征作为所述目标特征;

根据所述目标特征从预设分类模型中确定所述目标所属的行为类别。

可选地,所述根据所述目标特征从预设分类模型中确定所述目标所属的行为类别,包括:

根据所述目标特征从预设分类模型确定所属每种行为类别的概率;

选取所述概率最大的行为类别作为所述目标所属的行为类别。

可选地,在根据所述目标特征从预设分类模型中确定所述目标所属的行为类别之前,还包括:

获取预训练分类模型;

建立包含多类行为的样本数据集,并对所述样本数据集目标所在区域、行为类别以及子部件的所在区域进行标注;基于标注的样本数据集对所述预训练分类模型进行训练,得到所述预设分类模型。

可选地,所述得到所述预设的分类模型之后,所述方法还包括:

对所述样本数据集中的图像进行裁剪,以对所述样本数据集进行扩充;

根据扩充后的样本数据集对能量损失函数进行优化,得到优化后的预设分类模型。

依据本发明的一个方面,提供一种图像行为识别设备,包括:存储器和处理器;其中,所述存储器中存储计算机指令,当所述计算机指令被所述处理器执行时,以实现上述的图像行为识别方法中的全部步骤和部分步骤。

依据本发明的一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,当所述一个或者多个程序被所述处理器执行时,以实现上述的图像行为识别方法中的全部步骤和部分步骤。

本发明有益效果如下:

本发明实施例所提供的图像行为识别方法、设备及计算机可读存储介质,采用局部区域全卷积网络对池化过程进行了改进,通过将识别的目标所在区域进行子部件的划分,根据子部件得到的特征来确定最终的行为类别。因此,本发明通过对局部特征提取,只增加极少计算开销的情况下,可以有效提高识别的精确度。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有中的方案,下面将对实施例或现有描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中所提供的图像行为识别方法的流程图;

图2为本发明实施例中所提供的图像行为识别方法的网络结构图;

图3为本发明实施例中特征级联的示意图;

图4为本发明实施例中所提供的图像行为识别设备的原理框图。

具体实施方式

以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。

在计算机视觉领域,有诸多方法可以用于行为识别,但是,在许多情况下,背景建模、前景目标检测和跟踪的实时性和精度难以达到要求。而深度学习作为机器学习的一个新分支,在实时性和精确性上有了良好的改善。在目标检测领域,有一些典型的深度学习模型方案,主要分为两类,一类是基于回归的方法如yolo(youonlylookonce)、ssd(singleshotmultiboxdetector)等,这类方法效率相对较高但精度有限,一类是基于候选区的方法,如fasterrcnn(region-basedconvolutionalneuralnetworks)、rfcn(region-basedfullyconvolutionalnetworks)等,这类方法精度更高但效率有所降低。

考虑到行为识别问题和目标检测问题具有一定的相似性,但难度更大,因此,本发明选择在目前识别精度最高的rfcn的基础上进行改进,提出了一种基于局部区域全卷积网络(localregion-basedfullyconvolutionalnetworks,简称lrfcn)的行为识别方法,用于视频的行为识别。

方法实施例

本发明实施例所提供的图像行为识别方法,如图1和图2所示,具体包括如下步骤:

步骤101,对待识别图像中的目标所在区域进行子部件的划分,确定每个子部件所在的区域。

步骤102,从每个子部件所在的区域中提取每个子部件的特征,根据每个子部件的特征确定目标所属的行为类别。

本发明实施例将目标所在区域进行子部件的划分,并根据子部件提取的特征来确定目标所属最终的行为类别,基于此,本发明通过采用局部特征进行识别,只增加极少计算开销的情况下,可以有效提高识别的精确度。

其中,本发明一可选实施例中,在对待识别图像的目标所在区域(也称为感兴趣区域roi)进行识别时,可以采用区域推荐网络rpn进行感兴趣区域roi的识别。对于“区域推荐网络rpn”已属于本领域人员所熟知的技术,这里不再进行说明。当然也可以采用其他识别技术进行感兴趣区域的识别,这里不做过多的限定。其中,在待识别图像的目标所在区域进行识别之前,对待识别图像进行归一化处理,以使图像经过归一化处理后能够得到统一形式的标准图像。

其中,本发明一可选实施例中,对待识别图像中的目标所在区域进行子部件的划分时,包括根据预设的子部件平均比例值对目标所在区域进行子部件的划分;利用区域分割算法对划分的每个子部件区域进行前景背景分割,得到子部件的前景分割结果。

这里通过子部件平均比例值对子部件所在区域进行初步划分。其中,子部件平均比例值是根据分类模型(lrfcn模型)训练时的样本数据集来确定,以保证该值的准确性。

具体地,在根据预设的子部件平均比例值对所述目标所在区域进行子部件的划分之前,需要获取该子部件平均比例值。这里确定子部件平均比例的方式,包括如下:

对样本数据集中的包含目标的图像进行子部件的标注;

根据标注的子部件的区域,确定子部件所占图像的比例值;

统计样本数据集中相同子部件所在图像的比例值的和值,根据所述和值确定所述所述子部件平均比例值,其中,所述子部件平均比例值为不同子部件的和值的比值。

具体地,子部件平均比例值的计算方式如下:

其中,(part1)i+(part2)i+…(partk)i=1;partki为第i个目标中k子部件所占目标所在区域的比例;k为子部件的个数;n为训练库中样本数据集所包含的目标数。

也是说,本发明中对样本数据集里头所有目标的子部件1、子部件2……子部件k所占roi的比例分别求和,而后根据该比例和来确定各个子部件之间平均比例值。例如,一具体实施例将人体分为头、身体以及下肢三部分。对样本数据集里头所有人的头部、身体、下肢比例求平均,假设第i个人归一化后的比例为headi:bodyupi:bodydowni,其中,headi+bodyupi+bodydowni=1,若样本数据集一共有n个人,则平均比例值为

这里,为了保证子部件区域划分的精确性,需要对进一步对初步划分的区域进行精确分割。具体地,在进行分割时,采用区域分割算法来排除背景干扰,以在每个子部件区域中区分出背景及前景,得到子部件的前景分割结果。

其中,优选的,区域分割算法采用grabcut算法、graphcut算法或者randomwalker算法中的任一种。当然还可以采用其他算法实现,这里不再进行介绍,不脱离本发明核心思想,都在本发明保护范围内。这里,以grabcut算法为例,对分割的具体实现过程进行说明。

首先,定义一个能量函数e描述分割的优化目标,其公式表示如下:

e(α,k,θ,z)=u(α,k,θ,z)+v(α,z)

其中,u函数表示能量函数的区域数据项,v函数表示能量函数的光滑项(边界项);α为图片初始化标签(背景标签为0,前景标签为1),k为采用gmm(混合高斯模型)的高斯分量的个数,θ为gmm的统计学参数(高斯分量的权重、均值向量、协方差矩阵),z为子部件的图片数据。

然后,求解该能量函数的min-cut最小割,就能得到前景背景的分割像素集合。

其中,本发明一可选实施例中,从每个子部件所在的区域中提取每个子部件的特征,根据每个子部件的特征确定目标所属的行为类别,包括:

对子部件所在的区域和目标所在区域分别进行特征提取;

将子部件提取的特征与目标所在区域提取的特征进行级联,级联后的特征作为目标特征;

根据目标特征从预设的分类模型中确定目标所属的行为类别。

具体地,在提取每个子部件的特征时,将子部件所在区域的像素与卷积核进行卷积,卷积后的值即为子部件的特征。但因为lrfcn网络通常有很多层,即卷积操作可以迭代了很多次。所以其实际对应到最初原始图像中的范围已经比分割结果的区域要大了。

其中,为了使得图像识别的精确性,在提取每个子部件特征时,同时提取目标所在区域的整体特征。例如,图3所示,主要对头部、身体、下肢三个部分区域对应的局部特征,和整个人体区域对应的全局特征进行一个串联组合,构成最终用于对整个区域描述的特征。

基于此可知,这里通过将每个子部件特征(局部池化)与整个roi区域提取的特征(整体池化)进行级联,只需增加介绍计算开销的情况下,可以使得图像识别的特征数有所增加,有效提高图像的识别精度。当然,本发明一可选实施例中,还可以通过每个子部件特征的级联特征作为目标特征进行识别,相对于基于整个roi区域提取的特征进行识别,也可以有效提高图像的识别精度。

其中,本发明一可选实施例中,根据目标特征从预设的分类模型中确定目标所属的行为类别,包括:确定目标特征所属每种行为类别的概率;选取概率最大的行为类别作为目标的所属行为类别。

进一步的,本发明一实施例中,在根据所述目标特征从预设分类模型中确定目标所属的行为类别之前,需要确定预设分类模型(lrfcn模型)。这里,确定确定预设分类模型的方式,具体包括如下:

获得预训练分类模型;

建立包含多类行为的样本数据集,并对样本数据集目标所在区域、行为类别以及子部件的所在区域进行标注,基于标注的样本数据集对预训练分类模型进行训练,得到预设分类模型。

这里,在获得预训练分类模型时,是通过大型数据库训练得到,例如imagenet这一较大的数据库。具体地,建立多类行为样本数据集时,该数据集中所有图像在背景、拍摄角度、光照、图片尺度方法都要有一定的差异性。接着通过人工的方式对图像中的目标区域,行为类型,以及各个子部件的区域进行标注。而后通过标注的样本数据集在对预训练模型进行训练,来对lrfcn模型中的参数进行调整。

进一步的,可选的,在基于标注的样本数据集对预训练分类模型进行训练,得到预设的分类模型之后,该方法还包括:

通过对样本数据集中的图像进行随机裁剪,以对样本数据集进行扩充;根据扩充后的样本数据集对能量损失函数进行优化,得到优化后的预设的分类模型。

具体地,在训练lrfcn模型时,能量损失函数为交叉熵损失与边界框回归损失的和,如以下公式所示:

其中,s为各类的softmax响应,t*代表预测结果相对groundtruth的偏移,t为预测结果相对预置框的偏移。c*=0说明roi的标签为背景,当c*>0时[c*>0]=1,否则为0。lreg表示边界框损失,rc表示该roi第c类的空间位置的分数平均池化,其具体计算方法如以下公式所示:

lreg(t,t*)=r(t-t*)

tx=(x-xa)/wa,ty=(y-ya)/ha,tw=log(w/wa),th=log(h/ha)

tx*=(x*-xa)/wa,ty*=(y*-ya)/ha,tw*=log(w*/wa),th*=log(h*/ha)

其中,r是smoothl1损失函数,x,y,w,h分别为预测边界框的中心点坐标和宽高,下标a的为预置框的中心点坐标与宽高,上标*的为groundtruth的中心点坐标和宽高。

基于上述可知,通过能量损失函数可以用来估量模型的预测值与真实值的不一致程度,能量损失函数越小,模型准确性就越好。因此,通过训练能量损失函数可以保证lrfcn模型的准确性,以提高识别的精确度。

以家庭监控视频中吃东西、看电视、玩电子设备、摔倒、虐待儿童等五类行为识别为例对本发明中lfrcn模型的训练过程进行说明:

步骤201,建立包含多类行为的样本数据集。

这里,首先针对提出的问题,建立了一个包含吃东西、看电视、玩电子设备、摔倒、虐待儿童等五类行为的数据库,每类包含大约2000张,这些图像的样本都取自家庭监控视频。

其次,随机选取其中的三分之二作为训练样本并放入训练库中,剩下的三分之一作为测试样本。所有图像包含的内容都来源于现实的家庭监控视频。

步骤202,人工对图像中的目标区域、行为类别,目标头部、身体、下肢等局部区域进行标注。具体地,包括如下:

步骤2021,以对图像中的目标进行人工标注groundtruth,通过画框同时标注出目标区域和行为类别标签,如类别标签为0,1,2,3,4;

步骤2022,标定出样本图像中人体目标中头部、身体、下肢三个部分,并根据标定的结果,计算每个区域内头、身体和下肢所占的平均比例值;

步骤2023,标定出样本图像中人体目标中头部、身体、下肢三个部分覆盖的具体像素位置,通过图像模板对具体像素位置进行记录。

步骤203,得到预训练lfrcn网络模型。

因为lfrcn网络模型中的神经网络包含大量参数,而自己建立的样本数据集中的样本数偏少,用样本数据集直接进行训练容易发生过拟合现象,故选择在imagenet这一较大的数据库上先得到lfrcn网络模型,而后基于训练库对预训练lfrcn网络模型进行训练。

步骤204、基于训练库对预训练lfrcn网络模型进行训练,微调该网络模型的参数。该过程可以分为以下几个小步骤:

步骤2041、将训练库中的图像的大小进行归一化,使图像的最大边小于600;

步骤2042、将训练库中的每一幅图像都随机裁剪,进行数据库的扩充;

由于网络参数较多而样本较少,为了避免过拟合,在训练时随机地从图像中裁剪的图像对训练库进行扩充用以网络训练,以增加样本数。

步骤2043、优化上述的能量损失函数,得到最终的lfrcn网络模型。其中,在训练过程中,设定初始学习率为0.000001并按照0.5的丢失率随机地丢弃50%的参数。对于优化的过程,这里不再进行介绍,例如可通过最小二乘法和梯度下降法等。

基于上述可知,本发明所提出的基于局部区域全卷积神经网络(lrfcn)的行为识别方法,能够非常准确地检测到视频中的目标行为,对于目前智能安防的技术空缺有一定程度的填补。

设备实施例

根据本发明的实施例,提供了一种图像行为识别设备,用于实现上述的图像行为识别方法。如图4所示。该设备括处理器42以及存储有处理器42可执行指令的存储器41。具体地,本发明实施例提供的图像行为识别设备,当存储器41中的可执行指令被处理器42执行时,以实现方法实施例中所提供的图像行为识别方法。需要说明的是,在设备实施例中,对于具体的实现不再进行赘述,可以参见方法实施例中的详细说明,在该实施例中不再进行赘述。

其中,处理器42可以是通用处理器,例如中央处理器(centralprocessingunit,cpu),还可以是数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器41,用于存储程序代码,并将该程序代码传输给cpu。存储器41可以包括易失性存储器(volatilememory),例如随机存取存储器(randomaccessmemory,ram);存储器41也可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-onlymemory,rom)、快闪存储器(flashmemory)、硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd);存储器41还可以包括上述种类的存储器的组合。

存储介质实施例

本发明实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中,计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现方法实施例所提供的图像行为识别方法中的全部步骤和部分步骤。对于步骤具体的实现,可以参见方法实施例中的详细说明,在该实施例中不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。

虽然通过实施例描述了本申请,本领域的技术人员知道,本申请有许多变形和变化而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1