本发明属于神经网络和图像识别技术领域,尤其涉及一种基于循环神经网络注意力模型的行人属性识别网络及技术。
背景技术
行人属性识别技术能够帮助人们自动完成从海量的图像和视频数据中搜寻特定人员的任务。但是由于监控视频的图像质量低、有标注的行人属性数据集较小、难以获得等因素的影响,极大地增加了从监控视频图像中进行行人属性识别的难度。现有的基于深度神经网络的行人属性识别方法分为卷积神经网络(cnn)方法和卷积神经网络与循环神经网络结合方法(cnn-rnn)两大类。现有的cnn方法如deepmar方法尝试孤立地从整张图像的特征中识别每一种行人的属性,虽然这种方法取得了一定的效果,但是它忽视了行人属性的空间局部性和属性之间的关联关系,难以得到更高的识别精度。现有的cnn-rnn方法如jrl方法试图使用循环神经网络逐步挖掘行人属性之间的语义关联关系,如穿裙子的一般是女人等,在识别精度上较纯cnn方法有一定的提高。然而,这种方法只考虑了行人属性间的语义联系却忽视了属性的空间局部性。行人的很多属性的焦点集中在图像的某一个区域里,例如是否戴眼镜和是否留长发都只决定于行人头部区域的视觉特征,其他区域用处不大。如果将这种空间的局部性考虑到行人属性识别模型的构建过程当中去,在识别头部属性的时候高亮头部区域,忽视背景噪声的干扰,就可以大大提高行人属性识别精度。
技术实现要素:
为了解决上述技术问题,本发明提供一种基于循环神经网络注意力模型的行人属性识别网络,包括:
使用行人原始全身图像作为输入提取行人全身图像特征n(x)的第一卷积神经网络;
使用行人全身图像特征n(x)作为第一输入,上一时刻关注的属性组别的注意力热图at-1(x)作为第二输入,输出当前时刻所关注的属性组别的注意力热图at(x)和经过局部高亮的行人特征ht(x)的循环神经网络;
使用经过局部高亮的行人特征ht(x)作为输入,输出当前关注组别的属性预测概率的第二卷积神经网络。
进一步的,所述经过局部高亮的行人特征ht(x)是使用上一时刻关注的属性组别的注意力热图at-1(x)作用在行人全身图像特征n(x)上得到的,计算公式如下:
进一步的,对所述属性预测概率输出使用批正则化操作,以对抗属性正负例样本不平衡带来的识别误差。
进一步的,所述行人属性识别网络包括:
对于同一张行人原始全身图像的每一个不同的属性组别,循环神经网络的记忆单元状态由所有已经预测过的属性组别的局部高亮过的行人特征共同决定;
对于不同的预测时刻第一卷积神经网络共享权值;
对于不同的预测时刻第二卷积神经网络共享权值。
进一步的,所述行人属性识别网络使用加权sigmoid交叉熵损失函数进行训练,所述损失函数如下:
wf=exp(pj)
上述公式中,pj代表属性j的正例数量在训练集中的占比,wj代表正例样本的学习权重,
本发明还提供一种基于循环神经网络注意力模型的行人属性识别技术,包括:
s1.获取一定数量的具有待识别属性的行人图像,并对图像是否具有某种或某些属性进行标注,获取可以用来训练行人属性识别效果的数据集;并对标注的所有属性按照语义和空间近邻关系进行分组;
s2.利用inception网络和卷积循环神经网络相结合,构建基于卷积循环神经网络注意力模型的行人属性识别网络;
s3.定义训练行人属性识别网络所需的损失函数,并使用步骤s1获取的训练数据集对步骤s2中构建的行人属性识别网络进行训练;
s4.使用经步骤s3训练得到的行人属性识别网络对待识别行人图像中的属性进行识别。
进一步的,所述步骤s2包括:
s2-1.使用inception网络对行人原始全身图像进行抽取得到行人全身图像特征n(x);
s2-2.在时刻i,利用行人全身图像特征n(x)使用卷积循环神经网络计算当前时刻所关注的属性组别的注意力热图at(x),并将历史信息存储在卷积循环神经网络的记忆单元中;
s2-3.使用注意力热图at(x)作用在行人全身图像特征n(x)上得到经过局部高亮的行人特征ht(x),计算公式如下所示:
s2-4.使用经过局部高亮的特征ht(x)对第t组属性进行属性识别,输出本组属性预测概率。
进一步的,所述步骤s3定义的损失函数如下所示:
wj=exp(pj)
上述公式中,pj代表属性j的正例数量在训练集中的占比,wj代表正例样本的学习权重,
与现有技术相比,本发明的有益效果在于:
本发明利用卷积循环神经网络注意力模型挖掘行人属性区域空间位置的关联关系,更加准确地高亮图像中属性对应区域的位置,实现了更高的行人属性识别精度。
附图说明
图1是基于循环神经网络注意力模型的行人属性识别网络的结构图。
具体实施方式
实施例1
一种基于循环神经网络注意力模型的行人属性识别网络,如图1所示,包括:
使用行人原始全身图像作为输入提取行人全身图像特征n(x)的第一卷积神经网络;
使用行人全身图像特征n(x)作为第一输入,上一时刻关注的属性组别的注意力热图at-1(x)作为第二输入,输出当前时刻所关注的属性组别的注意力热图at(x)和经过局部高亮的行人特征ht(x)的循环神经网络;
使用经过局部高亮的行人特征ht(x)作为输入,输出当前关注组别的属性预测概率的第二卷积神经网络。
在本实施例提供的行人属性识别网络中,所述经过局部高亮的行人特征ht(x)是使用上一时刻关注的属性组别的注意力热图at-1(x)作用在行人全身图像特征n(x)上得到的,计算公式如下:
在本实施例提供的行人属性识别网络中,对所述属性预测概率输出使用批正则化操作,以对抗属性正负例样本不平衡带来的识别误差。
在本实施例提供的行人属性识别网络中,还包括:
对于同一张行人原始全身图像的每一个不同的属性组别,循环神经网络的记忆单元状态由所有已经预测过的属性组别的局部高亮过的行人特征共同决定;
对于不同的预测时刻第一卷积神经网络共享权值;
对于不同的预测时刻第二卷积神经网络共享权值。
在本实施例提供的行人属性识别网络中,所述行人属性识别网络使用加权sigmoid交叉熵损失函数进行训练,所述损失函数如下:
wj=exp(pj)
上述公式中,pj代表属性j的正例数量在训练集中的占比,wj代表正例样本的学习权重,
实施例2
一种基于循环神经网络注意力模型的行人属性识别技术,包括:
s1.获取一定数量的具有待识别属性的行人图像,并对图像是否具有某种或某些属性进行标注,获取可以用来训练行人属性识别效果的数据集;然后对标注的所有属性进行筛选,再将筛选获得的属性按照语义和空间近邻关系分组;
s2.利用inception网络和卷积循环神经网络相结合,构建基于卷积循环神经网络注意力模型的行人属性识别网络,具体包括:
s2-1.使用inception网络对行人原始全身图像进行抽取得到行人全身图像特征n(x);
s2-2.在时刻i,利用行人全身图像特征n(x)使用卷积循环神经网络计算当前时刻所关注的属性组别的注意力热图at(x),并将历史信息存储在卷积循环神经网络的记忆单元中;
s2-3.使用注意力热图at(x)作用在行人全身图像特征n(x)上得到经过局部高亮的行人特征ht(x),计算公式如下所示:
s2-4.使用经过局部高亮的特征ht(x)对第t组属性进行属性识别,输出本组属性预测概率;
s3.定义训练行人属性识别网络所需的损失函数,损失函数如下所示:
wj=exp(pj)
上述公式中,pj代表属性j的正例数量在训练集中的占比,wj代表正例样本的学习权重,
使用步骤s1获取的训练数据集对步骤s2中构建的行人属性识别网络进行训练;同时利用测试集对训练得到的行人属性识别网络进行测试;
s4.使用经步骤s3训练得到的行人属性识别网络在实际应用场景中对待识别行人图像中的属性进行识别。
下面以行人属性识别rap数据集为基础对本发明提供的行人属性识别技术进行详细说明。
(1)以行人属性识别rap数据集作为用来训练和测试行人属性识别效果的数据集。rap数据集是由中科院自动化所团队整理得到的行人属性数据集,该数据集使用26个摄像头对商场内的行人监控视频进行图像采集,通过对行人属性的上下文信息以及环境因素的分析,最终筛选出41,585张行人图像加入到该数据集中;并且对每张图像都标注了72个属性,包括视角信息、是否存在遮挡、身体部位信息等。
(2)对rap数据集中的72个属性进行筛选,筛选出需要使用的属性51个,并按照语义和空间近邻关系分为10组,具体如表1所示。
表1rap数据集中的51个属性以及对应的组别
(3)构建如图1所示的行人属性识别网络,该网络利用卷积循环神经网络进行不同分组下行人属性注意力模型的训练,利用注意力模型结合inception卷积神经网络结合进行行人属性识别。
(4)在训练集中计算每个属性标签,正例样本占所有样本的比例pj。
(5)定义训练行人属性识别网络所需的损失函数,并将(4)中计算得到的pj带入计算,具体如下:
wj=exp(pj)
(6)使用随机梯度下降算法行人属性识别网络,训练过程的超参数设置如下:
初始学习率:0.1,批大小(batchsize):64,每隔10000轮学习率下降到初始学习率的1/10,使用在imagenet图像分类任务上预训练好的深度模型作为行人属性识别模型的初值。
(7)在实际测试场景下,将待检测图像输入经步骤(6)训练得到的行人属性识别网络,该网络分10次输出对应步骤(2)中分组属性的预测概率向量,共51个。对于每一个属性对应的概率输出,如果该概率值大于0.5,则认为具有该属性,否则认为不具有该属性。对每一个属性的概率输出依次进行判断,最终输出一个对行人的所有51个属性的识别结果。
本发明提供的基于循环神经网络注意力模型的行人属性识别技术与现有的行人属性识别方法相比具有更高的识别精度。本发明提供的行人属性识别技术在目前两个主流的行人属性识别公开数据集上进行评测获得了比现有cnn方法和cnn-rnn方法更高的测评精度。
对行人属性识别精度一般采用ma(meanaccuracy,平均准确率)衡量属性识别算法的优劣,由于属性分布不均衡的特点,为了保证准确率计算结果的合理性,ma会针对每个属性分别计算正例和负例的准确率,取平均值作为属性识别的准确率,然后还会综合全部属性的准确率平均值,计算得到该属性最终的ma值。ma的计算公式如下:
其中,l代表属性的数量;pi代表正例的数量,tpi代表正确预测的正例的数量;ni代表负例的数量,tni代表正确预测的负例的数量。
本发明提出的行人属性识别技术的ma值相比于背景技术中提出的deepmar方法提高8.76%,相比于jrl方法提高3.35%。此外,本发明提出的行人属性识别技术是一个端到端训练预测的方法,在模型训练和属性预测的过程中非常简单、易用和高效,这是jrl方法所不具备的优势。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。