基于多分支特征表示的人物重识别方法与流程

文档序号:32784239发布日期:2023-01-03 16:56阅读:72来源:国知局
基于多分支特征表示的人物重识别方法与流程

1.本发明属于图像处理技术领域,具体涉及一种小视频场景下基于多分支特征表示的人物重识别方法。


背景技术:

2.随着第四代移动网络的普及,视频逐渐成为互联网中的主要信息载体。以小视频为主的娱乐视频app更是被广泛使用,成为当下最流行的信息交互方式。小视频是由用户自主拍摄、剪辑、并上传至相关平台的视频作品,它的时长比较短,一般在2分钟以内。由于小视频的内容丰富,主题新颖,它被各个年龄段的互联网用户所青睐。小视频的发展为互联网带来许多信息,如何让计算机来利用这些信息就是图像分析领域需要研究解决的问题。
3.在图像分析领域中,与人物相关的任务一直都是一个十分重要的研究领域。例如大型机场的人物重识别、游乐园中的智能寻人、安防系统中的犯罪监控系统等等。人物重识别能够为上述应用场景中的技术提供所需的人物特征,将人的关键表观部分如衣着、背包、发型、姿态等在图片或者视频中提取出来,因此人物重识别任务有着十分重要的研究价值和实用价值。
4.小视频场景下的人物重识别指的是通过计算机视觉技术,将一段视频中不同镜头内的人物帧序列通过重识别技术连接起来,得到该视频中每个人物的帧序列集合。当前的人物重识别研究都是针对的监控录像场景,其中的人物运动姿态相对单一,场景比较简单,人物的图像也较为完整。而小视频场景下的人物重识别则更为复杂,人物入镜不完整、障碍物遮挡、人物姿态复杂等都是小视频场景下人物重识别所特有的挑战。
5.近年来,随着技术的发展,特别是深度学习的进步,人物重识别取得了长足的进步。深度学习方法大致也可以分为完整人物重识别、局部人物重识别和遮挡人物重识别。完整人物重识别也是最早将深度学习引入人物重识别的子任务,通过提取图像的全局特征,来实现人物之间的特征相似度匹配。因为使用了卷积神经网络来代替之前的手动设计的特征提取方式,提高了特征的表达能力使得重识别的效果相较于传统方法有了很大的提高,代表方法为ide net、apr。然而,完整人物重识别技术无法解决存在遮挡场景的人物重识别问题。局部人物重识别任务主要通过人工裁剪的方式来去除干扰遮挡,然后将裁剪后的人物图像与完整人物图像进行相似度比对,主要方法有dsr,sfr等。遮挡人物重识别则直接通过人体姿态关键点检测的额外辅助来直接进行两张遮挡人物图像之间的相似度比较,主要方法有honet,fpr等。
6.上述传统方式处理的场景比较简单,有的甚至需要大量的人工操作来做图像预处理,容易引入大量的干扰误差,无法处理小视频场景中的复杂遮挡、复杂姿态、局部入镜等问题。


技术实现要素:

7.为解决上述问题,提供一种干扰误差小、能够处理复杂场景的重识别方法,本发明
采用了如下技术方案:
8.本发明提供了一种基于多分支特征表示的人物重识别方法,用于对小视频中复杂场景下的人物进行重识别,其特征在于,包括:步骤s1,获取待处理的小视频,将小视频的数据解析成逐帧的图像序列;步骤s2,将图像序列输入至预定检测模型,得到小视频的每帧图像中的人物包围框;步骤s3,将人物包围框输入至预定追踪模型,获取每个镜头内的人物帧序列;步骤s4,将人物帧序列输入至已完成预先训练的人物重识别模型中,使得人物帧序列连接起来进行推理,从而获得小视频中与人物id相对应的每个人物的帧序列集合,其中,人物重识别模型包含骨干网络、多分支特征表示网络以及一个预定人体姿态估计网络;人物重识别模型的预先训练过程包括以下步骤:步骤a1,收集已公开的人物图像,并对人物图像进行数据增强处理;步骤a2,由预定人体姿态估计网络获得与人物图像对应的关键点热力图和关键点置信度;步骤a3,将人物图像输入至骨干网络,获得对应的全局人物特征;步骤a4,将全局人物特征和关键点热力图输入至多分支特征表示网络,通过多分支特征表示网络的多个特征分支输出的特征向量组成对应的特征集合;步骤a5,对多分支特征表示网络以及骨干网络采用交叉熵损失监督的方式进行网络训练并计算多分支特征表示网络的三个特征分支的交叉熵损失;步骤a6,重复步骤a5直至判断网络训练满足预定终止条件;步骤a7,得到完成网络训练的人物重识别模型。
9.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,多分支特征表示网络包含多分支特征提取网络,多分支特征提取网络由3个特征分支组成,分别为姿态引导的全局特征分支、区域特征分支以及姿态特征分支。
10.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,数据增强处理具体包括:随机平移、随机旋转正负15
°
、颜色风格转换以及图像随机加盐噪声。
11.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,预定终止条件为网络训练即步骤a5运行了60次。
12.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,预定检测模型为公开的训练好的检测模型yolov3,预定追踪模型为公开的训练好的追踪模型deepsort,预定人体姿态估计网络为公开的训练好的人体姿态估计模型alphapose;人体姿态估计模型alphapose引导特征集合进行人物的相似度计算,并通过加权的方式得到总的人物相似度。
13.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,人物帧序列中的人物图像为待查询人物图像,推理是通过关键点热力图与关键点置信度引导人物重识别模型对特征集合进行各自的可见区域匹配,从而计算出待查询人物图像与预定的检索库人物图像的相似度距离,包括以下步骤:步骤b1,计算待查询人物图像与预定的检索库人物图像的全局特征分支输出结果之间的距离;步骤b2,计算待查询人物图像与预定的检索库人物图像的区域特征分支输出结果在公共可视区域之间的距离;步骤b3,计算待查询人物图像与预定的检索库人物图像的姿态特征分支输出结果在共享可视姿态集合之间的距离;步骤b4,将每个特征分支最后的相似度距离通过加权的计算方式得到待查询人物图像与预定的检索库人物图像最终的相似度距离。
14.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样
的技术特征,其中,特征集合为由多个特征分支提取的人物特征组成的各自的特征集合:将姿态特征向量与全局特征向量在通道维度拼接得到基于姿态引导的全局特征集合;将全局特征进行均匀地水平切割,得到区域特征集合;根据关键点热力图与全局特征生成对应的姿态特征,并相应地组成头部、双手、双腿的姿态特征集合。
15.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,交叉熵损失为在每一个特征分支的输出上计算损失。
16.根据本发明提供的一种基于多分支特征表示的人物重识别方法,还可以具有这样的技术特征,其中,交叉熵损失的计算公式为:
[0017][0018]
式中,是预测的人物id标签,y是输入图像的真实人物id标签。
[0019]
发明作用与效果
[0020]
根据本发明提供的一种基于多分支特征表示的人物重识别方法,该方法构建了基于多分支特征表示的人物重识别模型,将待查询人物图像输入至该人物重识别模型中,得到与人物帧序列集合对应的预测人物id。该人物重识别模型包含骨干网络、多分支特征表示网络以及一个预定人体姿态估计网络。由于该方法利用多个分支来提取人物不同层次的特征,并基于抽象分割和引入语义信息将不同的特征划分成为特征集合的特点,使得本发明在小视频等复杂场景下对人物的特征表示变得更加鲁棒。还由于该方法通过人体姿态估计网络来引导每个特征集合进行各自的可见区域匹配,极大程度地降低了遮挡、姿态复杂等因素造成的干扰,从而能够得到一个匹配结果更好的人物重识别模型。进一步的由于该方法运用的多分支特征表示网络与其它网络相比可以更好的提取人物图像中从低层到高层的全局信息、局部信息、以及姿态语义信息,使得网络的特征提取性能更佳。此外该方法通过姿态估计模型输出的关键点置信度来判断该关键点是否处于遮挡区域,减小了可见度置信度的计算复杂度,进而提高了人物重识别的效率。
附图说明
[0021]
图1是本发明实施例中的基于多分支特征表示的人物重识别方法的流程图;
[0022]
图2是本发明实施例中的人物重识别模型的预先训练流程图;
[0023]
图3是本发明实施例中的网络训练的示意图;
[0024]
图4是本发明实施例中的姿态引导的全局特征分支结构图;
[0025]
图5是本发明实施例中的姿态特征分支结构图;
[0026]
图6是本发明实施例中的区域特装分支结构图;
[0027]
图7是本发明实施例的实验结果与在公开的occluded-duke数据集上的方法实验结果对比图。
具体实施方式
[0028]
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种基于多分支特征表示的人物重识别方法作具体阐述。
[0029]
《实施例》
[0030]
为减少复杂场景下遮挡、复杂人物姿态以及人物局部入镜导致的干扰噪声,提升人物重识别的匹配准确率,本发明提供了一种基于多分支特征表示的人物重识别方法。采用的具体技术方案是:
[0031]
构建基于多分支特征表示的人物重识别模型,该模型包含骨干网络、多分支特征表示网络以及一个预定人体姿态估计网络。
[0032]
本实施例中,预定人体姿态估计网络为公开的已训练好的人体姿态估计模型alphapose。
[0033]
该人物重识别模型的输入为人物图像,输出为预测的人物id。
[0034]
图1是本发明实施例中基于多分支特征表示的人物重识别方法的流程图。
[0035]
如图1所示,基于多分支特征表示的人物重识别方法包括以下步骤:
[0036]
步骤s1,获取待处理的小视频,将小视频的数据解析成逐帧的图像序列。
[0037]
步骤s2,将图像序列输入至预定检测模型,得到小视频的每帧图像中的人物包围框。
[0038]
本实施例中,预定检测模型为公开的训练好的检测模型yolov3。
[0039]
步骤s3,将人物包围框输入至预定追踪模型,获取每个镜头内的人物帧序列。
[0040]
本实施例中,预定追踪模型为公开的训练好的追踪模型deepsort。
[0041]
步骤s4,将人物帧序列输入至已完成预先训练的人物重识别模型中,使得人物帧序列连接起来进行推理,从而获得小视频中与人物id相对应的每个人物的帧序列集合。
[0042]
本实施例中,人物重识别模型输入的人物帧序列通过平均池化的方式获得帧序列的平均特征向量作为人物重识别模型的输入。
[0043]
接下来通过预先训练对人物重识别模型进行训练,本实施例中,人物重识别模型的训练步骤采用多特征表示分支共同训练的方式,解决复杂场景下人物表征问题。
[0044]
图2是本发明实施例中的人物重识别模型的预先训练流程图,图3是本发明实施例中的网络训练的示意图。
[0045]
如图2和图3所示,人物重识别模型的预先训练包括以下步骤:
[0046]
步骤a1,收集已公开的人物图像,并对人物图像进行数据增强处理。
[0047]
本实施例中,数据增强处理具体包括:随机平移、随机旋转正负15
°
、颜色风格转换以及图像随机加盐噪声。
[0048]
步骤a2,由预定人体态估计网络获得与人物图像对应的关键点热力图和关键点置信度。
[0049]
本实施例中,人体姿态估计模型alphapose的训练数据为已公开的人体关键点数据集coco,输出为人物图像的18个关键点热力图以及相应的18个关键点置信度。
[0050]
本实施例中,关键点的表示如下:
[0051][0052]
式中,kpj表示第j个人体关键点,cxj,cyj则表示该关键点的坐标,是这个关键点的置信度,γ是本实施例中设置的关键点置信度阈值。具体地:
[0053]
利用检测到的关键点来生成以关键点坐标为中心的二维高斯分布的热度图,当kpj为0时,相对应的热度图的值也设置为0,将生成的热力图表示为mj,同时使用线性插值法将热力图降采样到原图像帧1/16的尺寸。
[0054]
步骤a3,将人物图像输入至骨干网络,获得对应的全局人物特征。
[0055]
本实施例中,骨干网络采用resnet50网络结构,同时在其基础上做了一些改动:去除了最后的平均池化层和全连接层,并且将卷积层conv4_1的参数从原本的2设置成1,同时采用在公开的imagenet上训练好的模型来初始化骨干网络的模型参数。
[0056]
步骤a4,将全局人物特征和关键点热力图输入至多分支特征表示网络,通过多分支特征表示网络的多个特征分支输出的特征向量组成对应的特征集合。
[0057]
本实施例中,多分支特征表示网络包含多分支特征提取网络,该多分支特征提取网络由3个特征提取分支组成,这3个特征提取分支分别为姿态引导的全局特征分支、区域特征分支以及姿态特征分支。
[0058]
特征向量由上述三个不同的特征分支得到,包含全局特征向量、姿态特征向量以及区域特征向量。具体地:
[0059]
图4是本发明实施例中的姿态引导的全局特征分支结构图。
[0060]
如图4所示,在全局特征分支中,首先,将骨干网络输出的全局特征f通过一个平均池化层(即图4中avgpool)进行一个下采样的操作得到初始的全局特征向量fg。
[0061]
然后,依次将人体姿态估计模型输出的关键点热力图mj与fg进行点乘操作,得到对应的姿态引导的特征图
[0062]
接下来,对于每个姿态引导的特征图会经过一个平均池化层来产生一个尺寸为1x2048的姿态特征向量,分别对应人物某个关节点的姿态特征信息。
[0063]
最后通过把所有的姿态特征向量在通道维度进行拼接,获得尺寸为18x2048的姿态特征图,将姿态特征图经过一个平均池化层后的特征向量与骨干网络输出的全局特征拼接起来得到f
cat
,再经过一个全连接网络,得到尺寸为1x256的姿态引导的全局特征向量f
global

[0064]
图5是本发明实施例中的姿态特征分支结构图。
[0065]
如图5所示,在姿态特征分支中,输入的数据为18张姿态特征图,根据关键点对应的人体部位,将18个关键点划分为头部集合、双臂集合以及双腿集合,每个集合包含6个关键点。具体地:
[0066]
首先,将同属于一个关键点集合的拼接起来,经过一个平均池化层(即图5中avgpool),输出的结果与骨干网络输出的全局特征在通道层面拼接起来得到其中i指代关键点集合。
[0067]
然后,被送入一个全连接网络,得到三个尺寸为1x256的姿态特征向量
[0068]
图6是本发明实施例中的区域特征分支结构图。
[0069]
如图6所示,在区域特征分支中,首先,将骨干网络resnet50输出的全局特征f按水平方向切分成p个区域,用fi表示划分的区域的局部特征图。
[0070]
然后,将这p个局部特征图经过一个平均池化层(即图6中avgpool)和一个尺寸为
1x1的卷积层,得到256维的区域特征向量
[0071]
特征集合为由上述这三个特征向量组成的各自的集合。具体地:
[0072]
将姿态特征向量与全局特征向量在通道维度拼接得到基于姿态引导的全局特征集合;
[0073]
将全局特征进行均匀地水平切割,得到区域特征集合;
[0074]
根据关键点热力图与全局特征生成对应的姿态特征,并相应地组成头部、双手、双腿的姿态特征集合。
[0075]
步骤a5,对多分支特征表示网络以及骨干网络采用交叉熵损失监督的方式进行网络训练并计算多分支特征表示网络的三个特征分支的交叉熵损失;
[0076]
本实施例中,交叉熵损失的计算公式为:
[0077][0078]
式中,是预测的人物id标签,y是输入图像的真实人物id标签。
[0079]
对于全局特征分支,其损失计算公式为:
[0080][0081]
式中,是全局特征分支的预测结果,y则是输入图像的真实人物id标签。
[0082]
对于区域特征分支,其损失计算公式为:
[0083][0084]
式中,p代表本文划分的区域总个数,表示第i个区域的区域局部特征的预测结果,而y是输入图像的真实人物id标签。
[0085]
对于姿态特征分支,其损失计算公式为:
[0086][0087]
式中,表示姿态特征分支中i部分的预测结果,y则表示输入图像的真实人物id标签。
[0088]
总的损失计算公式为:
[0089]
loss=λ(lr+l
p
)+(1-λ)lg[0090]
式中,λ是一个平衡全局特征分支与局部特征分支(姿态特征分支、区域特征分支)的损失贡献的超参数,l
p
代表姿态特征分支的交叉熵损失,lg代表全局特征分支的交叉熵损失。
[0091]
步骤a6,重复步骤a5直至判断上述网络训练满足预定终止条件。
[0092]
本实施例中,预定终止条件为判断该网络训练即步骤a5是否运行了60次,若判断为是,则该网络训练结束,并将完成最后一次网络训练的模型作为经过预先训练的人物重
识别模型;若判断为否,则重复执行步骤a5直到满足预定终止条件。
[0093]
步骤a7,得到完成网络训练的人物重识别模型。
[0094]
本实施例中,人物帧序列中的人物图像为待查询人物图像,推理是通过关键点热力图与关键点置信度引导上述已完成预先训练的人物重识别模型对三个特征集合进行各自的可见区域匹配,从而计算出待查询人物图像与检索库人物图像的相似度距离,
[0095]
包括以下步骤:
[0096]
步骤b1,计算待查询人物图像与检索库人物图像的全局特征分支输出结果之间的距离。
[0097]
本实施例中,对于全局特征分支,集合中只有一个元素,直接进行相似度距离计算,全局特征距离如下:
[0098][0099]
式中,d表示距离度量函数(本实施例中,采用余弦距离),分别表示全局特征分支中待查询人物图像与检索库人物图像的特征向量。
[0100]
步骤b2,计算待查询人物图像与检索库人物图像的区域特征分支输出结果在公共可视区域之间的距离。
[0101]
本实施例中,对于姿态特征分支,把关键点归入三个人体区域:head,arms,legs,设定属于某一个姿态区域的关键点序号集合为s
head
,s
arms
,s
legs
,每个集合对应的姿态可见标签设为具体的设定如下:
[0102][0103]
式中,j表示的是关键点的序号,kpj代表的是第j个关键点所对应的坐标,i表示的是姿态区域的编号,si表示的是姿态区域i所包含的关键点序号集合,然后将姿态区域i之间的相似度距离用表示:
[0104][0105]
式中,表示的是姿态分支中根据姿态区域i的特征表示所计算出来的距离,d表示距离度量函数(本实施例中,采用余弦距离),分别代表的是姿态特征分支中待查询人物图像与检索库人物图像在姿态区域i的特征向量。
[0106]
步骤b3,计算待查询人物图像与检索库人物图像的姿态特征分支输出结果在共享可视姿态集合之间的距离。
[0107]
本实施例中,对于区域特征分支,将人物图像水平划分为p个区域,对于每个区域i,用来表示每个区域对应的区域可见标签:
[0108]
[0109]
式中,cyj代表关键点kpj的纵坐标,i表示水平划分的第i个区域,h代表人物图像的高度,将区域特征分支的水平区域i之间的距离表示为
[0110][0111]
式中,是根据第i个水平区域的局部特征所计算出来的相似距离,d是人为选择的距离度量函数(本实施例中,采用余弦距离),分别代表的是区域特征分支中待查询人物图像与检索库人物图像在第i个水平区域的特征向量。
[0112]
步骤b4,将每个特征分支最后的相似度距离通过加权的计算方式得到待查询人物图像与检索库人物图像之间最终的相似度距离。
[0113]
本实施例中,两张人物图像之间总的距离度量公式为:
[0114][0115]
式中,dg表示根据全局特征计算的余弦距离,表示根据第i个水平区域的特征向量所计算出来的距离,表示的是姿态分支中根据姿态区域i的特征表示所计算出来的距离,p代表水平划分区域的数量,分别代表待查询人物图像和检索库人物图像在第i个区域的可见度标签,分别代表待查询人物图像和检索库人物图像在姿态区域i的可见度标签。具体地:
[0116]
dist的值越大,待查询人物图像和检索库人物图像之间的相似度也越大。
[0117]
对于区域特征集合,只有当两张人物图像在某个区域的可见度得分都为1时,才将该区域的相似度纳入考量。
[0118]
同理,对于姿态特征集合,只有当两张人物图像在某个身体部位的可见度得分都为1时,才会将该身体部位的相似度纳入考量。
[0119]
本实施例中,上述检索库人物图像的特征向量预先通过人体姿态估计网络以及多分支特征表示网络得到。
[0120]
图7是本发明实施例的实验结果与在公开的occluded-duke数据集上的方法实验结果对比图。
[0121]
本实施例中,对基于一种多分支特征表示的人物重识别模型进行常规测试,得到人物重识别测评指标如下:rank-1为53.1,rank-5为69.0,rank-10为75.1,map为40.1,由图7可看出,已公开的occluded-duke数据集上的方法进行测评时,本发明实施例提供的一种基于多分支特征表示的人物重识别方法的测评效果均高于在其他常规的人物重识别方法的测评效果。
[0122]
需要说明的是,rank-n、map为人物重识别常用测评指标,rank-n表示搜索结果中最靠前(置信度最高)的n张图有正确结果的概率,map表示pr曲线下的面积(pr曲线:所有样本的precision和recall绘制在图里)。
[0123]
实施例作用与效果
[0124]
根据本实施例提供的一种基于多分支特征表示的人物重识别方法,该方法构建了基于多分支特征表示的人物重识别模型,将待查询人物图像输入至该人物重识别模型中,得到与人物帧序列集合对应的预测人物id。该人物重识别模型包含骨干网络、多分支特征表示网络以及一个预定人体姿态估计网络。由于于该方法利用多个分支来提取人物不同层次的特征,并基于抽象分割和引入语义信息将不同的特征划分成为特征集合的特点,使得本实施例中的人物重识别模型在小视频等复杂场景下对人物的特征表示变得更加鲁棒。还由于该方法通过人体姿态估计网络来引导每个特征集合进行各自的可见区域匹配,极大程度地降低了遮挡、姿态复杂等因素造成的干扰,让人物重识别模型更加关注未被遮挡的人物区域,同时弱化了人物复杂姿态带来的特征不对齐问题,从而能够得到一个匹配结果更好的人物重识别模型。进一步的由于该方法运用的多分支特征表示网络与其它网络相比可以更好的提取人物图像中从低层到高层的全局信息、局部信息以及姿态语义信息,使得网络的特征提取性能更佳。此外该方法通过姿态估计模型输出的关键点置信度来判断该关键点是否处于遮挡区域,减小了可见度置信度的计算复杂度,进而提高了人物重识别的效率。
[0125]
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1