一种基于cnn和卷积lstm网络的行人再识别方法

文档序号:10725668阅读:233来源:国知局
一种基于cnn和卷积lstm网络的行人再识别方法
【专利摘要】本发明提出了一种基于CNN和卷积LSTM网络的行人再识别方法,属于图像处理技术领域。首先用一组CNN提取编码在帧中的空间信息,再利用卷积LSTM构成的编码?解码框架,得到帧级别的深度时空外观描述器,最后使用Fisher向量编码,使描述器可以描述视频级别的特征。通过这种方式可以提取一种特征表示,这一特征表示能将视频当作排列好的序列,同时保持其空间信息,建立精确的模型。
【专利说明】
一种基于CNN和卷积LSTM网络的行人再识别方法
技术领域
[0001] 本发明涉及视频图像处理领域,特别涉及一种基于CNN和卷积LSTM网络的行人再 识别方法。
【背景技术】
[0002] 行人再识别是指,从无重叠的摄像机视图中识别单个行人,即确认不同位置的摄 像机在不同时间捕捉到的是否为同一个行人。这一问题在视频监控领域有重要的现实价 值。
[0003] 通常通过匹配空间外观特征的方式进行行人再识别。匹配的方法包括:基于一对 单帧的行人图像,匹配它们的颜色和强度梯度直方图。但是,单帧的外观特征本质上很容易 改变,因为光照,位置,姿势和视角不同都会导致人体外观的巨大变化。此外,匹配从不同人 体部位提取出的空间外观特征本质上是空间校正的一种形式,而在一个动作的不同阶段, 人体部位也会呈现不同的外观。基于多帧行人图像的算法虽然提高了匹配的稳定性,但依 然只是运用了一部分视频中的信息,它们的效果取决于识别对应帧的机制是否表现良好, 即是否能识别不同时间,地点和视角的视频的对应帧。
[0004] 基于视频的行人再识别提供了一种更加自然的在监控系统下识别行人的方法。监 控系统中很容易捕捉行人的视频,与视频中的一部分图像相比,完整的视频蕴含了更丰富 的信息。在以往的研究中,时空信息并没有很好地运用于行人再识别。传统的基于视频解决 行人再识别问题的方式为:选取最能表示特征的帧或是手动调整时间序列,而后进行低等 级的特征提取,这种方法的最大缺点在于,它不能精确地从视频序列中学习特征。此外,该 方法在提取低水平特征中表现出色,但是这些特征与行人外观的关系并不紧密,尤其难于 区分不同人的外观特征。

【发明内容】

[0005] 本发明针对现有技术存在的不足,提出一种基于CNN和卷积LSTM网络的行人再识 别方法,既能提升行人再识别的准确度,又能应用于多种复杂的场景中。
[0006] 本发明通过以下技术方案实现:
[0007] -种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN 提取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述 器,使用Fisher向量编码,使描述器可以描述视频级别的特征;具体包括如下步骤:
[0008] 步骤A:采集视频图像。
[0009] 步骤B:视频图像预处理,提取步行周期。
[0010] 步骤C:训练CNN〇
[0011 ] 步骤D:训练卷积LSTM网络。
[0012] 步骤E:提取CNN特征:
[0013] CNN结构包含5个卷积层和2个全连接层。卷积层用conv表示,全连接层用fc表示, 下标为该层在整个网络中的位置。。卷积层的卷积核分别设置为:96(11 X 11),256(5X5), 384(3\3),384(3\3)和256(3\3)。将提取的步行周期送入完成训练的0顺,从(:〇1^5输出 CNN特征。
[0014] 步骤F:编码和解码:
[0015] LSTM编码-解码框架包含一个编码网络和一个解码网络,每个网络各有两个的卷 积LSTM层。在conv5的最后,每个输入序列都能用帧级别的256个特征映射表示。将CNN特征 送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定长度的表示。复 制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码,解码LSTM将编码 网络得到的表示展开。
[0016]步骤G:视频级别特征提取:
[0017] 将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用0 = {(yk,〇k,JTk),k =1,2,'",(:}表示具有(:个组成部分的高斯混合模型(61^)41{,〇1{和 311{分别为帧级别下第(3个 组成部分的均值、方差和先验参数,上述组成部分从步骤F中LSTM重新构建的帧级别的描述 符X=[ X1,…,Xt]中得到。利用LSTM网络从视频中提取的深度描述符,计算从第c个组成部分 中获取的均值和方差的偏移向量uk和vhFisher向量由所有C个组成部分的uk和vk相连接而 构成,可以描述视频级别的特征,为后续各类处理提供条件。
[0018] 步骤H:特征比对:
[0019] 将两个相机的视频提取的特征进行比对,判断视频中是否同一行人。
[0020] 本发明采用的技术方案与现有的技术相比,有如下技术效果:
[0021] 1)提出用于行人再识别的深度时空视频表示,提取视频中更丰富的信息。
[0022] 2)使用一种用于解决基于视频的行人再识别问题的卷积LSTM网络,可以表示复杂 的外观和动作变化。
[0023] 3)提取的特征与行人外观的关系紧密,有助于区分不同人的外观特征。
[0024] 4)本发明创新性地设计"CNN+卷积LSTM"结构,将步骤E和步骤F配合起来,从而达 到提取行人视频中空间和时间特征的目的。
【附图说明】
[0025]图1是一种基于CNN和卷积LSTM网络的行人再识别方法的整体流程图 [0026]图2是一种基于CNN和卷积LSTM网络的行人再识别方法的网络结构图 [0027]图3是iLIDS-VID中不同相机视图下相同行人的对比图
[0028]图4是来自iLIDS-VID的输入序列(上图)与一种基于CNN和卷积LSTM网络的行人再 识别方法的重构序列(下图)的对比图
【具体实施方式】
[0029]本发明方法方案:给出一系列视频中连续的行人图像,首先利用CNN中帧级别的卷 积层提取其CNN特征,以此捕捉外观中复杂的变化,再将提取出的特征送到卷积LSTM编码_ 解码框架中,其中编码框架利用局部自适应核捕捉一个序列中行人的动作,从而将输入序 列编码为隐藏表示,而后,利用解码器将编码框架输出的隐藏表示解码为一个序列。经过 LSTM的编码和解码,得到帧级别的深度时空外观描述器。最后使用Fisher向量编码,使描述 器可以描述视频级别的特征。
[0030] 为使本发明中提出的基于CNN和卷积LSTM网络的行人再识别方法更加清楚,下面 以本发明在iLID-VID数据集上的使用为例,结合附图和【具体实施方式】对本发明进行进一步 的说明。
[0031] 图1为本发明的整体流程图,包括视频采集、预处理、训练CNN、训练LSTM网络、提取 CNN特征、编码解码、视频级别特征和特征比对提取八个部分。
[0032]步骤A.视频采集:从iLID-VID数据集中采集视频。该数据集包含从300个随机采样 的行人中提取的600个视频序列,这些视频序列建立在两个无重叠的相机视图的基础上,利 用i-LIDS多镜头摄像机追踪场景进行拍摄。
[0033]步骤B.预处理:使用流能剖面(FEP)信号识别一个步行周期。通过检测视频序列的 FEP的局部极小值或极大值,并在极大值或极小值附近提取有序的数帧,得到一个完整的步 行周期。
[0034] 步骤C.训练CNN:分为预训练和调整两阶段。
[0035] 预训练阶段:使用ImageNet数据集预训练CNNXNN结构包含5个卷积层和2个全连 接层。卷积层用conv表示,全连接层用fc表示,下标为该层在整个网络中的位置。每一层利 用整流线性单元(ReLU)作为非线性激活函数。移除两个全连接层,在 C〇nvdPfC6之间引进一 个差值层。预训练时采用随机梯度下降法(该技术已属于现有技术)。
[0036]调整阶段:完成预训练后,用行人再识别数据集中的视频训练数据对参数进行调 整。用一对来自无重叠相机视图的视频序列Q和〇作为输入,Q和泛拍摄的画面来自不同的相 机,Q和巧是否为同一个人的视频序列是已知的。卷积层实施协同卷积,在两个视图间共享权 值。输入序列经过(301^ 5后,成为帧级别的特征映射。用差值层计算特征差异,特征差异经过 全连接层fc6和fc7以及用于分类的softmax层(softmax层是现有技术),得到判断视频序列 (仏是否描述同一个人的二值向量,与真值比较,调整网络参数。
[0037] 步骤D.训练卷积LSTM网络:将每个视频序列分段,穿过LSTM编码-解码框架,重新 构建特征(编码LSTM),随后构造与输入序列相同数目的序列(解码LSTM),利用交叉熵损失 计算预测帧和真实帧的差异,使用反向传播法和RMSProp训练,令交叉熵损失最小。
[0038] 步骤E .提取CNN特征:将步骤B中提取的步行周期送入完成步骤C训练的CNN,从 conv5输出CNN特征,得到帧级别的特征映射。
[0039] 步骤F.编码和解码:将步骤E中提取的CNN特征送入完成步骤D训练的两层卷积 LSTM编码网络,复制编码网络的最后状态和细胞输出,作为步骤D训练的两层卷积LSTM解码 网络的初始状态,进行解码,解码LSTM将编码网络得到的表示重新展开为特征图。
[0040] 步骤G.视频级别特征提取:将步骤F解码得到的特征图展开成向量,再用Fisher向 量编码,进行视频级别的特征提取。
[0041] 步骤H.特征比对:用计算余弦相似度的方式,比较两段视频经过上述步骤得到的 一组特征向量。当特征向量的余弦相似度大于阈值时,认为不是同一个人,当余弦相似度小 于或等于阈值时,认为是同一个人。
[0042]所述步骤D中,卷积LSTM的隐藏状态用以下等式计算:
[0043 ] i t = 〇 (ffxi*Xt+ffhi*Ht-i+ffci °C t-i+bi)
[0044] f t = 〇 (ffxf *Xt+ffhf *Ht-i+ffcf °C t-i+bf)
[0045] Ct = ft°Ct-i+it° tanh(Wxc*Xt+Whc*Ht-i+bc)
[0046] ot = 〇 (ffx〇*Xt+ffh〇*Ht-i+ffc〇 °C t-i+b〇)
[0047] Ht = 〇t° tanh(Ct)
[0048] 上述公式中符号的含义如下:
[0049] Xi,X2,…,Xt为卷积LSTM的输入,&,…,Ct为细胞输出,Η!,…,H t为隐藏状态,it,ft, 〇t分别为输入门,遗忘门,输出门,它们的下标表不时间,即位于第几帧。Wxi,Whi,Wc;i,Wxf,Whf, Wcf,wxc,Whc,Wx。,Wh。,1。为步骤D训练得到的权值,bi,bf,be,b。为步骤D训练得到的偏置。
[0050] 它们都是三维张量。*表示卷积滤波,°表示Hadamard内积,σ表示sigmoid函数 (sigmoid函数也是现有技术)。
[0051] 所述步骤G中,从第c个组成部分中获取的均值和方差偏移向量的计算方法为:
[0052]上述公式中符号的含义如下:
[0053] Θ = {(yk,〇k,Jik),k= 1,2,…,C}表示具有C个组成部分的高斯混合模型(GMM),yk, 〇k和3?分别为帧级别下第C个组成部分的均值、方差和先验参数,Xi为步骤F中LSTM重新构建 的帧级别的描述符,N为帧数。Uk和vk为第c个组成部分中获取的均值和方差的偏移向量。q ki 是后验概率。
【主权项】
1. 一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在于:所述网络使用CNN提 取空间信息,用卷积LSTM网络构成的编码-解码网络,提取帧级别的深度时空外观描述器, 使用Fisher向量编码,使描述器可以描述视频级别的特征; 具体包括如下步骤: 步骤A:采集视频图像; 步骤B:视频图像预处理,提取步行周期; 步骤C:训练CNN; 步骤D:训练卷积LSTM网络; 步骤E:提取CNN特征: 将提取的步行周期送入完成训练的CNN,从conv5输出CNN特征,每个输入序列都能用帧 级别的256个特征映射表示; 步骤F:编码和解码: 将CNN特征送入编码网络,编码LSTM用隐藏状态张量进行编码,将输入序列压缩为固定 长度的表示;复制编码网络的最后状态和细胞输出,作为解码网络的初始状态,进行解码, 解码LSTM将编码网络得到的表示展开; 步骤G:视频级别特征提取: 将LSTM解码后的特征图展开为向量,使用Fisher向量编码,用Θ ={(yk,〇k,Jik),k=l, 2,…,C}表示具有C个组成部分的高斯混合模型(GMM),yk,〇k和3ik分别为帧级别下第c个组成 部分的均值、方差和先验参数,上述组成部分从LSTM重新构建的帧级别的描述符中得到;利 用LSTM网络从视频中提取的深度描述符,计算从第c个组成部分中获取的均值和方差的偏 移向量Uk和vk; Fisher向量由所有C个组成部分的Uk和vk相连接而构成,可以描述视频级别 的特征; 步骤Η:特征比对: 将两个相机的视频提取的步骤G获得的特征进行比对,判断视频中是否同一行人。2. 根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在 于:所述步骤C和E中,CNN结构包含5个卷积层和2个全连接层。卷积层的卷积核分别设置为: 96(11X11),256(5X5),384(3X3),384(3X3)和 256(3X3)。3. 根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在 于:所述步骤D和F中,LSTM编码-解码框架包含一个编码网络和一个解码网络,每个网络各 有两个的卷积LSTM层。4. 根据权利要求1所述的一种基于CNN和卷积LSTM网络的行人再识别方法,其特征在 于:步骤G中,使用Fisher向量编码,描述视频级别的特征,为后续各类处理提供条件。
【文档编号】G06K9/00GK106096568SQ201610450898
【公开日】2016年11月9日
【申请日】2016年6月21日
【发明人】尤鸣宇, 沈春华, 徐杨柳
【申请人】同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1