一种基于Transformer的跨模态行人重识别方法

文档序号:35699877发布日期:2023-10-11 23:25阅读:83来源:国知局
一种基于Transformer的跨模态行人重识别方法

本发明涉及人工智能,具体为一种基于transformer的跨模态行人重识别方法。


背景技术:

1、行人重识别旨在多个不相交的摄像头中检索一个特定的行人。现有的大多数研究都基于一组强假设,即在检索图像中的行人都包含了完整的人体躯干,且都为单一模态的可见光(rgb)图像。但是在现实世界中,为改善低光照条件下rgb摄像头的拍摄质量不佳问题,红外(ir)模式的摄像头被引入,在拍摄时会得到两种拍摄模态的数据,传统的模型对不同模态的图像进行匹配时面临失效的问题。上述情景在现实中普遍存在且难以避免,这使得现实世界中的行人重识别面临诸多挑战,研究应对上述情形的方法在科研和工业领域都有深远的意义。

2、基于跨模态的行人重识别在近年来受到了各界的广泛关注,现有的跨模态行人重识别先进方法基于模态共享特征学习路线展开,该类方法先对不同模态的数据提取各自对应的特征,然后再使用特征映射或模态解纠缠的思路学习模态共享特征,虽然该类方法的研究路线清晰;

3、但现有的模型一般较为复杂,且设计思路难以理解,缺乏一种高效且便捷的方法来处理跨模态行人图像数据,在众多的技术路线中,基于模态共享特征学习的策略是研究得最为广泛且匹配效果较好的一类,根据总结发现,目前少有基于纯vit的方法来对跨模态行人重识别任务展开研究。

4、因此,需要一种结构复杂度适中且能够提高跨模态图像对的匹配准确率的方法。


技术实现思路

1、本发明的目的在于提供一种基于transformer的跨模态行人重识别方法。

2、为实现上述目的,本发明提供如下技术方案:一种基于transformer的跨模态行人重识别方法,至少包括以下步骤:

3、s1:获取跨模态行人重识别数据集,并且对两种模态行人图像进行数据增强;

4、s2:将原始地将要输入rgb图像分支的图像进行灰度增强;

5、s3:将数据集图像按照模态拆分成rgb模态和ir模态两个部分,然后再将划分后的两个部分以及进行灰度增强后的部分分别送入分块集成模块中,得到对应的序列;

6、s4:将s3得到的序列分别送入对应模态的s个特有的transformer编码器模块中;

7、s5:将经过两个特有分支后的图像集合组合起来,送入到l-s个共享的transformer编码层中,并根据对应的损失函数计算获取整体损失。

8、优选的,所述s1中的获取跨模态行人重识别数据集中的行人图像均包含了完整的人体躯干。

9、优选的,所述s1中的数据增强至少包括以下步骤:

10、对于两种模态的行人图像,至少使用水平翻转、边缘填充、灰度变换、统一剪裁、随机剪裁、随机裁剪再拼接、随机轻微角度旋转、随机位置变换、随机添加噪声、随机擦除、图像锐化中的一种进行数据增强;

11、转为张量并进行归一化后再进行标准化。

12、优选的,所述s2中的灰度增强至少包括以下步骤:

13、将原始地将要输入rgb图像分支的图像进行灰度变换,并将其对应的标签设置为同原始rgb图像一致;

14、把原始的rgb图像和灰度变换后的图像共同输入到rgb模态特有的分支中;

15、具体公式为:

16、gray=r×0.299+g×0.587+b×0.114。

17、优选的,所述s3中对于输入模型的每一批次图像,里面包含来自两种模态的行人图片,每一种模态占这一批次图像总数的一半,将划分后的ir图像输入到ir模态特有线性集成模块中,rgb图像和灰度增强后的图片分别送入rgb模态特有线性集成模块中;

18、对于模态特有线性集成模块,给定一个输入的图像x∈rh×w×c,其中的h,w,c分别指的是图像的高度、宽度和通道数量;

19、使用重叠采样的策略来处理输入的图像x,这样获得更好的局部邻近的表示能力;

20、将采样的步长设为s,采样块的尺寸边长设置为p,则输入的图像x被分成n个固定尺寸的分块[xi|i=1,2,…,n],n的计算公式为:

21、

22、其中表示取对应结果的下边界,xh和xw分别指的是在高和宽的轴向上的分块个数;

23、当s小于p的时候,得到重叠采样的效果,并且当s更小的时候,重叠采样的区域更多;

24、采用与vision transformer相同的设置,对n个分块进行线性映射后,模型在第一个分块之前添加了一个分类标示符来捕捉全局的信息后为每一个分块添加了一个可学习的位置编码集成ep来维护空间信息,最后的输出为:

25、z0=[xcls,x1e,x2e,…,xne]+ep

26、其中的xcls∈r1×d代表的是分类标示符,e∈rp×p×c×d表示在采样的xi(i∈[1,n],i∈z)分块上进行线性变换的变换矩阵,ep∈r(n+1)×d表示位置编码集成。

27、优选的,所述s3和s4中的模态特有分支,网络结构是完全相同的,但不共享的权重配置,每一个分支包含了一个对图像分块做线性变换的模块和对分块进行编码的s个相同的编码模块,具体变化过程公式:

28、tm=p(im)

29、

30、其中p(·)指的是线性变换操作,e(·)指的是transformer的编码操作;

31、将经过两个特有分支后的图像集合和组合起来,送入到s5中得到l-s个共享的transformer编码层中。

32、优选的,所述s4和s5中tranformer编码层的每一层由一个多头自注意力机制和一个多层感知机模型构成,将分层正则化应用到每个多头自注意力机制模块和多层感知机模块之前,并且在上述的两个模块间应用了一个残差连接;

33、transformer编码层共包含了两个阶段,从上一层输入的数据通过多头自注意力机制的阶段公式为:

34、zi=zi-1+msa(ln(zi-1)) l∈1,2,…,l

35、第i个transformer编码层的输出公式为:

36、zi=zi′+mlp(ln(zi′)) l∈1,2,…,l

37、所述s5中,完成对之前在模态特有分支中各自挖掘的模态特有特征的筛选和融合,选择出共有的模态无关特征作为最终的行人特征表示,其中均对最后一个transformer编码层的第一个分类标示符使用了批次困难采样三元组损失和交叉熵损失,在使用交叉熵损失之前,还使用了批次正则化瓶颈策略来同步收敛两种不同的损失;

38、对于两个图像之间的相似度计算,使用余弦距离及欧式距离中的一种作为两个图像的相似度值;

39、对于两张图像x1,x2,他们的相似度值记为

40、在三元组损失中,网络f接收三张图像,这三张图像分别是锚点(xa)、正样本(xp)和负样本(xn),其中正样本和锚点构成正样本对,负样本和锚点构成负样本对,则三元组损失公式为:

41、

42、其中α指的是边界阈值参数,用于控制优化的力度;

43、交叉熵损失以及s5总的损失函数分别表示为:

44、

45、li=lce+ltri

46、其中p(n)指的是输入图像x属于第n(n∈[1,n],n∈z)个行人身份的概率值,q(i)指的是图像的真实标签,若图像x的真实标签为i,则q(i)=1,反之则q(i)=0。

47、与现有技术相比,本发明的有益效果是:

48、1、本发明使用的模型结构简单且没有复杂的部件设计,且模型不去跨模态地相互生成没有提取到的模型特征,而是直接更可能多地收集各自的特征,然后再对不同模态的特征进行融合并提取出那些共有的模态无关方面的特征信息,思想上更为简单,且匹配准确率更高;

49、2、本发明使用的灰度数据增强策略是一个即插即用的增强策略,可以在不改变原有模型架构的基础上大幅改善了模型对模态无关特征的捕获能力,明显地提高了跨模态图像对的匹配准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1