一种多尺度可变形的人物交互关系检测方法

文档序号:36718100发布日期:2024-01-16 12:18阅读:31来源:国知局
一种多尺度可变形的人物交互关系检测方法

本发明涉及图像理解领域中的中的人物交互关系检测领域,是一种多尺度可变形的人物交互关系检测方法。


背景技术:

1、人物交互关系检测的研究背景可以追溯到计算机视觉领域的早期阶段,要让计算机更好地理解图像,不仅需要对图像中的物体进行识别,还需要理解这些物体之间的关系,以及它们在图像中所扮演的角色。而人物交互关系检测就是为了解决图像中人与物体之间深层语义理解的问题。

2、detr结构最小程度地对transformer结构进行修改,极大地保留了transformer的特征,和以往基于faster r-cnn的结构全然不同,是里程碑式的跨越。得益于detr结构的高可扩展性,随着它在目标检测领域大放异彩,以detr为基础的各种网络结构层出不穷,分别在各自领域取得了重大成果。在人物交互关系检测的任务中,qpic在detr的基础上将针对实体目标的查询向量改为针对人物交互对的查询向量,同时增加了人物交互关系检测头,高效地聚合了上下文信息,将transformer的结构第一次应用于人物交互关系检测并取得了良好的效果,但是依然存在以下问题:

3、传统基于卷积的算法在目标检测领域已经非常成熟,可以通过fpn提取到多尺度特征来优化检测效果,但是目前基于transformer的算法由于缺少多尺度特征,难以准确地从高分辨率特征图中识别小目标,进而影响人物交互关系的预测,直接用transformer注意处理多尺度特征图时将产生巨大的计算成本,目前基于transformer的人物交互关系检测算法只限于使用单尺度特征图。由于这一限制,以前的基于变换器的方法表现出不理想的性能,特别是对于人类、物体以及它们之间互动的背景信息存在于不同尺度的场景。

4、多尺度特征的加入虽然可以为人物交互关系检测算法提供新的特征,但是特征的增加也会导致复杂度的急剧增加。况且qpic算法本身的计算复杂度就很大,如果直接增加了多尺度特征只会让算法的复杂度上升到不可接受的地步。因此,如何降低算法复杂度也是重点研究的问题之一。

5、近两年的单阶段方法通常建立一个由cnn的分层主干(如hourglass-104、dla-34、resnet-50和resnet101)和transformer编码器组成的特征提取器。然而,这些方法忽略了使用cnn主干的两个缺陷。第一,cnn在捕捉非局部语义特征方面很差,无法建立相距较远像素点之间的联系,即无法获得全局感受野,比如人与物体之间的关系,另外,即使通过加深网络层数,相聚越远的像素点之间的可行信息传递路径越少,无法做到平均的全局感受野。第二,使用大感受野的低分辨率特征图的方式忽略了小范围内的空间信息,纵然有注意力机制的transformer编码器可以从图像中补充语义信息,依然也会受到影响。


技术实现思路

1、目前基于transformer的人物交互关系检测算法只限于使用单尺度特征图,直接引入多尺度特征也会急剧增加算法复杂度,本发明的目的在于克服以上论述中的不足而提出一种多尺度可变形的人物交互关系检测方法。

2、一种多尺度可变形的人物交互关系检测方法具体过程为:

3、步骤1:给定一个原始图像,输入到swin transformer网络中,将最后三层的特征图提取,并通过1x1卷积进行降维,得到图像特征向量。

4、步骤2:将特征向量通过多尺度可变形的注意力模块进行初步编码,采样特征最为显著的特征点,降低计算复杂度。

5、步骤3:在解码器中查询向量通过自注意力模块,之后与编码器得到的特征向量一同送入双流人物实体注意力机制进行交叉注意力的操作,这里的交叉注意力被分为了双流网络,分别细致化地提取人、物体的特征。

6、步骤4:通过ffn全连接层,分别得到物体边界框、人体边界框、物体类别、人物交互类别共四项预测。

7、与现有技术相比,本发明的有益效果为:

8、(1)相比于传统cnn主干网络,本发明使用swin transformer增强特征提取能力;

9、(2)对于目标较小的人物实体,本发明引入多尺度特征提升了识别准确率;

10、(3)在算法复杂度上,本发明使用多尺度可变形注意力机制减少采样点数目,使算法轻量化。



技术特征:

1.一种多尺度可变形的人物交互关系检测方法,其特征在于:所述方法具体过程为:

2.如权利要求1所述方法,其特征在于:步骤1中使用swin transformer网络将最后三个阶段的特征图提取,并通过1x1卷积进行降维,得到多尺度特征图,将该多尺度特征图拉直为序列并进行拼接,最终得到特征向量,同时融入位置编码信息和引入多尺度的特征层级信息来标识。

3.如权利要求1所述方法,其特征在于:所述步骤2中引入了多尺度可变形的注意力模块,特征向量将分别映射到不同尺度的特征图中,并将不同尺度特征图的结果相加,得到了当前注意力层的输出。

4.如权利要求1所述方法,其特征在于:所述步骤3中双流人物实体注意力机制进行交叉注意力的操作,这里的交叉注意力被分为了双流网络。

5.如权利要求1所述方法,其特征在于:所述步骤4中的人物交互关系预测头可以得到人体框,物体框、物体类别,人物交互类别共四项预测。


技术总结
本发明涉及图像理解领域中的中的人物交互关系检测领域,是一种多尺度可变形的人物交互关系检测方法。目前基于Transformer的算法由于缺少多尺度特征,难以准确地从高分辨率特征图中识别小目标,进而影响人物交互关系的预测,多尺度特征的加入虽然可以为人物交互关系检测算法提供新的特征,但是特征的增加也会导致复杂度的急剧增加。为解决上述问题,本发明提出了一种基于QPIC算法改进的人物交互关系检测算法,具体过程为:一:本发明使用Swin Transformer网络增强特征提取能力。二:引入多尺度特征提升了识别准确率。三:将特征向量通过多尺度可变形的注意力模块进行初步编码,采样特征最为显著的特征点,使算法轻量化从而降低计算复杂度。

技术研发人员:贾海涛,余梦鹏,张宏博,张钰琪
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1