一种基于AutoHOINet的人-物交互检测方法

文档序号:36726211发布日期:2024-01-16 12:33阅读:20来源:国知局
一种基于AutoHOINet的人-物交互检测方法

本发明属于人-物交互检测,涉及人工智能、图像处理领域,具体涉及一种基于autohoinet的人-物交互检测方法。


背景技术:

1、在计算机视觉领域,人物交互检测(human-object interaction detection,hoi)指的是计算机对图像中人物与物体的确切定位以及相应交互类别的识别,以实现对人类活动的深入理解。具体而言,hoi检测任务接受一张图像,并输出一系列的三元组(<human,object,interaction>)。因此,该任务的成败受到多个关键因素的影响,其中包括人物对象与物体对象的准确定位、物体类别的正确分类,以及对人与物体之间交互关系的精准把握。

2、基于监督学习的人物交互检测任务依赖于经人工标注的<人,物,动作>详细标签,这些标签被用于网络的训练。当前,监督学习的hoi检测任务分为两个主要分支:两阶段和单阶段方法。两阶段方法(如liao等人提出的ppdm、gao等人提出的drg)首先利用预训练的目标检测网络来检测图像中的人和物体,随后将每一个人和物体进行配对并送入交互判别网络中,以完成交互检测。两阶段模型相对简单且易于理解,但其在交互判别阶段,会将第一阶段所检测出的人和物体进行一一配对,所以运行速度较慢且效率较低。因此,基于transformer架构的单阶段的hoi检测逐渐发展起来。zou等人提出的hoitrans和tamura等人提出的qpic使用detr架构中的提取器和编码器来提取特征并获取全局的特征编码,真正实现了端到端的hoi检测。最近,以融入clip作为额外文本信息的架构也越来越多,如liao等人提出的gen-vlkt,wan等人提出的pbrl(weakly-supervised hoidetection viaprior-guided bi-level representation learning bo wan1;yongfei liu,desen zhou,tinne'tuytelaars 1,xuming he'ku leuven,leuven,belgium;shanghaitechuniversity,shanghai,china shanghai engineering research center of intelligentvision and lmaging)。

3、弱监督hoi检测(weakly-hoi)通常使用图像级交互标签进行训练。具体而言,给定一张图像以及其中存在的交互关系(但不包括特定人和物之间的交互关系),网络通过自主学习来确定哪些人和物体实际上发生了交互关系。相对于监督学习,弱监督方法只需要进行图像级别的标注,无需具体标注人物位置和交互动作,从而大幅减少了人力成本。

4、目前,基于弱监督的人物交互检测方法可以划分为两类:一类使用<interaction,object>标签,另一类仅使用<interaction>标签。kumaraswamy等人提出的mx-hoi模型在同时使用弱监督标签和强监督标签进行监督的基础上,提出了一种动量独立学习架构。另一方面,kilickaya等人提出的alignformer则通过引入align层来实现伪对齐的训练策略。然而,这些方法都面临着极具噪声的人物-物体关联以及模糊的交互类型。

5、当前,无论是基于全监督还是弱监督学习的人物交互检测方法,都需要大量的人工标注数据,从而耗费了大量的时间、人力。尽管现有技术已经尝试对弱标注数据进行人物关系解析,但该问题仍然具有挑战性。


技术实现思路

1、本发明的目的在于提出一种基于autohoinet的人-物交互检测方法,该方法无需人工标注的标签即可完成hoi检测,从而解决了hoi数据集标注成本过高的难题。autohoinet由hoi model、候选图像构建模块、人物潜在关系挖掘模块和人物关系推理模块四个组件组成。具体来说,hoi model从待检测图像中获得其视觉模态向量。候选图像构建模块通过目标检测框架将图像中可能存在的人和物体检测出来,并在空间上进行去噪以及配对重组。人物潜在关系挖掘模块利用大规模语言模型clip(contrastive language-image pre-training)在目标域上的适应能力,进行人物关联分析和潜在关系挖掘,发现人物对象和物体对象之间各种潜在交互关系。人物关系推理模块将图文相似度向量与先验知识掩码结合,去除其他交互行为干扰信息,生成伪标签。最后利用生成的伪标签,引导hoi模型的学习,从而实现对人物交互的检测。

2、本发明至少通过如下技术方案之一实现。

3、一种基于autohoinet的人-物交互检测方法,包括以下步骤:

4、a、利用hoi model从待检测图像中提取其视觉模态向量;

5、b、将待检测图像输入到候选图像构建模块中,通过卷积神经网络进行视觉特征提取,获取待检测图像中的人物对象和物体对象的具体位置,并对其进行重构,生成候选图像;

6、c、通过人物潜在关系挖掘模块对候选图像进行人物关联分析和潜在关系挖掘,探索人物对象和物体对象之间多种潜在的交互关系;

7、d、借助人物关系推理模块,从潜在关系中筛选出目标关系,生成伪标签,以指导hoi模型的学习;

8、e、利用生成的伪标签和相关损失函数引导hoi model的学习,从而实现对人物交互的检测。

9、进一步地,hoi model由gen-vlkt构成,待检测图像其中,表示矩阵维度,h,w和c分别表示待检测图像的高度、宽度和通道数。

10、进一步地,所述的gen-vlkt的骨干网络(backbone)为预训练的resnet-50。

11、进一步地,所述的gen-vlkt是一个结合了嵌入式指导网络(guided-embeddingnetwork,gen)和视觉语言知识转移(visual-linguistic knowledge transfer,vlkt)训练策略的模型,其中gen用于解决人物-物体关联问题,vlkt用于增强交互理解能力。

12、进一步地,所述的resnet-50包括7×7的卷积核、3×3的池化层以及四个残差组构成的特征提取的骨干网络,其中第一个残差组共有3个残差块,每个残差块有3层分别为1×1×64的卷积核、3×3×64的卷积核、1×1×256的卷积核;第二个残差组共有4个残差块,每个残差块有3层分别是1×1×128的卷积核、3×3×128的卷积核、1×1×512的卷积核;第三个残差组共有6个残差块,每个残差块有3层分别是1×1×256的卷积核、3×3×256的卷积核、1×1×1024的卷积核,;第四个残差组共有3个残差块,每个残差块有3层分别是1×1×512的卷积核、3×3×512的卷积核、1×1×2048的卷积核。

13、进一步地,步骤b中所述的卷积神经网络为yolov8,该网络用于对人物对象和物体对象进行定位,接着使用实例分割策略生成候选图像。

14、进一步地,所述的yolov8的输出结果p=(cx,cy,wx,hy,c),其中cx,cy表示边界框(bounding boxes)的中心点坐标,wx,hy表示边界框的宽和高,c表示实例的类别。

15、进一步地,所述的实例分割策略根据bounding boxes和中心点坐标从待检测图像中提取感兴趣区域。采用此策略,能够减少可能存在的其他噪声影响。

16、进一步地,所述人物潜在关系挖掘模块包括基于对比文本-图像对的预训练模型(contrastive language–image pre-training,clip)。

17、进一步地,所述的clip主要包含文本编码(text encoder)和图像编码(imageencoder)两个模块,分别负责提取文本和图像特征。另外,通过计算两模特的相似性,使模型能够逐步学习文本与图像之间的匹配关系。

18、进一步地,所述的相似性计算涉及图像特征与文本特征之间的余弦相似度。余弦相似度的取值范围在-1到1之间,值越接近1表示两个向量越相似,值越接近-1表示两个向量越不相似,值为0则表示两个向量完全不相关。

19、进一步地,步骤d中所述的人物关系推理模块由动作相关性匹配(actioncorrelation matching)、基于先验知识的掩码筛选、动态阈值选择、交互动作筛选四部分构成。

20、进一步地,所述的动作相关性匹配方案中采用了最优选择(top-one)策略,即从中挑选具有最高图文相似度的交互行为作为初始的交互动作。

21、进一步地,所述的基于先验知识的掩码筛选方案被用来为物体对象筛选合适的候选动词。

22、进一步地,所述的候选动词,是指候选图像中物体对象所有可能被执行的动作。

23、进一步地,所述的动态阈值选择方案被用来评估该幅图像中的人-物是否发生了交互行为。该方法能够根据实际情况灵活调整阈值,提高对交互关系的有效检测和识别能力以适应不同场景,从而更准确地确定交互事件的出现与否。

24、进一步地,所述的交互动作筛选方案被用来从候选的nt个交互动作中筛选出目标动作。

25、进一步地,步骤e中,所述的损失函数为

26、

27、其中分别表示分类损失、边界框回归损失、人-物边界框的iou损失,ρ、q、r分别表示分类、回归、交并比的候选场景,h、o、a分别表示人、物以及动作,αρ、αq、αr和β1~β4是超参数,表示clip model的损失。

28、与现有的技术相比,本发明的有益效果为:

29、1.本发明提出的基于autohoinet的人-物交互检测方法是首个在无需人工标注的情况下完成hoi检测的方法。

30、2.本发明充分借助模型在目标领域的自适应能力,有效降低了人力和物力资源成本,从而显著减轻了hoi数据标注的负担。

31、3.经过实验对比,本发明提出的方法展现出卓越的性能,不仅超越了当前采用图像级交互标签(weakly+,weakly,weakly-)的方法,甚至在与基于早期全监督模型性能的对比中也取得了显著优势。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1