一种三元交互动作检测方法、系统、设备及介质

文档序号：37861657发布日期：2024-05-07 19:38阅读：21来源：国知局

所属的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

背景技术：

1、交互动作检测图像技术是人工智能领域飞速发展的一个分支。常规交互动作检测图像任务的目的就是通过检测和识别从复杂的自然场景图像中找出所有的交互对象及交互动作实例，在确定它们在图像中位置的同时还要确定交互动作类别，以此来获取动作信息。这对无人商超、安防、自动驾驶、医疗康复等大量现实世界应用具有重要价值。

2、随着深度神经网络强大的表示能力，交互动作检测图像近年来取得了良好的进展。然而，由于使用工具操作的交互动作场景中以人为中心，考虑与人交互的工具具有多义性，多重交互性等特点，数据变化所揭示的不同模式，以及实际应用所需的苛刻条件，在使用工具操作的交互动作场景中进行交互动作识别仍然是一个巨大的挑战，是计算机视觉领域的核心问题之一。

3、目前，完成对物体之间交互动作检测的方法，一类是基于图像描述方法，根据检测到的场景图中所有物体之间的关系，生成物体之间的关系的交互关系表达。但是，由于图像中丰富的背景信息造成输出信息的冗余，不能描述感兴趣区域的交互关系。另一类是利用人物交互检测方法，生成对图像中两者交互关系的文字描述，只能表达人与物体二者关系，在面临使用工具操作的场景中，缺乏复杂动作的表达，无法描述完整的三元关系交互信息，很难获得令人满意的结果。

4、现有技术只能准确检测到两个物体之间的简单交互动作信息，而人使用工具操作物体的三元交互动作信息较为复杂，现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性。

技术实现思路

1、为了克服现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性的问题，本发明提供了一种三元交互动作检测方法、系统、设备及介质。

2、第一方面，为了解决上述技术问题，本发明提供了一种三元交互动作检测方法，包括：

3、获取待测三元关系交互动作图像；其中，三元关系交互动作图像中包含有人、物体和工具的交互动作；

4、确定待测三元关系交互动作图像的降维特征图；

5、为降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，位置信息为预设区域在降维特征图上的位置；

6、利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

7、将预测交互动作信息转换为三元检测框信息和交互动作类别。

8、第二方面，本发明还提供了一种三元交互动作检测系统，包括：

9、获取模块，用于获取待测三元关系交互动作图像；其中，三元关系交互动作图像中包含有人、物体和工具的交互动作；

10、确定模块，用于确定待测三元关系交互动作图像的降维特征图；

11、添加模块，用于为降维特征图上每个预设区域添加位置信息，确定全局信息图；其中，位置信息为预设区域在降维特征图上的位置；

12、融合模块，用于利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；

13、转换模块，用于将预测交互动作信息转换为三元检测框信息和交互动作类别。

14、第三方面，本发明还提供了一种计算设备，包括存储器、处理器及存储在存储器上并在处理器上运行的程序，处理器执行程序时实现如上述的一种三元交互动作检测方法的步骤。

15、第四方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端设备上运行时，使得终端设备执行一种三元交互动作检测方法的步骤。

16、本发明的有益效果是：通过确定待测三元关系交互动作图像的降维特征图，实现图像的降维，使得图像中的人、工具、物体和交互的信息能够更丰富和直观的进行展示，从而便于后续对图像中的有效的人、工具、物体和交互的信息进行提取并摒弃无用信息。然后为降维特征图添加位置信息，确定全局信息图，能够增强图像中的三元交互动作信息。再将全局信息图和预设的查询规则进行融合，能够通过查询规则获得包含有丰富的人、工具、物体和交互的信息的预测交互动作信息，使得待测三元关系交互动作图像的三元交互动作信息能够更加完整和准确的被描述出来，从而能够提高该预测交互动作信息转化而成的三元检测框信息和交互动作类别的准确性。

技术特征：

1.一种三元交互动作检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待测三元交互动作图像的降维特征图，包括：

3.根据权利要求2所述的方法，其特征在于，对所述语义特征图进行降维，获得降维特征图，包括：

4.根据权利要求1所述的方法，其特征在于，所述为所述降维特征图上每个预设区域添加位置信息，确定全局信息图，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用预设的多头注意力机制，将所述全局信息图和预设的查询规则进行融合，确定预测交互动作信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述预测交互动作信息转换为三元检测框信息和交互动作类别，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各个组合对的组合情况，确定所述预测交互动作信息对应的三元检测框信息，包括：

8.一种三元交互动作检测系统，其特征在于，包括：

9.一种计算设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种三元交互动作检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1至7任一项所述的一种三元交互动作检测方法的步骤。

技术总结
本发明涉及一种三元交互动作检测方法、系统、设备及介质，方法包括：获取待测三元关系交互动作图像；确定待测三元关系交互动作图像的降维特征图；为降维特征图上每个预设区域添加位置信息，确定全局信息图；利用预设的多头注意力机制，将全局信息图和预设的查询规则进行融合，确定预测交互动作信息；将预测交互动作信息转换为三元检测框信息和交互动作类别。解决了现有技术无法对三元交互动作信息进行完整的描述，不仅降低了预测出的该交互动作信息的区域范围的准确性，还降低了该交互动作信息对应的交互动作类别的准确性的问题。

技术研发人员：高芳裙,张彦铎,吴云韬,卢涛,唐盼,王砾伟,李圳
受保护的技术使用者：武汉工程大学
技术研发日：
技术公布日：2024/5/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高芳裙,张彦铎,吴云韬,卢涛,唐盼,王砾伟,李圳
技术所有人：武汉工程大学
我是此专利的发明人

上一篇：基于多传感器的输电线路故障智能定位方法及系统与流程
上一篇：一种零件加工用打磨设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。