基于视觉和无线双模态联合感知的动作表示及识别方法

文档序号：31660238发布日期：2022-09-27 22:57阅读：来源：国知局

技术特征：
1.一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，包括以下步骤：分别获取针对人体动作的雷达图像数据和视频图像数据；通过第一特征提取网络对所述雷达图像数据进行特征提取，从而获得第一提取特征；通过第二特征提取网络对所述视频图像数据进行特征提取，从而获得第二提取特征；将所述第一提取特征输入速度关系编码器进行编码处理，所述速度关系编码器用于挖掘第一提取特征中的速度相关性信息，并基于所述速度相关性信息对第一提取特征进行引导从而输出第一引导特征，所述速度关系编码器包括依次连接的若干结构相同的子速度关系编码器；同时将所述第二提取特征输入帧间关系编码器进行编码处理，所述帧间关系编码器用于挖掘第二提取特征中的帧间相关性信息，并基于所述帧间相关性信息对第二提取特征进行引导从而输出第二引导特征，所述帧间关系编码器包括依次连接的若干结构相同的子帧间关系编码器；将所述第一引导特征和第二引导特征输入模态关系编码器进行编码处理，所述模态关系编码器用于挖掘第一引导特征和第二引导特征的模态间特征相关性信息，并基于所述模态间特征相关性信息对第一引导特征和第二引导特征进行二次引导，从而生成联合表征，所述模态关系编码器包括依次连接的若干相同的子模态关系编码器。2.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，方法还包括：将获取的联合表征输入与所述第一特征提取网络相反的网络结构进行特征重构，从而获取第一重构特征；同时将获取的联合表征输入与所述第二特征提取网络相反的网络结构进行特征重构，从而获取第二重构特征；通过一致性损失在第一提取特征与第一重构特征间形成约束以减少信息损失；同时通过一致性损失在第二提取特征与第二重构特征间形成约束以减少信息损失。3.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第一提取特征输入速度关系编码器进行编码处理，包括：基于所述第一提取特征获取第一查询矩阵、第一键矩阵以及第一值矩阵；将所述第一查询矩阵、第一键矩阵以及第一值矩阵输入速度关系编码器，任意所述子速度关系编码器包括依次连接的self-attention模块、add&normalize模块、feed forward模块以及add&normalize模块，所述self-attention模块用于计算模态内信息的相关性，所述add&normalize模块用于对数据进行归一化处理。4.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第二提取特征输入帧间关系编码器进行编码处理，包括：基于所述第二提取特征获取第二查询矩阵、第二键矩阵以及第二值矩阵；将所述第二查询矩阵、第二键矩阵以及第二值矩阵输入子帧间关系编码器，任意所述子帧间关系编码器包括依次连接的self-attention模块、add&normalize模块、feed forward模块以及add&normalize模块，所述self-attention模块用于计算模态内信息的相关性，所述add&normalize模块用于对数据进行归一化处理。5.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第一引导特征和第二引导特征输入模态关系编码器进行编码处理，包括：基于所述速度关系编码器的输出矩阵获取第三查询矩阵、第三键矩阵以及第三值矩
阵；基于所述帧间关系编码器的输出矩阵获取第四查询矩阵、第四键矩阵以及第四值矩阵；任意所述子模态关系编码器包括两条结构相同的编码链路，分别为视觉链路和雷达链路，任意编码链路包括依次连接的cross-attention模块、add&normalize模块、self-attention模块、feed forward模块以及add&normalize模块，所述cross-attention模块用于计算模态间信息的相关性；将第三查询矩阵、第四键矩阵以及第四值矩阵输入视觉链路；将第四查询矩阵、第三键矩阵以及第三值矩阵输入雷达链路；根据cross-attention计算相关性，然后引导模态内值矩阵。6.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，所述第一特征提取网络为三层2d卷积神经网络，其中前两层卷积核大小为3，使用batchnorm2d函数以及relu激活函数，通道数由3、16、32，依次变化；第三层卷积核大小为3，使用batchnorm2d函数以及relu激活函数，通道数由32变为64。7.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，所述第二特征提取网络为2层3d卷积神经网络，第一层卷积核大小为3，使用batchnorm3d函数以及relu激活函数，通道数由3变为8；第二层卷积核大小为3，通道数由8变为16。8.一种基于视觉和无线双模态联合感知的动作识别方法，其特征在于，包括以下步骤：基于权利要求1-7中任意一项方法获取动作表示数据；基于所述动作表示数据进行动作识别。

技术总结
本发明提供一种基于视觉和无线双模态联合感知的动作表示及识别方法。表示方法包括：分别获取针对人体动作的雷达图像数据和视频图像数据；通过第一特征提取网络对所述雷达图像数据进行特征提取；通过第二特征提取网络对所述视频图像数据进行特征提取；将第一提取特征输入速度关系编码器进行编码处理，将第二提取特征输入帧间关系编码器进行编码处理；将第一引导特征和第二引导特征输入模态关系编码器进行编码处理，从而生成联合表征。本发明通过挖掘两个模态间的关系，从而提升模态融合的有效性，进一步提高识别的可靠性。进一步提高识别的可靠性。进一步提高识别的可靠性。

技术研发人员：刘晓凯李明月
受保护的技术使用者：大连海事大学
技术研发日：2022.05.13
技术公布日：2022/9/26

完整全部详细技术资料下载

当前第2页1 2