一种视觉对齐处理方法、终端及存储介质与流程

文档序号:32351538发布日期:2022-11-26 13:30阅读:来源:国知局

技术特征:
1.一种视觉对齐处理方法,其特征在于,所述方法包括:根据待识别图像的图像特征和待识别文本的文本特征,构建预设对偶查询向量对并生成初始化输入向量对;其中,每个所述预设对偶查询向量对包括:预设图像查询向量和预设文本查询向量;所述初始化输入向量对包括:由所述预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量,由所述预设文本查询向量及所述初始图像检测框、所述初始文本掩码组成的第二输入向量;基于所述初始化输入向量对、所述图像特征和所述文本特征,通过预设transformer网络的解码器确定目标对象的目标对偶查询向量对;所述目标对偶查询向量对包括:目标图像查询向量和目标文本查询向量;基于所述目标对偶查询向量对,确定目标对象的目标图像检测框和目标文本掩码,并输出对齐的所述目标对象的目标图像检测框和目标文本掩码。2.根据权利要求1所述的方法,其特征在于,所述基于所述初始化输入向量对、所述图像特征和所述文本特征,通过预设transformer网络的解码器确定所述目标对象的目标对偶查询向量对,具体包括:将所述初始化输入向量对、所述图像特征和所述文本特征输入所述解码器的第一层解码器层中,通过所述第一层解码器层,得到所述第一层解码器层的预测对偶查询向量对;其中,所述预测对偶查询向量对包括:预测图像查询向量、预测文本查询向量;所述预测图像查询向量包括:预测图像内容嵌入向量、预测图像位置嵌入向量;所述预测文本查询向量包括:预测文本内容嵌入向量、预测文本位置嵌入向量;所述解码器包括:多层解码器层;将所述预测图像位置嵌入向量共享至所述预测文本查询向量,作为所述第一层解码器层对应的生成文本查询向量;以及将所述预测文本位置嵌入向量共享至所述预测图像查询向量,作为所述第一层解码器层对应的生成图像查询向量;获取前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量,输入至后一层解码器层,以得到后一层解码器层的所述预测对偶查询向量对;将最后一层解码器层的所述预测对偶查询向量对,作为所述目标对象的目标对偶查询向量对。3.根据权利要求2所述的方法,其特征在于,所述获取前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量,输入至后一层解码器层,得到后一层解码器层的所述预测对偶查询向量对,具体包括:获取所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量;其中,每层所述解码器层包括:交叉注意力层或roialign层;将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征,输入所述后一层解码器层的交叉注意力层或roialign层中,以确定所述后一层解码器层的所述预测对偶查询向量对。4.根据权利要求3所述的方法,其特征在于,所述将所述前一层解码器层对应的所述生成文本查询向量和所述生成图像查询向量、以及所述图像特征和所述文本特征,输入所述
后一层解码器层的交叉注意力层或roialign层中,以确定所述后一层解码器层的所述预测对偶查询向量对,具体包括:根据所述前一层解码器层的所述预测文本查询向量以及所述文本特征,确定所述前一层解码器层对应的生成文本掩码;将所述前一层解码器层对应的所述生成文本掩码输入所述后一层解码器层的交叉注意力层或roialign层,通过所述生成文本掩码对所述生成文本查询向量和所述生成图像查询向量进行引导,得到所述后一层解码器层的所述预测对偶查询向量对。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标对偶查询向量对,确定目标对象的目标图像检测框和目标文本掩码,具体包括:根据所述目标对偶查询向量对中的目标图像查询向量,回归出所述目标对象的目标图像检测框;以及将所述目标文本查询向量与所述文本特征进行点乘计算,得到所述目标对象的目标文本掩码。6.根据权利要求1所述的方法,其特征在于,在所述根据待识别图像的图像特征和待识别文本的文本特征,构建预设对偶查询向量对之后,所述方法还包括:将所述图像特征、所述文本特征进行融合,并将融合后的所述图像特征和所述文本特征输入所述transformer网络的解码器。7.根据权利要求6所述的方法,其特征在于,所述图像特征与所述文本特征的特征维度相同。8.根据权利要求6所述的方法,其特征在于,融合后的图像特征与融合前的图像特征的尺寸相同;融合后的文本特征与融合前的文本特征的尺寸相同。9.一种终端,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的视觉对齐处理方法中的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的视觉对齐处理方法中的步骤。

技术总结
本发明公开了一种视觉对齐处理方法、终端及存储介质,先根据待识别图像的图像特征和待识别文本的文本特征,构建预设对偶查询向量对并生成初始化输入向量对;初始化输入向量对包括:由预设图像查询向量及初始图像检测框、初始文本掩码组成的第一输入向量,由预设文本查询向量及初始图像检测框、初始文本掩码组成的第二输入向量;基于初始化输入向量对、图像特征和文本特征,通过预设Transformer网络的解码器,确定目标对象的目标对偶查询向量对;基于目标对偶查询向量对,确定目标对象的目标图像检测框和目标文本掩码。通过上述方案,使得多模态模型中的文本模态任务和图像模态任务能够准确对齐,提高视觉对齐效果。提高视觉对齐效果。提高视觉对齐效果。


技术研发人员:刘世隆 李峰 张浩 张磊
受保护的技术使用者:粤港澳大湾区数字经济研究院(福田)
技术研发日:2022.10.27
技术公布日:2022/11/25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1