一种基于全局上下文交互的场景图生成方法及系统及设备

文档序号:30582604发布日期:2022-06-29 13:14阅读:116来源:国知局
一种基于全局上下文交互的场景图生成方法及系统及设备

1.本发明属于计算机视觉领域,特别涉及一种基于全局上下文交互的场景图生成方法及系统及设备。


背景技术:

2.由《主语-关系-宾语》三元组构成的场景图能够描述图像中的物体及物体对之间的场景结构关系。场景图主要有两个方面的优点:首先,场景图的《主语-关系-宾语》三元组具有结构化的语义内容,相较于自然语言文本,在细粒化的信息获取与处理过程中有明显优势;其次,场景图能够充分表示图像中的物体及场景结构关系,在多种计算机视觉任务中有广泛的应用前景,例如:在车辆自动驾驶领域,使用场景图进行环境建模可以为决策系统提供更全面的环境信息;在语义图像检索任务中,图像供应商通过场景图对图像的场景结构关系进行建模,使得用户仅需要对主要目标或关系进行描述即可检索到符合需求的图像。基于海量图片以及下游任务对场景图的实时要求,使用计算机进行场景图生成逐渐成为研究热点,对图像理解领域具有重要的意义。
3.现有的基于消息传递的场景图生成方法目标检查的结果构建目标节点和关系边,并基于消息传递机制,利用循环神经网络在局部子图内进行状态更新,将消息传递后的特征用于关系预测。此种方法采用基于局部上下文思想的消息传递机制,忽略目标之间的隐含约束,仅将目标节点的视觉特征作为初始状态,对关系的检测仅依赖于其主宾语节点特征、联合视觉特征的反复交流,模型无法考虑图像的整体结构,全局信息未在关系预测中发挥作用,因此,限制了模型的预测能力。此外,现有方法未能利用物体坐标,没有从空间角度分析目标间的视觉关系。针对以上问题,本发明提出了一种基于全局上下文交互的场景图生成方法。对现存的场景图生成方法:
4.现有技术1提出了一种图像场景图生成方法,该方法采用将关系分为父类与子类的方式,进行双重关系预测,并采用归一化函数确定精确关系,生成该图像的场景图。
5.现有技术2提出了一种基于深度关系自注意力网络的场景图生成方法,方法主要包括:首先,对输入图像进行目标检测,获得标签、物体边框特征、联合边框特征;然后,构建目标特征、相对关系特征;最后,利用深度神经网络生成最终的视觉场景图。
6.现有技术1中的场景图生成方法没有考虑以特征融合方式充分利用特征向量;现有技术2的方法未使用消息传递机制,没有考虑进行目标对与其关系间的信息交互,不能进行上下文传递后的状态更新。且两者均没有使用图像中全体目标之间存在的隐含约束来构建上下文,存在一定不足。


技术实现要素:

7.本发明的目的在于提供一种基于全局上下文交互的场景图生成方法及系统及设备,以解决上述问题。
8.为实现上述目的,本发明采用以下技术方案:
9.与现有技术相比,本发明有以下技术效果:
10.本发明相较于使用视觉特征代表目标特征的特征表示方法,本发明充分利用目标视觉特征、类别特征与空间坐标信息,使得本发明对信息利用更加充分,提升了场景图生成的关系预测性能;
11.本发明相较于使用局部上下文交互的场景图生成方法,本发明利用循环神经网络进行图像的全局上下文提取,实现基于全局上下文的信息交互,随后进行消息传递,充分实现数据交互与信息拓展。
附图说明
12.图1是本发明基于全局上下文交互的场景图生成方法框图。
13.图2是基于特征融合的向量联合表示的流程图。
14.图3是双向门控循环神经网络bigru的结构图。
15.图4是基于全局特征向量的消息迭代传递机制的流程图。
16.图5是目标检测结果及对应场景图示意图。
17.图6是本发明性能测试结果图。
具体实施方式
18.以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是,此处描述的实施例只用以解释本发明,并不用于限定本发明。此外,在不冲突的情况下,本发明中的实施例涉及的技术特征可以相互结合。
19.本发明的具体实施过程包括图像的目标检测与特征向量融合、基于全局上下文交互的特征生成和消息传递过程。图1是本发明基于全局上下文交互的场景图生成方法框图。
20.1.图像的目标检测与特征向量融合
21.给出输入图像后,本发明使用faster-rcnn深度学习模型进行目标检测,得到其目标集合o=(o1,o2,

,on),对应的视觉特征集合v=(v1,v2,

,vn),坐标特征集合b=(b1,b2,

,bn)、预分类标签集合l=(l1,l2,

,ln)、两两目标坐标并集框内的视觉特征c=(ci→j,i≠j)。
22.首先,本发明使用特征融合方法,对每个目标对应的空间坐标特征bi、视觉特征的向量vi进行联合表示。对于目标oi,其绝对位置坐标b=(x1,y1,x2,y2),其中x1,y1,x2,y2分别代表其矩形回归框左上与右下坐标,本发明利用如下公式将其转化为在图像中相对位置编码bi:
[0023][0024]
式中,wid代表图像i原有宽度,hei代表图像i原有高度。
[0025]
然后,使用神经网络的全连接层将相对位置编码bi扩充为128维特征si:
[0026]
si=σ(w
sbi
+bs),
[0027]
其中,σ代表relu激活函数,ws与bs为线性变换参数,由神经网络自行学习调整。同时,本方法使用全连接层将目标视觉特征vi由4096维特征转为512维。
[0028]
随后,本发明将经过维度变换的相对位置特征向量si和视觉特征vi进行拼接并维度变换,得到512维目标视觉与坐标特征融合向量fi,计算流程如下所示:
[0029]fi
=σ(wf[si,vi]+bf),
[0030]
式中,[
·
]代表拼接操作,σ代表relu激活函数,wf与bf为线性变换参数。
[0031]
以上特征向量融合流程如图2所示。
[0032]
2.基于双向门控循环神经网络的全局特征生成
[0033]
在全局特征生成过程中,本发明构建双向门控循环神经网络bigru,并使用零向量作为其初始状态,其结构如图3所示。在得到目标集合的特征融合向量f=(f1,f2,

,fn)后,将其按照相对坐标中的第一项x坐标由左向右进行排序,并按序输入bigru中,得到全局上下文目标特征γ=(γ1,γ2,

,γn)。具体生成步骤为:
[0034]
(1)初始化零向量作为bigru初始状态;
[0035]
(2)在bigru两端,分别将目标集合中的第一个与最后一个特征融合向量f0与fn输入,生成对应方向与顺序的隐藏状态
[0036]
(3)按序依次向bigru两端输入特征向量,生成
[0037]
(4)将正向、逆向隐藏状态融合,得到每个目标的上下文融合状态γi。
[0038]
随后,本发明利用glove词嵌入向量,将目标检测过程中对目标的预分类结果l=(l1,l2,

,ln)转换为128维的目标类别特征向量gi。
[0039]
最后,本发明使用神经网络全连接层将每个目标的全局上下文目标特征γi与其类别特征向量gi进行融合,得到此目标的全局特征ci。上述计算过程如公式所示:
[0040]gi
=glove(li),
[0041]ci
=σ(wc[γi,gi]+bc),
[0042]
其中,glove(li)代表使用glove方式对目标的预分类标签进行编码,[
·
]代表拼接操作,wc与bc为线性变换参数。
[0043]
3.基于全局特征向量的消息迭代传递机制
[0044]
消息迭代传递机制分为消息聚合函数和状态更新函数两部分。
[0045]
首先,本发明构建消息聚合函数:在场景图拓扑中,节点与边分别表示视觉关系中的主宾语目标及其关系,在消息传递时,单一节点或边会同时收到多个来源的信息,需要设计池化函数以计算每部分消息的权重,并使用其加权和以聚合最终的传入消息。根据消息的接收者不同,可将传入消息为由目标节点接收的消息与由关系边接收的消息
[0046]
已知当前节点gru和关系边gru的隐藏状态与将第t次迭代时传入第i个节点的消息表示为由目标gru自身隐藏状态其出度边gru隐藏状态入度边隐藏状态计算得到,其中i

j代表此关系中目标i为主语,目标j为宾语。
[0047][0048]
相似的,第t次迭代时由第i个目标节点到第j个目标节点的关系边,其聚合消息为
由关系边gru的上一迭代对应的隐藏状态主语节点gru隐藏状态宾语节点gru隐藏状态组成。与由以下自适应加权函数求得:
[0049][0050]
其中,[
·
]代表拼接操作,σ代表relu激活函数,w1、w2和v1、v2是可学习参数。
[0051]
其次,本发明构建状态更新函数:分别构建目标节点gru和关系边gru,对目标和目标间关系的特征向量的存储和更新。首先,在t=0时,将每个目标节点与关系边的gru状态初始化为零向量,将目标的全局特征向量ci作为目标节点gru的输入,将两两目标坐标并集框内的视觉特征ci→j作为其关系边gru的输入,分别生成目标节点和关系边在初始时刻的隐藏状态
[0052]
在后续迭代中,每一次迭代t,每个gru,根据其是目标gru或关系gru,将其上一迭代的隐藏状态或和上一迭代的传入消息或作为输入,并生成一个新的隐藏状态或作为输出,用于消息聚合函数生成下一次迭代的消息。
[0053][0054][0055]
故整个消息传递机制的具体步骤为:
[0056]
(1)将每个目标节点与关系边的gru状态初始化为零向量;
[0057]
(2)将目标的全局特征向量ci作为目标节点gru的输入,将两两目标坐标并集框内的视觉特征ci→j作为其关系边gru的输入,分别生成目标节点和关系边在初始时刻的隐藏状态
[0058]
(3)利用消息聚合函数,计算每个目标与关系的接收到的消息与
[0059]
(4)结合隐藏状态接受到的消息与利用gru更新状态,得到下一时刻状态
[0060]
(5)若迭代次数达到设定次数,则保存当前目标与关系的状态否则,返回步骤(3)。
[0061]
上述消息传递机制流程如图4所示。
[0062]
4.基于目标与关系状态表示的场景图生成
[0063]
将经过消息传递机制更新后的目标与关系隐藏状态视为目标与关系的特征向量,送入神经网络中,使用softmax函数对目标、关系分别进行类别预测,得到每个目标的种类,以及每一对目标之间的关系类别,进而得到能够反映图像中目标与目标间关系的场景图。
[0064]
给定输入图像后,目标检测结果及对应场景图示意图如图5所示,本模型的性能测试结果如图6所示。
[0065]
本发明再一实施例中,提供一种基于全局上下文交互的场景图生成系统,能够用于实现上述的基于全局上下文交互的场景图生成方法,具体的,该系统包括:
[0066]
目标检测模块,用于对输入图像i进行目标检测,得到其目标集合o=(o1,o2,

,on),以及对应的视觉特征集合v=(v1,v2,

,vn)、坐标特征集合b=(b1,b2,

,bn)、预分类标签集合l=(l1,l2,

,ln)、两两目标坐标并集框内的视觉特征c=(ci→j,i≠j);
[0067]
目标视觉与坐标特征的联合表示向量获取模块,用于利用神经网络将各目标的绝对位置坐标,转化得到目标视觉与坐标特征的联合表示向量fi;
[0068]
目标全局特征获取模块,用于根据特征融合向量f=(f1,f2,

,fn),得到局上下文目标特征γi与其类别特征向量gi,使用神经网络将目标的全局上下文目标特征γi与其类别特征向量gi进行融合,得到此目标的全局特征ci;
[0069]
场景图获取模块,用于基于每个目标的全局特征向量ci,每个关系的特征向量ci→j,初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进行迭代传递,利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数,然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。
[0070]
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0071]
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于全局上下文交互的场景图生成方法的操作。
[0072]
本发明公开了一种基于全局上下文交互的场景图生成方法,1)基于物体视觉特征、空间坐标、语义标签等多种特征融合的向量联合表示;2)基于双向门控循环神经网络的全局特征生成;3)基于全局特征向量的消息迭代传递机制;4)基于目标与关系状态表示的场景图生成。本发明所公开的基于全局上下文交互的场景图生成方法,同现存的场景图生成方法相比,通过上下文交互充分利用图像的全局特征,更具有应用广泛性;同时,得到上下文交互后的全局特征后进行目标对与其关系间的消息传递,利用目标间的潜在联系更新
现有状态,进行更准确的场景图生成,具有实际应用的优势。
[0073]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1