一种基于全局上下文交互的场景图生成方法及系统及设备

文档序号：30582604发布日期：2022-06-29 13:14阅读：来源：国知局

技术特征：
1.一种基于全局上下文交互的场景图生成方法，其特征在于，包括对输入图像i进行目标检测，得到其目标集合o＝(o1，o2，
…
，o
n
)，以及对应的视觉特征集合v＝(v1，v2，
…
，v
n
)、坐标特征集合b＝(b1，b2，
…
，b
n
)、预分类标签集合l＝(l1，l2，
…
，l
n
)、两两目标坐标并集框内的视觉特征c＝(c
i
→
j
，i≠j)；利用神经网络将各目标的绝对位置坐标，转化得到目标视觉与坐标特征的联合表示向量f
i
；根据特征融合向量f＝(f1，f2，
…
，f
n
)，得到局上下文目标特征γ
i
与其类别特征向量g
i
，使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合，得到此目标的全局特征c
i
；基于每个目标的全局特征向量c
i
，每个关系的特征向量c
i
→
j
，初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进行迭代传递，利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数，然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。2.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，利用神经网络将各目标的绝对位置坐标，转化为在图像中相对位置编码并扩充为相对位置特征s
i
，将目标视觉特征v
i
转为512维，采用特征融合方法，将相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换，得到目标视觉与坐标特征的联合表示向量f
i
。3.根据权利要求2所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于特征融合的向量联合表示中，使用faster-rcnn模型对输入图像i进行目标检测得到后，将目标的绝对位置坐标转化为在图像中相对位置编码b
i
，对于目标o
i
，其坐标(x1，y1，x2，y2)，其中x1，y1，x2，y2分别代表其矩形回归框左上与右下坐标，相对位置编码计算公式：式中，wid代表图像i原有宽度，hei代表图像i原有高度；然后，使用全连接层将相对位置编码b
i
扩充为128维特征s
i
：s
i
＝σ(w
s
b
i
+b
s
)，其中，σ代表relu激活函数，w
s
与b
s
为线性变换参数，由神经网络自行学习调整；同时，采用相同方法将目标检测得到的目标视觉特征v
i
进行维度变换，使用全连接层将4096维特征转为512维；随后，将经过维度变换的相对位置特征向量s
i
和视觉特征v
i
进行拼接并转换，最终得到512维目标视觉与坐标特征融合向量f
i
，计算流程如下所示：f
i
＝σ(w
f
[s
i
，v
i
]+b
f
)，式中，[
·
]代表拼接操作，σ代表relu激活函数，w
f
与b
f
为线性变换参数。4.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，根据特征融合向量f＝(f1，f2，
…
，f
n
)，利用双向门控循环神经网络bigru得到全局上下文目标特征γ＝(γ1，γ2，
…
，γ
n
)；利用目标检测模块对目标的分类结果l＝(l1，l2，
…
，l
n
)，得到各目标的类别特征向量g
i
，使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向
量g
i
进行融合，得到此目标的全局特征c
i
。5.根据权利要求4所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于双向门控循环神经网络的全局特征生成过程中，得到目标集合的特征融合向量f＝(f1，f2，
…
，f
n
)后，将其按照相对坐标中的x坐标由左向右进行排序，并按序输入双向门控循环神经网络bigru中实现全局上下文交互，得到全局上下文目标特征γ＝(γ1，γ2，
…
，γ
n
)；随后，利用目标检测对目标的分类结果l＝(l1，l2，
…
，l
n
)，计算分类标签的glove词嵌入向量，得到128维的目标类别特征向量g
i
，最后，将每个目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合，得到此目标的全局特征c
i
，上述计算过程如公式所示：g
i
＝glove(l
i
)，c
i
＝σ(w
c
[γ
i
，g
i
]+b
c
)，其中，glove(l
i
)代表使用glove方式对目标的预分类标签进行编码，[
·
]代表拼接操作，w
c
与b
c
为线性变换参数。6.根据权利要求5所述的一种基于全局上下文交互的场景图生成方法，其特征在于，γ
i
具体生成步骤为：(1)初始化零向量作为bigru初始状态；(2)在bigru两端，分别将目标集合中的第一个与最后一个特征融合向量f0与f
n
输入，生成对应方向与顺序的隐藏状态(3)按序依次向bigru两端输入特征向量，生成(4)将正向、逆向隐藏状态融合，得到每个目标的上下文融合状态γ
i
。7.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于全局特征向量的消息迭代传递机制中，包括构建消息聚合函数、状态更新函数两种计算函数；构建消息聚合函数：已知第i个目标节点gru隐藏状态第i个目标节点到第j个目标节点的关系边gru隐藏状态将第t次迭代时传入第i个节点的消息表示为则由目标gru自身隐藏状态其出度边gru隐藏状态入度边隐藏状态计算得到，其中i
→
j代表此关系中目标i为主语，目标j为宾语：相似的，第t次迭代时第i个目标节点到第j个目标节点的关系边的聚合消息由关系边gru的上一迭代对应的隐藏状态主语节点gru隐藏状态宾语节点gru隐藏状态组成，与由以下自适应加权函数求得：其中，[
·
]代表拼接操作，σ代表relu激活函数，w1、w2和v1、v2是可学习参数；构建状态更新函数：分别构建目标节点gru和关系边gru，对目标和目标间关系的特征向量的存储和更新：首先，在t＝0时，将每个目标节点与关系边的gru状态初始化
为零向量，将目标的全局特征向量c
i
作为目标节点gru的输入，将两两目标坐标并集框内的视觉特征c
i
→
j
作为其关系边gru的输入，分别生成目标节点和关系边在初始时刻的隐藏状态在后续迭代中，每一次迭代t，每个gru，根据其是目标gru或关系gru，将其上一迭代的隐藏状态或和上一迭代的传入消息或作为输入，并生成一个新的隐藏状态或作为输出，用于消息聚合函数生成下一次迭代的消息：作为输出，用于消息聚合函数生成下一次迭代的消息：8.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于全局特征向量的消息迭代传递机制，具体执行步骤如下：(1)将每个目标节点与关系边的gru状态初始化为零向量；(2)将目标的全局特征向量c
i
作为目标节点gru的输入，将两两目标坐标并集框内的视觉特征c
i
→
j
作为其关系边gru的输入，分别生成目标节点和关系边在初始时刻的隐藏状态(3)利用消息聚合函数，计算每个目标与关系的接收到的消息与(4)结合隐藏状态接受到的消息与利用gru更新状态，得到下一时刻状态(5)若迭代次数达到设定次数，则保存当前目标与关系的状态否则，返回步骤(3)；(6)消息传递完成后，将目标与关系的最终状态向量送入神经网络中，得到能够反映图像中目标与目标间关系的场景图。9.一种基于全局上下文交互的场景图生成系统，其特征在于，包括：目标检测模块，用于对输入图像i进行目标检测，得到其目标集合o＝(o1，o2，
…
，o
n
)，以及对应的视觉特征集合v＝(v1，v2，
…
，v
n
)、坐标特征集合b＝(b1，b2，
…
，b
n
)、预分类标签集合l＝(l1，l2，
…
，l
n
)、两两目标坐标并集框内的视觉特征c＝(c
i
→
j
，i≠j)；目标视觉与坐标特征的联合表示向量获取模块，用于利用神经网络将各目标的绝对位置坐标，转化得到目标视觉与坐标特征的联合表示向量f
i
；目标全局特征获取模块，用于根据特征融合向量f＝(f1，f2，
…
，f
n
)，得到局上下文目标特征γ
i
与其类别特征向量g
i
，使用神经网络将目标的全局上下文目标特征γ
i
与其类别特征向量g
i
进行融合，得到此目标的全局特征c
i
；场景图获取模块，用于基于每个目标的全局特征向量c
i
，每个关系的特征向量c
i
→
j
，初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进
行迭代传递，利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数，然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述一种基于全局上下文交互的场景图生成方法的步骤。

技术总结
本发明公开了一种基于全局上下文交互的场景图生成方法及系统及设备，1)基于物体视觉特征、空间坐标、语义标签等多种特征融合的向量联合表示；2)基于双向门控循环神经网络的全局特征生成；3)基于全局特征向量的消息迭代传递机制；4)基于目标与关系状态表示的场景图生成。本发明所公开的基于全局上下文交互的场景图生成方法，同现存的场景图生成方法相比，通过上下文交互充分利用图像的全局特征，更具有应用广泛性；同时，得到上下文交互后的全局特征后进行目标对与其关系间的消息传递，利用目标间的潜在联系更新现有状态，进行更准确的场景图生成，具有实际应用的优势。具有实际应用的优势。具有实际应用的优势。

技术研发人员：罗敏楠杨名帆郑庆华董怡翔刘欢秦涛
受保护的技术使用者：西安交通大学
技术研发日：2022.03.24
技术公布日：2022/6/28

完整全部详细技术资料下载

当前第2页1 2