机器学习模型训练方法和装置、视觉关系检测方法和装置与流程

文档序号:31474821发布日期:2022-09-10 00:12阅读:84来源:国知局
机器学习模型训练方法和装置、视觉关系检测方法和装置与流程

1.本公开涉及人工智能领域,特别涉及一种机器学习模型训练方法和装置、视觉关系检测方法和装置。


背景技术:

2.在现有技术中,通过借助主体和客体的语义特征和空间特征、以及包括主体和客体的目标区域的视觉特征,检测出主体和客体之间的视觉关系。即,将视觉关系预测问题转化为多模态特征融合分类问题。


技术实现要素:

3.发明人注意到,现有的视觉关系检测方案并未利用从图像结构化语义理解中派生出来的内部监督信号,从而无法获得性能稳定的视觉关系检测结果。
4.据此,本公开提供一种机器学习模型训练方案,能够获得性能稳定的视觉关系检测结果。
5.根据本公开实施例的第一方面,提供一种机器学习模型训练方法,包括:利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括所述目标主体和所述目标客体的目标区域的视觉特征;根据所述谓词概率分布结果和谓词标注结果确定第一损失函数;利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义向量,根据所述目标主体的语义特征预测所述目标主体的第一空间向量,根据所述目标客体的空间特征预测所述目标客体的第一语义向量,根据所述目标客体的语义特征预测所述目标客体的第一空间向量;根据预测结果确定第二损失函数;根据所述第一损失函数和所述第二损失函数确定第一目标损失函数;利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
6.在一些实施例中,所述根据预测结果确定第二损失函数包括:根据所述目标主体的第一空间向量和所述目标主体的空间标注结果、所述目标客体的第一空间向量和所述目标客体的空间标注结果确定第一子损失函数;根据所述目标主体的第一语义向量和所述目标主体的语义标注结果、所述目标客体的第一语义向量和所述目标客体的语义标注结果确定第二子损失函数;根据所述第一子损失函数和所述第二子损失函数确定所述第二损失函数。
7.在一些实施例中,所述第一子损失函数与所述目标主体的第一空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第一空间向量和所述目标客体的空间标注结果的偏差之和正相关;所述第二子损失函数与所述目标主体的第一语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第一语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。
8.在一些实施例中,所述第二损失函数为所述第一子损失函数和所述第二子损失函
数的加权和。
9.在一些实施例中,所述根据所述目标主体的空间特征预测所述目标主体的第一语义向量包括:将所述目标主体的空间特征和所述视觉特征进行融合,以得到第一融合特征;将所述第一融合特征进行压缩处理,以得到第一压缩特征;利用多层感知机对所述第一压缩特征进行处理,以得到所述目标主体的第一语义向量。
10.在一些实施例中,所述根据所述目标主体的语义特征预测所述目标主体的第一空间向量包括:利用所述目标主体的语义特征和所述视觉特征进行重构处理,以得到所述目标主体的第一空间向量。
11.在一些实施例中,所述根据所述目标客体的空间特征预测所述目标客体的第一语义向量包括:将所述目标客体的空间特征和所述视觉特征进行融合,以得到第二融合特征;将所述第二融合特征进行压缩处理,以得到第二压缩特征;利用多层感知机对所述第二压缩特征进行处理,以得到所述目标客体的第一语义向量。
12.在一些实施例中,所述根据所述目标客体的语义特征获得所述目标客体的第一空间向量包括:利用所述目标客体的语义特征和所述视觉特征进行重构处理,以得到所述目标客体的第一空间向量。
13.在一些实施例中,所述第一损失函数与所述谓词概率分布结果和所述谓词标注结果的交叉熵负相关。
14.在一些实施例中,所述第一目标损失函数为所述第一损失函数和所述第二损失函数的加权和。
15.在一些实施例中,根据所述谓词概率分布结果确定所述目标关系三元组的谓词特征。
16.在一些实施例中,上述方法还包括:利用所述第二机器学习模型将所述目标客体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第一对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第一对象特征进行对象间重构,以得到所述目标主体的第二语义向量和第二空间向量;利用所述第二机器学习模型将所述目标主体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第二对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第二对象特征进行对象间重构,以得到所述目标客体的第二语义向量和第二空间向量;根据对象间重构结果确定第三损失函数;根据所述第一损失函数、所述第二损失函数和所述第三损失函数确定第二目标损失函数;利用所述第二目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
17.在一些实施例中,所述根据对象间重构结果确定第三损失函数包括:根据所述目标主体的第二空间向量和所述目标主体的空间标注结果、所述目标客体的第二空间向量和所述目标客体的空间标注结果确定第三子损失函数;根据所述目标主体的第二语义向量和所述目标主体的语义标注结果、所述目标客体的第二语义向量和所述目标客体的语义标注结果确定第四子损失函数;根据所述第三子损失函数和所述第四子损失函数确定所述第三损失函数。
18.在一些实施例中,所述第三子损失函数与所述目标主体的第二空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第二空间向量和所述目标客体的空间标注结果的偏差之和正相关;所述第四子损失函数与所述目标主体的第二语义向量和所述目
标主体的语义标注结果的交叉熵与所述目标客体的第二语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。
19.在一些实施例中,所述第三损失函数为所述第三子损失函数和所述第四子损失函数的加权和。
20.在一些实施例中,所述第二目标损失函数为所述第一损失函数、所述第二损失函数和所述第三损失函数的加权和。
21.在一些实施例中,利用所述第一机器学习模型从所述样本图像中提取出除所述目标关系三元组之外的其它关系三元组的语义特征、空间特征、谓词特征和视觉特征;利用所述第二机器学习模型根据所述其它关系三元组的语义特征、空间特征、谓词特征和视觉特征、所述目标主体的空间特征和所述目标客体的空间特征进行关系间重构,以得到所述目标主体的第三语义向量、所述目标客体的第三语义向量、以及谓词概率预测分布结果;根据关系间重构结果确定第四损失函数;根据所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数确定第三目标损失函数;利用所述第三目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
22.在一些实施例中,所述根据关系间重构结果确定第四损失函数包括:根据所述目标主体的第三语义向量和语义标注结果、所述目标客体的第三语义向量和语义标注结果确定第五子损失函数;根据所述谓词概率预测分布结果和所述谓词标注结果确定第六子损失函数;根据所述第五子损失函数和所述第六子损失函数确定所述第四损失函数。
23.在一些实施例中,所述第五子损失函数与所述目标主体的第三语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第三语义向量和所述目标客体的语义标注结果的交叉熵之和负相关;所述第六子损失函数与所述谓词概率预测分布结果和所述谓词标记结果的交叉熵负相关。
24.在一些实施例中,所述第四损失函数为所述第五子损失函数和所述第六子损失函数的加权和。
25.在一些实施例中,所述第三目标损失函数为所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数的加权和。
26.在一些实施例中,所述利用第一机器学习模型对样本图像进行处理包括:利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、所述目标区域的视觉特征;利用所述目标主体的语义特征和空间特征、所述目标客体的语义特征和空间特征、所述目标区域的视觉特征确定所述谓词概率分布结果。
27.在一些实施例中,所述确定所述谓词概率分布结果包括:将所述目标主体的语义特征和空间特征进行融合,以得到第三融合特征;将所述目标区域的视觉特征进行压缩,以得到第三压缩特征;将所述第三融合特征和所述第三压缩特征进行融合,以得到第四融合特征;利用多层感知机对所述第四融合特征进行处理,以得到所述谓词概率分布结果。
28.根据本公开实施例的第二方面,提供一种机器学习模型训练装置,包括:第一训练模块,被配置为利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括所述目标主体和所述目标客体的目标区域的视觉特征,根据所述谓词概率分布结果和谓词
标注结果确定第一损失函数;第二训练模块,被配置为利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义向量,根据所述目标主体的语义特征预测所述目标主体的第一空间向量,根据所述目标客体的空间特征预测所述目标客体的第一语义向量,根据所述目标客体的语义特征预测所述目标客体的第一空间向量,根据预测结果确定第二损失函数;第三训练模块,被配置为根据所述第一损失函数和所述第二损失函数确定第一目标损失函数,利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
29.根据本公开实施例的第三方面,提供一种机器学习模型训练装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
30.根据本公开实施例的第四方面,提供一种视觉关系检测方法,包括:将待处理图像输入第一机器学习模型,以便所述第一机器学习模型输出与待处理关系三元组中的待处理主体和待处理客体相关联的谓词概率分布结果,其中所述第一机器学习模型利用上述任一实施例所述的机器学习模型训练方法训练得到;对所述谓词概率分布结果进行预测,以得到所述待处理主体和所述待处理客体的视觉关系。
31.根据本公开实施例的第五方面,提供一种视觉关系检测装置,包括:第一检测模块,被配置为将待处理图像输入第一机器学习模型,以便所述第一机器学习模型输出与待处理关系三元组中的待处理主体和待处理客体相关联的谓词概率分布结果,其中所述第一机器学习模型利用上述任实施例所述的机器学习模型训练方法训练得到;第二检测模块,被配置为对所述谓词概率分布结果进行预测,以得到所述待处理主体和所述待处理客体的视觉关系。
32.根据本公开实施例的第六方面,提供一种视觉关系检测装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
33.根据本公开实施例的第七方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
34.通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
35.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
36.图1为本公开一个实施例的机器学习模型训练方法的流程示意图;
37.图2为本公开另一个实施例的机器学习模型训练方法的流程示意图;
38.图3为本公开又一个实施例的机器学习模型训练方法的流程示意图;
39.图4为本公开一个实施例的机器学习模型训练装置的结构示意图;
40.图5为本公开另一个实施例的机器学习模型训练装置的结构示意图;
41.图6为本公开一个实施例的视觉关系检测方法的流程示意图;
42.图7为本公开一个实施例的视觉关系检测装置的结构示意图;
43.图8为本公开另一个实施例的视觉关系检测装置的结构示意图。
具体实施方式
44.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
45.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
46.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
47.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
48.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
49.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
50.图1为本公开一个实施例的机器学习模型训练方法的流程示意图。在一些实施例中,下列的机器学习模型训练方法由机器学习模型训练装置执行。
51.在步骤101,利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征。
52.关系三元组可表示为《主体,谓词,客体》。例如图像中包括汽车和停车标志牌,汽车在停车标志牌的前方,若将汽车作为主体,停车标志牌作为客体,则谓词为前方。对应的关系三元组可表示为《汽车,前方,停车标志牌》。目标区域为包括汽车和停车标志牌的最小联合区域。
53.在一些实施例中,利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、以及目标区域的视觉特征。
54.例如,对包含主体和客体的联合区域进行小范围扩展后输入经过预训练的cnn(convolutional neural network,卷积神经网络)提取视觉表征。所得到的视觉表征不仅能捕捉主客体视觉表象,还能够捕捉周围环境的关系。利用空间掩码模块通过沙漏网络对双层空间掩码进行编码以得到编码结果,该双层空间掩码是由主体和客体的二进制掩码组成。进而利用该编码结果和视觉表征进行拼接以得到视觉特征。
55.针对主体和客体的语义特征,可首先将主体和客体的名称转换为词向量(例如,使用word2vec模型),然后利用gru(gated recurrent unit,门控循环单元)进行编码,以得到
高维(例如,300维)的特征向量,再通过全连接网络将高维的特征向量转换为主体的语义特征和客体的语义特征。
56.针对主体和客体的空间特征,可通过全连接层将主体的4维坐标向量和客体的4维坐标向量分别转化为主体的空间特征和客体的空间特征。
57.接下来,利用目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、目标区域的视觉特征确定谓词概率分布结果。
58.例如,将目标主体的语义特征和空间特征进行融合(例如,将目标主体的语义特征和空间特征进行拼接),以得到融合特征。将目标区域的视觉特征进行压缩(例如,利用adaptiveavgpool层进行压缩),以得到压缩结果。然后,将融合特征和压缩结果进行融合(例如,融合特征和压缩结果进行拼接),以得到融合结果。接下来利用mlp(multi-layer perceptron,多层感知机)作为谓词分类器对融合结果进行处理,以得到谓词概率分布结果如公式(1)所示。
[0059][0060]
其中,为主体的语义特征,为主体的空间特征,为客体的语义特征,为客体的空间特征,wf为融合变换矩阵,f
vis
为视觉特征,avgpool为压缩函数,e
cls
为谓词分类器。
[0061]
在步骤102,根据谓词概率分布结果和谓词标注结果确定第一损失函数。
[0062]
在一些实施例中,第一损失函数与谓词概率分布结果和谓词标注结果的交叉熵负相关。例如,第一损失函数l
base
如公式(2)所示。
[0063][0064]
其中,为谓词概率分布结果,p为谓词标注结果,x表示向量中的第x维。
[0065]
在步骤103,利用第二机器学习模型根据目标主体的空间特征预测目标主体的第一语义向量,根据目标主体的语义特征预测目标主体的第一空间向量,根据目标客体的空间特征预测目标客体的第一语义向量,根据目标客体的语义特征预测目标客体的第一空间向量。即进行对象内的向量预测。
[0066]
在一些实施例中,将目标主体的空间特征和视觉特征进行融合(例如,进行拼接),以得到第一融合特征。将第一融合特征进行压缩处理,以得到第一压缩特征。利用多层感知机对第一压缩特征进行处理,以得到目标主体的第一语义向量。
[0067]
在一些实施例中,利用目标主体的语义特征和视觉特征进行重构处理,以得到目标主体的第一空间向量。
[0068]
在一些实施例中,将目标客体的空间特征和视觉特征进行融合(例如,进行拼接),以得到第二融合特征。将第二融合特征进行压缩处理,以得到第二压缩特征。利用多层感知机对第二压缩特征进行处理,以得到目标客体的第一语义向量。
[0069]
在一些实施例中,利用目标客体的语义特征和视觉特征进行重构处理,以得到目标客体的第一空间向量。
[0070]
例如,目标主体的第一空间向量和目标客体的第一空间向量为7
×7×
5维,其中图像被分割为7
×
7的网格,5维代表4维坐标信息加1维置信度
[0071]
在步骤104,根据预测结果确定第二损失函数。
[0072]
在一些实施例中,确定第二损失函数的步骤包括如下内容:
[0073]
1)根据目标主体的第一空间向量和目标主体的空间标注结果、目标客体的第一空间向量和目标客体的空间标注结果确定第一子损失函数。
[0074]
例如,第一子损失函数与目标主体的第一空间向量和目标主体的空间标注结果的偏差与目标客体的第一空间向量和目标客体的空间标注结果的偏差之和正相关。
[0075]
设目标主体的第一空间向量为目标客体的第一空间向量为目标主体的空间标注结果为bs,和目标客体的空间标注结果为bo,则第一子损失函数loss1如公式(3)所示。
[0076][0077]
例如,目标主体的第一空间向量为4维坐标信息目标主体的空间标注结果为4维坐标信息(x,y,w,h),则如公式(4)所示。
[0078][0079]
其中表示真实目标是否出现在网格单元中,含有目标值的网格单元的置信度c为1,i表示第i个网格单元。
[0080]
相应地,也可采用公式(4)进行计算。
[0081]
2)根据目标主体的第一语义向量和目标主体的语义标注结果、目标客体的第一语义向量和目标客体的语义标注结果确定第二子损失函数。
[0082]
例如,第二子损失函数与目标主体的第一语义向量和目标主体的语义标注结果的交叉熵与目标客体的第一语义向量和目标客体的语义标注结果的交叉熵之和负相关。
[0083]
设目标主体的第一语义向量为目标主体的语义标注结果为ns,目标客体的第一语义向量为目标客体的语义标注结果为no,则第二子损失函数loss2如公式(5)所示。
[0084][0085]
3)根据第一子损失函数和第二子损失函数确定第二损失函数。
[0086]
在一些实施例中,第二损失函数为第一子损失函数和第二子损失函数的加权和。
[0087]
例如,第二损失函数l
intra-object
如公式(6)所示。
[0088]
l
intra-object
=loss1+loss2ꢀꢀꢀꢀꢀꢀ
(6)
[0089]
在步骤105,根据第一损失函数和第二损失函数确定第一目标损失函数。
[0090]
在一些实施例中,第一目标损失函数为第一损失函数和第二损失函数的加权和。
[0091]
例如,第一目标损失函数如公式(7)所示。
[0092]
l1=l
base
+l
intra-object
ꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0093]
在步骤106,利用第一目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0094]
在本公开上述实施例提供的机器学习模型训练方法中,在通过第一机器学习模型对样本图像进行处理以获得目标关系三元组的相关特征的基础上,利用第二机器学习模型进行对象内的向量预测,并根据预测结果对第一机器学习模型和第二机器学习模型进行训练。由于在训练过程中利用内部监督信号,从而能够有效获得性能稳定的视觉关系检测结果。
[0095]
图2为本公开另一个实施例的机器学习模型训练方法的流程示意图。在一些实施例中,下列的机器学习模型训练方法由机器学习模型训练装置执行。
[0096]
在步骤201,利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征。
[0097]
在步骤202,根据谓词概率分布结果和谓词标注结果确定第一损失函数。
[0098]
例如,第一损失函数如上述公式(2)所示。
[0099]
在步骤203,根据谓词概率分布结果确定目标关系三元组的谓词特征。
[0100]
例如,谓词特征用热编码(one hot encoding)形式标识。
[0101]
在步骤204,进行对象内的向量预测。
[0102]
即,利用第二机器学习模型根据目标主体的空间特征预测目标主体的第一语义向量,根据目标主体的语义特征预测目标主体的第一空间向量,根据目标客体的空间特征预测目标客体的第一语义向量,根据目标客体的语义特征预测目标客体的第一空间向量。
[0103]
在步骤205,根据预测结果确定第二损失函数。
[0104]
例如,第二损失函数如上述公式(6)所示。
[0105]
在步骤206,进行对象间的向量重构。
[0106]
即,利用第二机器学习模型将目标客体的语义特征和空间特征、视觉特征进行多模态融合以得到第一对象特征。利用第二机器学习模型根据谓词特征和第一对象特征进行对象间重构,以得到目标主体的第二语义向量和第二空间向量。利用第二机器学习模型将目标主体的语义特征和空间特征、视觉特征进行多模态融合以得到第二对象特征。利用第二机器学习模型根据谓词特征和第二对象特征进行对象间重构,以得到目标客体的第二语义向量和第二空间向量。
[0107]
在步骤207,根据对象间重构结果确定第三损失函数。
[0108]
在一些实施例中,确定第三损失函数的步骤包括如下内容:
[0109]
1)根据目标主体的第二空间向量和目标主体的空间标注结果、目标客体的第二空间向量和目标客体的空间标注结果确定第三子损失函数。
[0110]
例如,第三子损失函数与目标主体的第二空间向量和目标主体的空间标注结果的偏差与目标客体的第二空间向量和目标客体的空间标注结果的偏差之和正相关。
[0111]
设目标主体的第二空间向量为目标客体的第二空间向量为目标主体的空间标注结果为bs,和目标客体的空间标注结果为bo,则第三子损失函数loss3如公式(8)所示。
[0112][0113]
其中,和均可采用上述公式(4)进行计算。
[0114]
2)根据目标主体的第二语义向量和目标主体的语义标注结果、目标客体的第二语义向量和目标客体的语义标注结果确定第四子损失函数。
[0115]
例如,第四子损失函数与目标主体的第二语义向量和目标主体的语义标注结果的交叉熵与目标客体的第二语义向量和目标客体的语义标注结果的交叉熵之和负相关。
[0116]
设目标主体的第二语义向量为目标主体的语义标注结果为ns,目标客体的第二语义向量为目标客体的语义标注结果为no,则第四子损失函数loss4如公式(9)所示。
[0117][0118]
3)根据第三子损失函数和第四子损失函数确定第三损失函数。
[0119]
在一些实施例中,第三损失函数为第三子损失函数和第四子损失函数的加权和。
[0120]
例如,第三损失函数l
inter-object
如公式(10)所示。
[0121]
l
inter-object
=loss3+loss4ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0122]
在步骤208,根据第一损失函数、第二损失函数和第三损失函数确定第二目标损失函数。
[0123]
在一些实施例中,第二目标损失函数为第一损失函数、第二损失函数和第三损失函数的加权和。
[0124]
例如,第二目标损失函数如公式(11)所示。
[0125]
l2=l
base
+l
intra-object
+l
inter-object
ꢀꢀꢀꢀꢀꢀ
(11)
[0126]
在步骤209,利用第二目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0127]
在本公开上述实施例提供的机器学习模型训练方法中,在通过第一机器学习模型对样本图像进行处理以获得目标关系三元组的相关特征的基础上,利用第二机器学习模型进行对象内的向量预测和对象间的向量预测,并根据预测结果对第一机器学习模型和第二机器学习模型进行训练。由于在训练过程中利用多粒度的内部监督信号,从而能够有效获得性能稳定的视觉关系检测结果。
[0128]
图3为本公开又一个实施例的机器学习模型训练方法的流程示意图。在一些实施例中,下列的机器学习模型训练方法由机器学习模型训练装置执行。
[0129]
在步骤301,利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征。
[0130]
在步骤302,根据谓词概率分布结果和谓词标注结果确定第一损失函数。
[0131]
例如,第一损失函数如上述公式(2)所示。
[0132]
在步骤303,根据谓词概率分布结果确定目标关系三元组的谓词特征。
[0133]
例如,谓词特征用热编码(one hot encoding)形式标识。
[0134]
在步骤304,进行对象内的向量预测。
[0135]
即,利用第二机器学习模型根据目标主体的空间特征预测目标主体的第一语义向量,根据目标主体的语义特征预测目标主体的第一空间向量,根据目标客体的空间特征预测目标客体的第一语义向量,根据目标客体的语义特征预测目标客体的第一空间向量。
[0136]
在步骤305,根据预测结果确定第二损失函数。
[0137]
例如,第二损失函数如上述公式(6)所示。
[0138]
在步骤306,进行对象间的向量重构。
[0139]
即,利用第二机器学习模型将目标客体的语义特征和空间特征、视觉特征进行多模态融合以得到第一对象特征。利用第二机器学习模型根据谓词特征和第一对象特征进行对象间重构,以得到目标主体的第二语义向量和第二空间向量。利用第二机器学习模型将目标主体的语义特征和空间特征、视觉特征进行多模态融合以得到第二对象特征。利用第二机器学习模型根据谓词特征和第二对象特征进行对象间重构,以得到目标客体的第二语义向量和第二空间向量。
[0140]
在步骤307,根据对象间重构结果确定第三损失函数。
[0141]
例如,第三损失函数l
inter-object
如上述公式(10)所示。
[0142]
在步骤308,进行关系间的向量重构。
[0143]
首先,利用第一机器学习模型从样本图像中提取出除目标关系三元组之外的其它关系三元组的语义特征、空间特征、谓词特征和视觉特征。
[0144]
例如,图像中包括汽车和停车标志牌,汽车位于停车标志牌的前方,则对应的关系三元组为《汽车,前方,停车标志牌》。此外,该图像还包括房屋、地面等对象,相应的关系三元组可包括《汽车,在...上,地面》、《停车标志牌,前面,房屋》等。通过利用这些关系三元组可以构建一个较为完善的场景图,便于模型理解场景。
[0145]
接下来,利用第二机器学习模型根据其它关系三元组的语义特征、空间特征、谓词特征和视觉特征、目标主体的空间特征和目标客体的空间特征进行关系间重构,以得到目标主体的第三语义向量、目标客体的第三语义向量、以及谓词概率预测分布结果。
[0146]
在步骤309,根据关系间重构结果确定第四损失函数。
[0147]
在一些实施例中,确定第四损失函数的步骤包括如下内容。
[0148]
1)根据目标主体的第三语义向量和语义标注结果、目标客体的第三语义向量和语义标注结果确定第五子损失函数。
[0149]
例如,第五子损失函数与目标主体的第三语义向量和目标主体的语义标注结果的交叉熵与目标客体的第三语义向量和目标客体的语义标注结果的交叉熵之和负相关。
[0150]
设样本图像中包括m个关系三元组,目标关系三元组是第i个关系三元组ri。在ri中,设目标主体的第三语义向量为目标主体的语义标注结果为n
si
,目标客体的第三语义向量为目标客体的语义标注结果为n
oi
,则第五子损失函数loss4如公式(12)所示。
[0151][0152]
2)根据谓词概率预测分布结果和谓词标注结果确定第六子损失函数。
[0153]
例如,第六子损失函数与谓词概率预测分布结果和谓词标记结果的交叉熵负相关。
[0154]
设样本图像中包括m个关系三元组,目标关系三元组是第i个关系三元组ri。在ri中,谓词概率预测分布结果为谓词标记结果为p
si
,则第六子损失函数loss6如公式(13)所示。
[0155]
[0156]
3)根据第五子损失函数和第六子损失函数确定第四损失函数。
[0157]
在一些实施例中,第四损失函数为第五子损失函数和第六子损失函数的加权和。
[0158]
例如,第四损失函数l
inter-relation
如公式(14)所示。
[0159]
l
inter-relation
=loss5+loss6ꢀꢀꢀꢀꢀꢀꢀ
(14)
[0160]
在步骤310,根据第一损失函数、第二损失函数、第三损失函数和第四损失函数确定第三目标损失函数。
[0161]
在一些实施例中,第三目标损失函数为第一损失函数、第二损失函数、第三损失函数和第四损失函数的加权和。
[0162]
例如,第三目标损失函数如公式(15)所示。
[0163]
l3=l
base
+l
intra-object
+l
inter-object
+l
inter-relation
ꢀꢀ
(15)
[0164]
在步骤311,利用第四目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0165]
在本公开上述实施例提供的机器学习模型训练方法中,在通过第一机器学习模型对样本图像进行处理以获得目标关系三元组的相关特征的基础上,利用第二机器学习模型进行对象内的向量预测、对象间的向量预测和关系间的向量预测,并根据预测结果对第一机器学习模型和第二机器学习模型进行训练。由于在训练过程中利用多粒度的内部监督信号,从而能够有效获得性能稳定的视觉关系检测结果。
[0166]
图4为本公开一个实施例的机器学习模型训练装置的结构示意图。如图4所示,机器学习模型训练装置包括第一训练模块41、第二训练模块42和第三训练模块43。
[0167]
第一训练模块41被配置为利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征,根据谓词概率分布结果和谓词标注结果确定第一损失函数。
[0168]
在一些实施例中,第一训练模块41利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、目标区域的视觉特征。利用目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、目标区域的视觉特征确定谓词概率分布结果。
[0169]
在一些实施例中,第一训练模块41将目标主体的语义特征和空间特征进行融合以得到第三融合特征,将目标区域的视觉特征进行压缩以得到第三压缩特征,将第三融合特征和第三压缩特征进行融合,以得到第四融合特征,利用多层感知机对第四融合特征进行处理,以得到谓词概率分布结果。
[0170]
在一些实施例中,第一损失函数与谓词概率分布结果和谓词标注结果的交叉熵负相关。例如,第一损失函数如上述公式(2)所示。
[0171]
第二训练模块42被配置为利用第二机器学习模型根据目标主体的空间特征预测目标主体的第一语义向量,根据目标主体的语义特征预测目标主体的第一空间向量,根据目标客体的空间特征预测目标客体的第一语义向量,根据目标客体的语义特征预测目标客体的第一空间向量,根据预测结果确定第二损失函数。
[0172]
在一些实施例中,第二训练模块42将目标主体的空间特征和视觉特征进行融合以得到第一融合特征,将第一融合特征进行压缩处理以得到第一压缩特征,利用多层感知机
对第一压缩特征进行处理以得到目标主体的第一语义向量。
[0173]
在一些实施例中,第二训练模块42利用目标主体的语义特征和视觉特征进行重构处理,以得到目标主体的第一空间向量。
[0174]
在一些实施例中,第二训练模块42将目标客体的空间特征和视觉特征进行融合以得到第二融合特征,将第二融合特征进行压缩处理以得到第二压缩特征,利用多层感知机对第二压缩特征进行处理以得到目标客体的第一语义向量。
[0175]
在一些实施例中,第二训练模块42利用目标客体的语义特征和视觉特征进行重构处理,以得到目标客体的第一空间向量。
[0176]
在一些实施例中,第二训练模块42根据目标主体的第一空间向量和目标主体的空间标注结果、目标客体的第一空间向量和目标客体的空间标注结果确定第一子损失函数;根据目标主体的第一语义向量和目标主体的语义标注结果、目标客体的第一语义向量和目标客体的语义标注结果确定第二子损失函数;根据第一子损失函数和第二子损失函数确定第二损失函数。
[0177]
在一些实施例中,第一子损失函数与目标主体的第一空间向量和目标主体的空间标注结果的偏差与目标客体的第一空间向量和目标客体的空间标注结果的偏差之和正相关。第二子损失函数与目标主体的第一语义向量和目标主体的语义标注结果的交叉熵与目标客体的第一语义向量和目标客体的语义标注结果的交叉熵之和负相关。
[0178]
在一些实施例中,第二损失函数为第一子损失函数和第二子损失函数的加权和。例如,第二损失函数如上述公式(6)所示。
[0179]
第三训练模块43被配置为根据第一损失函数和第二损失函数确定第一目标损失函数,利用第一目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0180]
在一些实施例中,第一目标损失函数为第一损失函数和第二损失函数的加权和。例如,第一目标损失函数如上述公式(7)所示。
[0181]
在一些实施例中,第一训练模块41根据谓词概率分布结果确定目标关系三元组的谓词特征。
[0182]
在一些实施例中,第二训练模块42利用第二机器学习模型将目标客体的语义特征和空间特征、视觉特征进行多模态融合以得到第一对象特征,利用第二机器学习模型根据谓词特征和第一对象特征进行对象间重构,以得到目标主体的第二语义向量和第二空间向量,利用第二机器学习模型将目标主体的语义特征和空间特征、视觉特征进行多模态融合以得到第二对象特征,利用第二机器学习模型根据谓词特征和第二对象特征进行对象间重构,以得到目标客体的第二语义向量和第二空间向量,根据对象间重构结果确定第三损失函数。
[0183]
在一些实施例中,第二训练模块42根据目标主体的第二空间向量和目标主体的空间标注结果、目标客体的第二空间向量和目标客体的空间标注结果确定第三子损失函数,根据目标主体的第二语义向量和目标主体的语义标注结果、目标客体的第二语义向量和目标客体的语义标注结果确定第四子损失函数,根据第三子损失函数和第四子损失函数确定第三损失函数。
[0184]
在一些实施例中,第三子损失函数与目标主体的第二空间向量和目标主体的空间标注结果的偏差与目标客体的第二空间向量和目标客体的空间标注结果的偏差之和正相
关。第四子损失函数与目标主体的第二语义向量和目标主体的语义标注结果的交叉熵与目标客体的第二语义向量和目标客体的语义标注结果的交叉熵之和负相关。
[0185]
在一些实施例中,第三损失函数为第三子损失函数和第四子损失函数的加权和。例如,第三损失函数如上述公式(10)所示。
[0186]
在一些实施例中,第三训练模块43根据第一损失函数、第二损失函数和第三损失函数确定第二目标损失函数,利用第二目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0187]
在一些实施例中,第二目标损失函数为第一损失函数、第二损失函数和第三损失函数的加权和。例如,第二目标损失函数如上述公式(11)所示。
[0188]
在一些实施例中,第一训练模块41利用第一机器学习模型从样本图像中提取出除目标关系三元组之外的其它关系三元组的语义特征、空间特征、谓词特征和视觉特征。
[0189]
第二训练模块42利用第二机器学习模型根据其它关系三元组的语义特征、空间特征、谓词特征和视觉特征、目标主体的空间特征和目标客体的空间特征进行关系间重构,以得到目标主体的第三语义向量、目标客体的第三语义向量、以及谓词概率预测分布结果,根据关系间重构结果确定第四损失函数。
[0190]
在一些实施例中,第二训练模块42根据目标主体的第三语义向量和语义标注结果、目标客体的第三语义向量和语义标注结果确定第五子损失函数,根据谓词概率预测分布结果和谓词标注结果确定第六子损失函数,根据第五子损失函数和第六子损失函数确定第四损失函数。
[0191]
在一些实施例中,第五子损失函数与目标主体的第三语义向量和目标主体的语义标注结果的交叉熵与目标客体的第三语义向量和目标客体的语义标注结果的交叉熵之和负相关。第六子损失函数与谓词概率预测分布结果和谓词标记结果的交叉熵负相关。
[0192]
在一些实施例中,第四损失函数为第五子损失函数和第六子损失函数的加权和。例如,第四损失函数如上述公式(14)所示。
[0193]
在一些实施例中,第三训练模块43根据第一损失函数、第二损失函数、第三损失函数和第四损失函数确定第三目标损失函数,利用第三目标损失函数对第一机器学习模型和第二机器学习模型进行训练。
[0194]
在一些实施例中,第三目标损失函数为第一损失函数、第二损失函数、第三损失函数和第四损失函数的加权和。例如,第三目标损失函数如上述公式(15)所示。
[0195]
图5为本公开另一个实施例的机器学习模型训练装置的结构示意图。如图5所示,机器学习模型训练装置包括存储器51和处理器52。
[0196]
存储器51用于存储指令,处理器52耦合到存储器51,处理器52被配置为基于存储器存储的指令执行实现如图1-3中任一实施例涉及的方法。
[0197]
如图5所示,该机器学习模型训练装置还包括通信接口53,用于与其它设备进行信息交互。同时,该机器学习模型训练装置还包括总线54,处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。
[0198]
存储器51可以包含高速ram存储器,也可还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块,并且块可按一定的规则组合成虚拟卷。
[0199]
此外,处理器52可以是一个中央处理器cpu,或者可以是专用集成电路asic,或是被配置成实施本公开实施例的一个或多个集成电路。
[0200]
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1-3中任一实施例涉及的方法。
[0201]
图6为本公开一个实施例的视觉关系检测方法的流程示意图。在一些实施例中,下列的视觉关系检测方法由视觉关系检测装置执行。
[0202]
在步骤601,将待处理图像输入第一机器学习模型,以便第一机器学习模型输出与待处理关系三元组中的待处理主体和待处理客体相关联的谓词概率分布结果。第一机器学习模型利用图1-图3中任一实施例涉及的机器学习模型训练方法训练得到。
[0203]
在步骤602,对谓词概率分布结果进行预测,以得到待处理主体和待处理客体的视觉关系。
[0204]
需要说明的是,由于在训练过程中利用多粒度的内部监督信号,从而经过训练的第一机器学习模型能够输出性能稳定的视觉关系检测结果。
[0205]
图7为本公开一个实施例的视觉关系检测装置的结构示意图。如图7所示,视觉关系检测装置包括第一检测模块71和第二检测模块72。
[0206]
第一检测模块71被配置为将待处理图像输入第一机器学习模型,以便第一机器学习模型输出与待处理关系三元组中的待处理主体和待处理客体相关联的谓词概率分布结果。第一机器学习模型利用图1-图3中任一实施例涉及的机器学习模型训练方法训练得到。
[0207]
第二检测模块72被配置为对谓词概率分布结果进行预测,以得到待处理主体和待处理客体的视觉关系。
[0208]
图8为本公开另一个实施例的视觉关系检测装置的结构示意图。如图8所示,视觉关系检测装置包括存储器81、处理器82、通信接口83和总线84。图8与图5的不同之处在于,在图8所示实施例中,处理器82被配置为基于存储器存储的指令执行实现如图6中任一实施例涉及的方法。
[0209]
本公开同时还涉及一种计算机可读存储介质,其中计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图6中任一实施例涉及的方法。
[0210]
在一些实施例中,在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(programmable logic controller,简称:plc)、数字信号处理器(digital signal processor,简称:dsp)、专用集成电路(application specific integrated circuit,简称:asic)、现场可编程门阵列(field-programmable gate array,简称:fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
[0211]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0212]
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1