场景图生成模型的训练方法、场景图生成方法及装置与流程

文档序号:30096214发布日期:2022-05-18 10:56阅读:295来源:国知局
场景图生成模型的训练方法、场景图生成方法及装置与流程

1.本公开涉及图像处理技术领域,特别涉及一种场景图生成模型的训练方法、场景图生成方法及装置。


背景技术:

2.视觉场景图是连接计算机视觉和自然语言之间的桥梁,包括至少一个由主体、谓词和客体构成的关系三元组。其中,主体和客体为图像中一对相关的物体实例,谓词用于表示这一对相关的物体实例在图像中的关系,也可以称为关系词。如图像中包括一个骑马的人,则主体为“人”,客体为“马”,关系词为“骑”。在生成视觉场景图时,物体实例可以通过识别得到,而物体实例之间的关系需要通过预测得到。然而,预测结果存在偏差,导致预测结果通常集中在出现频率高的关系词中,从而导致生成的视觉场景图不够准确。
3.相关技术中,为解决预测结果存在偏差的问题,不同关系词在特征空间中的分类中心之间的距离,来定量的确定关系词之间的相关性。然而,对于难区分或细粒度的关系词,如“在/站在/走在”等,无法有效的区分,进而导致生成的视觉场景图的准确度不高。


技术实现要素:

4.本公开提供一种场景图生成模型的训练方法、场景图生成方法及装置,提高场景图生成模型生成的视觉场景图的准确度。本公开的技术方案如下:
5.根据本公开实施例的一方面,提供一种场景图生成模型的训练方法,包括:
6.基于场景图生成模型对样本图像进行预测,得到预测结果信息,所述预测结果信息用于指示多个第一关系词的预测概率,所述第一关系词用于表示所述样本图像中的一对物体实例在所述样本图像中预测的关系;
7.基于关系词关联信息和所述预测结果信息,确定第一损失,所述关系词关联信息用于表示所述多个第一关系词和第二关系词之间的关联关系,所述第二关系词用于表示所述样本图像中的一对物体实例在所述样本图像中标注的关系,所述第一损失用于表示所述多个第一关系词与所述第二关系词之间的差异;
8.基于所述第一损失,训练所述场景图生成模型。
9.根据本公开实施例的另一方面,提供一种场景图生成方法,包括:
10.基于场景图生成模型,对目标图像进行预测,得到预测关系词,所述预测关系词用于表示所述目标图像中的一对物体实例在所述目标图像中预测的关系,所述场景图生成模型基于样本图像标注的关系词与其他关系词之间的关联关系训练得到;
11.基于所述预测关系词和所述目标图像中的一对物体实例,生成场景图,所述场景图中包括节点和边,所述节点用于表示单个物体实例,所述边用于指示所述预测关系词。
12.根据本公开实施例的另一方面,提供一种场景图生成模型的训练装置,包括:
13.预测单元,被配置为执行基于场景图生成模型对样本图像进行预测,得到预测结果信息,所述预测结果信息用于指示多个第一关系词的预测概率,所述第一关系词用于表
示所述样本图像中的一对物体实例在所述样本图像中预测的关系;
14.第一确定单元,被配置为执行基于关系词关联信息和所述预测结果信息,确定第一损失,所述关系词关联信息用于表示所述多个第一关系词和第二关系词之间的关联关系,所述第二关系词用于表示所述样本图像中的一对物体实例在所述样本图像中标注的关系,所述第一损失用于表示所述多个第一关系词与所述第二关系词之间的差异;
15.训练单元,被配置为执行基于所述第一损失,训练所述场景图生成模型。
16.在一些实施例中,所述第一确定单元,包括:
17.第一确定子单元,被配置为执行基于所述关系词关联信息和所述预测结果信息,确定所述第二关系词的多个权重参数,所述权重参数用于对所述第一关系词的预测概率进行加权;
18.第二确定子单元,被配置为执行基于所述第二关系词的多个权重参数和所述预测结果信息,确定所述第一损失。
19.在一些实施例中,所述第一确定子单元,包括:
20.获取子子单元,被配置为执行对于任一第一关系词,基于所述关系词关联信息,获取所述第一关系词的相关性参数,所述相关性参数用于表示所述第二关系词与所述第一关系词之间的语义相似度;
21.第一确定子子单元,被配置为执行基于所述第二关系词和所述预测结果信息,确定所述第一关系词的平衡参数,所述平衡参数用于表示当前批次图像中第一样本图像的数量与第二样本图像的数量的比值,所述当前批次图像包括所述样本图像,所述第一样本图像标注有所述第一关系词,所述第二样本图像标注有所述第二关系词;
22.第二确定子子单元,被配置为执行基于所述相关性参数和所述平衡参数,确定所述权重参数。
23.在一些实施例中,所述装置还包括:
24.第一获取单元,被配置为执行获取实例关系信息,所述实例关系信息包括多个样本图像的标注关系词和预测关系词,所述实例关系信息基于实例关系预测模型对所述多个样本图像进行预测得到,所述实例关系预测模型用于对样本图像中的一对物体实例的关系进行预测,得到该样本图像的预测关系词;
25.第二获取单元,被配置为执行对于任一标注关系词,获取标注所述标注关系词的样本图像中第三样本图像的数量,所述第三样本图像是指被错误预测为目标预测关系词的样本图像;
26.第三获取单元,被配置为执行获取标注所述标注关系词的样本图像中第四样本图像的数量,所述第四样本图像是指被正确预测为所述标注关系词的样本图像;
27.第二确定单元,被配置为执行基于所述第三样本图像的数量和所述第四样本图像的数量,确定所述标注关系词与所述目标预测关系词之间的相关性参数。
28.在一些实施例中,所述第二确定单元,被配置为执行基于所述第三样本图像的数量,确定第一参数,所述第一参数由所述第三样本图像的数量与目标数量的比值归一化得到,所述目标数量为标注有所述标注关系词的样本图像的总数量;基于所述第四样本图像的数量,确定第二参数,所述第二参数由所述第四样本图像的数量与所述目标数量的比值归一化得到;将所述第一参数和所述第二参数的比值,作为所述标注关系词与所述目标预
测关系词的相关性参数。
29.在一些实施例中,所述第二确定子子单元,被配置为执行在所述平衡参数不小于1且所述相关性参数大于相关性阈值的情况下,基于所述平衡参数确定所述权重参数;在所述平衡参数不小于1且所述相关性参数不大于所述相关性阈值的情况下,确定所述权重参数为1;在所述平衡参数小于1且所述相关性参数大于所述相关性阈值的情况下,确定所述权重参数为1;在所述平衡参数小于1且所述相关性参数不大于所述相关性阈值的情况下,基于所述平衡参数确定所述权重参数。
30.在一些实施例中,所述第二确定子单元,被配置为执行基于所述预测结果信息,确定第一预测信息,所述第一预测信息表示所述第二关系词的预测概率的分对数;基于所述预测结果信息,确定多个第二预测信息,所述第二预测信息表示所述第一关系词的预测概率的分对数;基于所述第一预测信息、所述多个第二预测信息以及所述多个权重参数,确定所述第一损失。
31.在一些实施例中,所述训练单元,包括:
32.获取子单元,被配置为执行获取所述第二关系词的目标词汇集,所述目标词汇集包括与所述第二关系词具有目标关联关系的词汇;
33.第三确定子单元,被配置为执行基于所述目标词汇集、所述预测结果信息和多个平衡参数,确定第二损失,所述平衡参数用于表示当前批次图像中的第一样本图像的数量与第二样本图像的数量的比值,所述当前批次图像包括所述样本图像,所述第一样本图像标注有所述第一关系词,所述第二样本图像标注有所述第二关系词;
34.训练子单元,被配置为执行基于所述第一损失和所述第二损失,训练所述场景图生成模型。
35.在一些实施例中,所述装置还包括:
36.第四获取单元,被配置为执行获取实例关系信息,所述实例关系信息包括多对物体实例、多个关系词、所述多对物体实例与所述多个关系词之间的关联关系以及所述多个关系词之间的关联关系;
37.构建单元,被配置为执行基于所述实例关系信息,构建实例关系图,所述实例关系图中包括第一类节点、第二类节点、第一类边以及第二类边,所述第一类节点用于表示一对物体实例,所述第二类节点用于表示关系词,所述第一类边用于表示一对物体实例与关系词之间的关联关系,所述第二类边用于表示所述多个关系词之间的关联关系;
38.第三确定单元,被配置为执行基于所述实例关系图,确定所述关系词关联信息。
39.根据本公开实施例的另一方面,提供一种场景图生成装置,包括:
40.预测单元,被配置为执行基于场景图生成模型,对目标图像进行预测,得到预测关系词,所述预测关系词用于表示所述目标图像中的一对物体实例在所述目标图像中预测的关系,所述场景图生成模型基于样本图像标注的关系词与其他关系词之间的关联关系训练得到;
41.生成单元,被配置为执行基于所述预测关系词和所述目标图像中的一对物体实例,生成场景图,所述场景图中包括节点和边,所述节点用于表示单个物体实例,所述边用于指示所述预测关系词。
42.根据本公开实施例的另一方面,提供一种电子设备,该电子设备包括:
43.一个或多个处理器;
44.用于存储该处理器可执行程序代码的存储器;
45.其中,该处理器被配置为执行该程序代码,以实现上述场景图生成模型的训练方法,或者实现上述场景图生成方法。
46.根据本公开实施例的另一方面,提供一种计算机可读存储介质,当该计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行上述场景图生成模型的训练方法,或者使得电子设备能够执行上述场景图生成方法。
47.根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述场景图生成模型的训练方法,或者该计算机程序被处理器执行时实现上述场景图生成方法。
48.本公开实施例提供了一种场景图生成模型的训练方案,通过在训练过程中引入关系词关联信息,该关系词关联信息能够反映第一关系词与第二关系词之间的关联关系,从而能够在训练过程中,基于该关系词关联信息确定第一关系词和第二关系词之间的差异,使得模型能够区分具有关联关系的关系词,从而提高模型生成的视觉场景图的准确度。
49.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
51.图1是根据一示例性实施例示出的一种实施环境示意图。
52.图2是根据一示例性实施例示出的一种场景图生成模型的训练方法的流程图。
53.图3是根据一示例性实施例示出的另一种场景图生成模型的训练方法的流程图。
54.图4是根据一示例性实施例示出的一种实例关系图的示意图。
55.图5是根据一示例性实施例示出的一种样本图像的示意图。
56.图6是根据一示例性实施例示出的一种第一损失的示意图。
57.图7是根据一示例性实施例示出的一种第二损失的示意图。
58.图8是根据一示例性实施例示出的一种训练过程的示意图。
59.图9是根据一示例性实施例示出的一种场景图生成方法的流程图。
60.图10是根据一示例性实施例示出的一种生成场景图的示意图。
61.图11是根据一示例性实施例示出的一种场景图生成模型的训练装置框图。
62.图12是根据一示例性实施例示出的另一种场景图生成模型的训练装置框图。
63.图13是根据一示例性实施例示出的一种场景图生成装置框图。
64.图14是根据一示例性实施例示出的一种终端的框图。
65.图15是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
66.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
67.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
68.本公开所涉及的信息可以为经用户授权或者经过各方充分授权的信息。
69.场景图:是一种图状结构。该场景图中包括节点和边,其中,该节点表示图像中的物体实例,该边连接表示物体实例的节点,用于表示一对物体实例和预测关系词代表的对应的“主体-谓词-客体”三元组。该预测关系词用于表示该对物体实例在图像中的关系,也可以称为谓词。“主体-谓词-客体”三元组中的“主体”和“客体”表示该对物体实例。
70.场景图生成模型:是一个基于目标图像生成对应的场景图的模型。该模型对该图像进行预测,得到预测关系词,该预测关系词用于表示该图像中的一对物体实例在该图像中预测的关系,然后基于该对物体实例和该预测关系词,生成该图像的场景图。
71.电子设备可以被提供为终端或者服务器,当电子设备被提供为终端时,由该终端实现该场景图生成模型的训练方法;当被提供为服务器时,由该服务器实现该场景图生成模型的训练方法;或者由该服务器和终端交互来实现该场景图生成模型的训练方法。
72.图1是根据一示例性实施例示出的一种实施环境示意图。以电子设备被提供为服务器为例,参见图1,该实施环境包括:终端101和服务器102。
73.终端101为智能手机、智能手表、台式电脑、手提电脑、mp3播放器、mp4播放器和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有应用程序,用户可以通过终端101登录该应用程序来获取该应用程序提供的服务。终端101可以通过无线网络或有线网络与服务器102相连,进而可以将用于训练场景图生成模型的样本图像发送给服务器102。
74.终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以为几个,或者上述终端为几十个或几百个,或者更多数量,本公开实施例对终端的数量和设备类型均不加以限定。
75.服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以通过无线网络或有线网络与终端101和其他终端相连,服务器102获取多个样本图像,基于多个样本图像对场景图生成模型进行训练,并将训练好的场景图生成模型发送给终端,终端101通过该场景图生成模型对目标图像进行处理,得到该目标图像对应的视觉场景图。可选地,上述服务器的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
76.需要说明的是,上述实施环境还可以用来实现本公开实施例提供的场景图生成方法,终端101获取输入的目标图像,基于从服务器102获取的场景图生成模型对该目标图像进行处理,得到该目标图像对应的视觉场景图。
77.图2是根据一示例性实施例示出的一种场景图生成模型的训练方法的流程图,参见图2,该场景图生成模型的训练方法由电子设备执行,包括以下步骤:
78.在步骤s201中,电子设备基于场景图生成模型对样本图像进行预测,得到预测结果信息,该预测结果信息用于指示多个第一关系词的预测概率,该第一关系词用于表示该样本图像中的一对物体实例在该样本图像中预测的关系。
79.在本公开实施例中,电子设备将样本图像输入场景图生成模型,由该场景图生成模型对该样本图像中物体实例之间的关系进行预测,得到预测结果信息。其中,该样本图像中包含至少一对相关的物体实例。
80.例如,样本图像中包括一个骑马的人,该场景图生成模型对该样本图像中的“人”和“马”之间的关系进行预测,得到预测结果信息,该预测结果信息指示“骑”的预测概率为60%、“在

上面”的预测概率为30%以及“在

附近”的预测概率为10%。其中“骑”、“在

上面”以及“在

附近”都是场景图生成模型预测得到的第一关系词,都能够反映该样本图像中“人”和“马”之间的关系,即第一关系词为“骑”时,表示人骑在马上,第一关系词为“在

上面”时,表示人在马上面,第一关系词为“在

附件”时,表示人在马附近。
81.在步骤s202中,电子设备基于关系词关联信息和预测结果信息,确定第一损失,该关系词关联信息用于表示多个第一关系词和第二关系词之间的关联关系,该第二关系词用于表示该样本图像中的一对物体实例在该样本图像中标注的关系,该第一损失用于表示该多个第一关系词与该第二关系词之间的差异。
82.在本公开实施例中,由于关系词关联信息能够表示多个第一关系词和样本图像中标注的第二关系词之间的关联关系,因此,基于该关系词关联信息和多个第一关系词的预测概率,能够确定多个第一关系词与第二关系词之间的差异。
83.例如,样本图像中包括一个骑马的人,该样本图像的第二关系词为“骑”,而场景图生成模型预测的该样本图像的预测结果信息指示“在

上面”预测概率为60%、“骑”的预测概率为30%以及“在

附近”的预测概率为10%。其中,“骑”、“在

上面”以及“在

附近”都属于“人”和“马”这对物体实例的关系词,关系词关联信息能够表示“骑”和“在

上面”之间的关联关系以及“骑”和“在

附近”之间的关联关系。第一损失能够表示“骑”和上述三个预测的关系词之间的差异。
84.在步骤s203中,电子设备基于第一损失,训练场景图生成模型。
85.在本公开实施例中,由于第一损失能够表示预测的关系词与标注的关系词之间的差异,则电子设备能够基于第一损失来训练场景图生成模型,使得训练得到的场景图生成模型能够区分较为相近的关系词,在预测图像中一对物体实例的关系时,能够使得预测得到的关系词更为准确,从而提高场景图生成模型生成的视觉场景图的准确度。
86.本公开实施例提供的方案,通过在训练过程中引入关系词关联信息,该关系词关联信息能够反映第一关系词与第二关系词之间的关联关系,从而能够在训练过程中,基于该关系词关联信息确定第一关系词和第二关系词之间的差异,使得模型能够区分具有关联关系的关系词,从而提高模型生成的视觉场景图的准确度。
87.在一些实施例中,基于关系词关联信息和预测结果信息,确定第一损失,包括:
88.基于该关系词关联信息和该预测结果信息,确定该第二关系词的多个权重参数,该权重参数用于对第一关系词的预测概率进行加权;
89.基于该第二关系词的多个权重参数和该预测结果信息,确定该第一损失。
90.本公开实施例提供的方案,通过第一关系词与第二关系词之间的关联关系,能够
确定多个权重参数,使得基于多个权重参数确定的第一损失能够表示第一关系词和第二关系词之间的差异,在后续基于第一损失训练模型的过程中,能够使得模型能够很好地区分具有关联关系的第二关系词与第一关系词,从而提高模型生成的视觉场景图的准确度。
91.在一些实施例中,基于关系词关联信息和预测结果信息,确定第二关系词的多个权重参数,包括:
92.对于任一第一关系词,基于该关系词关联信息,获取该第一关系词的相关性参数,该相关性参数用于表示该第二关系词与该第一关系词之间的语义相似度;
93.基于第二关系词和预测结果信息,确定该第一关系词的平衡参数,该平衡参数用于表示当前批次图像中第一样本图像的数量与第二样本图像的数量的比值,当前批次图像包括该样本图像,第一样本图像标注有该第一关系词,第二样本图像标注有该第二关系词;
94.基于该相关性参数和该平衡参数,确定该权重参数。
95.本公开实施例提供的方案,通过相关性参数与平衡参数确定权重参数,不仅考虑到了第二关系词与第一关系词之间的语义相似度,还考虑了当前批次图像中标注有第二关系词的样本图像的数量和标注有第一关系词的样本图像的数量,使得权重参数能够充分表示第二关系词与第一关系词之间的关系,从而基于该权重参数训练模型,使得模型能够区分第二关系词与第一关系词,进而提高模型生成的视觉场景图的准确度。
96.在一些实施例中,该方法还包括:
97.获取实例关系信息,该实例关系信息包括多个样本图像的标注关系词和预测关系词,该实例关系信息基于实例关系预测模型对该多个样本图像进行预测得到,该实例关系预测模型用于对样本图像中的一对物体实例的关系进行预测,得到该样本图像的预测关系词;
98.对于任一标注关系词,获取标注该标注关系词的样本图像中第三样本图像的数量,该第三样本图像是指被错误预测为目标预测关系词的样本图像;
99.获取标注该标注关系词的样本图像中第四样本图像的数量,该第四样本图像是指被正确预测为该标注关系词的样本图像;
100.基于该第三样本图像的数量和该第四样本图像的数量,确定该标注关系词与该目标预测关系词之间的相关性参数。
101.本公开实施例提供的方案,通过获取被错误预测的样本图像的数量和被正确预测的样本图像的数量,然后基于这两个数量得到的相关性参数能够较为准确反映第二关系词与第一关系词的语义相似度,从而基于该相关性参数,训练得到的模型生成能够区分第二关系词与第一关系词,进而提高模型生成的视觉场景图的准确度。
102.在一些实施例中,基于第三样本图像的数量和第四样本图像的数量,确定标注关系词与目标预测关系词的相关性参数,包括:
103.基于该第三样本图像的数量,确定第一参数,该第一参数由该第三样本图像的数量与目标数量的比值归一化得到,该目标数量为标注有该标注关系词的样本图像的总数量;
104.基于该第四样本图像的数量,确定第二参数,该第二参数由该第四样本图像的数量与该目标数量的比值归一化得到;
105.将该第一参数和该第二参数的比值,作为该标注关系词与该目标预测关系词的相
关性参数。
106.本公开实施例提供的方案,通过在标注有该标注关系词的样本图像中,被错误预测的样本图像所占的比值与被正确预测的样本图像所占的比值,确定该标注关系词与该目标预测关系词的相关性参数,能够较为准确反映第二关系词与第一关系词的语义相似度,进而基于该相关性参数,训练得到的模型生成能够区分第二关系词与第一关系词,从而提高模型生成的视觉场景图的准确度。
107.在一些实施例中,基于相关性参数和平衡参数,确定权重参数,包括:
108.在该平衡参数不小于1且该相关性参数大于相关性阈值的情况下,基于该平衡参数确定该权重参数;
109.在该平衡参数不小于1且该相关性参数不大于该相关性阈值的情况下,确定该权重参数为1;
110.在该平衡参数小于1且该相关性参数大于该相关性阈值的情况下,确定该权重参数为1;
111.在该平衡参数小于1且该相关性参数不大于该相关性阈值的情况下,基于该平衡参数确定权重参数。
112.本公开实施例提供的方案,通过相关性参数和平衡参数数值大小的不同情况来确定权重参数,考虑到了第一关系词与第二关系词之间的相关程度,从而使得场景图生成模型能够区分关联程度较高的关系词,进而提高模型生成的视觉场景图的准确度。
113.在一些实施例中,基于第二关系词的多个权重参数和预测结果信息,确定第一损失,包括:
114.基于该预测结果信息,确定第一预测信息,该第一预测信息表示该第二关系词的预测概率的分对数;
115.基于该预测结果信息,确定多个第二预测信息,该第二预测信息表示该第一关系词的预测概率的分对数;
116.基于该第一预测信息、该多个第二预测信息以及该多个权重参数,确定第一损失。
117.本公开实施例提供的方案,通过第一预测信息、多个第二预测信息以及多个权重参数来确定第一损失,考虑到了第一关系词的预测概率和第二关系词的预测概率,使得第一损失能够充分体现第一关系词和第二关系词之间的差异,从而使得模型能够区分具有关联关系的关系词,进而提高模型生成的视觉场景图的准确度。
118.在一些实施例中,基于第一损失,训练场景图生成模型,包括:
119.获取该第二关系词的目标词汇集,该目标词汇集包括与该第二关系词具有目标关联关系的词汇;
120.基于该目标词汇集、该预测结果信息和该多个平衡参数,确定该第二损失,该平衡参数用于表示当前批次图像中的第一样本图像的数量与第二样本图像的数量的比值,该当前批次图像包括样本图像,该第一样本图像标注有第一关系词,该第二样本图像标注有第二关系词;
121.基于第一损失和第二损失,训练场景图生成模型。
122.本公开实施例提供的方案,通过两个损失训练场景图生成模型,不仅考虑了第一关系词与第二关系词之间的差异,也考虑了第一关系词与第二关系词相关的目标词汇集之
间的差异,使得模型能够区分具有关联关系的关系词,从而提高模型生成的视觉场景图的准确度。
123.在一些实施例中,该方法还包括:
124.获取实例关系信息,该实例关系信息包括多对物体实例、多个关系词、该多对物体实例与该多个关系词之间的关联关系以及该多个关系词之间的关联关系;
125.基于该实例关系信息,构建实例关系图,该实例关系图中包括第一类节点、第二类节点、第一类边以及第二类边,该第一类节点用于表示一对物体实例,该第二类节点用于表示关系词,该第一类边用于表示一对物体实例与关系词之间的关联关系,该第二类边用于表示多个关系词之间的关联关系;
126.基于该实例关系图,确定该关系词关联信息。
127.本公开实施例提供的方案,通过多对物体实例、多个关系词、该多对物体实例与该多个关系词之间的关联关系以及该多个关系词之间的关联关系,构建实例关系图,能够直观的表示多对物体实例与多个关系词之间的关联关系以及多个关系词之间的关联关系,在训练过程中,基于该实例关系图能够获取快速且准确地获得关系词关联信息。
128.上述图2所示为本公开的基本流程,下面基于一种实现方式,来对本公开提供的方案进行进一步阐述,图3是根据一示例性实施例示出的另一种场景图生成模型的训练方法的流程图。以电子设备被提供为服务器为例,参见图3,该方法包括:
129.在步骤s301中,服务器构建实例关系图。
130.在本公开实施例中,该实例关系图中包括第一类节点、第二类节点、第一类边以及第二类边。其中,该第一类节点用于表示一对物体实例,该第二类节点用于表示关系词,该第一类边用于连接第一类节点和第二类节点,表示该第一类节点表示的一对物体实例与该第二类节点表示的关系词之间的关联关系,第二类边用于连接第二类节点,表示第二类节点表示的关系词之间的关联关系。在一些实施例中,服务器能够基于实例关系信息来构建实例关系图,该实例关系信息包括多对物体实例、多个关系词、多对物体实例与多个关系词之间的关联关系以及多个关系词之间的关联关系。在一些实施例中,服务器还能够直接获取已构建完毕的实例关系图。通过构建该实例关系图,能够从该实例关系图中直接获得物体实例与关系词之间的关联关系,还能够获取多个关系词之间的关联关系,使得基于上述获取到的信息所训练得到的场景图生成模型能够较为准确的区分相近的关系词,从而预测得到的关系词更准确。
131.在一些实施例中,关系词也可以称为谓词,也即谓词能够表示该对物体实例在该图像中的关系。因此,该实例关系图的构建过程也可以称为谓词晶格构建(predicate lattice construction,plc)的过程。服务器构建谓词晶格的过程可分为三个阶段。
132.第一阶段是上下文-谓词关联(context-predicate association)。其中,上下文指的是图像中的一对物体实例。其中,一对物体实例中的两个物体实例可以分别称为主体和客体,具有关联关系的一对物体实例和一个关系词可以称为“主体-谓词-客体”三元组。首先,服务器获取实例关系信息,该实例关系信息基于实例关系预测模型和数据集得到,该数据集包括多个样本图像,实例关系预测模型能够对样本图像中的一对物体实例的关系进行预测,得到该样本图像的预测关系词。该实例关系信息包括该多个样本图像中的物体实例,还包括该多个样本图像的预测关系词和标注关系词,该标注关系词用于指示样本图像
中的一对物体实例标注的关系。其中,样本图像的预测关系词与标注关系词可以相同也可以不同,为便于描述统称为关系词。然后,服务器基于实例关系信息,将一对物体实例构建为第一类节点,将关系词构建为第二类节点。然后,服务器基于实例关系信息,根据一对物体实例与关系词之间的关联关系,构建表示一对物体实例的第一类节点和表示关系词的第二类节点之间的第一类边。其中,对于任一样本图像,该样本图像中的一对物体实例与该样本图像的预测关系词和标注关系词具有关联关系。最后,服务器基于实例关系信息,根据关系词之间的关联关系,构建表示关系词的第二类节点之间的第二类边,得到实例关系图。其中,对于任一样本图像,该样本图像的标注关系词和预测关系词具有关联关系。需要说明的是,实例关系图中的第一类边具有关系权重,该关系权重用于表示数据集中“主体-谓词-客体”三元组出现的频率。
133.第二阶段是偏差谓词预测(biased predicate prediction)。服务器获取数据集中样本图像标注的标注关系词的出现频率和预测得到的预测关系词的出现频率之间的偏差,然后将该偏差加入到后续的模型训练过程中,以提升模型预测的准确度,在此不再赘述。
134.第三阶段是谓词-谓词关联(predicate-prediction association)。服务器能够将样本图像的标注关系词和预测关系词进行对比,确定两个关系词之间的相关度。服务器能够将该相关度归一化为s={s
ij
},s
ij
∈[0,1],表示数据集中被标注为第i类关系词的样本图像被预测为第j类关系词的百分比,从而体现不同上下文中谓词之间的相关度。
[0135]
本公开实施例提供的方案,通过构建实例关系图,能够直观的表示多对物体实例与多个关系词之间的关联关系以及多个关系词之间的关联关系,在训练过程中,基于该实例关系图能够快速且准确地得到物体实例与关系词之间的关联关系和关系词之间的关联关系,基于上述关联关系能够使得模型更好的区分相近的关系词,提高模型生成的视觉场景图的准确度。
[0136]
例如,图4是根据一示例性实施例示出的一种实例关系图的示意图。参见图4,“人-包”节点、“人-球拍”节点、“人-板”节点和“人-飞盘”节点为第一类节点;“举”节点、“玩”节点和“携带”节点为第二类节点;“人-球拍”节点和“举”节点之间的连线为第一类边,能够表示“人-球拍”这对物体实例与关系词“举”之间的关联关系,即能够表示人举着球拍;“举”节点和“玩”节点之间的连线为第二类边,能够表示关系词“举”和关系词“玩”之间的关联关系。
[0137]
以下介绍服务器训练场景图生成模型的过程,该场景图生成模型用于预测输入图像中的一对物体实例之间的关系,输出场景图,该场景图中的节点分别为表示物体实例的主体节点和客体节点以及表示物体实例之间关系的谓词节点,该谓词节点分别与主体节点和客体节点相连。服务器能够基于上述数据集,通过多次迭代来训练得到场景图生成模型,每次迭代时,服务器能够从数据集中获取一个批次的图像,该一个批次的图像包括10个样本图像、20个样本图像或者100个样本图像等,本公开实施例对此不进行限制。下面以任一批次的图像中的样本图像为例进行说明。
[0138]
在步骤s302中,服务器基于场景图生成模型对样本图像进行预测,得到预测结果信息。
[0139]
在本公开实施例中,以样本图像中包含一对物体实例为例,服务器将该样本图像
输入场景图生成模型,由该场景图生成模型对该样本图像中的一对物体实例之间的关系进行预测,得到预测结果信息。该预测结果信息能够表示该样本图像中的一对物体实例之间的关系,为各第一关系词所表示的关系的预测概率。在一些实施例中,该场景图生成模型包括物体检测模块和实体关系检测模块,该物体检测模块用于检测样本图像中的物体实例信息,该实体关系检测模块用于预测每个样本图像中的一对物体实例之间的关系。其中,物体检测模块可以采用faster r-cnn(faster region-cnn,快速区域卷积神经网络)模型、cnn(convolutional neural network,卷积神经网络)或者r-cnn(region-cnn,区域卷积神经网络)等,本公开实施例对此不进行限制。
[0140]
在一些实施例中,服务器能够将物体检测模块输出的物体实例信息输入到该实体关系检测模块中,由该实体关系检测模块基于该物体实例信息,预测该物体实例信息中的一对物体实例在样本图像中的关系,得到该对物体实例的预测结果信息。换而言之,对于任一对物体实例,该实体关系检测模块可预测出该对物体实例之间的关系为各个第一关系词所表示的关系的预测概率。
[0141]
其中,物体实例信息包括物体实例的标签概率、物体实例的位置信息以及物体实例的实体特征。其中,标签概率为物体检测模块识别物体实例为某个标签所代表的物体实例的概率。对于任一物体实例,该物体检测模块可识别得到多个标签概率,服务器将最大的标签概率所代表的物体实例作为最终的识别结果。物体实例的位置信息是物体实例在样本图像中的位置,可以用坐标表示,也可以用边框进行表示,本公开实施例对此不进行限制。物体实例的实体特征为样本图像中物体实例的特征,该特征包括多个维度,本公开实施例对此不进行限制。
[0142]
例如,图5是根据一示例性实施例示出的一种样本图像的示意图。参见图5,物体检测模块能够从该样本图像中识别出标签为“球拍”、“手”、“人”、“短袖”的物体实例,还能够确定上述物体实例在该样本图像中的位置以及这些物体实例的实体特征。实体关系检测模块可预测标签为“球拍”、“手”、“人”、“短袖”的这些物体实例之间的关系,以该对物体实例是“球拍”和“手”为例,实体关系检测模块预测为“拿”的预测概率为60%、“有”的预测概率为30%以及“在

上面”的预测概率为10%。其中,“拿”的预测概率最大,表示“球拍”和“手”之间的关系较大可能为手拿球拍。
[0143]
需要说明的是,对于任一对物体实例,主体和客体不同时,实体关系检测模块预测的第一关系词的预测概率不同。
[0144]
例如,继续参见图5,对于标签为“球拍”的物体实例和标签为“手”的物体实例,上述示例说明了标签为“手”的物体实例作为主体且标签为“球拍”的物体实例作为客体时的情况,当标签为“球拍”的物体实例作为主体且标签为“手”的物体实例作为客体时,实体关系检测模块预测出“在

上面”的预测概率为60%、“有”的预测概率为30%以及“拿”的预测概率为10%。其中,“在

上面”的预测概率最大,表示“球拍”和“手”之间的关系较大可能为球拍在手上面。
[0145]
需要说明的是,在训练场景图生成模型的过程中,对于任一样本图像,该样本图像标注的第二关系词和多个第一关系词之间具有不同的关联关系,通过基于该样本图像的第二关系词与多个第一关系词之间的关联关系进行模型训练,才能使得该模型能够学习到关系词之间的关联关系,从而较好的区分相近的关系词,从而提高模型生成的视觉场景图的
准确度。其中,服务器能够通过步骤s303来获取样本图像的第二关系词与多个第一关系词之间的关联关系。
[0146]
在步骤s303中,服务器基于实例关系图,获取关系词关联信息,该关系词关联信息用于表示多个第一关系词和第二关系词之间的关联关系,该第二关系词用于表示样本图像中的一对物体实例在该样本图像中标注的关系。
[0147]
在本公开实施例中,该第二关系词也可以称为样本图像的标注关系词。对于任一关系词,服务器能够在实例关系图中确定表示该关系词的第二类节点,然后基于该第二类节点连接的第二类边,确定至少一个与该关系词具有关联关系的其他关系词,得到该关系词对应的关系词关联信息。换而言之,任一第二关系词的关系词关联信息,能够表示与该第二关系词具有关联关系的至少一个第一关系词。
[0148]
在步骤s304中,对于任一第一关系词,服务器基于关系词关联信息,获取该第一关系词的相关性参数,该相关性参数用于表示第二关系词与第一关系词之间的语义相似度。
[0149]
在本公开实施例中,服务器能够基于该关系词关联信息,确定与该第二关系词具有关联关系的至少一个第一关系词。对于任一第一关系词,服务器能够基于实体关系信息,确定该第一关系词的相关性参数。该实体关系信息的获取方式参见步骤s301所示,在此不再赘述。
[0150]
在一些实施例中,服务器能够基于该实体关系信息,获取该数据集中多个样本图像的标注关系词和预测关系词。然后,对于任一标注关系词,服务器获取标注该标注关系词的样本图像中第三样本图像的数量,获取标注该标注关系词的样本图像中第四样本图像的数量。其中,第三样本图像是指被错误预测为目标预测关系词的样本图像,第四样本图像是指被正确预测为标注关系词的样本图像。最后,服务器基于该第三样本图像的数量和该第四样本图像的数量,确定相关性参数。在一些实施例中,服务器能够基于该第三样本图像的数量,确定第一参数;基于该第四样本图像的数量,确定第二参数;将第一参数和第二参数的比值,作为标注关系词与目标预测关系词的相关性参数。其中,该第一参数由第三样本图像的数量与目标数量的比值归一化得到,该目标数量为标注有标注关系词的样本图像的总数量,该第二参数由第四样本图像的数量与目标数量的比值归一化得到。
[0151]
例如,以标注关系词为第i类关系词为例,对于标注关系词为第i类关系词的样本图像,若该样本图像的预测关系词为第j类关系词,则表示该样本图像被错误预测,此时的第三样本图像的数量为标注关系词为第i类关系词的样本图像中被预测为第j类关系词的样本图像的数量;若该样本图像的预测关系词为第i类关系词,则表示该样本图像被正确预测,此时的第四样本图像的数量为标注关系词为第i类关系词的样本图像中被预测为第i类关系词的样本图像的数量。服务器基于第三样本图像的数量,确定第一参数,该第一参数由第三样本图像的数量与标注关系词为第i类关系词的样本图像的总数量的比值归一化得到。服务器基于第四样本图像的数量,确定第二参数,该第二参数由第四样本图像的数量与标注关系词为第i类关系词的样本图像的总数量的比值归一化得到。
[0152]
在一些实施例中,服务器能够通过以下公式一,确定第二关系词与第一关系词之间的相关性参数。
[0153]
公式一:
[0154][0155]
其中,i表示第二关系词的类别,j表示第一关系词的类别,表示第二关系词与第一关系词之间的相关性参数,s
ij
表示第一参数,s
ii
表示第二参数,s
ij
∈[0,1],s
ii
∈[0,1]。
[0156]
本公开实施例提供的方案,通过实例关系信息,能够确定每对标注关系词和预测关系词之间的相关性参数,该相关性参数能够较为准确反映标注关系词与预测关系词之间的语义相似度,进而基于该相关性参数,训练得到的模型生成能够区分语义相似度高的关系词,从而提高生成的视觉场景图的准确度。
[0157]
在步骤s305中,服务器基于第二关系词和预测结果信息,确定第一关系词的平衡参数。
[0158]
在本公开实施例中,对于任一第一关系词,服务器能够基于第二关系词和预测结果信息,确定该第一关系词的平衡参数。该平衡参数用于表示当前批次图像中第一样本图像的数量与第二样本图像的数量的比值。其中,当前批次图像指的是当前训练过程中使用的数据集中一个批次的样本图像,该数据集中的多个样本图像被分为多个批次,每个批次包括预设数量的样本图像,该预设数量可以为10个、20个或者100个等,本公开实施例对此不进行限制。第一样本图像标注有该第一关系词,第二样本图像标注有该第二关系词。
[0159]
在一些实施例中,服务器能够通过以下公式二,确定该第一关系词的平衡参数。
[0160]
公式二:
[0161][0162]
其中,i表示第二关系词的类别,j表示第一关系词的类别,μ
ij
表示平衡参数,nj表示当前批次图像中第一样本图像的数量,ni表示当前批次图像中第二样本图像的数量。
[0163]
本公开实施例提供的方案,通过当前批次图像中标注有第二关系词的样本图像的数量与标注有第一关系词的样本图像的数量,确定平衡参数,使得该平衡参数能够反映第二关系词与第一关系词的关系,基于该平衡参数训练得到的模型能够区分第二关系词与第一关系词,从而提高生成的视觉场景图的准确度。
[0164]
在步骤s306中,服务器基于相关性参数和平衡参数,确定权重参数,权重参数用于对第一关系词的预测概率进行加权。
[0165]
在本公开实施例中。不同的相关性参数和平衡参数,确定的权重参数不完全相同,服务器基于相关性参数和平衡参数,确定权重参数,可分为以下四种情况。
[0166]
第一种情况,在平衡参数不小于1且相关性参数大于相关性阈值的情况下,基于平衡参数确定权重参数,该相关性阈值为0.2、0.5或者1.5等,本公开实施例对相关性阈值的不进行限制;
[0167]
第二种情况,在平衡参数不小于1且相关性参数不大于相关性阈值的情况下,确定权重参数为1;
[0168]
第三种情况,在平衡参数小于1且相关性参数大于相关性阈值的情况下,确定权重参数为1;
[0169]
第四种情况,在平衡参数小于1且相关性参数不大于相关性阈值的情况下,基于平
衡参数确定权重参数。
[0170]
在一些实施例中,服务器能够可通过以下公式三,确定第二关系词的权重参数。
[0171]
公式三:
[0172][0173]
其中,w
ij
为权重参数,i表示第二关系词的类别,j表示第一关系词的类别,μ
ij
表示平衡参数,表示相关性参数,ξ表示相关性阈值,α和β是超参数。
[0174]
本公开实施例提供的方案,通过相关性参数与平衡参数来确定权重参数,不仅考虑到了第二关系词与第一关系词之间的语义相似度,还考虑了当前批次图像中标注第二关系词和标注第一关系词的样本图像之间的数量关系,使得权重参数能够使模型学习到第二关系词与第一关系词之间的区别,从而基于该权重参数训练模型,使得模型能够区分第二关系词与第一关系词,从而提高模型生成的视觉场景图的准确度。
[0175]
需要说明的是,现有技术中,通常采用下公式四来确定场景图生成模型的权重参数。
[0176]
公式四:
[0177][0178]
其中,i表示第二关系词的类别,j表示第一关系词的类别,w
ij
表示权重参数,nj表示当前批次图像中第一样本图像的数量,ni表示当前批次图像中第二样本图像的数量,α表示超参数。
[0179]
由公式四可知,场景图生成模型的权重参数取决于第一样本图像和第二样本图像的数量,使得预测结果大量集中在当前批次图像中出现次数多的关系词中,且与相关性参数无关,即现有技术中在训练场景图生成模型的过程中,未考虑到第二关系词与第一关系词之间的语义相似度,基于此方式获得的场景图生成模型生成的场景图的准确率不高。而本公开实施例中,采用再加权(re-weighting)的方式对场景图生成模型的权重参数做了进一步改进,以此提升出现次数少的关系词的预测,即对于任一第二关系词,基于关系词关联信息和第二关系词相关的第一关系词,确定相关性参数和平衡参数,从而确定第二关系词的权重参数。该权重参数能够让模型充分学习到第二关系词与第一关系词之间的区别,从而基于该权重参数训练模型,使得模型能够区分第二关系词与第一关系词,从而提高模型生成的视觉场景图的准确度。
[0180]
在步骤s307中,服务器基于第二关系词的多个权重参数和预测结果信息,确定第一损失,该第一损失用于表示多个第一关系词与第二关系词之间的差异。
[0181]
在本公开实施例中,服务器能够基于预测结果信息,确定第一预测信息,该第一预测信息表示第二关系词的预测概率的分对数;基于预测结果信息,确定多个第二预测信息,该第二预测信息表示第一关系词的预测概率的分对数;基于第一预测信息、多个第二预测
信息以及多个权重参数,确定第一损失。
[0182]
在一些实施例中,服务器能够通过以下公式五和公式六,确定第一损失。
[0183]
公式五:
[0184][0185]
公式六:
[0186][0187]
其中,i表示第二关系词的类别,j表示第一关系词的类别,表示模型训练过程中第二关系词的加权预测概率,ηi表示第二关系词的预测概率的分对数,ηj表示第一关系词的预测概率的分对数,w
ij
为权重参数,e是自然常数,c是多个第一关系词的类别总数,表示第一损失,yi表示关系词标签,存在于关系词标签向量y=[y1,y2,

,yc]中,在第二关系词为第i类关系词时,关系词标签向量中的其他关系词标签的值都为0。该公式六也可以称为类别鉴别损失函数(category discriminating loss,cdl)。
[0188]
例如,图6是根据一示例性实施例示出的一种第一损失的示意图。参见图6,该第一损失能够表示关系词“举”和关系词“玩”之间的差异。通过该第一损失训练模型的过程中,关系词“举”和关系“玩”之间的差异越来越明显,模型基于第一损失能够明显区分这两个关系词。
[0189]
在步骤s308中,服务器获取第二损失,该第二损失用于表示第一关系词和与第二关系词相关的关系词集合之间的差异。
[0190]
在本公开实施例中,服务器能够获取第二关系词的目标词汇集,基于目标词汇集、预测结果信息和多个平衡参数,确定第二损失。其中,目标词汇集包括与第二关系词具有目标关联关系的词汇,该目标关联关系用于指示表示第二关系词的节点与表示目标词汇集中的词汇的节点在实例关系图中相连。平衡参数用于表示当前批次图像中第一样本图像的数量与第二样本图像的数量的比值,第一样本图像标注有第一关系词,第二样本图像标注有第二关系词。
[0191]
在一些实施例中,服务器能够通过以下公式七,确定第二损失。
[0192]
公式七:
[0193][0194]
其中,i表示第二关系词的类别,j表示第一关系词的类别,表示第二损失,表示目标词汇集中词汇的数量,v表示目标词汇集中的词汇,φj表示第一关系词的预测概率,φi表示第二关系词的预测概率,φ
j-φi能够表示第一关系词和第二关系词之间的差异,δ表示超参数,能够指示第一关系词和第二关系词所属的类别之间的差异程度,nj表示当前批次图像中第二样本图像的数量,ni表示当前批次图像中第一样本的数量,nj与ni的比值表示平衡参数。该公式七也可以称为实例鉴别损失函数(entity discriminating loss,edl)。
[0195]
由公式七可知,在第i类关系词和第j类关系词较好区分的情况下,φ
j-φi+δ会小
于零,此时,max(0,φ
j-φi+δ)=0,从而使得模型区分第i类关系词和第j类关系词的损失等于0,说明模型能够准确区分第i类关系词和第j类关系词。
[0196]
例如,图7是根据一示例性实施例示出的一种第二损失的示意图。参见图7,该第二损失能够使得两个关系词相关的物体实例更容易区分开,也即使得模型能够较好区分具有关联个的两个关系词。
[0197]
在步骤s309中,服务器基于第一损失和第二损失,训练场景图生成模型。
[0198]
在本公开实施例中,服务器能够对第一损失和第二损失进行加权求和,得到总损失,基于总损失训练场景图生成模型。
[0199]
在一些实施例中,服务器能够通过以下公式八,确定总损失。
[0200]
公式八:
[0201][0202]
其中,表示该场景图生成模型的总损失,表示第一损失,表示第二损失,λ表示超参数。
[0203]
在训练过程中,服务器通过以下公式九对场景图生成模型进行训练。
[0204]
公式九:
[0205][0206]
其中,表示第一损失,ηj表示第一关系词的预测概率的分对数,w
ij
为与第一关系词相关的权重参数,ηk表示第k类关系词的预测概率的分对数,e是自然常数,w
ik
为与第k类关系词相关的权重参数,m是第k类关系词的类别总数,第一关系词与第k类关系词可以相同,也可以不同。
[0207]
将第i类关系词作为正类别,即为正确预测得到的关系词,将第j类关系词作为负类别,即为错误预测得到的关系词,在第i类关系词在预测结果中出现的频率比第j类关系词出现的频率更高的情况下,第一损失会对降低对第j类关系词的惩罚;在第i类关系词在预测结果中出现的频率比第j类关系词出现的频率低的情况下,第一损失会对增加对第j类关系词的惩罚,即在训练场景图生成模型的过程中,通过公式九调整反向传播的梯度,第i类关系词在预测结果中出现的频率越高,反向传播的梯度越小,对第j类关系词的惩罚越小,第i类关系词在预测结果中出现的频率越低,反向传播的梯度越大,对第j类关系词的惩罚越大。
[0208]
为了更清楚地理解本方案,再次对场景图生成模型的训练过程进行描述。例如,图8是根据一示例性实施例示出的一种训练过程的示意图。参见图8,图8中的(a)是一种数据集的示意图,在本公开实施例中,数据集中包括多个样本图像。
[0209]
服务器能够基于实例关系预测模型对每个样本图像中的一对物体实例的关系进行预测,得到每个样本图像的预测关系词。其中,每个样本图像标注有标注关系词,预测关系词和标注关系词统称为关系词,且同一个样本图像的预测关系词和标注关系词之间存在关联关系。服务器基于多对物体实例、多个关系词、多对物体实例与多个关系词之间的关联关系以及多个关系词之间的关联关系,构建实例关系图。图8中的(b)示例性的示出了一种实例关系图,该实例关系图中包括表示一对物体实例的第一类节点(如“人-包”节点)、表示
关系词的第二类节点(如“举”节点)、表示一对物体实例与关系词之间的关联关系的第一类边(如“人-包”节点与“举”节点之间的边),还包括表示多个关系词之间的关联关系的第二类边(如“举”节点和“玩”节点之间的边)。
[0210]
服务器从该实例关系图中能够获取关系词关联信息,基于该关系词关联信息和该场景图生成模型的预测结果,确定第一损失。该第一损失能够表示样本图像的标注关系词与预测关系词之间的差异。图8中的(c)示例性的示出了第一损失,样本图像的标注关系词为“举”,预测关系词为“玩”,第一损失能够使得“举”和“玩”之间的差异变大,从而使得该场景图生成模型能够容易区分这两个关系词。
[0211]
服务器还能够从该实例关系图中获取与标注关系词的具有关联关系的目标词汇集,基于该目标词汇集确定第二损失。该第二损失能够表示预测关系词与标注关系词相关的目标词汇集之间的差异。图8中的(d)示例性的示出了第二损失,该第二损失能够使得与“举”相关的物体实例靠近“举”而远离“玩”,从而使得该场景图生成模型在预测这些物体实例的关系时能够容易区分这两个关系词。
[0212]
服务器基于第一损失和第二损失,训练该场景图生成模型。在训练过程中使用的样本图像来源于图(a)所示的数据集。图8中的(e)示例性的示出了场景图生成模型的结构。模型训练完成后,服务器向该场景图生成模型输入目标图像,图8中的(f)示例性的示出了一种目标图像,该场景图生成模型基于该目标图像来生成场景图,图8中的(g)示例性的示出了基于目标图像生成的场景图。
[0213]
本公开实施例提供的方案,通过两个损失函数训练场景图生成模型,不仅考虑了多个第一关系词与样本图像的第二关系词之间的差异,也考虑了第一关系词与第二关系词相关的目标词汇集之间的差异,使得模型能够区分第一关系词与第二关系词,从而提高模型生成的视觉场景图的准确度。
[0214]
图9是根据一示例性实施例示出的一种场景图生成方法的流程图。参见图9,该场景图生成方法由终端执行,包括以下步骤:
[0215]
在步骤s901中,终端基于场景图生成模型,对目标图像进行预测,得到预测关系词。
[0216]
在本公开实施例中,预测关系词用于表示目标图像中的一对物体实例在目标图像中预测的关系,场景图生成模型基于样本图像标注的关系词标注的关系词之间的关联关系训练得到。该场景图生成模型能够区分标注的关系词标注的关系词,从而使得预测关系词与标注的关系词相同,即场景图生成模型能够预测出表示一对物体实例在目标图像中真实关系的关系词。
[0217]
在步骤s902中,终端基于预测关系词和目标图像中的一对物体实例,生成场景图。
[0218]
在本公开实施例中,场景图中包括节点和边,该节点用于表示单个物体实例,该边用于指示预测关系词。该边用于连接表示物体实例的节点,节点和边能够表示一对物体实例及预测关系词对应的“主体-谓词-客体”三元组。
[0219]
例如,图10是根据一示例性实施例示出的一种生成场景图的示意图。参见图10,终端将目标图像输入场景图生成模型,然后基于该场景图生成模型生成场景图。该场景图是一种图状结构,图中的节点为图像中的物体实例,图中的边连接表示物体实例的节点,用于表示一对物体实例及预测关系词对应的“主体-谓词-客体”三元组,能够指示该预测关系
词。以目标图像中包括一个骑马的人为例,该场景图生成模型生成该目标图像的场景图,该场景图中的节点分别为人和马,连接这两个节点的边表示“人-骑-马”,能够指示表示人和马在该目标图像中的预测关系的关系词“骑”。
[0220]
本公开实施例提供的方案,由于场景图生成模型基于样本图像标注的关系词标注的关系词之间的关联关系训练得到,能够较好区分具有关联关系的关系词,基于该场景图生成模型预测得到的关系词更加准确,从而提高该场景图生成模型生成的场景图的准确度。
[0221]
需要说明的是,为了验证本方案的效果,将训练好的场景图生成模型运用到场景图生成任务上,该场景图生成任务可以为场景图检测任务(scene graph detection,sgdet)、场景图分类任务(scene graph classifcation,sgcls)以及关系判断任务(predicate classification,predcls),本公开实施例对此不加以限定。其中,场景图检测任务需要场景图生成模型探测图像中物体实例的位置以及类别,然后进行关系词分类。场景图分类任务为场景图生成模型提供了真实的物体实例的边框标注,需要该模型对物体实例进行分类,之后对关系词分类。关系判断任务为场景图生成模型提供了真实的物体实例边框以及类别标注,仅需要模型对关系词进行分类。
[0222]
首先在上述三个任务上测试了上述场景图生成模型,并用不同阈值下的平均召回率(mean recall,mr@k,k=20、50、100为设定阈值)进行评价,主要是先将transformer、vctree和motifnet这三个基线模型运用到上述三个任务中,然后在transformer、vctree和motifnet三个基线模型基础上加入本公开实施例中的方案并进行对比,对每个模块进行了单独的验证。其中,在加入本公开实施例中的方案的过程中可分为两种情况,一种是将第一损失加入到上述三个基线模型中,第一损失可以称为类别鉴别损失函数(category discriminating loss,cdl),因此构建的三个新模型分别为transformer-fgpl(cdl)、vctree-fgpl(cdl)以及motifnet-fgpl(cdl)。另一种是将第一损失和第二损失加入到到上述三个基线模型中,第二损失可以称为实例鉴别损失函数(entity discriminating loss,edl),因此构建的三个新模型分别为transformer-fgpl(cdl+edl)、vctree-fgpl(cdl+edl)以及motifnet-fgpl(cdl+edl)。
[0223]
将上述总共九个模型分别运用到上述三个任务中,统计每个模型在不同阈值下的平均召回率,得到一组实验结果数据。参见表1,可以看出对比于三个基线模型,加入第一损失之后的模型在上述三个任务的性能都得到了很明显的提升,另外再加入第二损失之后的模型在上述三个任务的性能会进一步得到改善。以关系判断任务中transformer的mr@20为例,添加了第一损失后其效果从12.4提升到了23.0(整体提升10.6),再加入第二损失后,提升到了27.5(整体提升15.1)。很明显可以看到,本公开实施例中提出的类别鉴别损失函数和实例鉴别损失函数对于场景图生成任务的有效性。
[0224]
表1
[0225][0226]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0227]
图11是根据一示例性实施例示出的一种场景图生成模型的训练装置框图。参见图11,该装置包括:
[0228]
预测单元1101,被配置为执行基于场景图生成模型对样本图像进行预测,得到预测结果信息,该预测结果信息用于指示多个第一关系词的预测概率,该第一关系词用于表示样本图像中的一对物体实例在样本图像中预测的关系;
[0229]
第一确定单元1102,被配置为执行基于关系词关联信息和预测结果信息,确定第一损失,该关系词关联信息用于表示多个第一关系词和第二关系词之间的关联关系,该第二关系词用于表示样本图像中的一对物体实例在样本图像中标注的关系,该第一损失用于表示多个第一关系词与第二关系词之间的差异;
[0230]
训练单元1103,被配置为执行基于第一损失,训练场景图生成模型。
[0231]
本公开实施例提供的装置,通过在训练过程中引入关系词关联信息,该关系词关联信息能够反映第一关系词与第二关系词之间的关联关系,从而能够在训练过程中,基于该关系词关联信息确定第一关系词和第二关系词之间的差异,使得模型能够区分具有关联关系的关系词,从而提高模型生成的视觉场景图的准确度。
[0232]
在一些实施例中,图12是根据一示例性实施例示出的另一种场景图生成模型的训练装置框图。参见图12,该第一确定单元1102,包括:
[0233]
第一确定子单元1201,被配置为执行基于关系词关联信息和预测结果信息,确定第二关系词的多个权重参数,该权重参数用于对第一关系词的预测概率进行加权;
[0234]
第二确定子单元1202,被配置为执行基于第二关系词的多个权重参数和预测结果
信息,确定第一损失。
[0235]
在一些实施例中,该第一确定子单元1201,包括:
[0236]
获取子子单元12011,被配置为执行对于任一第一关系词,基于该关系词关联信息,获取第一关系词的相关性参数,该相关性参数用于表示第二关系词与第一关系词之间的语义相似度;
[0237]
第一确定子子单元12012,被配置为执行基于第二关系词和预测结果信息,确定第一关系词的平衡参数,该平衡参数用于表示当前批次图像中第一样本图像的数量与第二样本图像的数量的比值,当前批次图像包括样本图像,第一样本图像标注有第一关系词,第二样本图像标注有第二关系词;
[0238]
第二确定子子单元12013,被配置为执行基于相关性参数和平衡参数,确定权重参数。
[0239]
在一些实施例中,该装置还包括:
[0240]
第一获取单元1104,被配置为执行获取实例关系信息,该实例关系信息包括多个样本图像的标注关系词和预测关系词,该实例关系信息基于实例关系预测模型对该多个样本图像进行预测得到,该实例关系预测模型用于对样本图像中的一对物体实例的关系进行预测,得到该样本图像的预测关系词;
[0241]
第二获取单元1105,被配置为执行对于任一标注关系词,获取标注该标注关系词的样本图像中第三样本图像的数量,该第三样本图像是指被错误预测为目标预测关系词的样本图像;
[0242]
第三获取单元1106,被配置为执行获取标注该标注关系词的样本图像中第四样本图像的数量,该第四样本图像是指被正确预测为该标注关系词的样本图像;
[0243]
第二确定单元1107,被配置为执行基于该第三样本图像的数量和该第四样本图像的数量,确定该标注关系词与该目标预测关系词之间的相关性参数。
[0244]
在一些实施例中,第二确定单元1107被配置为执行基于该第三样本图像的数量,确定第一参数,该第一参数由该第三样本图像的数量与目标数量的比值归一化得到,该目标数量为标注有该标注关系词的样本图像的总数量;基于该第四样本图像的数量,确定第二参数,该第二参数由该第四样本图像的数量与该目标数量的比值归一化得到;将该第一参数和该第二参数的比值,作为该标注关系词与该目标预测关系词的相关性参数。
[0245]
在一些实施例中,该第二确定子子单元12013,被配置为执行在平衡参数不小于1且相关性参数大于相关性阈值的情况下,基于平衡参数确定权重参数;在平衡参数不小于1且相关性参数不大于相关性阈值的情况下,确定权重参数为1;在平衡参数小于1且相关性参数大于相关性阈值的情况下,确定权重参数为1;在平衡参数小于1且相关性参数不大于相关性阈值的情况下,基于平衡参数确定权重参数。
[0246]
在一些实施例中,该第二确定子单元1202,被配置为执行基于预测结果信息,确定第一预测信息,该第一预测信息表示第二关系词的预测概率的分对数;基于预测结果信息,确定多个第二预测信息,该第二预测信息表示第一关系词的预测概率的分对数;基于第一预测信息、多个第二预测信息以及多个权重参数,确定第一损失。
[0247]
在一些实施例中,该训练单元1103,包括:
[0248]
获取子单元1203,被配置为执行获取第二关系词的目标词汇集,该目标词汇集包
audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0263]
通常,终端1400包括有:处理器1401和存储器1402。
[0264]
处理器1401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1401可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1401可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1401还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0265]
存储器1402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1402中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1401所执行以实现本公开中方法实施例提供的场景图生成模型的训练方法,或者该至少一个程序代码用于被处理器1401所执行以实现本公开中方法实施例提供的场景图生成方法。
[0266]
在一些实施例中,终端1400还可选包括有:外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。该外围设备包括:射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。
[0267]
外围设备接口1403可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中,处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上;在一些其他实施例中,处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0268]
射频电路1404用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1404包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1404还可以包括nfc(near field communication,近距离无线通信)有关的电路,本公开对此不加以限定。
[0269]
显示屏1405用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时,显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时,显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1405可以为一个,设置终端1400的前面板;在另一些实施例中,显示屏1405可以为至少两个,分别设置在终端1400的不同表面或呈折叠设计;在再一些实施例中,显示屏1405可以是柔性显示屏,设置在终端1400的弯曲表面上或折叠面上。甚至,显示屏1405还可以设置成非矩形的不规则图形,也即异形屏。显示屏1405可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0270]
摄像头组件1406用于采集图像或视频。可选地,摄像头组件1406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0271]
音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1401进行处理,或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1407还可以包括耳机插孔。
[0272]
定位组件1408用于定位终端1400的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件1408可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0273]
电源1409用于为终端1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0274]
在一些实施例中,终端1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于:加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。
[0275]
加速度传感器1411可以检测以终端1400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号,控制显示屏1405以横向视图或纵
向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。
[0276]
陀螺仪传感器1412可以检测终端1400的机体方向及转动角度,陀螺仪传感器1412可以与加速度传感器1411协同采集用户对终端1400的3d动作。处理器1401根据陀螺仪传感器1412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0277]
压力传感器1413可以设置在终端1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在终端1400的侧边框时,可以检测用户对终端1400的握持信号,由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时,由处理器1401根据用户对显示屏1405的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0278]
指纹传感器1414用于采集用户的指纹,由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份,或者,由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置终端1400的正面、背面或侧面。当终端1400上设置有物理按键或厂商logo时,指纹传感器1414可以与物理按键或厂商logo集成在一起。
[0279]
光学传感器1415用于采集环境光强度。在一个实施例中,处理器1401可以根据光学传感器1415采集的环境光强度,控制显示屏1405的显示亮度。当环境光强度较高时,调高显示屏1405的显示亮度;当环境光强度较低时,调低显示屏1405的显示亮度。在另一个实施例中,处理器1401还可以根据光学传感器1415采集的环境光强度,动态调整摄像头组件1406的拍摄参数。
[0280]
接近传感器1416,也称距离传感器,通常设置在终端1400的前面板。接近传感器1416用于采集用户与终端1400的正面之间的距离。在一个实施例中,当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变小时,由处理器1401控制显示屏1405从亮屏状态切换为息屏状态;当接近传感器1416检测到用户与终端1400的正面之间的距离逐渐变大时,由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。
[0281]
本领域技术人员可以理解,图14中示出的结构并不构成对终端1400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0282]
电子设备被提供为服务器时,图15是根据一示例性实施例示出的一种服务器1500的框图,该服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)1501和一个或一个以上的存储器1502,其中,该存储器1502中存储有至少一条程序代码,该至少一条程序代码由该处理器1501加载并执行以实现上述各个方法实施例提供的场景图生成模型的训练方法,或者该至少一条程序代码由该处理器1501加载并执行以实现上述各个方法实施例提供的场景图生成方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1500还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0283]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指
令的存储器1402或者存储器1502,上述指令可由终端1400的处理器1401或者服务器1500的处理器1501执行以完成上述方法。可选地,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0284]
一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述场景图生成模型的训练方法,或者该计算机程序/指令被处理器执行时实现上述场景图生成方法。
[0285]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0286]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1