对象、机器模型处理方法、装置、设备和存储介质与流程

文档序号:26050768发布日期:2021-07-27 15:25阅读:106来源:国知局
对象、机器模型处理方法、装置、设备和存储介质与流程

本申请涉及数据处理技术领域,特别是涉及一种对象、机器模型处理方法、装置、设备和存储介质。



背景技术:

在个性化推荐场景中,用户可以输入目标对象,以获取到与该目标对象相关联的推荐对象。该推荐对象是通过与目标对象的匹配度确定的。

现有技术中,可以通过预先训练的机器模型预测目标对象和各个候选对象的匹配度,从而选取匹配度满足条件的候选对象作为推荐对象。其中,匹配度满足条件可以包括但不限于:匹配度大于或等于预设匹配度阈值、匹配度较高的若干候选对象。该机器模型可以预测同一模态的目标对象和候选对象之间的匹配度。其中,同一模态的目标对象和候选对象可以理解为目标对象和候选对象同为图片,或同为文本,或同为语音。

申请人对上述方案进行研究之后发现,现有技术无法实现不同模态的对象的匹配度分析及处理。



技术实现要素:

本申请实施例提供了一种对象、机器模型处理方法,以实现不同模态的对象的匹配度分析及处理。

相应的,本申请实施例还提供了一种对象、机器模型处理装置、设备和存储介质,用以保证上述方法的实现及应用。

为了解决上述问题,本申请实施例公开了一种对象处理方法,所述方法包括:获取至少两个目标对象分别对应的第一向量;结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量;将所述目标对象的第二向量分别转换为所述目标对象的第三向量;根据所述目标对象的第三向量对所述目标对象进行处理。

本申请实施例公开了另一种对象处理方法,所述方法包括:获取至少两个目标对象分别对应的第一向量;结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量;将所述目标对象的第二向量分别转换为所述目标对象的第三向量;根据所述目标对象的第三向量确定所述目标对象之间的匹配度。

本申请实施例还公开了另一种对象处理方法,所述方法包括:接收第一目标对象;针对目标对象库中的第二目标对象,确定所述第一目标对象和所述第二目标对象的匹配度,所述第二目标对象与所述第一目标对象不属于同一类对象;所述匹配度是通过如下步骤得到的:结合第一目标对象的第一向量和第二目标对象的第一向量,分别确定所述第一目标对象的第二向量和所述第二目标对象的第二向量,将所述第一目标对象的第二向量转换为所述第一目标对象的第三向量,以及将所述第二目标对象的第二向量转换为所述第二目标对象的第三向量;根据所述第一目标对象的第三向量和所述第二目标对象的第三向量确定所述第一目标对象和第二目标对象的匹配度;根据所述匹配度对所述目标对象库中的第二目标对象进行推荐。

本申请实施例还公开了另一种对象处理方法,所述方法包括:接收输入的描述对象;针对目标商品库中的目标商品,确定所述输入的描述对象和所述目标商品的描述对象的匹配度,所述输入的描述对象和所述目标商品的描述对象不为同一类;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述目标商品的描述对象的第一向量,分别确定所述输入的描述对象的第二向量和所述目标商品的描述对象的第二向量,并分别转换为所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量;根据所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量,确定所述输入的描述对象和所述目标商品的描述对象的匹配度;根据所述匹配度对所述目标商品库中的目标商品进行推荐。

本申请实施例还公开了另一种对象处理方法,所述方法包括:接收输入的描述对象;针对目标视频库中的目标视频,确定所述输入的描述对象和目标视频中的图像帧的匹配度;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述图像帧的第一向量,分别确定所述输入的描述对象的第二向量和所述图像帧的第二向量,并分别转换为所述输入的描述对象的第三向量和所述图像帧的第三向量;根据所述输入的描述对象的第三向量和所述图像帧的第三向量,确定所述描述对象和图像帧的匹配度;根据所述匹配度对所述目标视频库中的目标视频进行推荐。

本申请实施例还公开了一种机器模型处理方法,所述方法包括:获取第一训练对象组中的训练对象的第一向量;通过第一机器模型结合所述第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量;通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

本申请实施例还公开了另一种机器模型处理方法,所述方法包括:获取预先训练得到的第一机器模型和第二机器模型,所述第一机器模型和第二机器模型通过如下步骤训练得到:通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量,并通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练;采用第二训练对象组对所述第一机器模型、所述第二机器模型和第三机器模型进行训练,所述第二机器模型的输出作为所述第三机器模型的输入。

本申请实施例还公开了一种对象处理装置,所述装置包括:第一获取模块,用于获取至少两个目标对象分别对应的第一向量;第一确定模块,用于结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量;第一转换模块,用于将所述目标对象的第二向量分别转换为所述目标对象的第三向量;目标对象处理模块,用于根据所述目标对象的第三向量对所述目标对象进行处理。

本申请还提供了另一种对象处理装置,所述装置包括:第二获取模块,用于获取至少两个目标对象分别对应的第一向量;第二确定模块,用于结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量;第二转换模块,用于将所述目标对象的第二向量分别转换为所述目标对象的第三向量;第一匹配度确定模块,用于根据所述目标对象的第三向量确定所述目标对象之间的匹配度。

本申请还提供了另一种对象处理装置,所述装置包括:第一目标对象接收模块,用于接收第一目标对象;第二匹配度确定模块,用于针对目标对象库中的第二目标对象,确定所述第一目标对象和所述第二目标对象的匹配度,所述第二目标对象与所述第一目标对象不属于同一类对象;所述匹配度是通过如下步骤得到的:结合第一目标对象的第一向量和第二目标对象的第一向量,分别确定所述第一目标对象的第二向量和所述第二目标对象的第二向量,将所述第一目标对象的第二向量转换为所述第一目标对象的第三向量,以及将所述第二目标对象的第二向量转换为所述第二目标对象的第三向量;根据所述第一目标对象的第三向量和所述第二目标对象的第三向量确定所述第一目标对象和第二目标对象的匹配度;对象推荐模块,用于根据所述匹配度对所述目标对象库中的第二目标对象进行推荐。

本申请还提供了另一种对象处理装置,所述装置包括:第一描述对象接收模块,用于接收输入的描述对象;第三匹配度确定模块,用于针对目标商品库中的目标商品,确定所述输入的描述对象和所述目标商品的描述对象的匹配度,所述输入的描述对象和所述目标商品的描述对象不为同一类;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述目标商品的描述对象的第一向量,分别确定所述输入的描述对象的第二向量和所述目标商品的描述对象的第二向量,并分别转换为所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量;根据所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量,确定所述输入的描述对象和所述目标商品的描述对象的匹配度;商品推荐模块,用于根据所述匹配度对所述目标商品库中的目标商品进行推荐。

本申请还提供了另一种对象处理装置,所述装置包括:第二描述对象接收模块,用于接收输入的描述对象;第四匹配度确定模块,用于针对目标视频库中的目标视频,确定所述输入的描述对象和目标视频中的图像帧的匹配度;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述图像帧的第一向量,分别确定所述输入的描述对象的第二向量和所述图像帧的第二向量,并分别转换为所述输入的描述对象的第三向量和所述图像帧的第三向量;根据所述输入的描述对象的第三向量和所述图像帧的第三向量,确定所述描述对象和图像帧的匹配度;目标视频推荐模块,用于根据所述匹配度对所述目标视频库中的目标视频进行推荐。

本申请实施例还公开了一种机器模型处理装置,所述装置包括:第三获取模块,用于获取第一训练对象组中的训练对象的第一向量;第三确定模块,用于通过第一机器模型结合所述第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量;第三转换模块,用于通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;第一训练模块,用于根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

本申请实施例还公开了另一种机器模型处理装置,所述装置包括:机器模型获取模块,用于获取预先训练得到的第一机器模型和第二机器模型,所述第一机器模型和第二机器模型通过如下步骤训练得到:通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量,并通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练;第二训练模块,用于采用第二训练对象组对所述第一机器模型、所述第二机器模型和第三机器模型进行训练,所述第二机器模型的输出作为所述第三机器模型的输入。

本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中任一项所述的方法。

本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中任一项所述的方法。

与现有技术相比,本申请实施例包括以下优点:

在本申请实施例中,可以结合至少两个不同模态的目标对象分别对应的第一向量确定目标对象分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的目标对象的处理。

附图说明

图1是本申请的不同模态的对象处理过程示意图;

图2是本申请的图片文本语音的处理过程示意图;

图3是本申请的一种对象处理方法实施例的步骤流程图;

图4是本申请的一种向量的转换过程示意图;

图5是本申请的一种多头注意力模型的结构示意图;

图6是本申请的另一种对象处理方法实施例的步骤流程图;

图7是本申请的另一种对象处理方法实施例的步骤流程图;

图8是本申请的另一种对象处理方法实施例的步骤流程图;

图9是本申请的另一种对象处理方法实施例的步骤流程图;

图10是本申请的一种机器模型处理方法实施例的步骤流程图;

图11是本申请的另一种机器模型处理方法实施例的步骤流程图;

图12是本申请的一种对象处理装置实施例的结构框图;

图13是本申请的另一种对象处理装置实施例的结构框图;

图14是本申请的另一种对象处理装置实施例的结构框图;

图15是本申请的另一种对象处理装置实施例的结构框图;

图16是本申请的另一种对象处理装置实施例的结构框图;

图17是本申请的一种机器模型处理装置实施例的结构框图;

图18是本申请的另一种机器模型处理装置实施例的结构框图;

图19是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可应用于对不同模态的对象进行处理,在处理过程中,不同模态的对象之间的信息是交互的,以使其中一个模态的对象的处理结果依赖于其余模态的对象。例如,对于其中一个模态的对象:图片,对其进行处理的过程中,依赖于另一个模态的对象:文本。此外,不同模态的对象经过交互之后需要单独进行转换之后输出处理结果。如此得到其中一个模态的对象的处理结果不仅可以充分利用了不同模态之间的交互信息,还使得不同模态的处理结果之间相互独立。

如图1所示的不同模态的对象处理过程示意图,图1中包括m(1)至m(i)共i个模态的对象,每个模态对象的第一向量是每个模态的对象的身份标识,可以唯一代表每个模态的对象,第一向量可以根据对象的内容、位置等其余信息转换得到。

第一转换算法可以结合不同模态的对象的第一向量确定每个模态的对象的第二向量,第一转换算法可以实现对不同模态的对象的第一向量的线性和/或非线性变换,得到每个模态的对象的第二向量。例如,如图1所示,对于任一模态m(i)的对象,第一转换算法可以结合所有模态m(1)至m(i)的对象的第一向量,确定模态m(i)的对象的第二向量。

需要说明的是,对于不同模态的对象采用的第一转换算法的参数不同,从而使得不同模态的对象的第二向量不同。例如,采用的线性和/或非线性变换算法中的参数不同。

在得到第二向量之后,不同模态的对象的第二向量分别再进行一次转换,如图1所示,任一模态m(i)的对象的第二向量通过第i+1转换算法进行转换得到第三向量。同理,第i+1转换算法可以是线性和/或非线性变换,不同的转换算法采用的参数可以不同,例如,如图1所示,第一转换算法、第二转换算法、…、第i+1转换算法、…、第i+1转换算法均可以采用不同的参数。

在得到第三向量之后,可以根据第三向量对不同模态的对象进行处理,包括但不限于:匹配度分析、召回、推荐。例如,可以根据不同模态的对象之间的相似度确定不同模态的对象之间的匹配度,相似度越大,匹配度越大,反之,相似度越小,匹配度越小。又例如,可以根据不同模态的对象之间的匹配度进行召回或推荐,指定一个目标模态的对象,然后计算其余模态的若干对象和该目标模态的对象之间的匹配度,从而可以将匹配度较高的若干对象,或匹配度大于或等于预设匹配度阈值的若干对象进行召回或推荐。

在实际应用中,不同模态的对象可以包括但不限于:图片、文本和语音,从而图1所示的不同模态的对象处理过程可以具体化为图2所示的图片、文本和语音的处理过程。可以看出,图2中的输入包括图片的第一向量、文本的第一向量和语音的第一向量,第一转换算法可以结合图片、文本、语音三者的信息分别确定图片的第二向量、文本的第二向量和语音的第二向量,以使图片的第二向量中同时包含了图片、文本、语音三者中的信息,同理,文本的第二向量中也同时包含了图片、文本、语音三者中的信息,语音的第二向量中同时包含了图片、文本、语音三者中的信息。如此实现了图片、文本和语音的信息之间的交互。

在得到图片的第二向量、文本的第二向量和语音的第三向量之后,采用第二转换算法对图片的第二向量进行转换得到图片的第三向量,同理,采用第三转换算法对文本的第二向量进行转换得到文本的第三向量,采用第四转换算法对语音的第二向量进行转换得到语音的第三向量,以使图片的第三向量、文本的第三向量和语音的第三向量分别代表了图片、文本和语音的处理结果。

需要说明的是,在实际应用中,本申请的不同模态的对象处理过程可以针对图片、文本、语音中的至少两个,例如,图片和文本,又例如,图片和语音,再例如,文本和语音。本申请对在实际应用中的模态的数目不加以限制。

可以理解的是,上述图1和图2所示的不同模态的对象处理过程可以应用于任意具有计算功能的处理设备上,该处理设备可以包括但不限于:个人计算机、平板电脑、手机。该处理设备还可以对应输入设备,以使用户通过输入设备输入对象,例如,用户可以在屏幕上选取图片,通过键盘输入文本,通过语音输入设备录入语音等。在一种示例中,该输入设备可以集成于处理设备上,例如,输入设备可以是计算机的屏幕、键盘;在另一种示例中,该输入设备还可以通过网络与处理设备远程连接,例如,处理设备可以是后台服务端,输入设备可以是客户端,客户端具有屏幕、键盘等。

基于上述图1和图2所示的不同模态的对象处理过程,本申请下面通过实施例对其进行进一步详细说明。

参照图3,示出了本申请的一种对象处理方法实施例的步骤流程图,具体包括如下步骤:

步骤101,获取至少两个目标对象分别对应的第一向量。

其中,目标对象是处理针对的对象,目标对象可以是用户输入的两个对象,至少两个目标对象包括如下至少两类:图片、文本和语音,例如,用户可以选取一张图片、输入一段文本作为两个目标对象;目标对象还可以是根据预设条件获取的对象,例如,获取指定位置拍摄、指定时间拍摄的图片作为目标对象,并将包含指定位置名称的文本、指定时间信息的图片作为目标对象。

为了获取第一向量,在一种示例中,可以为大量对象分配唯一的标识,然后将该标识转换为向量表示,向量与标识一一对应,从而该第一向量可以唯一标识该对象;在另一种示例中,可以通过机器模型的学习过程学习到大量对象的向量表示,针对不同模态的对象,采用的机器模型可以不同,例如,对于图片,常用的机器模型可以为vgg、resnet(residualnetwork,残差网络),vgg是牛津视觉几何组(visualgeometrygroup)提出的一种模型;对于文本,常用的机器模型可以为textcnn(textconvolutionneuralnetwork,文本卷积神经网络)、fasttext(快速文本)模型、lstm(longshort-termmemory,长短期记忆)网络、bert(bidirectionalencoderrepresentationfromtransformers,转换器的双向编码器表示);对于语音,常用的机器模型可以为ctc(connectionisttemporalclassification,连续时域分类)模型、rnn-t(recurrentneuralnetworktransducer,循环神经网络变换器)、tdnn(timedelayneuralnetwork,时间延迟神经网络)。

步骤102,结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量。

针对其中一个目标对象,可以结合所有目标对象分别对应的第一向量确定该目标对象的第二向量,前面提到,这个确定过程可以是线性和/或非线性变换的过程,确定不同目标对象的第二向量所采用的变换的参数可以不同,以使生成的不同目标对象的第二向量不同。

在本申请中,确定第二向量的过程可以通过预先训练的机器模型实现,该机器模型可以实现线性和/或非线性变换,机器模型的参数是线性/非线性变换的参数。这些参数需要预先训练得到,以使在执行步骤102时该参数是已经训练好的参数。

步骤103,将所述目标对象的第二向量分别转换为所述目标对象的第三向量。

其中,上述转换包括如下至少一种:线性转换、非线性转换。

具体地,针对其中一个目标对象,可以将该目标对象的第二向量通过线性或非线性变换得到该目标对象的第三向量。在本申请中,该线性或非线性变换可以采用机器模型实现,机器模型的参数是线性/非线性变换的参数,这些参数需要预先训练得到,以使在执行步骤103时该参数是已经训练好的参数。

需要说明的是,步骤103所使用的机器模型与步骤102所使用的机器模型的结构可以相同,但参数可以不同。步骤103所使用的机器模型的输入是其中一个目标对象的第二向量,输出是该目标对象的第三向量,步骤102所使用的机器模型的输入是所有目标对象的第一向量,步骤103所使用的机器模型的输入是其中一个目标对象的第二向量。

步骤104,根据所述目标对象的第三向量对所述目标对象进行处理。

其中,对目标对象的处理包括但不限于:匹配度分析、召回、推荐等。其中,匹配度分析可以用于根据两个目标对象的第三向量确定两个目标对象之间的匹配度,以向用户提供匹配度的分析结果。例如,可以将用户输入的文本作为其中一个目标对象,将图片库中的其中一个图片作为目标对象,从而可以通过步骤101至103确定文本的第三向量和图片的第三向量,以确定文本和图片的匹配度。此后,一方面可以向用户提示将该文本作为该图片的备注信息,另一方面还可以将该图片作为搜索到的结果对象显示给用户。

召回可以用于从大量的目标对象中获取到满足预设条件的对象,是推荐的前序过程,在得到召回的对象之后,可以将对象进行排序以推荐给用户。例如,用户可以输入一段文本,该文本作为其中一个目标对象,然后将候选的对象库中的一个图片作为另一个目标对象,从而可以通过步骤101至103获取输入的文本的第三向量和对象库中的图片的第三向量,进而计算输入的文本和对象库中的图片之间的匹配度,同理,可以计算该输入的文本和对象库中的任一图片之间的匹配度,如此,可以将对象库中与输入的文本的匹配度大于或等于预设匹配度阈值的对象进行召回,并按照匹配度进行降序排列之后推荐给用户。

可以理解的是,可以根据实际应用场景灵活使用目标对象的第三向量,本申请对基于第三向量的其余处理不加以限制。

可选地,所述目标对象包括至少一个目标子对象,所述目标对象的第一向量包括至少一个所述目标子对象的嵌入向量,所述步骤101包括子步骤1011至1012:

子步骤1011,确定所述目标子对象的内容向量、位置向量和类型向量,所述内容向量表征所述目标子对象的内容,所述位置向量表征所述目标子对象在所述目标对象中的位置,所述类型向量表征所述目标子对象包括如下一类:图片、文本和语音。

其中,目标子对象可以是将目标对象拆分之后的子对象,例如,当目标对象为图片时,目标子对象可以是图片中物体所在的图像区域;当目标对象为文本时,目标子对象可以是文本进行分词之后的词语;当目标对象为语音时,目标子对象可以是语音进行分片之后的语音片段。

在将目标对象拆分为目标子对象之后,目标对象的第一向量被拆分为多个目标子对象的嵌入向量,这些多个目标子对象的嵌入向量按照目标子对象的顺序排列成一个序列,序列中的每个元素项为一个向量;也可以将多个目标子对象的嵌入向量按照目标子对象的顺序拼接起来。

上述嵌入向量由子步骤1012根据内容向量、位置向量和类型向量确定的,在子步骤1012中会进行详细说明,在此不再赘述。

其中,内容向量用于唯一表示目标子对象的内容,例如,目标子对象为物体所在的图像区域时,目标子对象的内容向量可以是图像区域中的各像素点取值确定的向量;位置向量用于唯一表示目标子对象的位置,例如,目标子对象为物体所在的图像区域时,目标子对象的位置向量可以是图像区域在图片中的位置确定的向量;类型向量用于唯一表示目标子对象的模态,例如,对于目标子对象为图片时,类型向量可以为各元素项均为0的向量;对于目标目标子对象为文本时,类型向量可以为各元素项均为1的向量;目标子对象为语音时,类型向量可以为各元素项均为2的向量。

子步骤1012,根据所述目标子对象的内容向量、位置向量和类型向量确定所述目标子对象的嵌入向量。

具体地,可以将目标子对象的内容向量、位置向量和类型向量相加得到目标子对象的嵌入向量,还可以将目标子对象的内容向量、位置向量和类型向量按照一定权重相加得到目标子对象的嵌入向量,还可以将目标子对象的内容向量、位置向量和类型向量拼接起来得到目标子对象的嵌入向量。

本申请可以通过内容、位置和类型唯一表示不同模态的对象,提高了表示对象的准确度。

可选地,所述子步骤1012包括子步骤10121至10122:

子步骤10121,将所述目标子对象的内容向量、位置向量和类型向量进行加权得到加权向量。

具体地,加权向量可以通过如下公式计算得到:

wvi=wc·cvi+wl·lvi+ws·svi(1)

其中,wvi为加权向量的第i维取值,cvi为内容向量的第i维取值,lvi为位置向量的第i维取值,svi为类型向量的第i维取值,wc为内容向量的权重,wl为位置向量的权重,ws为类型向量的权重。

子步骤10122,对所述加权向量进行归一化得到所述目标子对象的嵌入向量。

其中,归一化用于将加权向量中的每个维度上的取值转换为0至1之间的数值,这个0至1之间的数值作为嵌入向量的每个维度上的取值。归一化可以采用现有的归一化函数实现,归一化函数包括但不限于:bn(batchnormalization,分批归一化)、ln(layernormalizaiton,分层归一化)、in(instancenormalization,实例归一化)、gp(groupnormalization,分组归一化),sn(switchablenormalization,可变归一化)。这些归一化函数为机器模型中常用的归一化函数,在此不再赘述。

本申请可以通过权重调整内容向量、位置向量和类型向量对对象表示的影响程度,权重越大的向量对对象表示的影响越大,权重越小的向量对对象表示的影响越小。

可选地,所述步骤102包括子步骤1021至1022:

子步骤1021,采用至少一个第一转换层结合至少两个目标对象分别对应的第一向量确定综合向量;对于第一个所述第一转换层,所述第一转换层的输入向量为所述至少两个目标对象分别对应的第一向量,对于其余所述第一转换层,所述第一转换层的输入向量为上一个所述第一转换层输出的综合向量拆分后的所述目标对象分别对应的第二向量;在所述第一转换层中,采用第一多头注意力模型对所述输入向量进行处理得到中间向量;对所述中间向量和所述输入向量之和进行归一化得到归一化和向量;对所述归一化和向量进行非线性变换得到非线性向量;对所述归一化和向量和所述非线性向量进行归一化得到综合向量。

其中,第一转换层是用于实现步骤102的数据处理层,第一转换层可以用机器模型中的transformer(转换)模型实现,具体可以参照图4中的transformer模型的结构,图4给出了通过一个transformer实现步骤102的方案,在实际应用中,可以将多个transformer首尾相接以作为第一转换层,第一个transformer的输入为第一向量,中间transformer的输入为上一个transformer的输出的综合向量拆分后的第二向量,最后一个transformer的输出作为第一转换层的输出,其中一个transformer的输入作为transformer中的muli-headattention(多头注意力)层的输入,transformer中的最后一个add&normalization(加以及归一化)层的输出作为该transformer的输出。

在其中一个transformer中,首先,将第一向量输入到transformer的第一多头注意力模型muli-headattention层中,以将第一向量中的各个维度上的取值进行交互运算得到中间向量;然后,将中间向量输入到transformer的add&normalization层,以将综合向量和第一向量的和向量进行归一化处理得到归一化和向量;再然后,将归一化和向量输入到transformer的feedforward(前馈)层,以对归一化和向量进行非线性变换得到非线性向量;最后,将归一化和向量和非线性向量输入到transformer的另一个add&normalization层,以将归一化和向量和非线性向量的和向量进行归一化处理得到综合向量,该综合向量为该transformer的输出。

上述feedforward层的非线性变换可以通过激活函数实现,常用的激活函数可以包括但不限于:sigmoid、tanh、relu、gelu。

上述过程中所使用的第一多头注意力层可以通过多头注意力模型实现,多头注意力模型的结构可以如图5所示,输入到多头注意力模型中的多个向量分别输入到三组linear中,每组linear中均包含h个linear,h为头的数目,三组linear的输出均作为scaleddot-productattention(缩放点积注意力)的输入,scaleddot-productattention也存在h个,每个scaleddot-productattention的输入包括各组linear中的一个linear的输出,h个dot-productattention分别输出的h个向量通过concat(拼接)之后,再通过linear输出中间向量。

在本申请中,多头注意力模型的输入的数目为目标对象分别对应的第一向量的数目h,图5中多头注意力模型的输入为h个向量:v11、v12、…、v1h。在一种示例中,当目标对象分别为图片、文本和语音三个,且图片包含一个物体所在图像区域、文本包含一个词语和语音包含一个语音片段时,h=3,对于第一个第一转换层中的多头注意力模型,v11可以为图片的第一向量,v12可以为文本的第一向量,v13可以为语音的第一向量;对于其余第一转换层中的多头注意力模型,v11可以为上一个第一转换层的综合向量拆分后的图片的第二向量,v12可以为上一个第一转换层的综合向量拆分后的文本的第二向量,v13可以为上一个第一转换层的综合向量拆分后的语音的第二向量。

在另一种示例中,当目标对象分别为图片、文本和语音三个,且图片包含三个物体所在图像区域、文本包含两个词语和语音包含一个语音片段时,h=6,v11可以为图片包含的第一个物体所在图像区域的第一向量,v12可以为图片包含的第二个物体所在图像区域的第一向量,v13可以为图片包含的第三个物体所在图像区域的第一向量,v14可以为文本包含的第一个词语的第一向量,v15可以为文本包含的第二个词语的第一向量,v16可以为语音包含的一个语音片段的第一向量;对于其余第一转换层的多头注意力模型,v11可以为图片包含的第一个物体所在图像区域的第二向量,v12可以为图片包含的第二个物体所在图像区域的第二向量,v13可以为图片包含的第三个物体所在图像区域的第二向量,v14可以为文本包含的第一个词语的第二向量,v15可以为文本包含的第二个词语的第二向量,v16可以为语音包含的一个语音片段的第二向量,可以理解,上述第二向量是从上一第一转换层输出的综合向量中拆分得到的。

基于上述向量v11、v12、…、v1h,如图5所示,linear可以将输入到该linear中的向量进行线性变换得到向量v211、v212、…、v21h、v221、v222、…、v22h、v231、v232、…、v23h,由于不同的linear采用的参数不同,从而同一个向量经过不同的linear输出的向量不同,例如,对于向量v11,分别通过三个linear输出三个向量v211、v221、v231,但由于这三个linear的参数不同,从而向量v211、v221、v231也不相同。

上述linear输出的向量v211、v212、…、v21h、v221、v222、…、v22h、v231、v232、…、v23h输入到scaleddot-productattention中得到向量:v31、v32、…、v3h,而v31、v32、…、v3h经过concat(拼接)之后得到向量v4=[v311,…,v31i,v321,…,v32i,v3h1…,v3hi],其中,v311、…、v31i为向量v31的第1至i维取值,v321、…、v32i为向量v32的第1至i维取值,…,v3h1、…、v3hi为向量v3h的第1至i维取值,v4经过linear(线性变换)之后得到向量v5=w*v4+b,w是矩阵,b是向量。其中,scaleddot-productattention是机器模型中的常用注意力机制,输入为三个向量:q(query,查询)、k(key,关键字)、v(value,值),输出为attention(q,k,v)=softmax(q*kt)*v,在本申请中,q、k、v三者相同,如图5所示,例如可以均为v11,或均为v12等。

子步骤1022,将所述综合向量拆分为所述至少两个目标对象分别对应的第二向量。

具体地,可以按照输入到多头注意力层中的顺序,将综合向量拆分为第二向量。例如,对于图片、文本和语音,图片中包含三个物体所在的区域ar1、ar2、ar3,文本中包含两个词语:wd1、wd2,语音中包含1个语音片段:vs1,在输入到多头注意力层时,顺序为ar1的第一向量、ar2的第一向量、ar3的第一向量、wd1的第一向量、wd2的第一向量、vs1的第一向量,得到的综合向量为[vt1,vt2,…,vtm],若第一向量的维数为i,则可以将综合向量中的第1至第i维取值作为ar1的第二向量,将综合向量中的第i+1至第2i维取值作为ar2的第二向量,将综合向量中的第2i+1至第3i维取值作为ar3的第二向量,将综合向量中的第3i+1至第4i维取值作为wd1的第二向量,将综合向量中的第4i+1至第5i维取值作为wd2的第二向量,将综合向量中的第5i+1至第6i维取值作为vs1的第二向量。

本申请可以通过多注意力层实现结合至少两个目标对象分别对应的第一向量确定目标对象分别对应的第二向量的目的,多注意力层的参数可以通过训练得到。

可选地,所述步骤103包括子步骤1031:

子步骤1031,采用至少一个第二转换层对所述第二向量进行转换得到第三向量;对于第一个所述第二转换层,所述第二转换层的输入向量为所述第二向量,对于其余所述第二转换层,所述第二转换层的输入向量为上一个所述第二转换层输出的第三向量;在所述第二转换层中,采用第二多头注意力模型对所述输入向量进行处理得到中间向量;对所述中间向量和所述输入向量之和进行归一化得到归一化和向量;对所述归一化和向量进行非线性变换得到非线性向量;对所述归一化和向量和所述非线性向量进行归一化得到第三向量。

在本申请中,第二转换层可以采用与第一转换层相同结构的机器模型,当第一转换层采用transformer时,第二转换层也可以采用transformer,但第二转换层采用的transformer的参数不同,这个参数是预先训练得到的针对某种模态的目标对象的,如图4所示,对于图片、文本和语音,存在三个第二转换层,分别用于将图片的第二向量转换为图片的第三向量,将文本的第二向量转换为文本的第三向量,将语音的第二向量转换为语音的第三向量。

本申请对第二转换层不再赘述,详细说明可以参照子步骤1021。

综上所述,在本申请实施例中,可以结合至少两个不同模态的目标对象分别对应的第一向量确定目标对象分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的对象进行处理。

参照图6,示出了本申请的另一种对象处理方法实施例的步骤流程图,具体包括如下步骤:

步骤201,获取至少两个目标对象分别对应的第一向量。

该步骤可以参照步骤101的详细说明,在此不再赘述。

步骤202,结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量。

该步骤可以参照步骤102的详细说明,在此不再赘述。

步骤203,将所述目标对象的第二向量分别转换为所述目标对象的第三向量。

该步骤可以参照步骤103的详细说明,在此不再赘述。

步骤204,根据所述目标对象的第三向量确定所述目标对象之间的匹配度。

在一种示例中,对于其中两个目标对象,可以确定该两个目标对象的第三向量是否相同,若相同,则可以确定该两个目标对象匹配;若不相同,则可以确定该两个目标对象不匹配。

在另一种示例中,可以计算两个目标对象的第三向量之间的距离,若距离小于或等于预设距离阈值,则可以确定该两个目标对象匹配;若大于预设距离阈值,则可以确定该两个目标对象不匹配。

在再一种示例中,还可以计算两个目标对象的第三向量的相似度,并根据相似度确定两个目标对象的匹配度。可以理解的是,相似度和匹配度呈正向关系,若相似度越大,则匹配度越大;若相似度越小,则匹配度越小。

可选地,所述步骤204包括子步骤2041:

子步骤2041,根据所述第三向量之间的相似度确定所述目标对象之间的匹配度。

具体地,可以直接将相似度作为匹配度,还可以将相似度进行线性变换得到匹配度,但要保证变换之后,相似度和匹配度之间仍为正向关系。向量之间的相似度可以采用常用的余弦相似度、基于距离的相似度等,余弦相似度用第三向量之间的余弦值代表第三向量之间的相似度,具体可以采用如下公式计算得到:

其中,sim为余弦相似度,vo3i和vt3i分别为两个目标对象的第三向量的第i维取值,i为第三向量的维数。

可以理解的是,通过步骤201至204不仅可以得到图片和文本之间的匹配度,还可以得到图片和语音之间的匹配度,还可以得到文本和语音之间的匹配度。

综上所述,在本申请实施例中,可以结合至少两个不同模态的目标对象分别对应的第一向量确定目标对象分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的目标对象进行匹配度分析。

参照图7,示出了本申请的一种对象处理方法实施例的步骤流程图,具体包括如下步骤:

步骤301,接收第一目标对象。

其中,第一目标对象是用户输入的对象,用于描述用户的兴趣偏好,本申请用于根据第一目标对象将目标对象库中的第二目标对象进行推荐。第一目标对象可以是图片、文本或语音,例如,用户输入“咖啡”,那么代表用户想要关于“咖啡”的相关信息,输入的“咖啡”可以是包含有“咖啡”图像信息的图片,也可以是“咖啡”二字,还可以是“咖啡”的语音。

步骤302,针对目标对象库中的第二目标对象,确定所述第一目标对象和所述第二目标对象的匹配度,所述第二目标对象与所述第一目标对象不属于同一类对象;所述匹配度是通过如下步骤得到的:结合第一目标对象的第一向量和第二目标对象的第一向量,分别确定所述第一目标对象的第二向量和所述第二目标对象的第二向量,将所述第一目标对象的第二向量转换为所述第一目标对象的第三向量,以及将所述第二目标对象的第二向量转换为所述第二目标对象的第三向量;根据所述第一目标对象的第三向量和所述第二目标对象的第三向量确定所述第一目标对象和第二目标对象的匹配度。

其中,第二目标对象是待推荐的对象,大量的待推荐的对象可以形成一个目标对象库。本申请可以确定目标对象库中的所有对象或部分对象与第一目标对象的匹配度,以根据匹配度将部分第二目标对象推荐给用户。确定第一目标对象和第二目标对象的匹配度的过程可以参照图6所对应的方法实施例中的详细说明,在此不再赘述。具体地,可以将第一目标对象作为其中一个目标对象,以及将第二目标对象作为另一个目标对象,以采用图6所对应的方法实施例确定两者的匹配度。

需要说明的是,第一目标对象的第一向量和第二目标对象的第一向量可以参照步骤101中对目标对象的第一向量的详细说明,步骤101以及其子步骤获取目标对象的第一向量的过程,也适用于获取第一目标对象的第一向量和第二目标对象的第一向量;第一目标对象的第二向量和第二目标对象的第二向量可以参照步骤102中对目标对象的第二向量的详细说明,步骤102以及其子步骤生成目标对象的第二向量的过程,也适用于生成第一目标对象的第二向量和第二目标对象的第二向量,第一目标对象的第三向量和第二目标对象的第三向量可以参照步骤103中对目标对象的第三向量的详细说明,步骤103以及其子步骤生成目标对象的第三向量的过程,也适用于生成第一目标对象的第三向量和第二目标对象的第三向量。

其中,所述转换包括如下至少一种:线性转换、非线性转换。

步骤303,根据所述匹配度对所述目标对象库中的第二目标对象进行推荐。

具体地,可以将匹配度大于或等于预设匹配度阈值的第二目标对象推荐给用户,和/或将匹配度较大的若干第二目标对象推荐给用户。

综上所述,在本申请实施例中,可以结合不同模态的第一目标对象和第二目标对象分别对应的第一向量确定第一目标对象的第二向量以及第二目标对象的第二项向量,并将第二向量转换为第三向量,使得独立输出的两个目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的对象进行匹配度分析,进而根据匹配度实现第二目标对象的推荐。

参照图8,示出了本申请的另一种对象处理方法实施例的步骤流程图,具体包括如下步骤:

步骤401,接收输入的描述对象。

其中,描述对象是用户输入的对象,用于描述用户的兴趣偏好,本申请用于根据描述对象将目标商品库中的目标商品进行推荐。例如,用户输入“咖啡”,那么代表用户想要关于“咖啡”的相关信息,输入的“咖啡”可以是包含有“咖啡”图像信息的图片,也可以是“咖啡”二字,还可以是“咖啡”的语音。

步骤402,针对目标商品库中的目标商品,确定所述输入的描述对象和所述目标商品的描述对象的匹配度,所述输入的描述对象和所述目标商品的描述对象不为同一类;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述目标商品的描述对象的第一向量,分别确定所述输入的描述对象的第二向量和所述目标商品的描述对象的第二向量,并分别转换为所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量;根据所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量,确定所述输入的描述对象和所述目标商品的描述对象的匹配度。

其中,目标商品是待推荐的商品,大量的待推荐的商品可以形成一个目标商品库。本申请可以确定目标商品库中的所有商品或部分商品的描述对象与输入的描述对象的匹配度,以根据匹配度将部分目标商品推荐给用户。确定输入的描述对象和目标商品的描述对象的匹配度的过程可以参照图6所对应的方法实施例中的详细说明,在此不再赘述。具体地,可以将输入的描述对象作为其中一个目标对象,以及将目标商品的描述对象作为另一个目标对象,以采用图6所对应的方法实施例确定两者的匹配度。

需要说明的是,输入的描述对象的第一向量和目标商品的描述对象的第一向量可以参照步骤101中对目标对象的第一向量的详细说明,步骤101以及其子步骤获取目标对象的第一向量的过程,也适用于获取输入的描述对象的第一向量和目标商品的描述对象的第一向量;输入的描述对象的第二向量和目标商品的描述对象的第二向量可以参照步骤102中对目标对象的第二向量的详细说明,步骤102以及其子步骤生成目标对象的第二向量的过程,也适用于生成输入的描述对象的第二向量和目标商品的描述对象的第二向量,输入的描述对象的第三向量和目标商品的描述对象的第三向量可以参照步骤103中对目标对象的第三向量的详细说明,步骤103以及其子步骤生成目标对象的第三向量的过程,也适用于生成输入的描述对象的第三向量和目标商品的描述对象的第三向量。

上述描述对象包括如下至少一类:文本、图片和语音,但输入的描述对象和目标商品的描述对象不同,例如,输入的描述对象为文本,目标商品的描述对象为图片。此外,所述转换包括如下至少一种:线性转换、非线性转换。

步骤403,根据所述匹配度对所述目标商品库中的目标商品进行推荐。

具体地,可以将匹配度大于或等于预设匹配度阈值的目标商品推荐给用户,和/或将匹配度较大的若干目标商品推荐给用户。

综上所述,在本申请实施例中,可以结合至少两个不同模态的输入的描述对象和目标商品的描述对象分别对应的第一向量,确定其分别对应的第二向量,并将第二向量转换为第三向量,使得独立输入的描述对象的第三向量不仅体现了本身的信息,还体现了目标商品的信息,而目标商品的描述对象的第三向量同样不仅体现了本身的信息,还体现了输入的描述对象的第三向量,如此实现了根据第三向量对目标商品的推荐。

参照图9,示出了本申请的另一种对象处理方法实施例的步骤流程图,具体包括如下步骤:

步骤501,接收输入的描述对象。

该步骤可以参照步骤401的详细说明,在此不再赘述。

步骤502,针对目标视频库中的目标视频,确定所述输入的描述对象和目标视频中的图像帧的匹配度;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述图像帧的第一向量,分别确定所述输入的描述对象的第二向量和所述图像帧的第二向量,并分别转换为所述输入的描述对象的第三向量和所述图像帧的第三向量;根据所述输入的描述对象的第三向量和所述图像帧的第三向量,确定所述描述对象和图像帧的匹配度。

其中,目标视频是由多个连续的图像帧构成的,目标视频是待推荐的视频,大量的待推荐的视频可以形成一个目标视频库。本申请可以确定目标视频中的所有图像帧或部分图像帧与输入的描述对象的匹配度,以根据匹配度将部分目标视频推荐给用户。确定输入的描述对象和图像帧的匹配度的过程可以参照图7所对应的方法实施例中的详细说明,在此不再赘述。具体地,可以将输入的描述对象作为其中一个目标对象,以及将目标视频的图像帧作为另一个目标对象,以采用图6所对应的方法实施例确定两者的匹配度。

需要说明的是,输入的描述对象的第一向量和图像帧的第一向量可以参照步骤101中对目标对象的第一向量的详细说明,步骤101以及其子步骤获取目标对象的第一向量的过程,也适用于获取输入的描述对象的第一向量和图像帧的第一向量;输入的描述对象的第二向量和图像帧的第二向量可以参照步骤102中对目标对象的第二向量的详细说明,步骤102以及其子步骤生成目标对象的第二向量的过程,也适用于生成输入的描述对象的第二向量和图像帧的第二向量,输入的描述对象的第三向量和图像帧的第三向量可以参照步骤103中对目标对象的第三向量的详细说明,步骤103以及其子步骤生成目标对象的第三向量的过程,也适用于生成输入的描述对象的第三向量和图像帧的第三向量。

其中,上述转换包括如下至少一种:线性转换、非线性转换。

步骤503,根据所述匹配度对所述目标视频库中的目标视频进行推荐。

具体地,首先,根据输入的描述对象和图像帧的匹配度确定输入的描述对象和目标视频的匹配度;然后,可以将匹配度大于或等于预设匹配度阈值的目标视频推荐给用户,和/或将匹配度较大的若干目标视频推荐给用户。

其中,输入的描述对象和目标视频的匹配度可以是输入的描述对象和目标视频中所有图像帧的匹配度的平均值,还可以是输入的描述对象和图像帧的匹配度的最大值。

综上所述,在本申请实施例中,可以结合至少两个不同模态的输入的描述对象和目标视频中的图像帧分别对应的第一向量,确定其分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的描述对象的第三向量不仅体现了本身的信息,还体现了图像帧的信息,而图像帧的第三向量同样不仅体现了本身的信息,还体现了描述对象的第三向量,如此实现了根据第三向量对目标视频的推荐。

参照图10,示出了本申请的一种机器模型处理方法实施例的步骤流程图,具体包括如下步骤:

步骤601,获取第一训练对象组中的训练对象的第一向量。

其中,第一训练对象组用于训练第一机器模型、第二机器模型,第一训练对象组中包括不同模态的训练对象,第一训练对象组中包括如下至少两类训练对象:图片、文本和语音,例如,第一训练对象组中包含图片和文本,则训练的第一机器模型和第二机器模型可以对文本和图片进行处理,以分析得到文本和图片的匹配度,从实现基于图片对文本的召回、推荐,或基于文本对图片的召回、推荐。

可以理解的是,获取训练对象的第一向量和获取目标对象的第一向量的过程类似,步骤101及其子步骤获取第一向量的过程均适用于训练对象的第一向量,训练对象和目标对象在本质上相同,目标对象和训练对象用于从名称上区分在不同阶段中使用的对象,目标对象是在应用时的对象,训练对象是训练时的对象。

步骤602,通过第一机器模型结合所述第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量。

可以理解的是,步骤102通过第一机器模型实现,该第一机器模型可以是步骤1021中提到的transformer。步骤102及其子步骤生成目标对象的第二向量的过程同样适用于生成训练对象的第二向量,步骤602生成训练对象的第二向量的过程可以参照步骤102及其子步骤生成目标对象的第二向量,本申请在此不再赘述。

步骤603,通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量。

其中,转换包括如下至少一种:线性转换、非线性转换。

可以理解的是,步骤103通过第二机器模型实现,该第二机器模型可以是步骤1021中提到的transformer。步骤103及其子步骤生成目标对象的第三向量的过程同样适用于生成训练对象的第三向量,步骤603生成训练对象的第三向量的过程可以参照步骤103及其子步骤生成目标对象的第三向量,本申请在此不再赘述。

步骤604,根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

其中,训练通过需要通过多轮迭代实现,每轮迭代中,一批第一训练对象组中的训练对象均通过子步骤601至603得到对应的第三向量,然后根据第三向量确定损失值,根据损失值调整第一机器模型和第二机器模型的参数,以使第一机器模型和第二机器模型在下一轮迭代中的损失值比本轮迭代的损失值更小,直至损失值在多轮迭代之后不再持续变小,此时得到的第一机器模型和第二机器模型为训练好的机器模型。

上述过程中所使用的损失值可以采用损失函数表示,常用的损失函数可以包括但不限于:交叉熵损失函数、平方损失函数。当然,损失函数的输入可以根据目的确定,例如,若为了使得第一机器模型和第二机器模型可以预测目标对象之间的匹配度,则可以将第三向量预测的匹配度和标注的匹配度作为损失函数的输入;若为了使得第一机器模型和第二机器模型可以预测上下文,则可以将第三向量预测的目标对象中的部分子对象和真实的子对象作为损失函数的输入。

可选地,所述第一训练对象组标注了不同训练对象之间的匹配度,所述步骤604包括子步骤60401至60403:

子步骤60401,根据所述训练对象的第三向量预测训练对象之间的匹配度。

可以理解的是,根据训练对象的第三向量预测训练对象之间的匹配度,与步骤204及其子步骤确定目标对象之间的匹配度的过程类似,从而子步骤60401的实现可以参照步骤204及其子步骤的详细说明,在此不再赘述。

子步骤60402,根据标注的匹配度和预测的匹配度确定第一损失值。

具体地,第一损失值是根据匹配度确定的损失值,可以采用步骤604中提到的常用的损失函数计算得到。例如,可以采用如下的交叉熵损失函数计算得到:

其中,loss1为第一损失值,n为第一训练对象组的数目,yn为第n个第一训练对象组中的训练对象对应的标注的匹配度,yn'为第n个第一训练对象组中的训练对象对应的预测的匹配度。

上述公式中标注的匹配度可以包括代表训练对象之间不匹配的匹配度,例如,标注的匹配度可以为0,用于表示训练对象之间不匹配;也可以包括代表训练对象匹配的匹配度,例如,标注的匹配度可以为1,用于表示训练对象之间匹配。

子步骤60403,根据所述第一损失值对所述第一机器模型和所述第二机器模型进行训练。

可以理解的是,根据第一损失值对第一机器模型的参数和第二机器模型的参数进行调整,以使下一轮迭代之后的第一损失值比本轮迭代之后的第一损失值更小,直至多轮迭代之后的第一损失值未持续变小,此时结束训练。

本申请可以通过匹配度确定的第一损失值对第一机器模型和第二机器模型进行训练,以使得第一机器模型和第二机器模型可以预测目标对象的匹配度。

可选地,所述步骤604包括子步骤60404至60406:

子步骤60404,根据所述训练对象的第三向量预测所述被掩盖图像区域中的物体。

具体地,可以对第三向量映射为一个数值,该数值可以表示被掩盖图像区域的物体的名称或类型。

子步骤60405,根据预测的物体和真实的物体确定第二损失值。

其中,第二损失值用于表示预测的物体和真实的物体之间的差异。在实际应用中,真实的物体和预测的物体可以是用物体的名称、物体的类型等表示,第二损失值可以通过步骤604中提到的损失函数计算得到,将预测的物体的名称和真实的物体的名称输入到损失函数中得到第二损失值,或将预测的物体的类型和真实的物体的类型输入到损失函数中得到第二损失值。

子步骤60406,根据所述第二损失值对所述第一机器模型和第二机器模型进行训练。

可以理解的是,根据第二损失值对第一机器模型的参数和第二机器模型的参数进行调整,以使下一轮迭代之后的第二损失值比本轮迭代之后的第二损失值更小,直至多轮迭代之后的第二损失值未持续变小,此时结束训练。

本申请可以通过预测的物体和真实的物体确定的第二损失值,对第一机器模型和第二机器模型进行训练,以使得第一机器模型和第二机器模型可以学习到图片中的上下文信息,提高了模型的图片理解能力。

可选地,所述至少两个重叠的被掩盖图像区域通过如下步骤605至607确定:

步骤605,采用预先训练得到的物体识别模型识别所述训练对象中的区域,所述区域中包括存在物体的区域。

其中,物体识别模型用于从训练对象中识别物体,可以包括但不限于:faster-rcnn(fasterrecurrentconvolutionneuralnetwork,快速循环卷积神经网络)、yolo(youonlylookonce,你只看到一次)。物体识别模型可以识别到物体在图片中的区域,区域用一系列像素点的坐标表示。物体识别模型在训练时,可以通过标注有物体的大量图片训练。

步骤606,在所述训练对象中存在至少两个所述区域的情况下,确定所述区域中的至少两个目标区域之间的重合参数。

其中,重合参数是目标区域之间重合程度的数值化表示,可以理解的是,重合参数越大,代表重合越多;重合参数越小,代表重合越少。重合参数可以通过重合面积确定,可以直接是重合面积,也可以是重合面积和总面积的比值,也可以是比值经过转换之后的数值。

步骤607,在所述重合参数满足预设重合条件的情况下,确定所述至少两个目标区域为至少两个重叠的被掩盖图像区域。

其中,重合参数满足预设重合条件包括但不限于:重合参数大于或等于重合参数阈值,例如,当重合参数为重合面积与总面积的比值时,重合参数阈值可以是50%,从而可以将重合参数达到50%以上的至少两个区域作为至少两个重叠的被掩盖图像区域。

可选地,所述步骤606包括子步骤6061至6063:

子步骤6061,确定所述至少两个目标区域之间的重合面积。

其中,重合面积可以用至少两个目标区域中包含的相同像素点的数目表示。

子步骤6062,确定所述至少两个目标区域的总面积。

其中,总面积可以可以用至少两个区域包含的像素点的总数目表示。

子步骤6063,根据所述重合面积与所述总面积的比值确定为所述至少两个目标区域之间的重合参数。

具体地,可以直接将比值作为重合参数,也可以对比值进行变换得到重合参数,但需要保证比值和重合参数之间的如下正向关系:若重合面积越大,则重合参数越大;若重合面积越小,则重合参数越小。

本申请可以通过重合面积和总面积的比值准确的确定重合参数。

可选地,所述训练对象包括至少两个连续的被掩盖词语,所述步骤604包括子步骤60407至60409:

子步骤60407,根据所述训练对象的第三向量预测被掩盖词语。

具体地,可以对第三向量映射为一个数值,该数值可以表示被掩盖词语的标识。

子步骤60408,根据预测的被掩盖词语和真实的被掩盖词语确定第三损失值。

其中,第三损失值用于表示预测的被掩盖词语和真实的被掩盖词语之间的差异。在实际应用中,真实的被掩盖词语和预测的被掩盖词语可以用被掩盖词语的标识表示,第三损失值可以通过步骤604中提到的损失函数计算得到,将预测的被掩盖词语的标识和真实的被掩盖词语的标识输入到损失函数中得到第三损失值,或将预测的被掩盖词语的标识和真实的被掩盖词语的标识输入到损失函数中得到第三损失值。

子步骤60409,根据所述第三损失值对所述第一机器模型和所述第二机器模型进行训练。

可以理解的是,根据第三损失值对第一机器模型的参数和第二机器模型的参数进行调整,以使下一轮迭代之后的第三损失值比本轮迭代之后的第三损失值更小,直至多轮迭代之后的第三损失值未持续变小,此时结束训练。

本申请可以通过预测的被掩盖词语和真实的被掩盖词语确定的第三损失值,对第一机器模型和第二机器模型进行训练,以使得第一机器模型和第二机器模型可以学习到文本中的上下文信息,提高了模型的文本理解能力。

可选地,所述训练对象包括被掩盖语音片段,所述步骤604包括子步骤60410至60412:

子步骤60410,根据所述训练对象的第三向量预测被掩盖语音片段。

具体地,可以对第三向量映射为一个数值,该数值可以表示被掩盖语音片段中的内容标识。

需要说明的是,在预测被掩盖图像区域、被掩盖词语和被掩盖语音片段时,可以采用不同的映射方式,例如,采用不同的公式映射。

子步骤60411,根据预测的被掩盖语音片段和真实的被掩盖语音片段确定第四损失值。

其中,第四损失值用于表示预测的被掩盖语音片段和真实的被掩盖语音片段之间的差异。在实际应用中,真实的被掩盖语音片段和预测的被掩盖语音片段可以用被掩盖语音片段的内容标识表示,例如,词语的标识,第四损失值可以通过步骤604中提到的损失函数计算得到,将预测的被掩盖语音片段的内容标识和真实的被掩盖语音片段的内容标识输入到损失函数中得到第四损失值,或将预测的被掩盖语音片段的内容标识和真实的被掩盖语音片段的内容标识输入到损失函数中得到第四损失值。

子步骤60412,根据所述第四损失值对所述第一机器模型和所述第二机器模型进行训练。

可以理解的是,根据第四损失值对第一机器模型的参数和第二机器模型的参数进行调整,以使下一轮迭代之后的第四损失值比本轮迭代之后的第四损失值更小,直至多轮迭代之后的第四损失值未持续变小,此时结束训练。

本申请可以通过预测的被掩盖语音片段和真实的被掩盖语音片段确定的第四损失值,对第一机器模型和第二机器模型进行训练,以使得第一机器模型和第二机器模型可以学习到语音中的上下文信息,提高了模型的语音理解能力。

在实际应用中,可以结合第一损失值、第二损失值、第三损失值和第四损失值对第一机器模型和第二机器模型进行训练,从而可以将第一损失值、第二损失值、第三损失值和第四损失值进行加权得到加权损失值,并根据加权损失值调整第一机器模型和第二机器模型的参数,以使下一轮迭代的加权损失值比本轮的加权损失值更小,如此直至在多轮迭代之后,加权损失值不再持续变小,此时得到的第一机器模型和第二机器模型为训练好的机器模型。

综上所述,在本申请实施例中,可以通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定训练对象的第二向量,并通过第二机器模型将训练对象的第二向量转换为训练对象的第三向量,以根据训练对象的第三向量对第一机器模型和第二机器模型进行训练,使训练得到的第一机器模型和第二机器模型可以结合不同模态的目标对象的第一向量,生成目标对象的第三向量,第三向量可以用于对目标对象进行处理。

参照图11,示出了本申请的另一种机器模型处理方法实施例的步骤流程图,具体包括如下步骤:

步骤701,获取预先训练得到的第一机器模型和第二机器模型,所述第一机器模型和第二机器模型通过如下步骤训练得到:通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量,并通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

可以理解的是,步骤601至604及其子步骤实现了对第一机器模型和第二机器模型的训练,可以将训练得到的第一机器模型和第二机器模型存储起来,以方便后续直接使用。在本申请中,预先训练的第一机器模型和第二机器模型可以生成目标对象的第三向量,若要将第三向量应用于具体服务场景中,还需要根据服务场景添加第三机器模型,第三机器模型用于根据目标对象的第三向量输出服务所需的预测结果,第三机器模型可以是线性或非线性模型,与具体的服务场景的目标相关,本申请对其不加以限制。

步骤702,采用第二训练对象组对所述第一机器模型、所述第二机器模型和第三机器模型进行训练,所述第二机器模型的输出作为所述第三机器模型的输入。

其中,所述转换包括如下至少一种:线性转换、非线性转换,所述第二训练对象组中包括如下至少两类训练对象:图片、文本和语音。

具体地,在训练过程中,可以调整第一机器模型、第二机器模型和第三机器模型的参数,以使第三机器模型的输出达到预期。可以理解的是,由于第一机器模型和第二机器模型的参数是预先训练得到的,从而这两个机器模型的参数可以进行微调即可,第三机器模型的参数的调整幅度可以略大。本申请可以预先训练得到第一机器模型和第二机器模型,以在具体的应用场景中将其作为基本框架和第三机器模型构建应用模型,由于这基本框架的训练预先完成,从而缩短了应用模型的训练时长。

可以理解的是,对第一机器模型、第二机器模型和第三机器模型构成的应用模型进行训练时,可以将第二训练对象组中的训练对象的第一向量输入到第一机器模型中,第一机器模型结合第二训练对象组中的各训练对象的第一向量生成每个训练对象的第二向量,第二机器模型将训练对象的第二向量转换为训练对象的第三向量,第三机器模型根据训练对象的第三向量输出预测结果,该预测结果通常对应有一个标注结果,从而可以根据预测结果和标注结果计算损失值,并在该损失值在多轮迭代中不持续变小的情况下,确定第一机器模型、第二机器模型和第三机器模型训练结束,在该损失值在多轮迭代中持续变小的情况下,调整第一机器模型、第二机器模型和第三机器模型的参数进行下一轮迭代的训练,如此循环,直至损失值在多轮迭代中不持续变小。

综上所述,在本申请实施例中,可以通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定训练对象的第二向量,并通过第二机器模型将训练对象的第二向量转换为训练对象的第三向量,以根据训练对象的第三向量对第一机器模型和第二机器模型进行训练,使训练得到的第一机器模型和第二机器模型可以结合不同模态的目标对象的第一向量,生成目标对象的第三向量,第三向量用于对目标对象进行处理。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。

参照图12,示出了本申请的一种对象处理装置实施例的结构框图,具体可以包括如下模块:

第一获取模块801,用于获取至少两个目标对象分别对应的第一向量。

第一确定模块802,用于结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量。

第一转换模块803,用于将所述目标对象的第二向量分别转换为所述目标对象的第三向量。

目标对象处理模块804,用于根据所述目标对象的第三向量对所述目标对象进行处理。

可选地,所述目标对象包括至少一个目标子对象,所述目标对象的第一向量包括至少一个所述目标子对象的嵌入向量,所述第一获取模块801,包括内容位置类型向量获取子模块和嵌入向量获取子模块:

内容位置类型向量获取子模块,用于确定所述目标子对象的内容向量、位置向量和类型向量,所述内容向量表征所述目标子对象的内容,所述位置向量表征所述目标子对象在所述目标对象中的位置,所述类型向量表征所述目标子对象包括如下一类:图片、文本和语音。

嵌入向量获取子模块,用于根据所述目标子对象的内容向量、位置向量和类型向量确定所述目标子对象的嵌入向量。

可选地,所述嵌入向量获取子模块包括向量加权单元和第一归一化单元:

向量加权单元,用于将所述目标子对象的内容向量、位置向量和类型向量进行加权得到加权向量。

第一归一化单元,用于对所述加权向量进行归一化得到所述目标子对象的嵌入向量。

可选地,所述第一确定模块802包括综合向量生成子模块和综合向量拆分子模块:

综合向量生成子模块,用于采用至少一个结合至少两个目标对象分别对应的第一向量确定综合向量;对于第一个所述第一转换层,所述第一转换层的输入向量为所述目标对象分别对应的第一向量,对于其余所述第一转换层,所述第一转换层的输入向量为上一个所述第一转换层输出的综合向量拆分后的拆分后的所述目标对象分别对应的第二向量;在所述第一转换层中,采用第一多头注意力模型对所述输入向量进行处理得到中间向量;对所述中间向量和所述输入向量之和进行归一化得到归一化和向量;对所述归一化和向量进行非线性变换得到非线性向量;对所述归一化和向量和所述非线性向量进行归一化得到综合向量。

综合向量拆分子模块,用于将所述综合向量拆分为所述至少两个目标对象分别对应的第二向量。可选地,所述第一转换模块803包括第一转换子模块:

第一转换子模块,用于采用至少一个第二转换层对所述第二向量进行转换得到第三向量;对于第一个所述第二转换层,所述第二转换层的输入向量为所述第二向量,对于其余所述第二转换层,所述第二转换层的输入向量为上一个所述第二转换层输出的第三向量;在所述第二转换层中,采用第二多头注意力模型对所述输入向量进行处理得到中间向量;对所述中间向量和所述输入向量之和进行归一化得到归一化和向量;对所述归一化和向量进行非线性变换得到非线性向量;对所述归一化和向量和所述非线性向量进行归一化得到第三向量。

本申请实施例为图3对应的方法实施例所对应的装置实施例,详细说明可以参照图3对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以结合至少两个不同模态的目标对象分别对应的第一向量确定目标对象分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的目标对象的处理。

参照图13,示出了本申请的一种对象处理装置实施例的结构框图,具体可以包括如下模块:

第二获取模块901,用于获取至少两个目标对象分别对应的第一向量。

第二确定模块902,用于结合所述至少两个目标对象分别对应的第一向量确定所述目标对象分别对应的第二向量。

第二转换模块903,用于将所述目标对象的第二向量分别转换为所述目标对象的第三向量。

第一匹配度确定模块904,用于根据所述目标对象的第三向量确定所述目标对象之间的匹配度。

可选地,所述第一匹配度确定模块904包括第一匹配度确定子模块:

第一匹配度确定子模块,用于根据所述第三向量之间的相似度确定所述目标对象之间的匹配度。

本申请实施例为图6对应的方法实施例所对应的装置实施例,详细说明可以参照图6对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以结合至少两个不同模态的目标对象分别对应的第一向量确定目标对象分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的目标对象进行匹配度分析。

参照图14,示出了本申请的另一种对象处理装置实施例的结构框图,具体可以包括如下模块:

第一目标对象接收模块1001,用于接收第一目标对象。

第二匹配度确定模块1002,用于针对目标对象库中的第二目标对象,确定所述第一目标对象和所述第二目标对象的匹配度,所述第二目标对象与所述第一目标对象不属于同一类对象;所述匹配度是通过如下步骤得到的:结合第一目标对象的第一向量和第二目标对象的第一向量,分别确定所述第一目标对象的第二向量和所述第二目标对象的第二向量,将所述第一目标对象的第二向量转换为所述第一目标对象的第三向量,以及将所述第二目标对象的第二向量转换为所述第二目标对象的第三向量;根据所述第一目标对象的第三向量和所述第二目标对象的第三向量确定所述第一目标对象和第二目标对象的匹配度。

对象推荐模块1003,用于根据所述匹配度对所述目标对象库中的第二目标对象进行推荐。

本申请实施例为图7对应的方法实施例所对应的装置实施例,详细说明可以参照图7对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以结合不同模态的第一目标对象和第二目标对象分别对应的第一向量确定第一目标对象的第二向量以及第二目标对象的第二项向量,并将第二向量转换为第三向量,使得独立输出的两个目标对象的第三向量不仅体现了本身的信息,还体现了其余模态的目标对象的信息,如此实现了根据第三向量对不同模态的对象进行匹配度分析,进而根据匹配度实现第二目标对象的推荐。

参照图15,示出了本申请的另一种对象处理装置实施例的结构框图,具体可以包括如下模块:

第一描述对象接收模块1101,用于接收输入的描述对象。

第三匹配度确定模块1102,用于针对目标商品库中的目标商品,确定所述输入的描述对象和所述目标商品的描述对象的匹配度,所述输入的描述对象和所述目标商品的描述对象不为同一类;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述目标商品的描述对象的第一向量,分别确定所述输入的描述对象的第二向量和所述目标商品的描述对象的第二向量,并分别转换为所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量;根据所述输入的描述对象的第三向量和所述目标商品的描述对象的第三向量,确定所述输入的描述对象和所述目标商品的描述对象的匹配度。

商品推荐模块1103,用于根据所述匹配度对所述目标商品库中的目标商品进行推荐。

本申请实施例为图8对应的方法实施例所对应的装置实施例,详细说明可以参照图8对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以结合至少两个不同模态的输入的描述对象和目标商品的描述对象分别对应的第一向量,确定其分别对应的第二向量,并将第二向量转换为第三向量,使得独立输入的描述对象的第三向量不仅体现了本身的信息,还体现了目标商品的信息,而目标商品的描述对象的第三向量同样不仅体现了本身的信息,还体现了输入的描述对象的第三向量,如此实现了根据第三向量对目标商品的推荐。

参照图16,示出了本申请的另一种对象处理装置实施例的结构框图,具体可以包括如下模块:

第二描述对象接收模块1201,用于接收输入的描述对象。

第四匹配度确定模块1202,用于针对目标视频库中的目标视频,确定所述输入的描述对象和目标视频中的图像帧的匹配度;所述匹配度是通过如下步骤得到的:结合所述输入的描述对象的第一向量和所述图像帧的第一向量,分别确定所述输入的描述对象的第二向量和所述图像帧的第二向量,并分别转换为所述输入的描述对象的第三向量和所述图像帧的第三向量;根据所述输入的描述对象的第三向量和所述图像帧的第三向量,确定所述描述对象和图像帧的匹配度。

目标视频推荐模块1203,用于根据所述匹配度对所述目标视频库中的目标视频进行推荐。

本申请实施例为图9对应的方法实施例所对应的装置实施例,详细说明可以参照图9对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以结合至少两个不同模态的输入的描述对象和目标视频中的图像帧分别对应的第一向量,确定其分别对应的第二向量,并将第二向量转换为第三向量,使得独立输出的描述对象的第三向量不仅体现了本身的信息,还体现了图像帧的信息,而图像帧的第三向量同样不仅体现了本身的信息,还体现了描述对象的第三向量,如此实现了根据第三向量对目标视频的推荐。

参照图17,示出了本申请的一种机器处理装置实施例的结构框图,具体可以包括如下模块:

第三获取模块1301,用于获取第一训练对象组中的训练对象的第一向量。

第三确定模块1302,用于通过第一机器模型结合所述第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量。

第三转换模块1303,用于通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量。

第一训练模块1304,用于根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

可选地,所述第一训练对象组标注了不同训练对象之间的匹配度,所述第一训练模块1304包括第一匹配度预测子模块、第一损失值确定子模块和第一训练子模块:

第一匹配度预测子模块,用于根据所述训练对象的第三向量预测训练对象之间的匹配度。

第一损失值确定子模块,用于根据标注的匹配度和预测的匹配度确定第一损失值。

第一训练子模块,用于根据所述第一损失值对所述第一机器模型和所述第二机器模型进行训练。

可选地,所述训练对象包括至少两个重叠的被掩盖图像区域,所述第一训练模块1304包括物体预测子模块、第二损失值确定子模块和第二训练子模块:

物体预测子模块,用于根据所述训练对象的第三向量预测所述被掩盖图像区域中的物体。

第二损失值确定子模块,用于根据预测的物体和真实的物体确定第二损失值。

第二训练子模块,用于根据所述第二损失值对所述第一机器模型和所述第二机器模型进行训练。

可选地,所述至少两个重叠的被掩盖图像区域通过如下区域识别模块、重合参数确定模块和被掩盖图像区域确定模块确定:

区域识别模块,用于采用预先训练得到的物体识别模型识别所述训练对象中的区域,所述区域中包括存在物体的区域。

重合参数确定模块,用于在所述训练对象中存在至少两个所述区域的情况下,确定所述区域中的至少两个目标区域之间的重合参数。

被掩盖图像区域确定模块,用于在所述重合参数满足预设重合条件的情况下,确定所述至少两个目标区域为至少两个重叠的被掩盖图像区域。

可选地,所述重合参数确定模块包括重合面积确定子模块、总面积确定子模块和重合参数确定子模块:

重合面积确定子模块,用于确定所述至少两个目标区域之间的重合面积。

总面积确定子模块,用于确定所述至少两个目标区域的总面积。

重合参数确定子模块,用于根据所述重合面积与所述总面积的比值确定为所述至少两个目标区域之间的重合参数。

可选地,所述训练对象包括至少两个连续的被掩盖词语,所述第一训练模块1304,包括词语预测子模块、第三损失值确定子模块和第三训练子模块:

词语预测子模块,用于根据所述训练对象的第三向量预测被掩盖词语。

第三损失值确定子模块,用于根据预测的被掩盖词语和真实的被掩盖词语确定第三损失值。

第三训练子模块,用于根据所述第三损失值对所述第一机器模型和所述第二机器模型进行训练。

可选地,所述训练对象包括被掩盖语音片段,所述第一训练模块1304包括语音预测子模块、第四损失值确定子模块和第四训练子模块:

语音预测子模块,用于根据所述训练对象的第三向量预测被掩盖语音片段。

第四损失值确定子模块,用于根据预测的被掩盖语音片段和真实的被掩盖语音片段确定第四损失值。

第四训练子模块,用于根据所述第四损失值对所述第一机器模型和所述第二机器模型进行训练。

本申请实施例为图10对应的方法实施例所对应的装置实施例,详细说明可以参照图10对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定训练对象的第二向量,并通过第二机器模型将训练对象的第二向量转换为训练对象的第三向量,以根据训练对象的第三向量对第一机器模型和第二机器模型进行训练,使训练得到的第一机器模型和第二机器模型可以结合不同模态的目标对象的第一向量,生成目标对象的第三向量,第三向量可以用于对目标对象进行处理。

参照图18,示出了本申请的另一种机器处理装置实施例的结构框图,具体可以包括如下模块:

机器模型获取模块1401,用于获取预先训练得到的第一机器模型和第二机器模型,所述第一机器模型和第二机器模型通过如下步骤训练得到:通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定所述训练对象的第二向量,并通过第二机器模型将所述训练对象的第二向量分别转换为所述训练对象的第三向量;根据所述训练对象的第三向量对所述第一机器模型和所述第二机器模型进行训练。

第二训练模块1402,用于采用第二训练对象组对所述第一机器模型、所述第二机器模型和第三机器模型进行训练,所述第二机器模型的输出作为所述第三机器模型的输入。

本申请实施例为图11对应的方法实施例所对应的装置实施例,详细说明可以参照图11对应的方法实施例的详细说明,在此不再赘述。

综上所述,在本申请实施例中,可以通过第一机器模型结合第一训练对象组中的训练对象的第一向量分别确定训练对象的第二向量,并通过第二机器模型将训练对象的第二向量转换为训练对象的第三向量,以根据训练对象的第三向量对第一机器模型和第二机器模型进行训练,使训练得到的第一机器模型和第二机器模型可以结合不同模态的目标对象的第一向量,生成目标对象的第三向量,第三向量用于对目标对象进行处理。

本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务端(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括终端设备、服务端(集群)等电子设备。图19示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1500。

对于一个实施例,图19示出了示例性装置1500,该装置具有一个或多个处理器1502、被耦合到(一个或多个)处理器1502中的至少一个的控制模块(芯片组)1504、被耦合到控制模块1504的存储器1506、被耦合到控制模块1504的非易失性存储器(nvm)/存储设备1508、被耦合到控制模块1504的一个或多个输入/输出设备1510,以及被耦合到控制模块1504的网络接口1512。

处理器1502可包括一个或多个单核或多核处理器,处理器1502可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1500能够作为本申请实施例中所述终端设备、服务端(集群)等设备。

在一些实施例中,装置1500可包括具有指令1514的一个或多个计算机可读介质(例如,存储器1506或nvm/存储设备1508)以及与该一个或多个计算机可读介质相合并被配置为执行指令1514以实现模块从而执行本公开中所述的动作的一个或多个处理器1502。

对于一个实施例,控制模块1504可包括任意适当的接口控制器,以向(一个或多个)处理器1502中的至少一个和/或与控制模块1504通信的任意适当的设备或组件提供任意适当的接口。

控制模块1504可包括存储器控制器模块,以向存储器1506提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器1506可被用于例如为装置1500加载和存储数据和/或指令1514。对于一个实施例,存储器1506可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,存储器1506可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。

对于一个实施例,控制模块1504可包括一个或多个输入/输出控制器,以向nvm/存储设备1508及(一个或多个)输入/输出设备1510提供接口。

例如,nvm/存储设备1508可被用于存储数据和/或指令1514。nvm/存储设备1508可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。

nvm/存储设备1508可包括在物理上作为装置1500被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,nvm/存储设备1508可通过网络经由(一个或多个)输入/输出设备1510进行访问。

(一个或多个)输入/输出设备1510可为装置1500提供接口以与任意其他适当的设备通信,输入/输出设备1510可以包括通信组件、音频组件、传感器组件等。网络接口1512可为装置1500提供接口以通过一个或多个网络通信,装置1500可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如wifi、2g、3g、4g、5g等,或它们的组合进行无线通信。

对于一个实施例,(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1502中的至少一个可与控制模块1504的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。

在各个实施例中,装置1500可以但不限于是:服务端、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1500可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1500包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。

其中,装置1500中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或nvm/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种对象、机器模型处理方法、装置、设备和存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1