目标领域信息搜索方法、模型的训练方法及装置与流程

文档序号:33526770发布日期:2023-03-22 07:21阅读:74来源:国知局
目标领域信息搜索方法、模型的训练方法及装置与流程

1.本技术涉及计算机技术领域,具体涉及目标领域信息搜索方法、目标领域信息搜索使用的模型的训练方法、装置、电子设备以及计算机存储介质。


背景技术:

2.在信息搜索领域中,一般是基于搜索信息查找或者搜索与搜索信息匹配的搜索对象,进而将搜索对象作为搜索结果。以电商平台为例,用户可以在搜索框中输入搜索文本以搜索商品;也可以通过用户拍照图像进行搜索商品;还可以通过找相似商品的方式搜索与用户点击触发的商品相似的商品。
3.上述几种搜索商品的方式为不同搜索方式,多种不同的搜索方式实际上属于多种可选搜索场景,在每种搜索方式中,均可以通过该搜索方式下的模型对搜索信息与商品进行编码,进而基于搜索信息向量与商品向量之间的相似性,为搜索信息提供与之匹配的商品。然而每个搜索方式下的模型在对搜索信息进行编码时,仅仅考虑了该搜索方式下的搜索信息的特性,而忽略了其他搜索方式的搜索信息的特征,如:当搜索信息为文本信息时,在对搜索信息进行编码时,编码后的搜索信息向量是偏向于文本信息的;又例如,当搜索信息为图像时,在对搜索信息进行编码时,编码后的搜索信息向量是偏向于图像的,进而导致最终基于单一的某种搜索信息召回的商品并不准确,因而,在多种可选搜索场景中,如何提高信息搜索的搜索结果的准确性成为当前亟需解决的技术问题。


技术实现要素:

4.本技术提供目标领域信息搜索方法,以解决如何提高信息搜索的搜索结果的准确性的技术问题;同时,本技术还提供目标领域信息搜索使用的模型的训练方法、目标领域信息搜索装置、目标领域信息搜索使用的模型的训练装置、电子设备以及计算机存储介质。
5.本技术提供一种目标领域信息搜索方法,包括:
6.获得搜索信息,所述搜索信息采用多种可选搜索场景中的某一目标搜索场景;
7.将所述搜索信息通过经过训练的多场景编码器进行编码,获得对应所述搜索信息的搜索信息向量;
8.根据所述搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与所述搜索信息向量相似程度排序的搜索对象序列;所述搜索对象向量池中包含若干可供搜索的搜索对象向量,所述搜索对象向量是融合搜索对象信息以及与所述搜索对象相关的关联信息后,通过所述多场景编码器编码并优化后获得;
9.根据所述搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果。
10.可选的,所述根据所述搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与所述搜索信息向量相似程度排序的搜索对象序列,包括:
11.针对所述搜索对象向量池中的每个可供搜索的搜索对象向量,计算所述搜索对象向量与所述搜索信息向量之间的距离;
12.根据所述搜索对象向量与所述搜索信息向量之间的距离,获得与所述搜索信息向量的相似程度;
13.以与所述搜索信息向量相似程度对搜索对象排序,获得所述搜索对象序列。
14.可选的,所述搜索对象向量池中的搜索对象向量,根据各搜索对象的相关信息加工处理获得,包括:
15.获得所述搜索对象信息、与所述搜索对象相关的关联对象信息、与所述搜索对象对应的关联搜索信息;
16.将所述搜索对象信息、所述关联对象信息以及所述关联搜索信息进行融合,获得所述搜索对象的多场景融合信息;
17.利用所述多场景编码器对所述搜索对象的多场景融合信息进行编码,获得所述搜索对象的多场景融合信息的融合向量;
18.采用解耦器对所述融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量;
19.对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量。
20.可选的,所述采用解耦器对所述融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量,包括:
21.通过向获得该搜索对象的具体搜索场景所在空间解耦,获得第一解耦向量;
22.通过向通用搜索场景空间解耦,获得第二解耦向量;
23.通过向与具体搜索场景无关空间解耦,获得第三解耦向量。
24.可选的,针对所述第三解耦向量,进一步进行如下优化:
25.针对第三解耦向量,向获得该搜索对象的具体搜索场景空间进行转移解耦,获得优化第三解耦向量;
26.所述对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量,包括:对所述第一解耦向量、所述第二解耦向量以及所述优化第三解耦向量进行再融合,获得优化后的搜索对象向量。
27.本技术提供一种目标领域信息搜索使用的模型的训练方法,所述模型包括编码器和解耦器,包括:
28.获得包含多场景搜索样本构成的节点网络图;所述网络图的节点包括搜索信息样本节点,以及搜索对象样本节点,并通过与节点相关的搜索结果操作建立各个节点之间的边;其中,所述搜索对象样本节点中包含的信息包括搜索对象样本本身的搜索对象样本信息,以及与搜索对象样本相关的关联信息;对于每个多场景搜索信息样本对应的搜索对象样本,既包含与搜索信息样本关联的搜索对象样本作为正样本,也包含与搜索信息样本不关联的搜索对象样本作为负样本;
29.使用待训练的所述编码器,对所述节点网络图中的节点进行编码,形成各个节点的向量;其中,对于搜索信息样本节点获得搜索信息样本向量,对于搜索对象样本节点获得搜索对象样本向量;
30.根据预先设置的方式,通过所述解耦器对所述搜索对象样本向量进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量;
31.根据搜索信息样本向量和优化后的搜索对象样本向量的正样本关联关系以及负
样本关联关系,计算搜索信息样本向量与优化后的搜索对象样本向量的相似度;
32.根据上述计算的相似度,对编码器以及解耦器进行调整,使搜索信息样本向量和与其关联的正样本的优化后的搜索对象样本向量的向量关联度提高,和与其不关联的负样本的优化后的搜索对象样本向量的向量关联度降低,直到达到预定的训练要求。
33.可选的,所述根据预先设置的方式,通过所述解耦器对所述搜索对象样本向量进行预设的多个场域的解耦,包括:
34.通过向获得该搜索对象样本的具体搜索场景所在空间解耦,获得第一解耦样本向量;
35.通过向通用搜索场景空间解耦,获得第二解耦样本向量;
36.通过向与具体搜索场景无关空间解耦,获得第三解耦样本向量。
37.可选的,针对所述第三解耦样本向量,进一步进行如下优化:
38.针对第三解耦样本向量,向获得该搜索对象样本的具体搜索场景空间进行转移解耦,获得优化第三解耦样本向量;
39.所述在解耦后再融合,获得优化后的搜索对象样本向量,包括:对所述第一解耦样本向量、所述第二解耦样本向量以及所述优化第三解耦样本向量进行再融合,获得优化后的搜索对象样本向量。
40.可选的,所述使用待训练的所述编码器,对所述节点网络图中的节点进行编码,形成各个节点的向量,包括:
41.针对所述节点网络图中的某个选定节点,如果所述选定节点为搜索对象样本节点,则基于所述选定节点、所述选定节点与相邻节点之间的边,在所述节点网络图中提取包含所述选定节点以及与其相关的关联节点的子网络图;
42.使用图注意力网络模型对所述子网络图进行特征提取,获取所述子网络图的特征;
43.使用待训练的所述编码器对所述子网络图的特征进行编码,形成所述选定节点的向量。
44.可选的,所述使用待训练的所述编码器,对所述节点网络图中的节点进行编码,形成各个节点的向量,包括:
45.针对所述节点网络图中的某个选定节点,如果所述选定节点为搜索信息样本节点,则直接使用待训练的所述编码器对所述选定节点进行编码,形成所述选定节点的向量。
46.本技术提供一种目标领域信息搜索装置,包括:
47.搜索信息获得单元,用于获得搜索信息,所述搜索信息采用多种可选搜索场景中的某一目标搜索场景;
48.编码单元,用于将所述搜索信息通过经过训练的多场景编码器进行编码,获得对应所述搜索信息的搜索信息向量;
49.搜索对象序列获得单元,用于根据所述搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与所述搜索信息向量相似程度排序的搜索对象序列;所述搜索对象向量池中包含若干可供搜索的搜索对象向量,所述搜索对象向量是融合搜索对象信息以及与所述搜索对象相关的关联信息后,通过所述多场景编码器编码并优化后获得;
50.搜索结果提供单元,用于根据所述搜索对象序列,提供所需推荐数量的搜索对象
作为搜索结果。
51.本技术提供一种目标领域信息搜索使用的模型的训练装置,所述模型包括编码器和解耦器,包括:
52.节点网络图获得单元,用于获得包含多场景搜索样本构成的节点网络图;所述网络图的节点包括搜索信息样本节点,以及搜索对象样本节点,并通过与节点相关的搜索结果操作建立各个节点之间的边;其中,所述搜索对象样本节点中包含的信息包括搜索对象样本本身的搜索对象样本信息,以及与搜索对象样本相关的关联信息;对于每个多场景搜索信息样本对应的搜索对象样本,既包含与搜索信息样本关联的搜索对象样本作为正样本,也包含与搜索信息样本不关联的搜索对象样本作为负样本;
53.编码单元,用于使用待训练的所述编码器,对所述节点网络图中的节点进行编码,形成各个节点的向量;其中,对于搜索信息样本节点获得搜索信息样本向量,对于搜索对象样本节点获得搜索对象样本向量;
54.解耦单元,用于根据预先设置的方式,通过所述解耦器对所述搜索对象样本向量进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量;
55.相似度计算单元,用于根据搜索信息样本向量和优化后的搜索对象样本向量的正样本关联关系以及负样本关联关系,计算搜索信息样本向量与优化后的搜索对象样本向量的相似度;
56.调整单元,用于根据上述计算的相似度,对编码器以及解耦器进行调整,使搜索信息样本向量和与其关联的正样本的优化后的搜索对象样本向量的向量关联度提高,和与其不关联的负样本的优化后的搜索对象样本向量的向量关联度降低,直到达到预定的训练要求。
57.对应地,本技术提供一种电子设备,包括:
58.处理器;
59.存储器,用于存储计算机程序,该计算机程序被处理器运行,执行上述目标领域信息搜索方法与目标领域信息搜索使用的模型的训练方法。
60.对应地,本技术提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行上述目标领域信息搜索方法与目标领域信息搜索使用的模型的训练方法。
61.与现有技术相比,本技术实施例具有以下优点:
62.本技术提供一种目标领域信息搜索方法,包括:获得搜索信息,搜索信息采用多种可选搜索场景中的某一目标搜索场景;将搜索信息通过经过训练的多场景编码器进行编码,获得对应搜索信息的搜索信息向量;根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列;搜索对象向量池中包含若干可供搜索的搜索对象向量,搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景编码器编码并优化后获得;根据搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果。在该方法中,首先,基于经过训练的多场景编码器对搜索信息进行编码,获得对应搜索信息的搜索信息向量;之后,根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列;最终,根据搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果,由于搜索对象向量
池中的搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景编码器编码并优化后获得,使得搜索对象向量的所融合的信息更为丰富,由于搜索信息可以是图像或者文本,搜索对象向量是融合图像以及文本的多模态向量,进而获得的搜索对象序列与搜索信息更匹配、准确,进而最终的搜索结果与搜索信息更匹配、准确。该方法同时也可以适用于搜索视频或者其他领域的搜索,适用范围较广。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
64.图1为本技术的目标领域信息搜索方法的场景示意图;
65.图2为本技术第一实施例提供的目标领域信息搜索方法的流程图;
66.图3为对目标领域信息搜索使用的模型进行训练的示意图;
67.图4为本技术第二实施例提供的目标领域信息搜索使用的模型的训练方法的流程图;
68.图5为本技术第三实施例提供的目标领域信息搜索装置的示意图;
69.图6为本技术第四实施例提供的目标领域信息搜索使用的模型的训练装置的示意图;
70.图7为本技术第五实施例中提供的一种电子设备的示意图。
具体实施方式
71.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此,本技术不受下面公开的具体实施的限制。
72.本技术提供目标领域信息搜索方法、目标领域信息搜索使用的模型的训练方法、装置、电子设备以及计算机存储介质。以下通过具体的实施例分别介绍目标领域信息搜索方法、目标领域信息搜索使用的模型的训练方法、装置、电子设备以及计算机存储介质。
73.本技术的目标领域信息搜索方法,可以运用在对各种各样的信息搜索场景中。例如,可以用于搜索商品,也可以用于搜索多媒体领域中的视频,当然还可以适用于搜索其他类型的信息或者对象。在该目标领域信息搜索方法中,可以预先收集各种搜索对象向量并将搜索对象向量存储在搜索对象向量池中,通过将搜索信息利用经过训练的多场景编码器进行编码,获得对应搜索信息的搜索信息向量。然后分别计算搜索信息向量与搜索对象向量池中的各个搜索对象向量之间的相似度,进而基于该相似度获得对应搜索对象向量的搜索对象序列;最终,基于搜索对象序列,提供所需推荐数量的搜索对象作为搜索信息的搜索结果。
74.为了便于理解上述搜索信息以及搜索对象,以在电商平台中使用搜索信息搜索商品为例,例如,在电商平台中,用户可以输入搜索文本搜索商品,也可以使用用户拍照图像搜索商品,还可以使用用户点击触发的商品搜索商品。上述搜索文本、用户拍照图像与用户
点击触发的商品为不同类型的搜索信息。无论采用哪种类型的搜索信息搜索商品,均可以通过计算搜索信息对应的搜索信息向量与商品向量池中的各个商品向量之间的相似度,进而基于该相似度获得对应排序靠前的商品向量从而产生相应的商品序列;最终,基于商品序列,提供所需推荐数量的商品作为搜索信息的搜索结果。
75.上述商品向量是融合商品信息以及与不同场景商品相关的关联信息后,通过多场景编码器(该多场景编码器也是经过训练的)编码并优化后获得的,使得商品向量融合关联信息后所包含的信息更为丰富,进而获得的商品序列与搜索信息更匹配、准确,进而最终的搜索结果与搜索信息更匹配、准确。
76.之所以采用上述多场景编码器将商品信息以及与商品相关的关联信息的融合信息进行编码并进行优化,进而获得商品向量,是由于现有技术中,在使用单一的某个类型的搜索信息搜索商品时,均是直接将搜索信息与商品信息进行编码。例如,当搜索信息为“上衣”文本时,可以将“上衣”文本进行编码,进而获得“上衣”文本对应的向量,同时,将各个商品进行编码,进而获得商品向量,然后基于各个商品向量与“上衣”文本对应的向量之间的相似程度,对各个商品进行排序,进而获得商品序列,最终基于商品序列提供所需推荐数量的商品作为“上衣”文本的搜索结果。
77.然而,这种对搜索信息和商品进行编码的方式在编码时针对搜索信息具有偏向性,即:对于每种搜索类型的搜索信息,均对应一种模型,可以基于搜索信息的类型,确定对其编码的模型。例如,当搜索信息为文本类型时,采用对文本进行编码的模型对搜索信息进行编码,进而使得搜索信息向量与商品向量均不包含其他搜索类型的相关信息,进而使得最终基于搜索信息向量与商品向量召回的商品不够准确。
78.为了提高召回商品的准确性,在本技术的目标领域信息搜索方法中,采用经过训练的多场景编码器对搜索信息进行编码,同时采用经过训练的多场景编码器对各个商品进行编码,在对商品进行编码时,首先融合商品自身信息以及与商品相关的关联信息,然后再进行编码并进行优化,进而获得商品向量。
79.上述商品相关的关联信息包含与该商品相关的关联商品信息、与该商品对应的关联搜索信息,与该商品对应的关联搜索信息可以是指能够搜索获得该商品的关联搜索信息;例如,针对商品1,在对商品1进行编码之前,首先确定与商品1相关的关联商品,并获得关联商品的关联商品信息,如果商品1与商品10、商品20关联,则关联商品信息包含商品10信息、商品20信息。
80.能够搜索获得该商品的关联搜索信息是指能够搜索获得该商品的各个搜索类型的搜索信息。例如,针对商品1,如果通过“上衣”文本可以搜索到商品1,同时如果通过图像a可以搜索到商品1,同时如果通过商品m也可以搜索到商品1。则将“上衣”文本信息、图像a信息、商品m信息、商品10信息、商品20信息融合,进而获得商品1的融合信息。
81.在获得商品1的融合信息之后,可以直接使用经过训练的多场景编码器进行编码,然后进行优化,进而获得商品1向量。对于电商平台上的各个商品,均可以按照获得商品1的商品向量的方式,进而获得各个商品的商品向量并存储在商品向量池中。
82.实际上在上述对商品进行编码获得商品向量的过程中,不仅融合了当前用于搜索到该商品的搜索信息,还融合了其他类型的能够搜索到该商品的搜索信息,以及与该商品相关联的商品信息,实际上,不同类型的搜索信息属于多模态搜索信息,例如,文本搜索信
息、图像搜索信息以及商品搜索信息均属于不同模态(文本、图像、商品)的搜索信息,同时也属于多场景搜索信息,即:将搜索信息的所属类型作为一种搜索场景类型,进而后续使得商品向量融合了多种模态信息以及多种场景信息,基于搜索信息向量与商品向量之间的相似程度,最终召回的商品与搜索信息更加匹配。
83.为了便于理解上述目标领域信息搜索方法,请参照图1,其为本技术的目标领域信息搜索方法的场景示意图。在该场景中,以在服务端执行该目标领域信息搜索方法为例,所谓服务端为用于为客户端提供数据处理、存储等服务的计算设备,一般地,服务端可以是指服务器或者服务器集群。客户端一般为便于用户直接操作或者为用户展示数据处理结果或者信息处理结果的电子设备。
84.在本技术中,通过服务端执行目标领域信息搜索方法,获得所需推荐数量的搜索对象作为搜索结果,并将所需推荐数量的搜索对象作为搜索结果提供给客户端,以供用户基于快速了解所需推荐数量的搜索对象。
85.当然,也可以是在客户端中执行该目标领域信息搜索方法,具体地,在客户端对应的电子设备中预先配置有用于实现本技术提供的目标领域信息搜索方法的程序或者软件,或者在其内部安装的目标应用中预先配置用于实现本技术提供的目标领域信息搜索方法的模块。所谓电子设备一般为智能手机、以及包括平板电脑在内一系列不同类型的电脑。上述目标应用一般为app(application,应用程序)或者电脑应用。
86.具体地,请参见图1,服务端首先获得的是客户端提供的搜索信息,搜索信息可以是指用户输入的搜索信息。服务端在获得搜索信息后,将搜索信息通过经过训练的多场景编码器进行编码,获得对应搜索信息的搜索信息向量。之后,根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列;当然,搜索对象向量池中可以包含若干可供搜索的搜索对象向量,搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景编码器编码并优化后获得的;最终,根据搜索对象序列,向客户端提供所需推荐数量的搜索对象作为搜索结果。
87.上述介绍的图1即为针对本技术的目标领域信息搜索方法的一种应用场景的图示,本技术的实施例中不对目标领域信息搜索方法的应用场景做具体的限定,上述目标领域信息搜索方法的应用场景,仅仅是本技术提供的目标领域信息搜索方法的应用场景的一个实施例,提供该应用场景实施例的目的是便于理解本技术提供的目标领域信息搜索方法,而并非用于限定本技术提供的目标领域信息搜索方法。本技术实施例对目标领域信息搜索方法的其它应用场景,不再一一赘述。
88.第一实施例
89.本技术第一实施例提供一种目标领域信息搜索方法,以下结合图2进行说明。该目标领域信息搜索方法的适用场景已经在上述场景实施例进行了详细介绍,关于本实施例的一些示例请参见上述场景实施例。
90.请参照图2,其为本技术第一实施例提供的目标领域信息搜索方法的流程图。
91.本技术实施例的目标领域信息搜索方法,包括如下步骤。
92.步骤s201:获得搜索信息,搜索信息采用多种可选搜索场景中的某一目标搜索场景。
93.本技术的目标领域信息搜索方法可以采用多种可选搜索场景中的任意一种搜索
场景进行搜索。例如,在电商平台中,在为用户推荐商品时,可以基于用户输入的搜索文本、用户拍照图像或者搜索商品(用户点击触发的商品)进而搜索商品。
94.在为用户推荐商品之前,先获得用户输入的搜索信息,可以理解的是,在某次向用户推荐商品时,用户在该次输入的搜索信息属于多种可选搜索场景中其中的一种搜索场景,即:其中的一种搜索类型。
95.利用本技术的目标领域信息搜索方法,在为用户提供搜索结果之前,实际上是基于搜索信息向量与待推荐搜索对象向量之间的相似程度,进而确定待推荐搜索对象的序列,并基于待推荐搜索对象的序列最终提供所需推荐数量的搜索对象作为搜索结果。
96.步骤s202:将搜索信息通过经过训练的多场景编码器进行编码,获得对应搜索信息的搜索信息向量。
97.在获得搜索信息之后,可以利用经过训练的多场景编码器对搜索信息进行编码,获得对应搜索信息的搜索信息向量。
98.步骤s203:根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列。
99.在本实施例中,搜索对象向量池中包含若干可供搜索的搜索对象向量,搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景编码器编码并优化后获得,即在本实施例中,该搜索对象向量池中的搜索对象向量是优化后的搜索对象向量。
100.具体地,搜索对象向量池中的搜索对象向量是根据各搜索对象的相关信息加工处理获得的,具体获得优化后的搜索对象向量的过程如下:
101.首先,获得搜索对象信息、与搜索对象相关的关联对象信息、与搜索对象对应的关联搜索信息。之后,将搜索对象信息、关联对象信息以及关联搜索信息进行融合,获得搜索对象的多场景融合信息。再之后,利用多场景编码器对搜索对象的多场景融合信息进行编码,获得搜索对象的多场景融合信息的融合向量;在获得搜索对象的多场景融合信息的融合向量之后,采用解耦器对融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量;最终,对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量。
102.作为采用解耦器对融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量的一种实施方式,可以是指:首先,通过向获得该搜索对象的具体搜索场景所在空间解耦,获得第一解耦向量;之后,通过向通用搜索场景空间解耦,获得第二解耦向量;再之后,通过向与具体搜索场景无关空间解耦,获得第三解耦向量。
103.在本实施例中,针对第三解耦向量,进一步进行如下优化:针对第三解耦向量,向获得该搜索对象的具体搜索场景空间进行转移解耦,获得优化第三解耦向量;在获得优化第三解耦向量之后,作为对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量的一种实施方式,可以是指:对第一解耦向量、第二解耦向量以及优化第三解耦向量进行再融合,获得优化后的搜索对象向量。
104.为了便于理解如何获得上述优化后的搜索对象向量,结合图3对获得优化后的搜索对象向量的具体过程进行详细阐述,由于在获得优化后的搜索对象向量的过程中涉及对多场景编码器进行训练的过程,因而将对多场景编码器进行训练的过程与获得优化后的搜索对象向量的过程一起进行详细介绍,实际上,上述多场景编码器与解耦器均为目标领域
信息搜索使用的模型的一部分,对多场景编码器训练的过程,也是对目标领域信息搜索使用的模型进行训练的过程,即:同时对多场景编码器与解耦器进行训练,图3为对目标领域信息搜索使用的模型进行训练的示意图。
105.在获得优化后的搜索对象向量时,针对某个具体的搜索对象,需要先对搜索对象信息以及与搜索对象相关的关联信息进行融合,获得该搜索对象的多场景融合信息,然后,利用经过训练的多场景编码器对搜索对象的多场景融合信息进行编码,获得搜索对象的多场景融合信息的融合向量;在获得搜索对象的多场景融合信息的融合向量之后,采用解耦器对融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量;最终,对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量。
106.之所以对多场景编码器进行训练,是为了使得经过训练的多场景编码器能够在对搜索对象进行编码时,在搜索对象信息基础上能够融合与搜索对象相关的关联信息(包含多场景信息)进行编码获得融合向量,并使用经过训练的解耦器对融合向量进行优化。之所以要对融合向量进行解耦优化,是由于融合向量中可能存在与某种具体的搜索场景无关的一些信息,导致融合向量粒度不够细致,为了使得最终的搜索对象向量粒度更为细致,因而对其进行解耦优化。这样最终基于优化后的搜索对象向量,召回的搜索结果与搜索信息更为匹配。
107.对目标领域信息搜索使用的模型进行训练的过程请参见图3,在对该模型进行训练之前,先构建包含多场景搜索样本构成的节点网络图,如图3左侧部分示意的节点网络图,在该节点网络图中,节点可以是搜索信息样本节点,也可以是搜索对象样本节点。例如,可以是用户输入的搜索条件样本节点,如图3中的query(搜索或者查询)节点,也可以是商品样本节点,如图3中的item(类目或者项目)节点。图3中的trigger(触发商品)节点用于表示触发商品样本节点。
108.在该节点网络图中,使用与节点相关的搜索结果操作表示各个节点之间的边;例如,在寻找商品样本的过程中,如果某个搜索条件样本节点用于表示搜索文本1,某个商品样本节点用于表示商品p,实际上通过点击搜索文本1可以查找到商品p,则将表示搜索文本1的节点与表示商品p的节点通过该点击操作进行连接。类似地,还可以是如下示例,如果某个搜索条件样本节点用于表示商品2,某个商品样本节点用于表示商品p,实际上通过商品2找相似操作(利用找相似商品的方式)可以查找到商品p,则将表示商品2的节点与表示商品p的节点通过该找相似操作进行连接。
109.在该节点网络图中,搜索对象样本节点中包含的信息不仅包括搜索对象样本本身的搜索对象信息,还包括与搜索对象样本相关的关联信息。为了更好地对模型进行训练,对于每个多场景搜索样本对应的搜索对象样本,既包含与搜索信息样本关联的搜索对象样本作为正样本,也包含与搜索信息样本不关联的搜索对象样本作为负样本。
110.例如,当搜索样本为“裤子”文本时,如果通过“裤子”文本可以搜索到商品5、商品6、商品7、商品8,则可以将商品5、商品6、商品7、商品8作为与其关联的正样本商品,如果通过“裤子”文本不可以搜索到商品15、商品16、商品17、商品18,则可以将商品15、商品16、商品17、商品18作为与其不关联的负样本商品。
111.针对多场景下的各个搜索样本,之所以要采集与某个搜索样本关联的搜索对象样本作为正样本,同时要采集与该搜索样本不关联的搜索对象样本作为负样本,是为了使得
训练后的模型更能准确地获取与搜索信息更为匹配的搜索对象。
112.在对模型进行训练过程中,主要是对模型中的编码器与解耦器进行训练。对模型中的编码器与解耦器进行训练的主要是基于以下方式:
113.首先,使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量;具体地,对于搜索信息样本节点获得搜索信息样本向量,对于搜索对象样本节点获得搜索对象样本向量。搜索信息样本节点实际是可以理解为搜索样本对应的节点,搜索对象样本节点可以理解为与搜索样本关联或者不关联的搜索对象样本对应的节点。
114.在为用户推荐商品的场景中,搜索样本以及与搜索样本关联的搜索对象样本,可以通过用户的行为日志获得。例如,当用户输入搜索文本“毛衣”时,向用户推荐的商品为商品21、商品22,则可以将搜索文本“毛衣”作为一种搜索样本,将商品21、商品22作为搜索文本“毛衣”关联的正样本商品,随机选取与搜索文本“毛衣”不关联的商品31、商品32、商品33、商品34、商品35作为搜索文本“毛衣”关联的负样本商品,当然,上述列举的仅为构造正样本与负样本的一种示例。
115.在使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量之后,根据预先设置的方式,通过解耦器对搜索对象样本向量进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量;需要说明的是,在对模型进行训练的过程中,无论是使用编码器进行编码还是使用解耦器进行解耦,均是使用待训练的编码器编码与待训练的解耦器进行解耦。而模型训练完毕之后,可以使用已经训练的多场景编码器对搜索对象进行编码,并采用经过训练的解耦器进行解耦优化,以获得搜索对象向量池中的各个搜索对象对应的搜索对象向量。
116.由于针对每个搜索样本,均采集了与该搜索样本关联的搜索对象样本作为正样本,同时采集了与该搜索样本不关联的搜索对象样本作为负样本。因而在使用待训练的编码器对搜索对象样本进行编码并使用待训练的解耦器进行解耦时,分别对正样本与负样本进行编码与解耦,进而获得正样本的优化后的搜索对象样本向量,以及负样本的优化后的搜索对象样本向量。
117.在获得正样本的优化后的搜索对象样本向量,以及负样本的优化后的搜索对象样本向量之后,分别计算搜索信息样本向量和正样本的优化后的搜索对象样本向量的相似度,以及计算搜索信息样本向量和负样本的优化后的搜索对象样本向量的相似度。
118.之后,根据上述计算的相似度,对编码器以及解耦器进行调整,使搜索信息样本向量和与其关联的正样本的优化后的搜索对象样本向量的向量关联度提高,和与其不关联的负样本的优化后的搜索对象样本向量的向量关联度降低,直到达到预定的训练要求。
119.在本实施例中,根据预先设置的方式,通过解耦器对搜索对象样本向量进行预设的多个场域的解耦,可以是指:首先,通过向获得该搜索对象样本的具体搜索场景所在空间解耦,获得第一解耦样本向量;之后,通过向通用搜索场景空间解耦,获得第二解耦样本向量;再之后,通过向与具体搜索场景无关空间解耦,获得第三解耦样本向量。
120.同时,针对第三解耦样本向量,进一步进行如下优化:针对第三解耦样本向量,向获得该搜索对象样本的具体搜索场景空间进行转移解耦,获得优化第三解耦样本向量;在获得优化第三解耦样本向量之后,作为在解耦后再融合获得优化后的搜索对象样本向量的一种方式:对第一解耦样本向量、第二解耦样本向量以及优化第三解耦样本向量进行再融
合,获得优化后的搜索对象样本向量。
121.在本实施例中,使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量,可以是指:
122.首先,针对节点网络图中的某个选定节点,如果选定节点为搜索对象样本节点,则基于选定节点、选定节点与相邻节点之间的边,在节点网络图中提取包含选定节点以及与其相关的关联节点的子网络图(后续中提及的子图);
123.之后,使用图注意力网络图卷积神经网络模型对子网络图进行特征提取,获取子网络图的特征;
124.最终,使用待训练的编码器对子网络图的特征进行编码,形成选定节点的向量。
125.具体地,请参见图3,以搜索商品为例,针对用户输入的历史搜索条件(或者历史查询条件),如图3中的query条件以及trigger商品,由于历史查询条件与历史触发商品属于不同的搜索类型,导致历史查询条件特征和历史触发商品特征不能完全融合,为了在商品中将不同场景的历史搜索条件进行融合,采用图注意力网络(gat,全称:graph attention network)融合子图的特征,即如下公式提取各自的特征并编码:
126.q=w*gat
intra
(q0,gq)
127.t=w*gat
intra
(t0,g
t
)
128.其中,在该公式中,q表示query条件的特征向量,t表示trigger商品的特征向量,w表示gat的可训练参数矩阵,q0表示query的初始特征向量,t0表示trigger的初始特征向量,gq和g
t
分别表示依据query和trigger的元路径(meta path)采样得到的子图。需要说明的是,在本实施例中,各个公式中涉及的参数如无特殊说明,一般其取值范围并无限制。
129.与此同时,基于该节点网络图,结合场景内和场景间的元路径(meta path)采样得到的子图(g
intra
和g
inter
),同样通过gat网络来做信息的融合,为了得到场景内,场景间和场景之间共享的信息,我们分别使用三种图注意力网络,即gat
intra
,gat
inter
,gat
shared
。详细来说,gat
intra
表示使用场景内的子图信息做融合,gat
inter
表示使用场景间子图信息做融合,gat
shared
表示场景内与场景间子图共享的图注意力网络。我们依照下列公式可以获得各个搜索商品样本的向量,即:
[0130][0131][0132]
i=w1[i
inter
||i
intra
]
[0133]
其中,在该公式中,i
intra
用于表示场景内的商品样本向量,i
inter
用于表示场景与场景之间的商品样本向量,i用于表示融合多场景的商品样本向量,||表示拼接的操作,w1表示拼接操作之后的维度变换的可训练参数矩阵。
[0134]
由于每个商品样本向量融合了粗粒度的多场景信息,为了获得更加细粒度的商品信息,可以首先通过将商品样本向量解耦为三个对应项,即特定于场景的特性f1(第一解耦样本向量)、场景通用的特性f2(第二解耦样本向量)和场景无关的特性f3(第三解耦样本向量),进而对商品样本向量表示进行优化。假设i是某个商品通过多场景编码器的输出向量,将其解耦成三个特征向量的过程采用如下公式表示:
[0135][0136]
其中,wk、bk为特征空间k的可训练参数矩阵,σ表示解耦神经网络的激活函数,用于非线性变换操作。
[0137]
为了保证可以顺利地将i解耦到三个特征空间,对应项fk表示k特征空间的特征,采用如下公式进行处理:
[0138][0139]
其中τ为温度参数,用来控制不同特征空间向量解耦时的控制力度,i属于当前训练批次中的所有商品经过编码器的向量。
[0140]
f3被认为是与具体搜索场景无关的,但这个特性可能是有一些噪声的,因为它反映了某些不相关域中的商品的某些属性。为了进一步更好地利用该特性,可以通过前馈层将其转移到与特定场景特性相同的特性空间,从而去掉噪杂的特征影响,具体可通过如下公式:
[0141]
z=w
t
f3+b
t
[0142]
其中z为来自f3的传输特征(优化第三解耦样本向量),与为可训练参数。因此,可以引入域对齐损失来捕获商品的属性相关性:
[0143][0144]
其中f为解耦特征;a、b表示f1和z第a-th、b-th列的列特征向量。za、zb表示向量z在a列和b列之间的相关性。
[0145]
之后,合并特定于场景的特征、场景通用的特征和从其他域转移的特征,得到商品的最终表示特征,即:
[0146][0147]
为了获得更稳定的特征,可以调节解耦之后得到的最终表示特征分布可以与原始商品样本向量相似的分布相似。实际上是通过质心对齐来实现的,该质心对齐微调向量的质心,使之与原始向量质心对齐,即:
[0148][0149][0150][0151]
其中ci表示小批处理中的商品的集群,表示商品的合并特征的集群。
[0152]
最终解耦整个过程表示如下:
[0153][0154]
其中β1、β2、β3为解耦损失的超参数,用来平衡解耦(rd),域对齐迁移(ct)以及质心对齐(ca)三者的力度。
[0155]
基于此,结合上述公式与图3完成对搜索对象样本进行编码并优化,获得优化后的搜索对象样本向量。
[0156]
当然,可以理解的是,上述公式以及图3涉及的商品均是指商品样本。实际上对于节点网络图中的搜索商品(即可以是待匹配的item商品),可以采用上述公式以及图3进行编码并进行上述优化,形成其向量,如图3中的i。
[0157]
针对节点网络图中的某个选定节点,如果选定节点为搜索信息样本节点,则直接使用待训练的编码器对选定节点进行编码,形成选定节点的向量。例如,对于用户输入的搜索条件,可以直接使用待训练的编码器对其进行编码,形成其向量,如图3中的q/t。
[0158]
在获得正样本的优化后的搜索对象样本向量以及负样本的优化后的搜索对象样本向量之后,即可对编码器以及解耦器进行调整,进而获得经过训练的目标领域信息搜索使用的模型,进而也确定了经过训练的多场景编码器与解耦器。
[0159]
在确定经过训练的多场景编码器与解耦器后,可以使用经过训练的多场景编码器与解耦器对各个搜索对象进行编码并解耦优化,获得各个搜索对象的搜索对象向量,并将各个搜索对象的搜索对象向量存储在搜索对象向量池中。
[0160]
在本实施例中,根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列,可以是指:首先,针对搜索对象向量池中的每个可供搜索的搜索对象向量,计算搜索对象向量与搜索信息向量之间的距离;之后,根据搜索对象向量与搜索信息向量之间的距离,获得与搜索信息向量的相似程度;最终,以与搜索信息向量相似程度对搜索对象排序,获得搜索对象序列。
[0161]
步骤s204:根据搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果。
[0162]
在确定搜索对象序列后,可以提供所需推荐数量的搜索对象作为搜索结果。例如,当搜索信息为“鞋子”文本时,通过步骤s203计算确定电商平台中各种鞋子商品向量或者与鞋子相似的商品向量与“鞋子”文本向量之间的相似度,进而获得电商平台中各种鞋子商品或者与鞋子相似的商品的序列。当需要为用户推荐十种商品时,可以在上述序列中选取前十个商品作为搜索结果。
[0163]
本技术提供一种目标领域信息搜索方法,包括:获得搜索信息,搜索信息采用多种可选搜索场景中的某一目标搜索场景;将搜索信息通过经过训练的多场景编码器进行编码,获得对应搜索信息的搜索信息向量;根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列;搜索对象向量池中包含若干可供搜索的搜索对象向量,搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景编码器编码并优化后获得;根据搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果。在该方法中,首先,基于经过训练的多场景编码器对搜索信息进行编码,获得对应搜索信息的搜索信息向量;之后,根据搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与搜索信息向量相似程度排序的搜索对象序列;最终,根据搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果,由于搜索对象向量池中的搜索对象向量是融合搜索对象信息以及与搜索对象相关的关联信息后,通过多场景
编码器编码并优化后获得,使得搜索对象向量的所融合的信息更为丰富,进而获得的搜索对象序列与搜索信息更匹配、准确,进而最终的搜索结果与搜索信息更匹配、准确。
[0164]
第二实施例
[0165]
与第一实施例对应的,本技术第二实施例还提供一种目标领域信息搜索使用的模型的训练方法。由于该方法实施例在第一实施例已经详细阐述,所以描述得比较简单,相关之处参见第一实施例的部分说明即可。下述描述的实施例仅仅是示意性的。
[0166]
请参照图4,其为本技术第二实施例提供的目标领域信息搜索使用的模型的训练方法的流程图。
[0167]
本技术实施例的目标领域信息搜索使用的模型的训练方法,模型包括编码器和解耦器,该方法包括如下步骤。
[0168]
步骤s401:获得包含多场景搜索样本构成的节点网络图。
[0169]
在本实施例中,网络图的节点包括搜索信息样本节点,以及搜索对象样本节点,并通过与节点相关的搜索结果操作建立各个节点之间的边;其中,搜索对象样本节点中包含的信息包括搜索对象样本本身的搜索对象样本信息,以及与搜索对象样本相关的关联信息;对于每个多场景搜索信息样本对应的搜索对象样本,既包含与搜索信息样本关联的搜索对象样本作为正样本,也包含与搜索信息样本不关联的搜索对象样本作为负样本。
[0170]
步骤s402:使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量。
[0171]
在本实施例中,对于搜索信息样本节点获得搜索信息样本向量,对于搜索对象样本节点获得搜索对象样本向量。
[0172]
在本实施例中,作为使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量,可以是指:首先,针对节点网络图中的某个选定节点,如果选定节点为搜索对象样本节点,则基于选定节点、选定节点与相邻节点之间的边,在节点网络图中提取包含选定节点以及与其相关的关联节点的子网络图;之后,使用图注意力网络模型对子网络图进行特征提取,获取子网络图的特征;再之后,使用待训练的编码器对子网络图的特征进行编码,形成选定节点的向量。
[0173]
在本实施例中,作为使用待训练的编码器,对节点网络图中的节点进行编码,形成各个节点的向量,还可以按照如下方式:针对节点网络图中的某个选定节点,如果选定节点为搜索信息样本节点,则直接使用待训练的编码器对选定节点进行编码,形成选定节点的向量。关于最终获得的各个节点的向量,具体可以参见第一实施例中各个公式以及相关描述部分结合图3获得q/t以及i的过程。
[0174]
步骤s403:根据预先设置的方式,通过解耦器对搜索对象样本向量进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量。
[0175]
在本实施例中,作为根据预先设置的方式,通过解耦器对搜索对象样本向量进行预设的多个场域的解耦的一种方式:首先,通过向获得该搜索对象样本的具体搜索场景所在空间解耦,获得第一解耦样本向量;之后,通过向通用搜索场景空间解耦,获得第二解耦样本向量;在之后,通过向与具体搜索场景无关空间解耦,获得第三解耦样本向量。
[0176]
具体地,针对第三解耦样本向量,进一步进行如下优化:针对第三解耦样本向量,向获得该搜索对象样本的具体搜索场景空间进行转移解耦,获得优化第三解耦样本向量。
[0177]
在获得优化第三解耦样本向量之后,在解耦后再融合,获得优化后的搜索对象样本向量,可以是指:对第一解耦样本向量、第二解耦样本向量以及优化第三解耦样本向量进行再融合,获得优化后的搜索对象样本向量。
[0178]
在本实施例中,以电商搜索场景为例,将商品样本向量作为搜索对象样本向量的示例,由于每个商品样本向量融合了粗粒度的多场景信息,这主要是由于搜索信息的类型的多样性(例如搜索信息可以是文本,也可以是图像)造成的,为了获得更加细粒度的商品信息,可以首先通过将商品样本向量解耦为三个对应项,即特定于场景的特性f1(第一解耦样本向量)、场景通用的特性f2(第二解耦样本向量)和场景无关的特性f3(第三解耦样本向量),进而对商品样本向量表示进行优化。关于对其进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量的过程,请参见第一实施例中关于结合各个公式以及图3部分进行说明获得的过程,即为商品的最终表示特征,其为优化后的搜索对象样本向量的一种示例。
[0179]
步骤s404:根据搜索信息样本向量和优化后的搜索对象样本向量的正样本关联关系以及负样本关联关系,计算搜索信息样本向量与优化后的搜索对象样本向量的相似度。
[0180]
在本实施例中,在后续对编码器以及解耦器进行调整时,实际上是对其内部的参数进行调整。在对编码器以及解耦器中的参数进行调整时,其调整原理是通过调整编码器以及解耦器内部的参数,能够使得优化后的搜索对象样本向量与正搜索信息样本向量接近,而与负搜索信息样本向量不接近。
[0181]
实际上此处的关联关系表示的即为一种相似程度或者相似性,可以通过是否能够被搜索到进而体现这种关联关系。
[0182]
例如,当搜索对象样本为“上衣”时,正搜索信息样本可以是具体的“上衣”商品,如毛衣、衬衫等;负搜索信息样本可以是具体的“非上衣”商品,如裤子、电气商品等;显然,正搜索信息样本向量与优化后的搜索对象样本向量相似并且接近,正搜索信息样本容易搜索到某个具体的搜索对象样本,可以认为具有关联关系;负搜索信息样本向量与优化后的搜索对象样本向量不相似并且不接近,负搜索信息样本不能搜索到某个具体的搜索对象样本,可以认为不具有关联关系。步骤s405:根据上述计算的相似度,对编码器以及解耦器进行调整,使搜索信息样本向量和与其关联的正样本的优化后的搜索对象样本向量的向量关联度提高,和与其不关联的负样本的优化后的搜索对象样本向量的向量关联度降低,直到达到预定的训练要求。
[0183]
在本实施例中,对编码器以及解耦器进行调整时,实际上是对其内部的参数进行调整。在对编码器以及解耦器中的参数进行调整时,实际是通过不断调整其内部的参数,进而使得调整后的编码器以及解耦器有助于搜索到与搜索信息匹配的搜索对象。例如,当搜索信息为“上衣”文本时,可以将“上衣”文本使用经过训练的多场景编码器进行编码,进而获得“上衣”文本对应的向量,同时,将各个商品以及与之相关的关联信息使用经过训练的多场景编码器进行编码并进行优化,进而获得商品向量,然后基于各个商品向量与“上衣”文本对应的向量之间的相似程度,对各个商品进行排序,进而获得商品序列,最终基于商品序列提供所需推荐数量的商品作为“上衣”文本的搜索结果。
[0184]
第三实施例
[0185]
与本技术第一实施例的方法相对应的,本技术第三实施例还提供一种目标领域信
息搜索装置。由于装置实施例基本类似于第一实施例,所以描述得比较简单,相关之处参见第一实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0186]
请参照图5,其为本技术第三实施例提供的目标领域信息搜索装置的示意图。
[0187]
该目标领域信息搜索装置500,包括:
[0188]
搜索信息获得单元501,用于获得搜索信息,所述搜索信息采用多种可选搜索场景中的某一目标搜索场景;
[0189]
编码单元502,用于将所述搜索信息通过经过训练的多场景编码器进行编码,获得对应所述搜索信息的搜索信息向量;
[0190]
搜索对象序列获得单元503,用于根据所述搜索信息向量,在搜索对象向量池中,以相似性计算的方式,获得按照与所述搜索信息向量相似程度排序的搜索对象序列;所述搜索对象向量池中包含若干可供搜索的搜索对象向量,所述搜索对象向量是融合搜索对象信息以及与所述搜索对象相关的关联信息后,通过所述多场景编码器编码并优化后获得;
[0191]
搜索结果提供单元504,用于根据所述搜索对象序列,提供所需推荐数量的搜索对象作为搜索结果。
[0192]
可选的,所述搜索对象序列获得单元,具体用于:
[0193]
针对所述搜索对象向量池中的每个可供搜索的搜索对象向量,计算所述搜索对象向量与所述搜索信息向量之间的距离;
[0194]
根据所述搜索对象向量与所述搜索信息向量之间的距离,获得与所述搜索信息向量的相似程度;
[0195]
以与所述搜索信息向量相似程度对搜索对象排序,获得所述搜索对象序列。
[0196]
可选的,还包括:搜索对象向量获得单元,具体用于:
[0197]
获得所述搜索对象信息、与所述搜索对象相关的关联对象信息、与所述搜索对象对应的关联搜索信息;
[0198]
将所述搜索对象信息、所述关联对象信息以及所述关联搜索信息进行融合,获得所述搜索对象的多场景融合信息;
[0199]
利用所述多场景编码器对所述搜索对象的多场景融合信息进行编码,获得所述搜索对象的多场景融合信息的融合向量;
[0200]
采用解耦器对所述融合向量进行预设的多个场域的解耦,获得各个场域的解耦向量;
[0201]
对各个场域的解耦向量进行再融合,获得优化后的搜索对象向量。
[0202]
可选的,所述搜索对象向量获得单元,具体用于:
[0203]
通过向获得该搜索对象的具体搜索场景所在空间解耦,获得第一解耦向量;
[0204]
通过向通用搜索场景空间解耦,获得第二解耦向量;
[0205]
通过向与具体搜索场景无关空间解耦,获得第三解耦向量。
[0206]
可选的,所述搜索对象向量获得单元,还具体用于:
[0207]
针对第三解耦向量,向获得该搜索对象的具体搜索场景空间进行转移解耦,获得优化第三解耦向量;
[0208]
所述搜索对象向量获得单元,具体用于:对所述第一解耦向量、所述第二解耦向量以及所述优化第三解耦向量进行再融合,获得优化后的搜索对象向量。
[0209]
第四实施例
[0210]
与本技术第二实施例的方法相对应的,本技术第四实施例还提供一种目标领域信息搜索使用的模型的训练装置。由于装置实施例基本类似于第二实施例,所以描述得比较简单,相关之处参见第二实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0211]
请参照图6,其为本技术第四实施例提供的目标领域信息搜索使用的模型的训练装置的示意图。
[0212]
该目标领域信息搜索使用的模型的训练装置600,所述模型包括编码器和解耦器,包括:
[0213]
节点网络图获得单元601,用于获得包含多场景搜索样本构成的节点网络图;所述网络图的节点包括搜索信息样本节点,以及搜索对象样本节点,并通过与节点相关的搜索结果操作建立各个节点之间的边;其中,所述搜索对象样本节点中包含的信息包括搜索对象样本本身的搜索对象样本信息,以及与搜索对象样本相关的关联信息;对于每个多场景搜索信息样本对应的搜索对象样本,既包含与搜索信息样本关联的搜索对象样本作为正样本,也包含与搜索信息样本不关联的搜索对象样本作为负样本;
[0214]
编码单元602,用于使用待训练的所述编码器,对所述节点网络图中的节点进行编码,形成各个节点的向量;其中,对于搜索信息样本节点获得搜索信息样本向量,对于搜索对象样本节点获得搜索对象样本向量;
[0215]
解耦单元603,用于根据预先设置的方式,通过所述解耦器对所述搜索对象样本向量进行预设的多个场域的解耦,并在解耦后再融合,获得优化后的搜索对象样本向量;
[0216]
相似度计算单元604,用于根据搜索信息样本向量和优化后的搜索对象样本向量的正样本关联关系以及负样本关联关系,计算搜索信息样本向量与优化后的搜索对象样本向量的相似度;
[0217]
调整单元605,用于根据上述计算的相似度,对编码器以及解耦器进行调整,使搜索信息样本向量和与其关联的正样本的优化后的搜索对象样本向量的向量关联度提高,和与其不关联的负样本的优化后的搜索对象样本向量的向量关联度降低,直到达到预定的训练要求。
[0218]
可选的,所述解耦单元,具体用于:
[0219]
通过向获得该搜索对象样本的具体搜索场景所在空间解耦,获得第一解耦样本向量;
[0220]
通过向通用搜索场景空间解耦,获得第二解耦样本向量;
[0221]
通过向与具体搜索场景无关空间解耦,获得第三解耦样本向量。
[0222]
可选的,所述解耦单元,具体用于:
[0223]
针对第三解耦样本向量,向获得该搜索对象样本的具体搜索场景空间进行转移解耦,获得优化第三解耦样本向量;
[0224]
所述在解耦后再融合,获得优化后的搜索对象样本向量,包括:对所述第一解耦样本向量、所述第二解耦样本向量以及所述优化第三解耦样本向量进行再融合,获得优化后的搜索对象样本向量。
[0225]
可选的,所述编码单元,具体用于:
[0226]
针对所述节点网络图中的某个选定节点,如果所述选定节点为搜索对象样本节
点,则基于所述选定节点、所述选定节点与相邻节点之间的边,在所述节点网络图中提取包含所述选定节点以及与其相关的关联节点的子网络图;
[0227]
使用图注意力网络模型对所述子网络图进行特征提取,获取所述子网络图的特征;
[0228]
使用待训练的所述编码器对所述子网络图的特征进行编码,形成所述选定节点的向量。
[0229]
可选的,所述编码单元,具体用于:
[0230]
针对所述节点网络图中的某个选定节点,如果所述选定节点为搜索信息样本节点,则直接使用待训练的所述编码器对所述选定节点进行编码,形成所述选定节点的向量。
[0231]
第五实施例
[0232]
与本技术第一实施例、第二实施例的方法相对应的,本技术第五实施例还提供一种电子设备。
[0233]
如图7所示,图7为本技术第五实施例中提供的一种电子设备的示意图。
[0234]
在本实施例中,该电子设备700的一种可选硬件结构可如图7所示,包括:至少一个处理器701,至少一个存储器702和至少一个通信总线705;存储器702中包含有程序703与数据704。
[0235]
总线705可以是在电子设备700内部的组件之间传输数据的通信设备,诸如内部总线(例如,cpu-存储器总线,中央处理器即为central processing unit,简称cpu)、外部总线(例如,通用串行总线端口、外围组件互连快速端口)等。
[0236]
另外,电子设备中还包括:至少一个网络接口706,至少一个外设接口707。网络接口706以提供与外部网络708(例如,因特网、内联网、局域网、移动通信网络等)相关的有线或无线通信;在一些实施例中,网络接口706可以包括任意数量的网络接口控制器(英文:network interface controller,简称nic)、射频(英文:radio frequency,简称rf)模块、转发器、收发器、调制解调器、路由器、网关、有线网络适配器的任意组合、无线网络适配器、蓝牙适配器、红外适配器、近场通信(英文:near field communication,简称nfc)适配器、蜂窝网络芯片等。
[0237]
外设接口707用于与外设连接,外设可以如图中的外设1(图7中的709)、外设2(图7中的710)以及外设3(图7中的711)。外设即外围设备,外围设备可以包括但不限于光标控制设备(例如鼠标、触摸板或触摸屏)、键盘、显示器(例如阴极射线管显示器、液晶显示器)。显示器或发光二极管显示器、视频输入设备(例如,摄像机或通信耦合到视频档案的输入接口)等。
[0238]
处理器701可能是cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0239]
存储器702可能包含高速ram(全称:random access memory,即随机存取存储器)存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0240]
其中,处理器701调用存储器702所存储的程序与数据,以执行本技术第一实施例与第二实施例的方法。
[0241]
第六实施例
[0242]
与本技术第一实施例、第二实施例的方法相对应的,本技术第六实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,以执行本技术第一实施例与第二实施例的方法。
[0243]
本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0244]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(英文:read-only memory,简称rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0245]
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(英文:phase change memory;简称pram)、静态随机存取存储器(英文:static random access memory;简称sram)、动态随机存取存储器(英文:dynamic random access memory;简称dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(英文:electrically-erasable programmable read-only memory;简称eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(英文:compact disc read-only memory;简称cd-rom)、数字多功能光盘(英文:digital versatile disc;简称dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读存储媒体(non-transitory computer readable storage media),如调制的数据信号和载波。
[0246]
2、本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1