本公开涉及计算机,尤其涉及一种任务筛选模型生成方法、装置、电子设备及存储介质。
背景技术:
1、多任务辅助学习(multi-task auxiliarylearning,matl)是一种通过在资源推荐主任务网络之外训练额外的资源推荐辅助任务网络来帮助资源推荐主任务网络获得更好的学习效果,提高资源推荐主任务网络对未见过的测试数据的预测能力,即提高资源推荐主任务网络泛化性的方法。
2、现有技术中,可以采用多任务辅助学习模型对资源推荐结果进行预测,但是,通常需要通过大量的离线实验人工手动筛选出合适的资源推荐辅助任务网络,筛选过程费时费力,导致资源推荐辅助任务网络的筛选效率较低。
技术实现思路
1、本公开提供一种任务筛选模型生成方法、装置、电子设备及存储介质,以解决人工手动筛选资源推荐辅助任务网络的方法效率低的问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供了一种任务筛选模型生成方法,包括:
3、将第一训练样本分别输入资源推荐模型以及待训练的任务筛选模型;所述资源推荐模型包括资源推荐主任务网络和多个资源推荐辅助任务网络,所述第一训练样本包括样本资源以及所述样本资源的样本标签;所述资源推荐模型用于根据所述资源推荐主任务网络的输出和所述资源推荐辅助任务网络的输出,确定资源推荐结果;
4、获取所述资源推荐主任务网络预测的所述样本资源的第一预测标签,并获取所述多个资源推荐辅助任务网络预测的所述样本资源的第二预测标签,以及获取所述任务筛选模型对所述多个资源推荐辅助任务网络的筛选因子;所述筛选因子用于表征保留或剔除对应的资源推荐辅助任务网络;
5、基于所述样本标签和所述第一预测标签确定所述资源推荐主任务网络对应的第一损失值,以及基于所述样本标签、所述第二预测标签和所述筛选因子,确定所述多个资源推荐辅助任务网络对应的第二损失值;
6、基于所述第一损失值以及所述第二损失值,对所述资源推荐模型的模型参数进行更新;
7、获取已更新所述模型参数的资源推荐模型中的资源推荐主任务网络,对所述样本资源的第三预测标签,并根据所述第三预测标签和所述样本标签,确定目标损失值;
8、基于所述目标损失值调整所述任务筛选模型的模型参数,并在达到第一停止条件的情况下,将当前的任务筛选模型确定为目标任务筛选模型。
9、可选的,所述基于所述样本标签、所述第二预测标签和所述筛选因子,确定所述多个资源推荐辅助任务网络对应的第二损失值,包括:
10、基于所述样本标签和所述多个资源推荐辅助任务网络的第二预测标签,确定各所述资源推荐辅助任务网络各自的损失值;
11、根据所述筛选因子对各所述资源推荐辅助任务网络进行筛选,得到筛选后的资源推荐辅助任务网络;
12、将所述筛选后的资源推荐辅助任务网络的损失值,确定为所述第二损失值。
13、可选的,所述基于所述第一损失值以及所述第二损失值,对所述资源推荐模型的模型参数进行更新,包括:
14、根据所述第一损失值以及所述第二损失值,确定所述资源推荐模型的模型参数对应的第一梯度值;
15、基于所述第一梯度值对所述资源推荐模型的模型参数进行更新。
16、可选的,所述基于所述第一梯度值对所述资源推荐模型的模型参数进行更新,包括:
17、获取所述任务筛选模型对应的学习率,并将所述学习率与所述第一梯度值的乘积,确定为所述资源推荐模型对应的第一参数更新量;
18、基于所述第一参数更新量,对所述资源推荐模型的模型参数进行更新。
19、可选的,所述基于所述目标损失值调整所述任务筛选模型的模型参数,包括:
20、根据所述目标损失值确定所述任务筛选模型的模型参数对应的第二梯度值;
21、基于所述第二梯度值对所述任务筛选模型的模型参数进行调整。
22、可选的,所述基于所述第二梯度值对所述任务筛选模型的模型参数进行调整,包括:
23、获取所述任务筛选模型对应的学习率,并将所述学习率与所述第二梯度值的乘积确定为第二参数更新量;
24、基于所述第二参数更新量,对所述任务筛选模型的模型参数进行调整。
25、可选的,所述将当前的任务筛选模型确定为目标任务筛选模型之后,所述方法还包括:
26、将第二训练样本输入所述目标任务筛选模型,并获取所述目标任务筛选模型对所述多个资源推荐辅助任务网络的筛选因子,作为目标筛选因子;
27、基于所述目标筛选因子对所述多个资源推荐辅助任务网络进行筛选,得到待训练资源推荐模型;
28、基于所述第二训练样本对所述待训练资源推荐模型进行模型训练,并在达到第二停止条件的情况下,将当前的待训练资源推荐模型确定为目标资源推荐模型。
29、可选的,所述基于所述目标筛选因子对所述资源推荐模型中的多个资源推荐辅助任务网络进行筛选,包括:
30、获取每个所述资源推荐辅助任务网络对应的目标筛选因子;
31、在一个所述资源推荐辅助任务网络对应的目标筛选因子表征剔除所述资源推荐辅助任务网络的情况下,剔除所述资源推荐辅助任务网络。
32、根据本公开实施例的第二方面,提供了一种任务筛选模型生成装置,包括:
33、输入模块,用于将第一训练样本输入资源推荐模型以及待训练的任务筛选模型;所述资源推荐模型包括资源推荐主任务网络和多个资源推荐辅助任务网络,所述第一训练样本包括样本资源以及所述样本资源的样本标签;所述资源推荐模型用于根据所述资源推荐主任务网络的输出和所述资源推荐辅助任务网络的输出,确定资源推荐结果;
34、第一获取模块,用于获取资源推荐主任务网络预测的所述样本资源的第一预测标签,并获取所述多个资源推荐辅助任务网络预测的所述样本资源的第二预测标签,以及获取所述任务筛选模型对所述多个资源推荐辅助任务网络的筛选因子;所述筛选因子用于表征保留或剔除对应的资源推荐辅助任务网络;
35、第一确定模块,用于基于所述样本标签和所述第一预测标签确定所述资源推荐主任务网络对应的第一损失值,以及基于所述样本标签、所述第二预测标签和所述筛选因子,确定所述多个资源推荐辅助任务网络对应的第二损失值;
36、更新模块,用于基于所述第一损失值以及所述第二损失值,对所述资源推荐模型的模型参数进行更新;
37、第二确定模块,用于获取已更新所述模型参数的资源推荐模型中的资源推荐主任务网络,对所述样本资源的第三预测标签,并根据所述第三预测标签和所述样本标签,确定目标损失值;
38、训练模块,用于基于所述目标损失值调整所述任务筛选模型的模型参数,并在达到第一停止条件的情况下,将当前的任务筛选模型确定为目标任务筛选模型。
39、可选的,所述第一确定模块具体用于:
40、基于所述样本标签和所述多个资源推荐辅助任务网络的第二预测标签,确定各所述资源推荐辅助任务网络各自的损失值;
41、根据所述筛选因子对各所述资源推荐辅助任务网络进行筛选,得到筛选后的资源推荐辅助任务网络;
42、将所述筛选后的资源推荐辅助任务网络的损失值,确定为所述第二损失值。
43、可选的,所述更新模块具体用于:
44、根据所述第一损失值以及所述第二损失值,确定所述资源推荐模型的模型参数对应的第一梯度值;
45、基于所述第一梯度值对所述资源推荐模型的模型参数进行更新。
46、可选的,所述更新模块具体还用于:
47、获取所述任务筛选模型对应的学习率,并将所述学习率与所述第一梯度值的乘积,确定为所述资源推荐模型对应的第一参数更新量;
48、基于所述第一参数更新量,对所述资源推荐模型的模型参数进行更新。
49、可选的,所述训练模块具体用于:
50、根据所述目标损失值确定所述任务筛选模型的模型参数对应的第二梯度值;
51、基于所述第二梯度值对所述任务筛选模型的模型参数进行调整。
52、可选的,所述训练模块具体还用于:
53、获取所述任务筛选模型对应的学习率,并将所述学习率与所述第二梯度值的乘积确定为第二参数更新量;
54、基于所述第二参数更新量,对所述任务筛选模型的模型参数进行调整。
55、可选的,所述装置还包括:
56、第二获取模块,用于所述训练模块将当前的任务筛选模型确定为目标任务筛选模型之后,将第二训练样本输入所述目标任务筛选模型,并获取所述目标任务筛选模型对所述多个资源推荐辅助任务网络的筛选因子,作为目标筛选因子;
57、筛选模块,用于基于所述目标筛选因子对所述多个资源推荐辅助任务网络进行筛选,得到待训练资源推荐模型;
58、第三确定模块,用于基于所述第二训练样本对所述待训练资源推荐模型进行模型训练,并在达到第二停止条件的情况下,将当前的待训练资源推荐模型确定为目标资源推荐模型。
59、可选的,所述筛选模块具体用于:
60、获取每个所述资源推荐辅助任务网络对应的目标筛选因子;
61、在一个所述资源推荐辅助任务网络对应的目标筛选因子表征剔除所述资源推荐辅助任务网络的情况下,剔除所述资源推荐辅助任务网络。
62、根据本公开实施例的第三方面,提供了一种电子设备,,包括:
63、处理器;
64、用于存储所述处理器可执行指令的存储器;
65、其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的方法。
66、根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的方法。
67、根据本公开实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括可读性程序指令,所述可读性程序指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面中任一项所述的方法。
68、本公开的实施例提供的技术方案至少带来以下有益效果:
69、在本公开实施例中,通过将第一训练样本分别输入资源推荐模型以及待训练的任务筛选模型;所述资源推荐模型包括资源推荐主任务网络和多个资源推荐辅助任务网络,所述第一训练样本包括样本资源以及所述样本资源的样本标签;所述资源推荐模型用于根据所述资源推荐主任务网络的输出和所述资源推荐辅助任务网络的输出,确定资源推荐结果;获取所述资源推荐主任务网络预测的所述样本资源的第一预测标签,并获取所述多个资源推荐辅助任务网络预测的所述样本资源的第二预测标签,以及获取所述任务筛选模型对所述多个资源推荐辅助任务网络的筛选因子;所述筛选因子用于表征保留或剔除对应的资源推荐辅助任务网络;基于所述样本标签和所述第一预测标签确定所述资源推荐主任务网络对应的第一损失值,以及基于所述样本标签、所述第二预测标签和所述筛选因子,确定所述多个资源推荐辅助任务网络对应的第二损失值。这样,可以使得第一损失值与资源推荐主任务网络相关联,且第二损失值与各资源推荐辅助任务网络以及任务筛选模型相关联,进而基于所述第一损失值以及所述第二损失值,对所述资源推荐模型的模型参数进行更新;获取已更新所述模型参数的资源推荐模型中的资源推荐主任务网络,对所述样本资源的第三预测标签,并根据所述第三预测标签和所述样本标签,确定目标损失值。这样,可以使得目标损失值与资源推荐主任务网络对应的第一损失值相关联,并与多个资源推荐辅助任务网络对应的第二损失值相关联,即通过对资源推荐模型的模型参数进行更新,将更新后的资源推荐模型的模型参数与任务筛选模型相关联,进一步地,基于所述目标损失值调整所述任务筛选模型的模型参数,可以使得对任务筛选模型的训练过程与资源推荐模型的模型参数的更新过程相关联,并在达到第一停止条件的情况下,将当前的任务筛选模型确定为目标任务筛选模型。这样,对待训练任务筛选模型进行一次模型训练,即可通过得到的目标任务筛选模型对资源推荐模型的多个资源推荐辅助任务网络进行筛选,相比于现有技术中人工手动筛选的方法,一定程度上可以提高资源推荐辅助任务网络的筛选效率。
70、且由于目标损失值是基于将第一训练样本分别输入资源推荐模型以及待训练的任务筛选模型后,基于第一损失值以及所述第二损失值确定的,而第一损失值和第二损失值是基于资源推荐主任务网络的第一预测标签、多个辅助任务的第二预测标签以及任务筛选模型对多个资源推荐辅助任务网络的筛选因子确定的,因此,目标损失值与第一训练样本是相匹配的。进一步地,基于目标损失值调整待训练任务筛选模型的模型参数,并在达到第一停止条件的情况下,将当前的待训练任务筛选模型确定为目标任务筛选模型,可以使得目标任务筛选模型与第一训练样本也相匹配,更进一步地,使得通过目标任务筛选模型筛选出的资源推荐辅助任务网络与第一训练样本更加匹配,一定程度上可以提高目标任务筛选模型筛选出的资源推荐辅助任务网络对于输入资源推荐模型的训练样本的样本适应性。
71、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。