基于深层目标优化的模型训练方法、信息推荐方法和装置与流程

文档序号:36180546发布日期:2023-11-29 18:10阅读:34来源:国知局
基于深层目标优化的模型训练方法与流程

本说明书实施例通常涉及计算机,尤其涉及基于深层目标优化的模型训练方法、信息推荐方法和装置。


背景技术:

1、随着互联网技术的飞速发展,基于多目标组合优化的信息推荐技术也取得了越来越广泛的应用。但由于推荐系统中广泛存在数据的偏差(bias),例如构建推荐系统所依赖的交互数据不可避免地受到曝光机理和用户选择的影响,推荐数据呈现出长尾特征,推荐数据存在反馈闭环加重数据的偏差等,因而如何去偏(debias)从而构建更加有效的多目标推荐系统具有重要意义。


技术实现思路

1、鉴于上述,本说明书实施例提供了一种基于深层目标优化的模型训练方法、信息推荐方法和装置。利用该方法、装置,可以实现更有效的多目标推荐系统。

2、根据本说明书的实施例的一个方面,提供一种基于深层目标优化的模型训练方法,包括:利用训练样本集循环执行下述模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征、物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互:针对当前训练样本集中的各个当前训练样本,根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值;将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值,其中,与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值;根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层-直接目标因果强度值;根据所得到的深层-直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值;根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值;以及响应于不满足训练结束条件,根据所述损失值调整当前预测模型的模型参数,其中,经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型。

3、根据本说明书的实施例的另一个方面,提供一种信息推荐方法,包括:根据目标用户的相关信息和待推荐信息集,生成用户-信息对特征集,其中,所述用户-信息对特征集中的各个用户-信息对特征包括基于所述目标用户的相关信息和待推荐信息生成的用户特征、物品特征和历史交互特征;将所述用户-信息对特征集提供给预测模型,得到与各个用户-信息对特征对应的至少一个预测值,其中,所述预测模型通过如上所述的基于深层训练目标优化的模型训练方法训练得到,各个预测值与直接训练目标或基于直接训练目标的深层训练目标相对应;根据所得到的至少一个预测值,从所述待推荐信息集中确定目标推荐信息;以及将所述目标推荐信息提供给所述目标用户。

4、根据本说明书的实施例的又一个方面,提供一种基于深层目标优化的模型训练装置,所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征、物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互,所述训练单元包括:条件概率确定模块,被配置为根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值;初始预测模块,被配置为将该当前训练样本的特征数据提供给当前预测模型,得到与各个训练目标对应的目标预测值,其中,与训练目标对应的目标预测值包括涉及其他具有因果关联的训练目标的条件预测值;因果强度确定模块,被配置为根据所得到的条件概率值和对应的条件预测值确定该当前训练样本对应的深层-直接目标因果强度值;深层目标预测模块,被配置为根据所得到的深层-直接目标因果强度值和相应的目标预测值,确定该当前训练样本对应的深层目标预测值;损失值确定模块,被配置为根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值;以及所述装置还包括:参数调整单元,被配置为响应于不满足训练结束条件,根据所述损失值调整当前预测模型的模型参数,其中,经过模型参数调整后的预测模型充当下一模型训练过程的当前预测模型。

5、根据本说明书的实施例的再一个方面,提供一种信息推荐装置,包括:特征提取单元,被配置为根据目标用户的相关信息和待推荐信息集,生成用户-信息对特征集,其中,所述用户-信息对特征集中的各个用户-信息对特征包括基于所述目标用户的相关信息和待推荐信息生成的用户特征、物品特征和历史交互特征;概率预测单元,被配置为将所述用户-信息对特征集提供给预测模型,得到与各个用户-信息对特征对应的至少一个预测值,其中,所述预测模型通过如上所述的基于深层训练目标优化的模型训练装置训练得到,各个预测值与直接训练目标或基于直接训练目标的深层训练目标相对应;信息推荐单元,被配置为根据所得到的至少一个预测值,从所述待推荐信息集中确定目标推荐信息;以及将所述目标推荐信息提供给所述目标用户。

6、根据本说明书的实施例的另一方面,提供一种基于深层目标优化的模型训练装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的基于深层目标优化的模型训练方法。

7、根据本说明书的实施例的另一方面,提供一种信息推荐装置,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的信息推荐方法。

8、根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于深层目标优化的模型训练方法和/或信息推荐方法。

9、根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的基于深层目标优化的模型训练方法和/或信息推荐方法。



技术特征:

1.一种基于深层目标优化的模型训练方法,包括:

2.如权利要求1所述的方法,其中,所述根据该当前训练样本的用户特征和历史交互特征,得到各个训练目标之间的条件概率值包括:

3.如权利要求1所述的方法,其中,所述训练样本集中的每个训练样本的特征数据还包括推荐域特征,所述当前预测模型包括当前域感知模型和当前预测值生成模型,

4.如权利要求1所述的方法,其中,所述直接训练目标包括第一目标和第二目标所述深层训练目标包括基于所述第一目标和第二目标的第三目标,所述条件概率值包括用于表征所述直接训练目标与所述深层训练目标之间的条件概率的第一条件概率值和第二条件概率值,所述与各个训练目标对应的目标预测值包括第一目标和第二目标之间的条件预测值,

5.如权利要求4所述的方法,其中,所述与各个训练目标对应的目标预测值还包括第一目标预测值、在满足直接训练目标的基础上满足深度训练目标的条件预测值、在不满足直接训练目标的基础上仍满足深度训练目标的条件预测值,

6.如权利要求1到5中任一所述的方法,其中,所述根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定当前模型训练过程的损失值包括:

7.一种信息推荐方法,包括:

8.一种基于深层目标优化的模型训练装置,所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程,直到满足训练结束条件,所述训练样本集中的每个训练样本包括特征数据和与训练目标相匹配的标签数据,其中,所述训练目标包括直接训练目标和基于直接训练目标的深层训练目标,所述特征数据包括用户特征、物品特征和历史交互特征,所述历史交互特征用于指示在过去一段时间内用户与物品之间是否存在与训练目标相匹配的交互,所述训练单元包括:

9.一种信息推荐装置,包括:

10.一种基于深层目标优化的模型训练装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1至6中任一所述的方法。

11.一种信息推荐装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求7所述的信息推荐方法。


技术总结
本说明书的实施例提供了一种基于深层目标优化的模型训练方法、信息推荐方法和装置。在该基于深层目标优化的模型训练方法中,模型训练过程所使用的每个训练样本包括特征数据和与直接训练目标和基于此的深层训练目标相匹配的标签数据,特征数据包括用户特征、物品特征和历史交互特征;根据特征数据,得到各个训练目标之间的条件概率值和与各个训练目标对应的目标预测值以及对应的条件预测值;进而确定各个训练样本对应的深层‑直接目标因果强度值,进而确定各个训练样本对应的深层目标预测值;再根据各个当前训练样本的深层目标预测值和对应的标签数据之间的差异,确定损失值;根据损失值调整当前预测模型的模型参数,直到满足训练结束条件。

技术研发人员:王昊文,杜宇亮
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1