基于人工智能的多目标推荐模型的训练方法及装置与流程

文档序号：20600202发布日期：2020-05-01 21:34阅读：来源：国知局

技术特征：

1.一种基于人工智能的多目标推荐模型的训练方法，其特征在于，所述方法包括：

获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；

其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；

将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；

通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；

基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；

基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，

使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

2.如权利要求1所述的方法，其特征在于，所述获取用于媒体对象推荐的多目标推荐模型的训练样本，包括：

基于所述第一交互特征的采样时间窗口，采集媒体对象对应所述第一交互特征的数据及对应所述至少一个第二交互特征的数据；并

基于采集的数据构造所述多目标推荐模型的训练样本。

3.如权利要求1所述的方法，其特征在于，所述基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本，包括：

分别将各所述教师模型的预测结果，作为训练样本中相应的第二交互特征的标签进行标注，以更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本。

4.如权利要求1所述的方法，其特征在于，所述将所述训练样本分别输入至少一个教师模型之前，所述方法还包括：

获取所述至少一个教师模型的训练样本；

其中，各所述教师模型的训练样本基于相应的所述第二交互特征的采样时间窗口采样得到，且至少标注有相应的所述第二交互特征对应的标签；

基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，以使得所述教师模型能够基于输入的媒体对象，对相应的所述第二交互特征进行预测。

5.如权利要求4所述的方法，其特征在于，所述基于各所述教师模型的训练样本，分别对相应的教师模型进行训练，包括：

分别将各所述教师模型的训练样本，输入至相应的教师模型，并通过相应的教师模型进行所述第二交互特征的预测，得到相应的预测结果；

基于得到的预测结果、及各所述教师模型的训练样本所标注的标签，确定各所述教师模型的损失函数的值；

基于各所述教师模型的损失函数的值，更新相应的教师模型的模型参数。

6.如权利要求1所述的方法，其特征在于，所述基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，包括：

通过所述多目标推荐模型，对所述更新至少一个标签后的训练样本，进行所述交互特征的预测，得到特征预测结果；

获取各所述交互特征的特征预测结果、与相应交互特征对应的标签之间的差异；

基于各所述交互特征对应的差异，确定所述多目标推荐模型中相应交互特征对应的损失函数的值；

基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数。

7.如权利要求6所述的方法，其特征在于，所述基于所述多目标推荐模型中各交互特征对应的损失函数的值，更新所述多目标推荐模型的模型参数，包括：

当各所述交互特征对应的损失函数的值超出相应损失阈值时，基于各所述交互特征对应的损失函数，确定相应交互特征的误差信号；

将各所述误差信号在所述多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数。

8.如权利要求7所述的方法，其特征在于，所述多目标推荐模型包括共享层、特征提取层、特征拼接层和预测层，所述将各所述误差信号在所述多目标推荐模型中反向传播，并在传播的过程中更新各个层的模型参数，包括：

将所述第一交互特征的误差信号，依次传播至所述预测层、特征拼接层、特征提取层以及共享层，以实现所述第一交互特征的误差信号在所述多目标推荐模型中的反向传播；

将所述第二交互特征的误差信号，依次传播至所述预测层、特征拼接层以及特征提取层；并

对所述第二交互特征的误差信号进行阻断，使得所述第二交互特征的误差信号无法传播至所述共享层；

在所述第一交互特征的误差信号及所述第二交互特征的误差信号反向传播的过程中，更新所述多目标推荐模型中各个层的模型参数。

9.如权利要求1所述的方法，其特征在于，所述多目标推荐模型包括特征映射层、特征提取层、特征拼接层和预测层，所述方法还包括：

获取待推荐媒体对象的用户数据和内容数据；

通过所述特征映射层，分别对所述用户数据和内容数据进行映射处理，得到对应所述用户数据和内容数据的特征向量；

通过所述特征提取层，对得到的所述特征向量进行特征提取，得到所述待推荐媒体对象的特征向量；

通过所述特征拼接层，对所述待推荐媒体对象的特征向量进行拼接，得到拼接向量；

基于所述拼接向量，通过所述预测层进行交互特征的预测，得到对应所述待推荐媒体对象的特征预测结果；

基于所述特征预测结果对所述待推荐媒体对象进行推荐。

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定媒体信息流页面对应的登录用户；

获取所述登录用户的用户数据、及待推荐媒体对象的内容数据；

基于获取的所述用户数据及所述内容数据，通过所述多目标推荐模型进行交互特征的预测，得到对应所述第一交互特征、以及所述至少一个第二交互特征的特征预测结果；

基于得到的所述特征预测结果，在所述待推荐媒体对象中确定至少一个目标媒体对象；

将所述目标媒体对象推荐给所述登录用户，以在所述媒体信息流页面呈现所述目标媒体对象。

11.一种基于人工智能的多目标推荐模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取用于媒体对象推荐的多目标推荐模型的训练样本，所述训练样本标注有与交互特征相对应的至少两个标签；其中，所述交互特征包括：第一交互特征及至少一个第二交互特征，所述第二交互特征的采样时间窗口大于所述第一交互特征的采样时间窗口；

输入模块，用于将所述训练样本分别输入至少一个教师模型，每个所述教师模型用于对一个所述第二交互特征进行预测；

预测模块，用于通过所述至少一个教师模型，分别对所述训练样本进行第二交互特征预测，得到相应的预测结果；

更新模块，用于基于得到的所述至少一个教师模型的预测结果，更新所述训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；

训练模块，用于基于所述更新至少一个标签后的训练样本，训练所述多目标推荐模型，使得所述多目标推荐模型能够基于输入的媒体对象，进行对应所述第一交互特征及所述至少一个第二交互特征的特征预测，以基于特征预测结果对所述媒体对象进行推荐。

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求1至10任一项所述的基于人工智能的多目标推荐模型的训练方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至10任一项所述的基于人工智能的多目标推荐模型的训练方法。

技术总结
本发明提供了一种基于人工智能的多目标推荐模型的训练方法、装置、电子设备及存储介质；方法包括：获取多目标推荐模型的训练样本，该训练样本标注有与交互特征相对应的至少两个标签；该交互特征包括第一交互特征及至少一个第二交互特征，第二交互特征的采样时间窗口大于第一交互特征的采样时间窗口；将训练样本分别输入至少一个教师模型；通过至少一个教师模型，分别对训练样本进行第二交互特征预测，得到相应的预测结果；基于得到的预测结果，更新训练样本中相应第二交互特征的标签，得到更新至少一个标签后的训练样本；基于更新至少一个标签后的训练样本，训练多目标推荐模型；通过本发明，能够提高多目标推荐模型的预测精度。

技术研发人员：刘剑;刘鸿;陈凯;夏锋
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2020.03.24
技术公布日：2020.05.01

完整全部详细技术资料下载

当前第2页1 2