在线学习方法、视频推荐方法及相关装置与流程

文档序号:36637757发布日期:2024-01-06 23:23阅读:18来源:国知局
在线学习方法、视频推荐方法及相关装置与流程

本发明涉及人工智能,特别是涉及在线学习方法、视频推荐方法及相关装置。


背景技术:

1、在推荐、广告和搜索等业务中,经常会使用到在线学习,即训练程序通过消息队列等数据源,持续读取最新的训练样本,并持续进行训练,每隔一段时间导出模型,送到推理程序进行在线服务。

2、这种学习模式主要存在以下问题:

3、其一:训练任务每隔一段时间导出模型,再部署到服务,这导致模型的部署存在一些延迟,最新的模型参数不能应用于线上推理。

4、其二,模型的训练和推理是独立的模块,各用各自的资源。有时候训练资源比较空闲,有时候推理资源比较空闲,资源总体利用率不佳。


技术实现思路

1、本发明实施例的目的在于提供一种在线学习方法、视频推荐方法及相关装置,以解决将最新的模型应用于线上推理时存在延迟的问题,并提升资源利用率。具体技术方案如下:

2、在本发明实施的第一方面,首先提供了一种在线学习方法,包括:

3、针对相邻批次的目标数据,将当前批次的目标数据输入一体化模型进行推理,获得当前批次的目标数据的预测数据;所述目标数据包括训练数据和待推理数据,所述训练数据对应有真值标签;

4、基于当前批次的训练数据对应的预测数据和当前批次的训练数据对应的真值标签,确定所述一体化模型的损失函数;

5、对所述损失函数进行反向传播,获得更新后的一体化模型;

6、针对后相邻批次的目标数据,采用所述更新后的一体化模型进行推理。

7、可选的,获得更新后的一体化模型之后,还包括:

8、针对后相邻批次的目标数据中的训练数据,基于所述更新后的一体化模型进行推理,获得该训练数据对应的预测数据;

9、基于后相邻批次的训练数据对应的预测数据和后相邻批次的训练数据对应的真值标签,确定所述更新后的一体化模型的损失函数;

10、对所述更新后的一体化模型的损失函数进行反向传播,获得进一步更新后的一体化模型。

11、可选的,所述将当前批次的目标数据输入一体化模型进行推理之前,还包括:

12、判断当前的推理请求队列中推理请求的数量是否不小于预设批次数量;

13、若是,从所述推理请求队列中读取所述预设批次数量个待推理数据,将读取到的所述待推理作为当前批次的目标数据;

14、若否,从所述推理请求队列中读取全部待推理数据,并从当前的训练样本队列中读取第一数量个训练样本,将读取到的所述待推理数据和训练数据作为当前批次的目标数据;所述第一数量为所述预设批次数量和读取到的所述待推理数据的数量之差,每一所述训练样本包括训练数据和该训练数据对应的真值标签。

15、可选的,在当前的推理请求队列中推理请求的数量小于所述预设批次数量的情况下,若当前的训练样本队列中的训练样本数量小于所述第一数量,所述方法还包括:

16、从当前的推理请求队列中读取全部待推理数据,从当前的训练样本队列中读取全部训练样本,将读取到的所述推理数据、所述训练数据和第二数量的空样本对应的训练数据作为当前批次的目标数据;所述第二数量为所述第一数量和读取到的所述训练样本的数量之差。

17、可选的,所述一体化模型为点击率预测模型;

18、所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息,所述训练数据对应的真值标签为所述样本用户对所述样本视频的真实点击结果;所述待推理数据包括目标用户的第三特征信息和候选推荐视频的第四特征信息;

19、所述预测数据包括所述样本用户对所述样本视频的预测点击率,所述目标用户对所述候选推荐视频的预测点击率。

20、可选的,所述将当前批次的目标数据输入一体化模型进行推理,获得当前批次的目标数据的预测数据之后,还包括:

21、根据当前批次的待推理数据对应的推理请求,基于当前批次的待推理数据的预测数据,确定所述推理请求指示的关联数据,并将所述关联数据返回至所述推理请求的请求发起方;所述推理请求包括视频推荐请求,所述关联数据包括对应的预测点击率高于点击率阈值的候选推荐视频的推荐列表。

22、在本发明实施的第二方面,还提供了一种视频推荐方法,包括:

23、获取当前批次的模型输入数据;所述模型输入数据包括待推理数据和训练数据,所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息,所述训练数据对应有所述样本用户对所述样本视频的真实点击结果,所述待推理数据包括目标用户的第三特征信息和多个候选推荐视频的第四特征信息;

24、将当前批次的模型输入数据输入点击率预测模型进行推理,获得当前批次的模型输入数据的预测数据;所述预测数据包括所述样本用户对所述样本视频的预测点击率,所述目标用户对所述候选推荐视频的预测点击率;

25、针对所述待推理数据对应的预测点击率,基于每一所述候选推荐视频对应的预测点击率,从所述候选推荐视频中选取目标推荐视频,并基于所述目标推荐视频进行视频推荐;

26、针对所述训练数据对应的预测点击率,基于所述样本用户对所述样本视频的真实点击结果和预测点击结果,确定所述点击率预测模型的损失函数,并对所述损失函数进行反向传播,获得更新后的点击率预测模型,所述更新后的点击率预测模型用于对下一批次的模型输入数据中的待推理数据进行推理。

27、在本发明实施的第三方面,还提供了一种在线学习装置,包括:

28、第一推理模块,用于针对相邻批次的目标数据,将当前批次的目标数据输入一体化模型进行推理,获得当前批次的目标数据的预测数据;所述目标数据包括训练数据和待推理数据,所述训练数据对应有真值标签;

29、确定模块,用于基于当前批次的训练数据对应的预测数据和当前批次的训练数据对应的真值标签,确定所述一体化模型的损失函数;

30、反向传播模块,用于对所述损失函数进行反向传播,获得更新后的一体化模型;

31、第二推理模块,用于针对后相邻批次的目标数据中的待推理数据,采用所述更新后的一体化模型进行推理。

32、在本发明实施的第四方面,还提供了一种视频推荐装置,包括:

33、获取模块,用于获取当前批次的模型输入数据;所述模型输入数据包括待推理数据和训练数据,所述训练数据包括样本用户的第一特征信息和样本视频的第二特征信息,所述训练数据对应有所述样本用户对所述样本视频的真实点击结果,所述待推理数据包括目标用户的第三特征信息和多个候选推荐视频的第四特征信息;

34、输入模块,用于将当前批次的模型输入数据输入点击率预测模型进行推理,获得当前批次的模型输入数据的预测数据;所述预测数据包括所述样本用户对所述样本视频的预测点击率,所述目标用户对所述候选推荐视频的预测点击率;

35、推荐模块,用于针对所述待推理数据对应的预测点击率,基于每一所述候选推荐视频对应的预测点击率,从所述候选推荐视频中选取目标推荐视频,并基于所述目标推荐视频进行视频推荐;

36、更新模块,用于针对所述训练数据对应的预测点击率,基于所述样本用户对所述样本视频的真实点击结果和预测点击结果,确定所述点击率预测模型的损失函数,并对所述损失函数进行反向传播,获得更新后的点击率预测模型,所述更新后的点击率预测模型用于对下一批次的模型输入数据中的待推理数据进行推理。

37、在本发明实施的第五方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

38、存储器,用于存放计算机程序;

39、处理器,用于执行存储器上所存放的程序时,实现上述任一项的在线学习方法或视频推荐方法。

40、在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的在线学习方法或视频推荐方法。

41、在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的在线学习方法或视频推荐方法。

42、本发明实施例提供的在线学习方法,将待推理数据和训练数据打包为一个批次的目标数据,并将当前批次的目标数据输入到一体化模型,由一体化模型对待推理数据和训练数据进行统一推理,在获得当前批次的目标数据的预测数据之后,基于其中的训练数据对应的预测数据和真值标签确定一体化模型的损失函数,进行反向传播,获得更新后的一体化模型。从而一体化模型在完成针对当前批次的目标数据的推理之后,在能够实现对于待推理数据的推理功能的基础上,其模型参数也能够得到更新,因此,针对后相邻批次的目标数据中的待推理数据而言,用于对其进行推理的一体化模型具体为基于前一批次的训练数据更新后的一体化模型,可见,基于训练数据进行更新后的一体化模型马上就能应用于下一波的数据推理,解决了将最新的模型应用于线上推理时存在延迟的问题。

43、并且,传统的模型应用方法需要针对模型的训练和推理分别部署计算资源,在训练数据或者待推理数据不足时,对应的计算资源会处于空闲状态,总体利用率不佳。本发明实施例通过将目标数据输入到一体化模型,由一体化模型对待推理数据和训练数据进行统一推理,从而模型的训练和预测过程可以共享计算资源,有助于提高资源利用率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1