虚拟资源推荐模型的确定方法及装置与流程

文档序号:34707648发布日期:2023-07-07 12:39阅读:17来源:国知局
虚拟资源推荐模型的确定方法及装置与流程

本技术实施例涉及计算机,具体涉及强化学习技术,尤其涉及一种虚拟资源推荐模型的确定方法装置、虚拟资源的推荐方法及装置。


背景技术:

1、多智能体系统不仅是基于单智能体系统的扩展,而且也会考虑到多个智能体之间的互动和合作。在完全合作任务中,整个团队仅有一个整体的奖励用于指导学习。值分解方法需要学习一个整体的联合动作价值函数,并表示为每个智能体相应动作价值函数的组合,进而使所有智能体学习到更好的整体策略。针对于电商领域中虚拟资源(例如,优惠券)推荐的场景,虚拟资源由不同的推荐渠道向用户推荐。目前,缺少虚拟资源推荐场景中的多智能体系统。


技术实现思路

1、本技术实施例提出了一种虚拟资源推荐模型的确定方法装置、虚拟资源的推荐方法及装置、计算机可读介质及电子设备。

2、第一方面,本技术实施例提供了一种虚拟资源推荐模型的确定方法,包括:以预设虚拟资源的各推荐渠道算法为智能体,通过多个智能体各自对应的动作价值网络,确定多个智能体各自对应的推荐动作的动作价值;根据多个动作价值各自的重要性,确定多个智能体各自对应的调整后动作价值;根据第一差值与第二差值之间的比较结果,确定多个动作价值与多个调整后动作价值之间的相似度对应的损失,其中,第一差值表征多个动作价值与当前的累计期望奖励之间的差值,第二差值表征多个调整后动作价值与累计期望奖励之间的差值,累计期望奖励由多个智能体执行各自对应的推荐动作而与环境交互所确定;根据第一差值、第二差值和相似度各自对应的损失,更新多个智能体各自对应的动作价值网络,以最终得到虚拟资源推荐模型。

3、在一些示例中,上述根据多个动作价值各自的重要性,确定多个智能体各自对应的调整后动作价值,包括:通过权重反馈网络,根据多个动作价值和多个智能体执行多个推荐动作后的环境状态信息,确定表征多个动作价值各自的重要性的权重;通过混合网络,根据多个动作价值和多个动作价值各自对应的权重,得到多个调整后动作价值。

4、在一些示例中,上述根据第一差值与第二差值之间的比较结果,确定多个动作价值与多个调整后动作价值之间的相似度对应的损失,包括:通过混合网络,根据多个动作价值、多个调整后动作价值和多个智能执行多个推荐动作后的环境状态信息,得到总体动作价值和调整后总体动作价值;根据总体动作价值和累计期望奖励之间的第一差值,与调整后总体动作价值和累计期望奖励之间的第二差值之间的比较结果,调整总体动作价值和调整后总体动作价值之间的相似度对应的损失。

5、在一些示例中,上述根据总体动作价值和累计期望奖励之间的第一差值,与调整后总体动作价值和累计期望奖励之间的第二差值之间的比较结果,调整总体动作价值和调整后总体动作价值之间的相似度对应的损失,包括:响应于确定第一差值小于第二差值,基于降低相似度的原则调整相似度对应的损失。

6、在一些示例中,上述响应于确定第一差值小于第二差值,基于降低相似度的原则调整相似度对应的损失,包括:响应于确定第一差值小于第二差值,基于相似度对应的正值,确定相似度对应的损失。

7、在一些示例中,上述根据总体动作价值和累计期望奖励之间的第一差值,与调整后总体动作价值和累计期望奖励之间的第二差值之间的比较结果,调整总体动作价值和调整后总体动作价值之间的相似度对应的损失,包括:响应于确定第一差值不小于第二差值,基于增大相似度的原则调整相似度对应的损失。

8、在一些示例中,上述响应于确定第一差值不小于第二差值,基于增大相似度的原则调整相似度对应的损失,包括:响应于确定第一差值不小于第二差值,基于相似度对应的负值,确定相似度对应的损失。

9、在一些示例中,上述根据第一差值、第二差值和相似度各自对应的损失,更新多个智能体各自对应的动作价值网络,包括:根据第一差值、第二差值和相似度各自对应的损失,确定总损失;根据总损失,更新多个智能体各自对应的动作价值网络、权重反馈网络和混合网络。

10、第二方面,本技术实施例提供了一种虚拟资源的推荐方法,包括:确定待推荐对象;通过预训练的虚拟资源推荐模型向待推荐对象推荐预设虚拟资源,其中,虚拟资源推荐模型通过第一方面任一项训练得到。

11、第三方面,本技术实施例提供了一种虚拟资源推荐模型的确定装置,包括:第一确定单元,被配置成以预设虚拟资源的各推荐渠道算法为智能体,通过多个智能体各自对应的动作价值网络,确定多个智能体各自对应的推荐动作的动作价值;第二确定单元,被配置成根据多个动作价值各自的重要性,确定多个智能体各自对应的调整后动作价值;第三确定单元,被配置成根据第一差值与第二差值之间的比较结果,确定多个动作价值与多个调整后动作价值之间的相似度对应的损失,其中,第一差值表征多个动作价值与当前的累计期望奖励之间的差值,第二差值表征多个调整后动作价值与累计期望奖励之间的差值,累计期望奖励由多个智能体执行各自对应的推荐动作而与环境交互所确定;更新单元,被配置成根据第一差值、第二差值和相似度各自对应的损失,更新多个智能体各自对应的动作价值网络,以最终得到虚拟资源推荐模型。

12、在一些示例中,上述第二确定单元,进一步被配置成:通过权重反馈网络,根据多个动作价值和多个智能体执行多个推荐动作后的环境状态信息,确定表征多个动作价值各自的重要性的权重;通过混合网络,根据多个动作价值和多个动作价值各自对应的权重,得到多个调整后动作价值。

13、在一些示例中,上述第三确定单元,进一步被配置成:通过混合网络,根据多个动作价值、多个调整后动作价值和多个智能执行多个推荐动作后的环境状态信息,得到总体动作价值和调整后总体动作价值;根据总体动作价值和累计期望奖励之间的第一差值,与调整后总体动作价值和累计期望奖励之间的第二差值之间的比较结果,调整总体动作价值和调整后总体动作价值之间的相似度对应的损失。

14、在一些示例中,上述第三确定单元,进一步被配置成:响应于确定第一差值小于第二差值,基于降低相似度的原则调整相似度对应的损失。

15、在一些示例中,上述第三确定单元,进一步被配置成:响应于确定第一差值小于第二差值,基于相似度对应的正值,确定相似度对应的损失。

16、在一些示例中,上述第三确定单元,进一步被配置成:响应于确定第一差值不小于第二差值,基于增大相似度的原则调整相似度对应的损失。

17、在一些示例中,上述第三确定单元,进一步被配置成:响应于确定第一差值不小于第二差值,基于相似度对应的负值,确定相似度对应的损失。

18、在一些示例中,上述更新单元,进一步被配置成:根据第一差值、第二差值和相似度各自对应的损失,确定总损失;根据总损失,更新多个智能体各自对应的动作价值网络、权重反馈网络和混合网络。

19、第四方面,本技术实施例提供了一种虚拟资源的推荐装置,包括:第四确定单元,被配置成确定待推荐对象;推荐单元,被配置成通过预训练的虚拟资源推荐模型向待推荐对象推荐预设虚拟资源,其中,其中,虚拟资源推荐模型通过第三方面中任一项训练得到。

20、第五方面,本技术实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面、第二方面和第三方面任一实现方式描述的方法。

21、第六方面,本技术实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面、第二方面和第三方面任一实现方式描述的方法。

22、本技术实施例提供的虚拟资源推荐模型的确定方法及装置,通过以预设虚拟资源的各推荐渠道算法为智能体,通过多个智能体各自对应的动作价值网络,确定多个智能体各自对应的推荐动作的动作价值;根据多个动作价值各自的重要性,确定多个智能体各自对应的调整后动作价值;根据第一差值与第二差值之间的比较结果,确定多个动作价值与多个调整后动作价值之间的相似度对应的损失,其中,第一差值表征多个动作价值与当前的累计期望奖励之间的差值,第二差值表征多个调整后动作价值与累计期望奖励之间的差值,累计期望奖励由多个智能体执行各自对应的推荐动作而与环境交互所确定;根据第一差值、第二差值和相似度各自对应的损失,更新多个智能体各自对应的动作价值网络,以最终得到用于向待推荐对象推荐预设虚拟资源的虚拟资源推荐模型,从而将每个推荐渠道算法单独作为一个智能体,使不同的智能体联合起来推荐预设虚拟资源,提供了一种应用于虚拟资源推荐场景中的多智能体系统;并且,在推荐模型中添加额外的参数网络结构,为所有智能体赋予除原有的动作价值组合(多个动作价值)之外的另一组相似的动作价值组合(多个调整后动作价值),有助于提高推荐模型的收敛速度和探索能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1