基于强化学习模型向用户推送对象的方法和装置与流程

文档序号：18740442发布日期：2019-09-21 01:42阅读：来源：国知局

技术总结
本说明书实施例提供了一种基于强化学习模型确定针对用户的推送对象列表的方法和装置，所述方法包括：对于每组对象列表，获取第i个状态特征向量；将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量；获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量；以及基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。

技术研发人员：陈岑;胡旭;傅驰林;张晓露
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2019.04.29
技术公布日：2019.09.20