基于强化学习模型向用户推送对象的方法和装置与流程

文档序号：18740442发布日期：2019-09-21 01:42阅读：来源：国知局

技术特征：

1.一种基于强化学习模型确定针对用户的推送对象列表的方法，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i-1个对象，其中，M、i都为大于等于1的整数，其中，i小于等于预定整数N，所述方法包括：

对于每组对象列表，

获取第i个状态特征向量，所述第i个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征；

将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量，所述权重向量包括预定数目的排序特征各自的权重；

获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量，所述排序特征向量包括所述预定数目的排序特征各自的特征值；以及

基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及

对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。

2.根据权利要求1所述的方法，其中，所述动态特征至少包括所述i-1个对象各自的以下属性特征：当前热度、对象标识、对象所属类型。

3.根据权利要求1所述的方法，其中，所述M组对象列表中包括第一组对象列表，与该第一组对象列表对应的候选对象集合中包括第一对象，与该第一对象对应的排序特征向量至少包括以下排序特征的值：所述第一用户对该第一对象的预估点击率、该第一对象的当前热度、该第一对象相对于所述第一组对象列表中的i-1个对象的多样性。

4.根据权利要求1所述的方法，其中，已预先通过所述方法确定有M组对象列表包括，已预先通过所述方法确定有一组对象列表，其中，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表包括，基于与该组对象列表对应的候选对象集合中各个对象的分数，以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象，并将该组对象列表作为更新的一组对象列表。

5.根据权利要求1所述的方法，其中，M大于等于2，其中，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表包括，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，通过集束搜索算法确定更新的M组对象列表。

6.根据权利要求5所述的方法，其中，i等于N，所述方法还包括，通过集束搜索算法，从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。

7.根据权利要求6所述的方法，还包括，

以所述推送对象列表中各个对象的排列顺序，向所述第一用户推送所述各个对象，以获取所述第一用户的反馈；

基于所述排列顺序和所述反馈获取N个回报值，所述N个回报值与对所述方法的从i＝1至N的N次循环分别对应；

获取第N+1个状态特征向量，所述第N+1个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括所述推送对象列表中N个对象各自的属性特征；以及

基于与所述N次循环分别对应的N组数据训练所述强化学习模型，以优化所述强化学习模型，其中，所述N组数据包括第1至第N组数据，其中，第i组数据包括：与所述推送对象列表对应的第i个状态特征向量、与该第i个状态特征向量对应的权重向量、与所述推送对象列表对应的第i+1个状态特征向量、以及与第i次循环对应的回报值。

8.根据权利要求7所述的方法，其中，所述对象为询问问题，对于第1至N-1次循环中的第i次循环，与所述第i次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第i个问题。

9.根据权利要求8所述的方法，与所述第N次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第N个问题、以及提交的满意度信息。

10.根据权利要求7所述的方法，其中，所述强化学习模型为基于深度确定策略梯度算法的模型。

11.一种基于强化学习模型确定针对用户的推送对象列表的装置，其中，对于第一用户，已预先通过所述方法确定有M组对象列表，每组对象列表中当前包括i-1个对象，其中，M、i都为大于等于1的整数，其中，i小于等于预定整数N，所述装置包括：

用于每组对象列表的，

第一获取单元，配置为，获取第i个状态特征向量，所述第i个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括该组对象列表中所述i-1个对象各自的属性特征；

输入单元，配置为，将所述第i个状态特征向量输入所述强化学习模型，以使得所述强化学习模型输出与该第i个状态特征向量对应的权重向量，所述权重向量包括预定数目的排序特征各自的权重；

第二获取单元，配置为，获取与该组对象列表对应的候选对象集合中各个对象的排序特征向量，所述排序特征向量包括所述预定数目的排序特征各自的特征值；以及

计算单元，配置为，基于所述候选对象集合中各个对象的排序特征向量与所述权重向量的点积，计算所述候选对象集合中各个对象的分数；以及

第一确定单元，配置为，对于所述M组对象列表，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，确定更新的M组对象列表，其中，所述更新的M组对象列表中的每组对象列表包括i个对象。

12.根据权利要求11所述的装置，其中，所述动态特征至少包括所述i-1个对象各自的以下属性特征：当前热度、对象标识、对象所属类型。

13.根据权利要求11所述的装置，其中，所述M组对象列表中包括第一组对象列表，与该第一组对象列表对应的候选对象集合中包括第一对象，与该第一对象对应的排序特征向量至少包括以下排序特征的值：所述第一用户对该第一对象的预估点击率、该第一对象的当前热度、该第一对象相对于所述第一组对象列表中的i-1个对象的多样性。

14.根据权利要求11所述的装置，其中，已预先通过所述方法确定有M组对象列表包括，已预先通过所述方法确定有一组对象列表，其中，所述第一确定单元还配置为，基于与该组对象列表对应的候选对象集合中各个对象的分数，以所述候选对象集合中分数最高的对象作为该组对象列表的第i个对象，并将该组对象列表作为更新的一组对象列表。

15.根据权利要求11所述的装置，其中，M大于等于2，其中，所述第一确定单元还配置为，基于与所述M组对象列表分别对应的M个候选对象集合中各个对象的分数，通过集束搜索算法确定更新的M组对象列表。

16.根据权利要求15所述的装置，其中，i等于N，所述装置还包括，第二确定单元，配置为，通过集束搜索算法，从所述更新的M组对象列表中确定针对所述第一用户的推送对象列表。

17.根据权利要求16所述的装置，还包括，

推送单元，配置为，以所述推送对象列表中各个对象的排列顺序，向所述第一用户推送所述各个对象，以获取所述第一用户的反馈；

第三获取单元，配置为，基于所述排列顺序和所述反馈获取N个回报值，所述N个回报值与对所述方法的从i＝1至N的N次循环分别对应；

第四获取单元，配置为，获取第N+1个状态特征向量，所述第N+1个状态特征向量包括静态特征和动态特征，其中，所述静态特征包括所述第一用户的属性特征，所述动态特征包括所述推送对象列表中N个对象各自的属性特征；以及

训练单元，配置为，基于与所述N次循环分别对应的N组数据训练所述强化学习模型，以优化所述强化学习模型，其中，所述N组数据包括第1至第N组数据，其中，第i组数据包括：与所述推送对象列表对应的第i个状态特征向量、与该第i个状态特征向量对应的权重向量、与所述推送对象列表对应的第i+1个状态特征向量、以及与第i次循环对应的回报值。

18.根据权利要求17所述的装置，其中，所述对象为询问问题，对于第1至N-1次循环中的第i次循环，与所述第i次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第i个问题。

19.根据权利要求18所述的装置，与所述第N次循环对应的回报值基于所述第一用户的如下反馈获取：是否点击所述推送对象列表中的第N个问题、以及提交的满意度信息。

20.根据权利要求17所述的装置，其中，所述强化学习模型为基于深度确定策略梯度算法的模型。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。

完整全部详细技术资料下载

当前第2页1 2 3