一种交互式的项目推荐方法、装置及计算机可读存储介质

文档序号：36088685发布日期：2023-11-18 06:50阅读：38来源：国知局

本发明涉及面向大数据的深度学习领域，尤其涉及一种交互式的项目推荐方法、装置及介质。

背景技术：

1、基于深度强化学习的交互式推荐系统可以通过与用户的交互来学习其偏好，并为其推荐相关项目。相较于传统推荐系统，基于深度强化学习的交互式推荐系统更能敏感地从环境中感知用户偏好的变化。

2、深度强化学习算法与基于这类算法建模的推荐系统面临的主要问题是相似的，即在高维状态空间下进行动作探索和决策的复杂度问题，以及在函数策略优化方面的收敛性问题。而基于深度学习的传统推荐系统虽然能通过分析用户与项目相关特征来提升系统对用户固定偏好的预测能力，却无法针对偏好随时间不断变化的用户进行准确的推荐。

技术实现思路

1、本发明实施例提供一种交互式的项目推荐方法、装置及计算机可读存储介质，通过gmf网络增强对用户与项目之间相似信息的利用率，通过不断更新的评论家网络和行动者网络，降低用户偏好变化带来的偏差项对用户推荐内容的影响。

2、为实现上述目的，本申请实施例的第一方面提供了一种交互式的项目推荐方法，包括：

3、从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征；

4、使所述用户嵌入特征与所述项目嵌入特征通过训练好的gmf网络，获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量；

5、根据通过评论家网络得到的动作价值函数和自更新温控因子调节的熵项，确认行动者网络中的策略函数；

6、根据所述协同特征向量，得到当前状态；

7、根据所述当前状态和所述策略函数，得到当前动作并将所述当前动作转换成项目推荐列表。

8、在第一方面的一种可能的实现方式中，所述gmf网络的训练过程为：

9、从历史记录中获取用户真实偏好；

10、通过采样获得多个用户嵌入特征和多个项目嵌入特征；

11、在gmf层中，将每个用户嵌入特征与对应的项目嵌入特征进行特征交叉，得到多个交叉特征；

12、在丢弃层，通过随机选择并关关闭部分神经元，对所述多个交叉特征进行拟合；

13、在预测层，每次根据一个交叉特征获取用户预测偏好后，根据所述用户预测偏好和所述用户真实偏好的差异，更新一次预测函数。

14、在第一方面的一种可能的实现方式中，所述根据一个交叉特征获取用户预测偏好，具体包括：

15、采用全连接层的方式构建预测函数；

16、根据所述预测函数获取用户预测偏好。

17、在第一方面的一种可能的实现方式中，所述根据所述用户预测偏好和所述用户真实偏好的差异，更新一次预测函数，具体包括：

18、通过比较所述用户预测偏好和所述用户真实偏好的差异，更新损失函数的梯度；

19、根据所述损失函数对所述预测函数和所述丢弃层的参数进行更新。

20、在第一方面的一种可能的实现方式中，所述根据所述当前状态和所述策略函数，得到当前动作，具体包括：

21、根据所述当前状态确认当前状态下可选项目的集合；

22、根据每个项目的推荐记录确认屏蔽向量的取值；

23、根据所述当前状态下可选项目的集合、所述屏蔽向量和所述策略函数，获取当前动作。

24、在第一方面的一种可能的实现方式中，所述将所述当前动作转换成项目推荐列表，具体包括：

25、获取各个项目对应的推荐概率；

26、根据所述推荐概率的大小对各个项目进行降序排列；

27、将在降序排列中排在前面的预设数量的项目制作成项目推荐列表。

28、在第一方面的一种可能的实现方式中，所述得到当前动作并将所述当前动作转换成项目推荐列表之后，还包括：

29、通过与用户环境的实时交互获得当前奖励；

30、通过与用户环境的历史交互获得历史奖励；

31、根据所述历史奖励和所述当前奖励获得目标状态，并将所述当前状态、所述当前动作、所述当前奖励、所述目标状态以四元组的形式存入优先经验回放技术池；

32、从所述优先经验回放技术池采样四元组，将所述采样结果输入所述评论家网络中，从所述评论家网络中的动作价值函数获得动作价值项；

33、根据所述动作价值项和通过α函数得到的熵更新项，更新所述策略函数。

34、在第一方面的一种可能的实现方式中，所述更新所述策略函数之后，还包括：

35、根据所述动作价值函数对所述策略函数，得到策略函数评估项；

36、根据所述策略函数评估项和的真实动作价值项，更新动作价值函数和α函数；所述真实动作价值项是根据所述当前奖励和目标状态价值得到的，所述目标状态价值包含衰减因子的目标动作价值项与通过所述α函数得到的熵项，所述目标动作价值项是通过所述策略函数评估所述目标状态得到的。

37、本申请实施例的第二方面提供了一种交互式的项目推荐装置，包括：

38、随机获取模块，用于从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征；

39、向量获取模块，用于使所述用户嵌入特征与所述项目嵌入特征通过训练好的gmf网络，获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量；

40、函数确认模块，用于根据通过评论家网络得到的动作价值函数和自更新温控因子调节的熵项，确认行动者网络中的策略函数；

41、状态获取模块，用于根据所述协同特征向量，得到当前状态；

42、项目推荐模块，用于根据所述当前状态和所述策略函数，得到当前动作并将所述当前动作转换成项目推荐列表。

43、本申请实施例的第三方面提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述交互式的项目推荐方法。

44、相比于现有技术，本发明实施例提供的一种交互式的项目推荐方法、装置及计算机可读存储介质，推荐过程由gmf网络、评论家网络、行动者网络、模拟用户环境和优先经验回放池共同完成。通过gmf网络来训练用户与项目之间的交叉特征，从而增强推荐代理对用户与项目之间相似信息的利用率；通过含自更新温控因子α的α函数对评论家网络和行动者网络不断更新，减少偏差动作对推荐结果的影响。

45、由于gmf网络通过对偏好随时间不断变化的用户进行学习，得到新的用户嵌入特征更新gmf网络以适应用户的变化；评论家网络和行动者网络进行更新时也会将与用户的实时交互得到的当前奖励作为更新依据，得到新的评论家网络和行动者网络以适应用户的变化。

技术特征：

1.一种交互式的项目推荐方法，其特征在于，包括：

2.如权利要求1所述的交互式的项目推荐方法，其特征在于，所述gmf网络的训练过程为：

3.如权利要求2所述的交互式的项目推荐方法，其特征在于，所述根据一个交叉特征获取用户预测偏好，具体包括：

4.如权利要求2所述的交互式的项目推荐方法，其特征在于，所述根据所述用户预测偏好和所述用户真实偏好的差异，更新一次预测函数，具体包括：

5.如权利要求1所述的交互式的项目推荐方法，其特征在于，所述根据所述当前状态和所述策略函数，得到当前动作，具体包括：

6.如权利要求1所述的交互式的项目推荐方法，其特征在于，所述将所述当前动作转换成项目推荐列表，具体包括：

7.如权利要求1所述的交互式的项目推荐方法，其特征在于，所述得到当前动作并将所述当前动作转换成项目推荐列表之后，还包括：

8.如权利要求7所述的交互式的项目推荐方法，其特征在于，所述更新所述策略函数之后，还包括：

9.一种交互式的项目推荐装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的交互式的项目推荐方法。

技术总结
本发明公开一种交互式的项目推荐方法、装置及计算机可读存储介质，所述方法包括：从随机抽取的样品批次中获取用户嵌入特征与项目嵌入特征；使所述用户嵌入特征与所述项目嵌入特征通过训练好的GMF网络，获取由用户嵌入特征向量和项目嵌入特征向量拼接得到的协同特征向量；根据通过评论家网络得到的动作价值函数和自更新温控因子调节的熵项，确认行动者网络中的策略函数；根据所述协同特征向量，得到当前状态；根据所述当前状态和所述策略函数，得到当前动作并将所述当前动作转换成项目推荐列表。本发明通过GMF网络增强对用户与项目之间相似信息的利用率，通过不断更新的评论家网络和行动者网络，降低用户偏好变化对推荐内容的影响。

技术研发人员：魏文国,陈俊儒
受保护的技术使用者：广东技术师范大学
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏文国陈俊儒
技术所有人：广东技术师范大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。