一种基于表示与度量的用户个性化强化学习推荐系统

文档序号：37123016发布日期：2024-02-22 21:30阅读：来源：国知局

技术特征：

1.一种基于表示与度量的用户个性化强化学习推荐系统，其特征在于，接受商品图像输入并获得图像的表征，将在线收集用户数据过程与离线策略训练过程相结合；包括在线收集用户数据模块和离线策略训练及执行推荐模块；在线收集用户数据模块，用于获取推荐商品与用户操作的在线交互过程中的数据；离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐；

2.根据权利要求1所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，在线收集用户数据模块，用于获取推荐商品与用户操作的在线交互过程中的数据，在线收集用户数据模块的执行流程具体为：

3.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，所述步骤108中，将拼接后的数据输入到编码器中，编码器用于得到拼接后的数据的表示。

4.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，所述步骤109中，奖励函数要同时考虑用户的点击行为和浏览时间，奖励函数rt＝f(ct)+g(et)，其中f(ct)需要检查用户的点击行为ct，若未点击则给出一个较大的负的奖励值，若点击了自行搜索的商品则给出一个较小的负奖励值，否则给出一个正的奖励值；而g(et)函数与浏览时间et正相关，给定一个基准的时间值t0，计算用户在界面的浏览时间tt与这一基准时间值的比值ρ＝tt/t0，将这个比值归一化得到一个与浏览时间有关的奖励值；在生成奖励值后，将该奖励值拼接至序列中，输入到离线策略训练过程中。

5.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统，其特征在于，离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐，具体流程为：

技术总结
本发明公开一种基于表示与度量的用户个性化强化学习推荐系统，使用代表一般用户偏好的数据集和预训练模型进行初始化，并按时间步收集用户数据并更新强化学习模型。使用图像数据代表商品，将用户的操作历史通过表示学习方法得到便于计算和度量的表示，根据用户历史数据，按照强化学习策略给出推荐商品集，并依照用户的点击行为与界面浏览时间计算出奖励值。将表示、推荐商品集和奖励值拼接起来，存储到回放缓存中，度量缓存中数据与当前观测值的相似度并采样相似度较高的缓存序列，进一步更新强化学习的策略，以实现持续地与用户交互并给出推荐。本发明考虑商品的图像输入，提高了缓存中历史数据与同策略行为的相似度，有利于实现用户的个性化推荐。

技术研发人员：詹德川,叶翰嘉,韩路,孙海航,周志华
受保护的技术使用者：南京大学
技术研发日：
技术公布日：2024/2/21

完整全部详细技术资料下载

当前第2页1 2