1.一种基于表示与度量的用户个性化强化学习推荐系统,其特征在于,接受商品图像输入并获得图像的表征,将在线收集用户数据过程与离线策略训练过程相结合;包括在线收集用户数据模块和离线策略训练及执行推荐模块;在线收集用户数据模块,用于获取推荐商品与用户操作的在线交互过程中的数据;离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐;
2.根据权利要求1所述的基于表示与度量的用户个性化强化学习推荐系统,其特征在于,在线收集用户数据模块,用于获取推荐商品与用户操作的在线交互过程中的数据,在线收集用户数据模块的执行流程具体为:
3.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统,其特征在于,所述步骤108中,将拼接后的数据输入到编码器中,编码器用于得到拼接后的数据的表示。
4.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统,其特征在于,所述步骤109中,奖励函数要同时考虑用户的点击行为和浏览时间,奖励函数rt=f(ct)+g(et),其中f(ct)需要检查用户的点击行为ct,若未点击则给出一个较大的负的奖励值,若点击了自行搜索的商品则给出一个较小的负奖励值,否则给出一个正的奖励值;而g(et)函数与浏览时间et正相关,给定一个基准的时间值t0,计算用户在界面的浏览时间tt与这一基准时间值的比值ρ=tt/t0,将这个比值归一化得到一个与浏览时间有关的奖励值;在生成奖励值后,将该奖励值拼接至序列中,输入到离线策略训练过程中。
5.根据权利要求2所述的基于表示与度量的用户个性化强化学习推荐系统,其特征在于,离线策略训练及执行推荐模块执行离线策略训练过程和商品信息推荐,具体流程为: