本申请属于商品推荐,尤其涉及一种基于深度强化学习的商品推荐系统。
背景技术:
1、互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是随着网络的迅速发展而带来了网上信息量的大幅增长,使得用户在面对大量信息时无法从获得对自己真正有用的信息,对信息的使用效率反而降低。针对该问题,推荐系统应运而生。推荐系统被广泛的应用在电子商务、影视推荐、音乐电台推荐、社交网络、个性化阅读、个性化广告等领域中。
2、目前在商品推荐系统中,大多基于强化学习实现,但目前推荐系统普遍使用单一智能体实现,从而造成推荐系统的推荐精度低。
技术实现思路
1、本申请实施例提供了一种基于深度强化学习的商品推荐系统,可以解决商品推荐系统的推荐精度低的问题。
2、本申请实施例提供了一种基于深度强化学习的商品推荐系统,包括:分类智能体、与多个用户分组一一对应的多个组内智能体,以及与多类商品一一对应的多个商品智能体;
3、分类智能体用于根据待推荐用户的属性信息、待推荐用户在历史时间段内购买的商品和商品的类别、待推荐用户在当前时间段内浏览的商品的类别以及商品中被查看详情的商品,从多个组内智能体中筛选出待推荐用户所属的目标组内智能体;
4、目标组内智能体用于根据待推荐用户在当前时间段内浏览的商品、商品的类别和商品的浏览时间,从多个商品智能体中筛选出待推荐用户所属的目标商品智能体;
5、目标商品智能体用于根据待推荐用户的属性信息、待推荐用户在历史时间段内购买的商品、商品的类别以及商品的价格,输出待推荐用户的商品推荐列表;
6、分类智能体、目标组内智能体和目标商品智能体的参数是利用深度强化学习训练得到的。
7、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,分类智能体的状态s1为:
8、s1=(ui,li,gli)
9、其中,ui表示待推荐用户i的属性信息,ui=(baddr,naddr,age,in,ca,ou),baddr表示待推荐用户i的出生地,naddr表示待推荐用户i的现居地,age表示待推荐用户i的年龄,in表示待推荐用户i的平均月收入,ca表示待推荐用户i的职业,ou表示待推荐用户i的平均月开销;li表示待推荐用户i在历史时间段内购买的商品的类别以及在当前时间段内浏览的商品的类别,表示待推荐用户i在当前时间段内浏览的商品的类别,表示待推荐用户i在历史时间段内购买的商品的类别,gli表示待推荐用户i在历史时间段内购买的商品以及在当前时间段内浏览的商品中被查看详情的商品,表示待推荐用户i在当前时间段内浏览的商品中被查看详情的商品,表示待推荐用户i在历史时间段内购买的商品。
10、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,分类智能体的动作a1为:
11、a1=(a),a∈[0,gn-1]
12、其中,a表示目标组内智能体的组号,gn表示组内智能体的数量。
13、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,目标组内智能体j的状态为:
14、
15、其中,gid表示目标组内智能体j的组号,gask表示待推荐用户i在当前时间段内浏览的商品在类别k内的指数,k=1,…,ng,ng表示商品的类别数量,maxl表示待推荐用户i在当前时间段内浏览的商品中属于类别k的数量,tl表示待推荐用户i浏览类别k内第l个商品的浏览时间,maxq表示待推荐用户i在当前时间段内浏览的商品的数量,tq表示待推荐用户i浏览第q个商品的浏览时间。
16、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,目标组内智能体j的动作为:
17、
18、其中,gak表示类别k对应的商品智能体的推荐值,若gak为1,则表明类别k对应的商品智能体为目标商品智能体。
19、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,目标商品智能体k的状态s3为:
20、s3=(ui,avgi,indexg)
21、其中,ui表示待推荐用户i的属性信息,avgi表示待推荐用户i在历史时间段内购买的商品中属于类别k的所有商品的平均价格,indexg表示待推荐用户i购买商品超出均值的指数,maxx表示待推荐用户i在历史时间段内购买的类别k的所有商品中超出avgi的商品数量,sax表示超出avgi的商品中第x个商品的价格,totalg表示待推荐用户i在历史时间段内购买的商品中属于类别k的商品数量。
22、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,目标商品智能体k的动作为:
23、
24、其中,gl表示输出给待推荐用户的商品推荐列表,gl为一个n元组,包括类别k内的n个商品。
25、可选的,在利用深度强化学习对分类智能体、目标组内智能体和目标商品智能体进行训练的过程中,目标商品智能体k对应的奖励值为:
26、
27、目标组内智能体对应的奖励值r2为:
28、
29、分类智能体对应的奖励值r1为:
30、r1=r2
31、其中,n表示商品推荐列表中商品的数量,d表示推荐列表中最终购买的产品数量,ng表示商品的类别数量。
32、本申请的上述方案有如下的有益效果:
33、在本申请的实施例中,采用分层强化学习对负责用户分类、商品分类以及商品推荐这三类不同的智能体进行训练,这与单层强化学习相比,各个类型的智能体都能更加专注地针对自身对应的任务有效学习复杂的知识,在分层强化学习后,分别由不同的智能体负责用户分类、商品分类以及商品推荐,从而大大提升了商品的推荐精度。
34、本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
1.一种基于深度强化学习的商品推荐系统,其特征在于,包括:分类智能体、与多个用户分组一一对应的多个组内智能体,以及与多类商品一一对应的多个商品智能体;
2.根据权利要求1所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述分类智能体的状态s1为:
3.根据权利要求2所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述分类智能体的动作a1为:
4.根据权利要求1所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述目标组内智能体j的状态为:
5.根据权利要求4所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述目标组内智能体j的动作为:
6.根据权利要求1所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,目标商品智能体k的状态s3为:
7.根据权利要求6所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述目标商品智能体k的动作为:
8.根据权利要求1所述的商品推荐系统,其特征在于,在利用深度强化学习对所述分类智能体、所述目标组内智能体和所述目标商品智能体进行训练的过程中,所述目标商品智能体k对应的奖励值为: