游戏商品的推荐方法、装置及可读存储介质与流程

文档序号:18453488发布日期:2019-08-17 01:25阅读:176来源:国知局
游戏商品的推荐方法、装置及可读存储介质与流程

本申请实施例涉及计算机技术领域,尤其涉及一种游戏商品的推荐方法、装置及可读存储介质。



背景技术:

随着计算机技术的发展,利用数据分析技术为用户提供更精准的商品推荐服务成为可能。特别的,在游戏领域,与普通商品不同的是,游戏商品的属性更为多样化,这也使得如何为玩家推荐更为精准的游戏商品成为难题。

现有技术中,一般是基于聚类算法实现为玩家推荐游戏商品的,通过利用距离算法分析玩家浏览的当前游戏商品与其他游戏商品之间的距离,进而从中找到与该当前游戏商品最为相似的游戏商品,以作为推荐游戏商品进行推荐。

但是,在上述基于聚类算法实现的对游戏商品的推荐,尽管能够使得推荐的游戏商品在整体属性上与玩家浏览的当前游戏商品的保持较高的相似度,但考虑到游戏商品的属性更为多样化,玩家对于游戏商品的某一子属性更为倚重。即,推荐的游戏商品没有考虑到玩家实际所关注的当前游戏商品子属性,这将使得推荐的游戏商品并不能与玩家的实际需求匹配。



技术实现要素:

为了解决上述提及的问题,本发明提供了一种游戏商品的推荐方法、装置及可读存储介质。

一方面,本发明提供了一种游戏商品的推荐方法,包括:

获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;

将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;

将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐。

在其中一种可选的实施方式中,所述将所述玩家的当前状态集输入强化学习算法模型之前,还包括:

判断所述玩家是否触发对游戏商品的推荐请求;

若是,则执行所述将所述玩家的当前状态集输入强化学习算法模型的步骤。

在其中一种可选的实施方式中,当所述玩家未触发对游戏商品的推荐请求时,所述游戏商品的推荐方法还包括:

获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量;

将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中与玩家相应的属性预测矩阵集合进行更新。

在其中一种可选的实施方式中,所述将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中与玩家相应的属性预测矩阵集合进行更新,包括:

在预设的奖励函数中确定所述对当前游戏商品的行为作所对应的奖励值;

利用更新公式,对玩家相应的属性预测矩阵集合中每一属性的概率矩阵进行更新,所述更新公式为qnew(s,α)=(1-lr)·q(s,α)+lr·[r+γ·maxq(α,α')];

其中,所述qnew(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的更新后概率值,q(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的概率值,maxq(α,α')表示概率矩阵q在前一游戏商品的特征向量为α时,当前游戏商品的各属性特征向量的概率值中的概率最大值,所述lr为预设的算法学习率,所述r为所述奖励值,所述γ为预设的折现因子。

在其中一种可选的实施方式中,所述将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量,包括:

根据当前状态集中的玩家自身的特征向量调用相应的属性预测矩阵集合;其中,所述属性预测矩阵集合中包括有每一属性的概率矩阵;

针对当前游戏商品的各属性特征向量,利用相应的概率矩阵进行预测处理,获得各属性预测特征向量。

在其中一种可选的实施方式中,所述将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,包括:

将所述各属性预测特征向量作为各约束条件,并利用各约束条件在预设的游戏商品库中获得推荐游戏商品,以进行推荐。

在其中一种可选的实施方式中,将所述各属性预测特征向量作为约束条件,并利用该约束条件在预设的游戏商品库中获得推荐游戏商品,包括:

将所述各属性预测特征向量作为约束条件,并获取该每一预测特征向量的权重;

根据每一约束条件以及相应的权重在预设的游戏商品库中获得推荐游戏商品。

又一方面,本发明提供了一种游戏商品的推荐装置,包括:

交互模块,用于获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;

处理模块,用于将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;

所述交互模块还用于将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐。

在其中一种可选的实施方式中,所述处理模块在将所述玩家的当前状态集输入强化学习算法模型之前,还用于在玩家触发对游戏商品的推荐请求时,执行所述将所述玩家的当前状态集输入强化学习算法模型的步骤;

所述处理模块在所述玩家未触发对游戏商品的推荐请求时,获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量;将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中与玩家相应的属性预测矩阵集合进行更新。

再一方面,本发明提供了一种游戏商品的推荐装置,包括:存储器、处理器以及计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如前任一项所述的方法。

最后一方面,本发明提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理执行以实现如前任一项所述的方法。

本发明提供的游戏商品的推荐方法、装置及可读存储介质,通过获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,从而使得在为玩家推荐游戏商品时,所使用的强化学习算法模型综合考虑玩家浏览的历史游戏商品以及浏览的当前游戏商品对推荐游戏商品造成的因素,以为玩家推荐能满足其真实需求的游戏商品。

附图说明

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

图1为本发明基于的网络架构示意图;

图2为本发明实施例一提供的一种游戏商品的推荐方法的流程示意图;

图3为本发明实施例二提供的一种游戏商品的推荐方法的流程示意图;

图4为本发明实施例三提供的一种游戏商品的推荐装置的结构示意图;

图5为本发明实施例四提供的一种游戏商品的推荐装置的硬件示意图。

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着计算机技术的发展,利用数据分析技术为用户提供更精准的商品推荐服务成为可能。特别的,在游戏领域,与普通商品不同的是,游戏商品的属性更为多样化,这也使得如何为玩家推荐更为精准的游戏商品成为难题。

现有技术中,一般是基于聚类算法实现为玩家推荐游戏商品的,通过利用距离算法分析玩家浏览的当前游戏商品与其他游戏商品之间的距离,进而从中找到与该当前游戏商品最为相似的游戏商品,以作为推荐游戏商品进行推荐。

但是,在上述基于聚类算法实现的对游戏商品的推荐,尽管能够使得推荐的游戏商品在整体属性上与玩家浏览的当前游戏商品的保持较高的相似度,但考虑到游戏商品的属性更为多样化,玩家对于游戏商品的某一子属性更为倚重。即,推荐的游戏商品没有考虑到玩家实际所关注的当前游戏商品子属性,这将使得推荐的游戏商品并不能与玩家的实际需求匹配。

当然,在其他的现有技术中,还可根据玩家的历史浏览记录建立模型,以直接预测玩家可能感兴趣的游戏商品的属性,以确定推荐游戏商品。但是,由于游戏商品的属性的多样化,且推荐的系统与玩家浏览行为之间是相互影响的,采用该方法无法很好的对历史浏览记录模型进行计时更新,这也导致推荐的游戏商品的推荐效果不佳。

为了解决上述提及的问题,本发明提供了一种游戏商品的推荐方法、装置及可读存储介质。图1为本发明基于的网络架构示意图,如图1所示,在本发明所基于的网络架构中至少包括游戏商品的推荐装置1以及终端2。

该游戏商品的推荐装置1可为架设在云端的服务器或服务器集群,其可用于存储数据并按照预设的处理逻辑对数据进行计算和处理。

终端2具体可为智能手机、平板电脑、台式计算机、智能游戏机等可用于玩家进行游戏体验的硬件设备,其中,该终端2上可安装有游戏客户端或提供游戏体验界面,即在该客户端或界面上玩家可触发相应的游戏操作,该游戏操作包括但不限于控制游戏角色进行游戏体验、浏览游戏商品、购买游戏商品等等。

游戏商品的推荐装置1和终端2可通过无线通信或有线通信的方式取得连接并进行数据交互。

图2为本发明实施例一提供的一种游戏商品的推荐方法的流程示意图,如图2所示,该游戏商品的推荐方法,包括:

步骤101、获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;

步骤102、将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;

其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;

步骤103、将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐。

需要说明的是,本实施方式提供的游戏商品的推荐方法的执行主体是图1所示的游戏商品的推荐装置。此外,本实施方式中所述的强化学习算法模型具体可为多种模型,特别的,可采用改进型的q-learning算法模型。

具体来说,本实施方式为了给玩家提供更为精准的游戏商品的推荐服务。首先,游戏商品的推荐装置将获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集。

其中,玩家以及其浏览的当前商品均是通过终端采集得到,即终端将记录玩家的id、玩家的身份、玩家游戏行为等一系列的游戏数据,并将其发送至游戏商品的推荐装置,以供其分析。

其中,游戏商品的推荐装置将采用用户画像系统对于获得的游戏数据进行玩家的画像分析,以获得玩家自身的特征向量。其中,对玩家进行画像分析可对玩家进行标签化,以使每一玩家均可用若干标签进行描述,这些标签具体可用于反映玩家的基本特征,如性别、年龄段、在游戏中的消费水平等等,还可用于反映玩家的兴趣或性格等特征,如喜欢的游戏类型、喜欢的游戏商品类型等等;还可用于反映玩家在游戏过程中的游戏操作水平、游戏态度、游戏操作风格等与游戏行为相关的行为特征。也就是说,通过对于玩家的游戏数据进行画像分析,从而可获得玩家在不同特征维度上的画像标签,并基于该画像标签得到玩家自身的特征向量。需要说明的是,对玩家的游戏数据进行画像分析具体可采用现有的画像分析算法实现,本发明对此不进行限制。

此外,游戏商品的推荐装置还将根据玩家对游戏商品的浏览行为的游戏数据进行分析,以获得玩家浏览的当前游戏商品的各属性特征向量。

其中,游戏商品一般指代的是游戏中的道具,如角色的武器、防具装备、药剂、时装等等。针对于游戏商品的不同,其属性一般也不同:例如,针对于武器来说,其属性一般为伤害值、攻击范围、特殊技能、元素属性、冷却时长、价格信息等等;再例如,针对于时装来说,其属性一般为适用地点、适用时长、价格信息、适用角色位置、适用角色职业等等;还例如,针对于药剂来说,其属性则可为伤害值或恢复值、持续时间、元素属性、抗药属性等等。

也就是说,基于游戏商品的多样化,其每一游戏商品的属性均不同,在本发明中,游戏商品的推荐装置将获取玩家浏览的当前游戏商品的数据,并获得该当前游戏商品的各属性特征向量。如,对于武器来说,上述的伤害值、攻击范围、特殊技能、元素属性、冷却时长、价格信息均为武器的不同属性,针对于每一属性的属性信息均可用特征向量进行描述,如伤害属性中的伤害值为20至25,其特征向量可表示为[20,25]。需要说明的是,上述举例仅为本发明提供的其中一种可实现方式,本领域技术人员可根据游戏商品的不同以及游戏类型的不同,对于属性和特征向量所表示的具体内容和表示方式进行自行设置,本发明对此不进行任何限制。

当游戏商品的推荐装置获取到玩家自身的特征向量,以及玩家浏览的当前游戏商品的各属性特征向量,并基于这些向量构建玩家的当前状态集,以使强化学习算法模型可对该玩家的当前状态集进行处理。

随后,所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量。

在本发明所采用的推荐方法中,利用的是强化学习算法模型中的改进型q-learning算法模型以对当前状态集进行处理,以实现对于玩家可能感兴趣的游戏商品的各属性预测特征向量的输出。

具体来说,在改进型q-learning算法模型中,针对与不同类型的玩家,可预设有不同的属性预测矩阵集合以进行数据处理。其中,不同类型的玩家具体可体现为不同的玩家当前状态的特征向量,也就是说,针对于任意两个玩家来说,当其二者的玩家自身的特征向量相同时,其二者所对应的类型相同,此时,其二者所采用的属性预测矩阵集合也相同。同时,属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的,其可反映玩家在一段时间内所浏览的游戏商品过程中,对各属性的偏好。

因此,游戏商品的推荐装置将根据玩家自身的特征向量从预存的若干属性预测矩阵集合中调用与该玩家自身的特征向量相匹配或相关联的那个属性预测矩阵集合,以利用该属性预测矩阵集合对获取的该玩家当前状态集中的各属性特征向量进行相应处理。即,根据所述玩家自身的特征向量调用相应的属性预测矩阵集合;其中,所述属性预测矩阵集合中包括有每一属性的概率矩阵;针对当前游戏商品的各属性特征向量,利用相应的概率矩阵进行预测处理,获得各属性预测特征向量。

需要说明的是,任一属性预测矩阵集合具体可由全部属性的概率矩阵组成,而每一概率矩阵均对应一个游戏商品的属性,例如,伤害值概率矩阵用于计算伤害值这一属性的属性预测特征向量。

此外,在本实施方式中的概率矩阵具体可为二维矩阵,其中,每一概率矩阵每一元素的其中一个方向的坐标可用于表示当前游戏商品的属性特征向量,另一方向的坐标可用于表示预测的或推荐的属性预测特征向量,每一坐标组所对应的元素值则为概率值。

表1展示了的一种伤害值概率矩阵,如下表1所示的,当前述的当前武器的伤害值为[20,25]时,玩家下次触发伤害值为[20,25]的有效浏览行为的概率为0.6,触发伤害值为[1,24]]的有效浏览行为的概率为0.1,触发伤害值为[26,50]的有效浏览行为的概率为0.3。

表1

通过利用各概率矩阵,可将概率值最大的属性预测特征向量作为输出的属性预测特征向量并进行输出。此时,游戏商品的推荐装置将获得当前游戏商品的每一属性所对应的属性预测特征向量。

然后,游戏商品的推荐装置会将所述各属性预测特征向量作为各约束条件,并利用各约束条件在预设的游戏商品库中获得推荐游戏商品,以进行推荐。具体来说,在游戏商品库中,各游戏商品是可以按照属性进行分类、筛选和查找的。因此,前述获得的各属性预测特征向量可作为约束条件,即查询条件,以便游戏商品的推荐装置在游戏商品库中进行查询和筛选,获得符合各约束条件的推荐游戏商品。

在优选的实施例中,在一些情况下,游戏商品库中并没有符合全部约束条件的游戏商品,此时,游戏商品的推荐装置可将所述各属性预测特征向量作为约束条件,并获取该每一预测特征向量的权重,根据每一约束条件以及相应的权重在预设的游戏商品库中获得推荐游戏商品。具体来说,若获得的伤害值这一属性预测特征向量所对应的概率值为0.2,元素属性这一属性预测特征向量所对应的概率值为0.9,价格信息这一属性预测特征向量所对应的概率值为0.8,此时,可将概率值较低的伤害值这一属性预测特征向量的权重调低,或置零,以使推荐游戏商品能够满足概率值较高,即权重较大,的属性所对应的属性预测特征向量。

本发明提供的游戏商品的推荐方法,通过获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,从而使得在为玩家推荐游戏商品时,所使用的强化学习算法模型综合考虑玩家浏览的历史游戏商品以及浏览的当前游戏商品对推荐游戏商品造成的因素,以为玩家推荐能满足其真实需求的游戏商品。

图3为本发明实施例二提供的一种游戏商品的推荐方法的流程示意图,如图3所示,该游戏商品的推荐方法,包括:

步骤201、获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;

步骤202、判断所述玩家是否触发对游戏商品的推荐请求;

若是,则执行步骤203,若否,则执行步骤205。

步骤203、将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;

其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;

步骤204、将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐;

步骤205、获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量;

步骤206、将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中玩家自身的特征向量相应的属性预测矩阵集合进行更新。

需要说明的是,本实施方式提供的游戏商品的推荐方法的执行主体是图1所示的游戏商品的推荐装置1。

首先,游戏商品的推荐装置1会获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集。其具体实现方式与实施例一类似,在此不做赘述。

而与前述实施例不同的是,在本实施例二中还将判断玩家是否触发对游戏商品的推荐请求。

也就是说,当且仅当玩家通过终端向游戏商品的推荐装置发送游戏商品的推荐请求时,游戏商品的推荐装置才会将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐。当然,在本实施例二中的上述的推荐过程与前述实施方式类似,在此不进行赘述。

此外,而与前述实施例不同的是,当所述玩家未触发对游戏商品的推荐请求时,游戏商品的推荐装置将获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量。具体的,与当前状态集类似的是,在玩家的上一状态集中将包括有玩家浏览的上一游戏商品的各属性特征向量。

游戏商品的推荐装置将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中玩家自身的特征向量相应的属性预测矩阵集合进行更新。

具体来说,q-learning算法模型是一种基于奖励机制的强化学习算法。若将玩家看作模型动作的环境,如果玩家点击或者购买了推荐装置所推荐的游戏商品,则推荐装置的算法模型将获得奖励。而推荐装置的目标就是优化q-learning算法模型的推荐策略,以获得最大的累积奖励。

进一步来说,针对于游戏商品的各属性,均可定义奖励函数,该奖励函数可例如:

在该奖励函数中,freward(s)为属性s的奖励值,例如,当推荐游戏商品被玩家下单,奖励值为100;当推荐游戏商品仅被查看悬浮详情,奖励值为1。

因此,利用前述获得的玩家的上一状态集、当前状态集以及奖励函数,能够实现对于强化学习算法模型中该玩家对应的属性预测矩阵集合的更新。

在其中一种可选的实施方式中,将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中玩家自身的特征向量相应的属性预测矩阵集合进行更新,可采用如下方式:

首先,在预设的奖励函数中确定所述对当前游戏商品的行为作所对应的奖励值,其中奖励函数如前述,在此不进行赘述。对当前游戏商品的行为具体可包括查看悬浮详情、查看详情、查看推荐物品详情、下单以及其他情况。

利用更新公式,对所述强化学习算法模型中的属性预测矩阵集合中每一属性的概率矩阵进行更新,其中,更新公式为:

qnew(s,α)=(1-lr)·q(s,α)+lr·[r+γ·maxq(α,α')];

其中,所述qnew(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的更新后概率值,q(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的概率值,maxq(α,α')表示概率矩阵q在前一游戏商品的属性特征向量为α时,当前游戏商品的各属性特征向量的概率值中的概率最大值,所述lr为预设的算法学习率,所述r为所述奖励值,所述γ为预设的折现因子。

以表1所示的概率矩阵为例,若当前状态集中的属性特征向量为[20,25],而上一状态集中的属性特征向量为[1,24],则:

qnew([1,24],[20,25])=(1-lr)·q([1,24],[20,25])+lr·[r+γ·q([1,24],[1,24])];

即,qnew([1,24],[20,25])=(1-lr)·0.2+lr·[r+γ·0.8];

也就是说,更新后的表1中,属性特征向量为[1,24],属性预测特征向量为[20,25]所对应的概率值为[(1-lr)·0.2+lr·[r+γ·0.8]]。

通过该方式,能够对概率矩阵中的概率值进行快速更新,以保证推荐装置能够为玩家推荐更为准确的游戏商品。

本发明提供的游戏商品的推荐方法,通过获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用玩家的当前状态集相应的属性预测矩阵集合,输出各属性预测特征向量;其中,所述属性预测矩阵集合是所述强化学习算法模型根据玩家浏览的历史游戏商品的各属性特征向量确定的;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,从而使得在为玩家推荐游戏商品时,所使用的强化学习算法模型综合考虑玩家浏览的历史游戏商品以及浏览的当前游戏商品对推荐游戏商品造成的因素,以为玩家推荐能满足其真实需求的游戏商品。

图4为本发明实施例三提供的一种游戏商品的推荐装置的结构示意图,如图4所示,该游戏商品的推荐装置,包括:

交互模块10,用于获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;

处理模块20,用于将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;

所述交互模块10还用于将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐。

在其中一种可选的实施方式中,游戏商品的推荐装置还包括判断模块,该判断模块用于在将所述玩家的当前状态集输入强化学习算法模型之前,判断所述玩家是否触发对游戏商品的推荐请求;

若是,则处理模块20执行所述将所述玩家的当前状态集输入强化学习算法模型的步骤。

在其中一种可选的实施方式中,当所述玩家未触发对游戏商品的推荐请求时,处理模块20还用于:获取玩家对当前游戏商品的行为,并调用所述玩家的上一状态集;其中,所述上一状态集中包括有玩家浏览的上一游戏商品的各属性特征向量;将所述玩家的上一状态集、当前状态集输入强化学习算法模型,以使所述强化学习算法模型将所述对当前游戏商品的行为作为模型奖励,对所述强化学习算法模型中玩家自身的特征向量相应的属性预测矩阵集合进行更新。

在其中一种可选的实施方式中,所述处理模块20具体用于:在预设的奖励函数中确定所述对当前游戏商品的行为作所对应的奖励值;利用更新公式,对玩家相应的属性预测矩阵集合中每一属性的概率矩阵进行更新,所述更新公式为qnew(s,α)=(1-lr)·q(s,α)+lr·[r+γ·maxq(α,α')];其中,所述qnew(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的更新后概率值,q(s,α)表示前一游戏商品的特征向量为s且当前游戏商品的特征向量为α时的概率值,maxq(α,α')表示概率矩阵q在前一游戏商品的特征向量为α时,当前游戏商品的各属性特征向量的概率值中的概率最大值,所述lr为预设的算法学习率,所述r为所述奖励值,所述γ为预设的折现因子。

在其中一种可选的实施方式中,所述处理模块20具体用于:根据所述玩家自身的特征向量调用相应的属性预测矩阵集合;其中,所述属性预测矩阵集合中包括有每一属性的概率矩阵;针对当前游戏商品的各属性特征向量,利用相应的概率矩阵进行预测处理,获得各属性预测特征向量。

在其中一种可选的实施方式中,所述处理模块20还用于将所述各属性预测特征向量作为各约束条件,并利用各约束条件在预设的游戏商品库中获得推荐游戏商品,以供交互模块10进行推荐。

在其中一种可选的实施方式中,所述处理模块20具体用于将所述各属性预测特征向量作为约束条件,并获取该每一预测特征向量的权重;根据每一约束条件以及相应的权重在预设的游戏商品库中获得推荐游戏商品。

本发明提供的游戏商品的推荐装置,通过获取玩家浏览的当前游戏商品的各属性特征向量,以及玩家自身的特征向量,构成玩家的当前状态集;将所述玩家的当前状态集输入强化学习算法模型,以使所述强化学习算法模型调用的玩家自身的特征向量相应的属性预测矩阵集合,输出各属性预测特征向量;将与各属性预测特征向量匹配的游戏商品作为推荐游戏商品并进行推荐,从而使得在为玩家推荐游戏商品时,充分考虑玩家自身特征以及玩家浏览的当前游戏商品的属性,进而能够准确的为玩家推荐符合其当前需求的游戏商品。

图5为本发明实施例四提供的一种游戏商品的推荐装置的硬件示意图,如图5所示,该游戏商品的推荐装置包括:处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述实施例的方法。

本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述任一实施例的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1