目标操作的确定方法和装置、存储介质及电子装置与流程

文档序号:15700913发布日期:2018-10-19 19:49阅读:204来源:国知局

本发明涉及计算机领域,具体而言,涉及一种目标操作的确定方法和装置、存储介质及电子装置。



背景技术:

目前,相关技术中牌类游戏客户端均可以实现计算游戏玩家下一步操作,例如德州扑克游戏客户端可以计算游戏玩家是弃牌,还是加注;麻将游戏客户端可以计算打出哪张手牌等。但是,相关技术均是根据游戏玩家自身经验值计算其下一步操作,这样将会导致游戏玩家执行下一步操作后赢得该局游戏的胜出率较低。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种目标操作的确定方法和装置、存储介质及电子装置,以至少解决相关技术根据游戏玩家自身经验计算下一步操作,导致游戏玩家执行下一个操作后游戏胜出率较低的技术问题。

根据本发明实施例的一个方面,提供了一种目标操作的确定方法,客户端当前运行的一局游戏中所述第一游戏角色基于已获取到的第一对象所待执行的目标操作;响应于所述操作请求,获取目标特征向量,其中,所述目标特征向量至少用于指示基于所述已获取到的第一对象形成得到目标对象集合的概率,所述目标对象集合包括所述已获取到的第一对象;根据训练好的神经网络模型获取所述目标特征向量对应的所述目标操作,其中,所述训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,所述第一神经网络模型的输入参数为所述样本特征向量,所述第一神经网络模型的输出参数为所述样本操作,所述训练好的神经网络模型用于指示所述目标特征向量与所述目标操作之间的映射关系。

根据本发明实施例的另一方面,还提供了一种目标操作的确定装置,包括:检测单元,用于检测到第一游戏角色的操作请求,其中,所述操作请求用于请求在客户端当前运行的一局游戏中所述第一游戏角色基于已获取到的第一对象所待执行的目标操作;第一获取单元,用于响应于所述操作请求,获取目标特征向量,其中,所述目标特征向量至少用于指示基于所述已获取到的第一对象形成得到目标对象集合的概率,所述目标对象集合包括所述已获取到的第一对象;第二获取单元,用于根据训练好的神经网络模型获取所述目标特征向量对应的所述目标操作,其中,所述训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,所述第一神经网络模型的输入参数为所述样本特征向量,所述第一神经网络模型的输出参数为所述样本操作,所述训练好的神经网络模型用于指示所述目标特征向量与所述目标操作之间的映射关系。

根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行本发明实施例中任意一种目标操作的确定方法。

根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行本发明实施例中任意一种目标操作的确定方法。

在本发明实施例中,通过在检测到第一游戏角色的操作请求后,根据第一游戏角色已获取到的第一对象获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,然后利用训练好的神经网络模型获取目标特征向量对应的目标操作,达到了快速准确地确定游戏角色待执行的目标操作的目的,进而解决了相关技术根据游戏玩家自身经验计算下一步操作,导致游戏玩家执行下一个操作后游戏胜出率较低的技术问题,从而实现了提高游戏角色在游戏中的胜出率的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的目标操作的确定方法的硬件环境的示意图;

图2是根据本发明实施例的一种可选的目标操作的确定方法的流程图;

图3是根据本发明实施例的特征向量提取流程的示意图;

图4是根据本发明实施例的训练神经网络模型的示意图;

图5是根据本发明实施例的训练好的神经网络模型部署在客户端中的示意图;

图6是根据本发明实施例的训练好的神经网络模型部署在服务器中的示意图;

图7是根据本发明实施例的德州扑克游戏界面的示意图;

图8是根据本发明实施例的一种可选的目标操作的确定装置的示意图;以及

图9是根据本发明实施例的一种电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面,提供了一种目标操作的确定方法。

可选地,在本实施例中,上述目标操作的确定方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于pc、手机、平板电脑等。本发明实施例的目标操作的确定方法可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的目标操作的确定方法也可以是由安装在其上的客户端来执行。

可选地,终端104或者终端104上的客户端执行本发明实施例的目标操作的确定方法的过程可以描述为:客户端检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;客户端响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;客户端根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系。

可选地,终端104或终端104上的客户端和服务器102共同执行本发明实施例的目标操作的确定方法的过程可以描述为:客户端检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;客户端响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;客户端将目标特征向量发送给服务器102;服务器102根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系;服务器102将目标操作发送给客户端。

下面以客户端为执行主体对本发明实施例的目标操作的确定方法进行详细说明。

图2是根据本发明实施例的一种可选的目标操作的确定方法的流程图,如图2所示,该方法可以包括以下步骤:

步骤s202,检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;

步骤s204,响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;

步骤s206,根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系。

通过上述步骤s202至步骤s206,通过在检测到第一游戏角色的操作请求后,根据第一游戏角色已获取到的第一对象获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,然后利用训练好的神经网络模型获取目标特征向量对应的目标操作,达到了快速准确地确定游戏角色待执行的目标操作的目的,进而解决了相关技术根据游戏玩家自身经验计算下一步操作,导致游戏玩家执行下一个操作后游戏胜出率较低的技术问题,从而实现了提高游戏角色在游戏中的胜出率的技术效果。

在步骤s202提供的技术方案中,客户端当前运行的一局游戏可以为非对称性牌类游戏,例如德州扑克,麻将等。此处需要说明的是,对称性游戏是指所有游戏玩家在同一时间可以看到相同场景,显示所有人的行动情况。非对称性游戏是指某个游戏玩家知道正在发生的事,而其他游戏玩家不知道这件事。非对称可以包括画面不对称以及信息不对称,其中,信息不对称可以包括数据信息不对称(例如买卖装备提升战斗力)以及游戏数据不对称(例如通过购买一种装备看见目标玩家的位置)。在一局游戏中可以包括至少一个游戏角色,其中,至少一个游戏角色中包括第一游戏角色,第一游戏角色可以为至少一个游戏角色中的任意一个。可选地,第一游戏角色可以由游戏玩家控制,也可以由客户端控制。

可选地,第一游戏角色的操作请求可以用于请求在一局游戏中第一游戏角色基于已获取到的第一对象待执行的目标操作。可选地,在一局游戏中,第一游戏角色已获取到的第一对象可以为第一游戏角色的手牌,第一游戏角色基于已获取到的第一对象所待执行的目标操作可以包括但并不限于对手牌执行的弃牌、出牌、加注、跟入等操作。

客户端可以实时检测第一游戏角色的操作请求,可选地,在一局游戏中,出牌顺序轮到第一游戏角色,可以检测到第一游戏角色的操作请求,例如麻将游戏中轮到第一游戏角色出牌时,可以触发第一游戏角色的操作请求。可选地,在一局游戏中其他游戏角色均已执行完相应操作后,可以检测到第一游戏角色的操作请求,例如德州扑克游戏中其他游戏角色押注之后,可以触发第一游戏角色的操作请求。

在步骤s204提供的技术方案中,在检测到第一游戏角色的操作请求之后,客户端可以首先获取当前该第一游戏角色已获取到第一对象,其中,第一对象的个数可以为一个,也可以为多个。然后再判断已获取到的第一对象是否可以形成得到目标对象集合,如果能形成得到目标对象集合,则计算已获取到的第一对象形成得到目标对象集合的概率,其中,目标对象集合包括第一对象。此处需要说明的是,一局游戏中可以包括至少一种目标对象集合,已获取到的第一对象可以形成得到至少一种目标对象集合,已获取到的第一对象形成得到每种目标对象集合的概率可以相同,也可以不同。可选地,目标对象集合可以在一局游戏中胜出。例如,德州扑克游戏中,目标对象集合可以为不同牌型,可以包括同花顺、四条、同花、顺子等。再例如,麻将游戏中,目标对象集合可以为胡牌牌型、可以包括十三幺、七对牌等。

可选地,目标特征向量可以至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率。可选地,目标特征向量可以包括多个维度,一种目标对象集合可以对应一个维度,此处将目标对象集合对应的维度称为第一维度,其中,第一维度的个数可以为一个,也可以为多个。基于已获取到的第一对象形成得到每种目标对象集合的概率可以作为该第一维度上的元素。也就是说,步骤s204获取目标特征向量可以包括:获取基于已获取到的第一对象形成得到目标对象集合的概率;将概率作为目标特征向量中的第一维度的元素。

可选地,目标特征向量除了用于指示基于已获取到的第一对象形成得到目标对象集合的概率,还可以用于指示该一局游戏中第二游戏角色基于已获取到的第二对象转移出的资源。此处需要说明的是,在该一局游戏中,第二游戏角色与第一游戏角色可以为对弈关系,第二游戏角色已获取到的第二对象可以为第二游戏角色的手牌,第二游戏角色基于已获取到的第二对象转移出的资源可以为第二游戏角色基于当前手牌进行下注的筹码。

可选地,一局游戏中除了第一游戏角色之外,还可以包括至少一个第二游戏角色,每个第二游戏角色可以对应目标特征向量中的一个维度,此处将第二游戏角色对应的维度称为第二维度,其中,第二维度的个数可以为一个,也可以为多个。

可选地,目标特征向量中第二维度上的元素可以用于指示第二游戏角色基于已获取到的第二对象转移出的资源。也就是说,步骤s204获取目标特征向量还可以包括:获取一局游戏中第二游戏角色至少基于已获取到的第二对象转移出的资源;将资源进行归一化处理,得到归一化值;将归一化值作为目标特征向量中的第二维度的元素。需要说明的是,此处将资源进行归一化处理,使得归一化值为0至1中的数值,这样可以使得目标特征向量中的第一维度与第二维度上的元素相对应。

经过上述过程可以获取到目标特征向量中第一维度以及第二维度上的元素,也即可以获取到目标特征向量,本发明实施例中的目标特征向量可以为一个多维度的向量,目标特征向量的维度与一局游戏中第二游戏角色的个数以及目标对象集合的种数确定。

在步骤s206提供的技术方案中,在获取到目标特征向量之后,可以利用训练好的神经网络模型获取与目标特征向量对应的目标操作,以达到响应操作请求的目的,其中,训练好的神经网络模型可以用于指示目标特征向量与目标操作之间的映射关系。

可选地,训练好的神经网络模型可以是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,其中,第一神经网络模型可以为未经任何训练的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数可以为样本特征向量,第一神经网络模型的输出参数可以为样本操作。

可选地,样本特征向量可以至少用于指示基于样本游戏角色已获取到的样本对象形成得到目标对象集合的概率。可选地,样本游戏角色可以为该游戏中不同局中的游戏角色,为了保证训练好的神经网络模型的准确度,样本游戏角色的个数可以为很多个。可选地,样本游戏角色已获取到的样本对象可以为游戏中样本游戏角色的手牌。可选地,样本特征向量还可以用于指示样本游戏角色基于已获取到的样本对象转移出的资源。需要说明的是,样本特征向量的格式可以与上述目标特征向量相同,区别在于游戏角色已获取到的对象以及游戏角色基于已获取到的对象转移出的资源不同。还需要说明的是,样本特征向量的获取方法与上述目标特征向量相同,具体参见以上描述,此处不再赘述。

可选地,样本游戏角色基于已获取到的样本对象执行样本操作后,至少满足以下任意一种目标条件:基于已获取到的样本对象形成得到目标对象集合的概率最高、基于已获取到的样本对象形成得到目标对象集合在一局游戏中胜出、样本游戏角色得到的资源最多、样本游戏角色损失的资源最少。

可选地,使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到训练好的神经网络模型可以包括:

首先利用第一特征向量与第一操作之间的映射关系对第一神经网络模型进行训练,得到第二神经网络模型。

需要说明的是,样本特征向量可以包括第一特征向量,其中,第一特征向量可以用于指示基于第三游戏角色已获取到的第三对象形成得到目标对象集合的概率。可选地,第三游戏角色可以为样本游戏角色中的任意一个,第三游戏角色已获取到的第三对象可以为第三游戏角色的手牌。第三游戏角色基于已获取到的第三对象执行第一操作后可以满足上述目标条件。在对第一神经网络模型进行训练时,第一神经网络模型的输入参数可以为第一特征向量,第一神经网络模型的输出参数可以为第一操作。

在得到第二神经网络模型之后,针对第二神经网络模型重复执行以下步骤,直至第四游戏角色基于已获取到的第四对象执行利用训练好的神经网络获取到的第二操作后满足目标条件:将第一资源与第二资源进行比较,其中,第一资源为第五游戏角色对已获取到的第五对象执行第三操作后所得到的资源,第二资源为第六游戏角色对已获取到的第六对象执行第四操作后得到的资源,第三操作为利用第二神经网络模型获取到的第二特征向量对应的操作,第二特征向量用于指示基于已获取到的第五对象形成得到目标对象集合的概率,第四操作为利用第二神经网络模型获取到的第三特征向量对应的操作,第三特征向量用于指示基于已获取到的第六对象形成得到目标对象集合的概率;在第一资源大于第二资源的情况下,利用第二特征向量与第三操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型;在第二资源大于第一资源的情况下,利用第三特征向量与第四操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型。

需要说明的是,本发明实施例首先利用一部分数据(也即第一特征向量与第一操作之间的映射关系)进行训练,得到第二神经网络模型。为了提高训练好的神经网络模型的准确度,再通过比较利用第二神经网络模型获取到的数据之间的优异,确定出更加优异的数据,然后利用该更加优异的数据进行对第二神经网络模型进行训练,以得到更加准确的所述训练好的神经网络模型。此处需要说明的是,更加优异的数据可以理解为在一局游戏中胜出的概率较大、或者得到的资源更多、或者损失的资源更少。

也就是说,本发明实施例可以从大量的样本游戏角色已获取到的样本对象中提取样本特征向量,然后利用样本特征向量与样本操作的映射关系进行深度学习训练,以使得训练得到的神经网络模型可以更加准确地确定目标特征向量对应的目标操作,进而达到提高游戏角色在游戏中的胜出率的效果。

作为一种可选的实施例,在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,本发明实施例还可以在客户端中控制第一游戏角色执行目标操作。例如,在德州扑克游戏中,利用训练好的神经网络模型确定出第一游戏角色待执行的目标操作为加注操作后,可以在客户端中控制该第一游戏角色进行加注。再例如,在麻将游戏中,利用训练好的神经网络模型确定出第一游戏角色待执行的目标操作为选中“四条”这一张牌进行出牌,在客户端中控制该第一游戏角色打出“四条”这一张牌。

需要说明的是,该可选实施例适用于第一游戏角色由客户端控制的场景,也即客户端可以直接控制第一游戏角色执行目标操作。

作为另一种可选的实施例,在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,本发明实施例还可以向客户端推送用于指示目标操作的操作信息,其中,所推送的目标操作的操作信息可以用于指示在客户端中控制第一游戏角色执行目标操作。例如,在德州扑克游戏中,利用训练好的神经网络确定出第一游戏角色待执行的目标操作为加注操作后,可以向客户端推送“加注”这类提示的操作信息,以指示游戏玩家可以控制该第一游戏角色进行加注。再例如,在麻将游戏中,利用训练好的神经网络模型确定出第一游戏角色待执行的目标操作为选中“四条”这一张牌进行出牌,然后在客户端中将“四条”这一张牌移动至出牌区域,并提示游戏玩家打出“四条”这一张牌。

需要说明的是,该可选实施例适用于第一游戏角色由游戏玩家控制的场景,也即游戏玩家可以根据向客户端推送的目标操作的操作信息控制第一游戏角色执行目标操作。

针对本发明实施例的目标操作的确定方法,可以应用于牌类游戏中,例如德州扑克、麻将等非对称信息博弈中。

作为一种可选的示例,本发明实施例可以应用于德州扑克游戏中。

该可选示例提出了一种对于非对称信息博弈问题的特征提取方法,提取特征后可采用深度学习进行训练得到训练好的神经网络模型,训练好的神经网络模型可以可部署在产品中进行人机博弈。

该可选示例主要包括三部分内容,分别为:牌型成立的概率分布特征提取;神经网络模型的训练;将训练好的神经网络模型部署在产品客户端中,实现人机对弈。

德州扑克游戏流程简述如下:每个牌手发2张底牌,然后再依次发5张公共牌,每个牌手从手里的2张和5张公共牌中,选出5张组合成最大的牌组,与其他人进行输赢比较。牌型大小规则由大到小依次为:

同花顺>四条>三条加一对>同花>顺子>三条>两对>一对>单牌

德州扑克一共押四轮注:每人发2张牌后进行第一轮注;发3张公共牌后押第二轮注;发第4张公共牌后押第三轮注;发第5张公共牌后押第四轮注。押注结束后所有剩余玩家进行比牌,最大者赢。

特征提取方法考虑了最重要的三个方面的数值:

(1)自身牌型牌力:主要考虑自身手牌的牌力大小,牌力越大则特征值越大。

(2)公共牌可能构成的牌型概率分布:基于当前的牌面信息,计算出各种牌型出现的概率分布,牌型出现的概率越大则对应的特征数值就越大。

(3)该轮下注过程中各玩家下注的筹码情况:玩家下注的筹码情况隐含了其牌力信息,所以将各玩家下注的筹码情况作为特征值进行提取。

综合以上三方面的特征,可以构成一个219维的向量特征,该向量特征可以作为神经网络训练的输入参数。特征提取流程可以如图3所示,有效表征有效局面信息可以包括:手牌、桌牌以及筹码。基于手牌可以考虑成牌牌力,如果为同花顺,则对应的特征值为1,如果为最小的杂牌,则对应的特征值为0,手牌的成牌牌力可以占特征向量中的一个维度。基于桌牌和手牌考虑其他牌型成牌可能性,德州扑克中主要包括213类牌型各自出现的概率,这些概率可以作为特征向量的特征值,这些概率可以占特征向量的213个维度。基于下注的筹码,下主流隐含了其他玩家的牌力信息,通过把其他玩家下注的筹码进行归一化处理,得到的归一化值可以作为特征值,如果有其他5为玩家的话,则他们的筹码情况可以占特征向量的5个维度。得到的一维特征向量长度为219。

神经网络模型训练的过程可以如图4所示,具体描述如下:将上述提取到的特征向量作为神经网络模型的输入参数,将对应的操作(包括弃牌、跟入、加注)作为神经网络模型的输出参数。在训练过程中,可以先通过学习通过仿真产生的数据,总结一般性经验,然后再通过自对弈产生新一代数据,然后再利用新产生的数据对神经网络模型进行进一步学习。通过反复迭代,上述训练过程直至训练好的神经网络模型满足预期的目标条件。

在得到训练好的神经网络模型之后,可以将训练好的神经网络模型部署在产品中,以实现人机对弈。

可选地,可以将训练好的神经网络模型直接部署于客户端,如图5所示,客户端可以根据牌面信息提取特征,得到特征向量,并将得到的特征向量输入至训练好的神经网络模型中,以得到对应的动作输出,例如弃牌、跟入、加注等。将训练好的神经网络模型部署在客户端中,可以直接在客户端实现人机对弈,无需进行与服务器的通信。

可选地,可以将训练好的神经网络模型部署于服务器,通过网络在客户端和服务器之间传输提取的特征和神经网络模型预测出来的动作,实现人机对弈。例如,如图6所示,每个客户端可以将提取的特征发送给服务器,服务器利用训练好的神经网络模型确定特征向量对应的动作,并将动作输出给客户端。

在德州扑克游戏中,游戏界面上可以显示有游戏玩家所持手牌以及提示操作信息,包括弃牌、出牌、加注、跟入,如图7所示,游戏玩家所持手牌为4张,分别为方块1、方块2、方块3以及方块4,根据所持的4张手牌,通过本发明实施例可以确定这4张手牌能够形成同花顺的概率较高,因此所确定的目标操作为加注,则“加注”这一提示框可以突出显示,以实现提示用户进行加注操作。此处需要说明的是,本发明实施例对提示框突出显示的方式不做具体限定,例如图7所示以提示框放大进行突出显示。

作为另一种可选的示例,本发明实施例还可以应用于麻将游戏中。麻将游戏与德州扑克游戏的区别仅在于牌型种类和数量不同,其影响特征向量的维度个数,而关于如何提取特征向量,如何训练神经网络模型,以及如何利用训练好的神经网络模型确定对应动作(例如出牌)均与上述描述过程相似,此处不再赘述。

上述示例提出的特征提取方法,基于牌型成立概率分布及玩家筹码下注情况,主要具有以下几个优点:

方法具有一定通用性,不仅适用于德州扑克,可以应用于其他棋牌类游戏,例如麻将。

提取特征后采用深度学习进行训练,训练的神经网络模型自我学习能力随着训练量的增加提升。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面,还提供了一种用于实施上述目标操作的确定方法的目标操作的确定装置。图8是根据本发明实施例的一种可选的目标操作的确定装置的示意图,如图8所示,该装置可以包括:

检测单元22,用于检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;第一获取单元24,用于响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;第二获取单元26,用于根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系。

需要说明的是,该实施例中的检测单元22可以用于执行本申请实施例中的步骤s202,该实施例中的第一获取单元24可以用于执行本申请实施例中的步骤s204,该实施例中的第二获取单元26可以用于执行本申请实施例中的步骤s206。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。

可选地,第一获取单元24可以包括:第一获取模块,用于获取基于已获取到的第一对象形成得到目标对象集合的概率;第一确定模块,用于将概率作为目标特征向量中的第一维度的元素,其中,目标特征向量包括多个维度,多个维度包括第一维度。

可选地,第一获取单元24还可以包括:第二获取模块,用于获取一局游戏中第二游戏角色至少基于已获取到的第二对象转移出的资源;处理模块,用于将资源进行归一化处理,得到归一化值;第二确定模块,用于将归一化值作为目标特征向量中的第二维度的元素,其中,多个维度还包括第二维度。

可选地,样本特征向量至少用于指示基于样本游戏角色已获取到的样本对象形成得到目标对象集合的概率;样本游戏角色基于已获取到的样本对象执行样本操作后,至少满足以下任意一种目标条件:基于已获取到的样本对象形成得到目标对象集合的概率最高、基于已获取到的样本对象形成得到目标对象集合在一局游戏中胜出、样本游戏角色得到的资源最多、样本游戏角色损失的资源最少。

可选地,使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到训练好的神经网络模型可以包括:利用第一特征向量与第一操作之间的映射关系对第一神经网络模型进行训练,得到第二神经网络模型,其中,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为第一特征向量,第一神经网络模型的输出参数为第一操作,样本特征向量包括第一特征向量,第一特征向量用于指示基于第三游戏角色已获取到的第三对象形成得到目标对象集合的概率,第三游戏角色基于已获取到的第三对象执行第一操作后满足目标条件;重复执行以下步骤,直至第四游戏角色基于已获取到的第四对象执行利用训练好的神经网络获取到的第二操作后满足目标条件:将第一资源与第二资源进行比较,其中,第一资源为第五游戏角色对已获取到的第五对象执行第三操作后所得到的资源,第二资源为第六游戏角色对已获取到的第六对象执行第四操作后得到的资源,第三操作为利用第二神经网络模型获取到的第二特征向量对应的操作,第二特征向量用于指示基于已获取到的第五对象形成得到目标对象集合的概率,第四操作为利用第二神经网络模型获取到的第三特征向量对应的操作,第三特征向量用于指示基于已获取到的第六对象形成得到目标对象集合的概率;在第一资源大于第二资源的情况下,利用第二特征向量与第三操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型;在第二资源大于第一资源的情况下,利用第三特征向量与第四操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型。

可选地,装置还可以包括:控制单元,用于在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,在客户端中控制第一游戏角色执行目标操作。

可选地,装置还可以包括:推送单元,用于在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,向客户端推送用于指示目标操作的操作信息,以指示在客户端中控制第一游戏角色执行目标操作。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。

通过上述模块,可以达到基于游戏角色已获取到的对象快速准确的确定该游戏角色待执行的目标操作的目的,进而解决了相关技术根据游戏玩家自身经验计算下一步操作,导致游戏玩家执行下一个操作后游戏胜出率较低的技术问题,从而实现了提高游戏角色在游戏中的胜出率的技术效果。

根据本发明实施例的又一个方面,还提供了一种用于实施上述目标操作的确定方法的电子装置。

图9是根据本发明实施例的一种电子装置的结构框图,如图9所示,该电子装置可以包括:一个或多个(图中仅示出一个)处理器201、存储器203,其中,存储器203中可以存储有计算机程序,处理器201可以被设置为运行所述计算机程序以执行本发明实施例的目标操作的确定方法。

其中,存储器203可用于存储计算机程序以及模块,如本发明实施例中的目标操作的确定方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的计算机程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的目标操作的确定方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可选地,如图9所示,该电子装置还可以包括:传输装置205以及输入输出设备207。其中,传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(networkinterfacecontroller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。图9其并不对上述电子装置的结构造成限定。例如,电子装置还可以包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。

可选地,在本实施例中,上述存储器203可以用于存储计算机程序。

可选地,在本实施例中,上述处理器可以被设置为运行计算机程序,以执行以下步骤:检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系。

处理器201还用于执行下述步骤:获取基于已获取到的第一对象形成得到目标对象集合的概率;将概率作为目标特征向量中的第一维度的元素,其中,目标特征向量包括多个维度,多个维度包括第一维度。

处理器201还用于执行下述步骤:获取一局游戏中第二游戏角色至少基于已获取到的第二对象转移出的资源;将资源进行归一化处理,得到归一化值;将归一化值作为目标特征向量中的第二维度的元素,其中,多个维度还包括第二维度。

处理器201还用于执行下述步骤:利用第一特征向量与第一操作之间的映射关系对第一神经网络模型进行训练,得到第二神经网络模型,其中,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为第一特征向量,第一神经网络模型的输出参数为第一操作,样本特征向量包括第一特征向量,第一特征向量用于指示基于第三游戏角色已获取到的第三对象形成得到目标对象集合的概率,第三游戏角色基于已获取到的第三对象执行第一操作后满足目标条件;重复执行以下步骤,直至第四游戏角色基于已获取到的第四对象执行利用训练好的神经网络获取到的第二操作后满足目标条件:将第一资源与第二资源进行比较,其中,第一资源为第五游戏角色对已获取到的第五对象执行第三操作后所得到的资源,第二资源为第六游戏角色对已获取到的第六对象执行第四操作后得到的资源,第三操作为利用第二神经网络模型获取到的第二特征向量对应的操作,第二特征向量用于指示基于已获取到的第五对象形成得到目标对象集合的概率,第四操作为利用第二神经网络模型获取到的第三特征向量对应的操作,第三特征向量用于指示基于已获取到的第六对象形成得到目标对象集合的概率;在第一资源大于第二资源的情况下,利用第二特征向量与第三操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型;在第二资源大于第一资源的情况下,利用第三特征向量与第四操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型。

处理器201还用于执行下述步骤:在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,在客户端中控制第一游戏角色执行目标操作。

处理器201还用于执行下述步骤:在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,向客户端推送用于指示目标操作的操作信息,以指示在客户端中控制第一游戏角色执行目标操作。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

采用本发明实施例,提供了一种目标操作的确定方案。通过在检测到第一游戏角色的操作请求后,根据第一游戏角色已获取到的第一对象获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,然后利用训练好的神经网络模型获取目标特征向量对应的目标操作,达到了基于游戏角色已获取到的对象快速准确的确定该游戏角色待执行的目标操作的目的,进而解决了相关技术根据游戏玩家自身经验计算下一步操作,导致游戏玩家执行下一个操作后游戏胜出率较低的技术问题,从而实现了提高游戏角色在游戏中的胜出率的技术效果。

根据本发明实施例的又一个方面,还提供了一种存储介质。该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述实施例中目标操作的确定方法的步骤。

可选地,在本实施例中,存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的计算机程序:

s1,检测到第一游戏角色的操作请求,其中,操作请求用于请求在客户端当前运行的一局游戏中第一游戏角色基于已获取到的第一对象所待执行的目标操作;

s2,响应于操作请求,获取目标特征向量,其中,目标特征向量至少用于指示基于已获取到的第一对象形成得到目标对象集合的概率,目标对象集合包括已获取到的第一对象;

s3,根据训练好的神经网络模型获取目标特征向量对应的目标操作,其中,训练好的神经网络模型是使用样本特征向量与样本操作之间的映射关系对第一神经网络模型进行训练得到的模型,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为样本特征向量,第一神经网络模型的输出参数为样本操作,训练好的神经网络模型用于指示目标特征向量与目标操作之间的映射关系。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:获取基于已获取到的第一对象形成得到目标对象集合的概率;将概率作为目标特征向量中的第一维度的元素,其中,目标特征向量包括多个维度,多个维度包括第一维度。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:获取一局游戏中第二游戏角色至少基于已获取到的第二对象转移出的资源;将资源进行归一化处理,得到归一化值;将归一化值作为目标特征向量中的第二维度的元素,其中,多个维度还包括第二维度。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:利用第一特征向量与第一操作之间的映射关系对第一神经网络模型进行训练,得到第二神经网络模型,其中,在对第一神经网络模型进行训练时,第一神经网络模型的输入参数为第一特征向量,第一神经网络模型的输出参数为第一操作,样本特征向量包括第一特征向量,第一特征向量用于指示基于第三游戏角色已获取到的第三对象形成得到目标对象集合的概率,第三游戏角色基于已获取到的第三对象执行第一操作后满足目标条件;重复执行以下步骤,直至第四游戏角色基于已获取到的第四对象执行利用训练好的神经网络获取到的第二操作后满足目标条件:将第一资源与第二资源进行比较,其中,第一资源为第五游戏角色对已获取到的第五对象执行第三操作后所得到的资源,第二资源为第六游戏角色对已获取到的第六对象执行第四操作后得到的资源,第三操作为利用第二神经网络模型获取到的第二特征向量对应的操作,第二特征向量用于指示基于已获取到的第五对象形成得到目标对象集合的概率,第四操作为利用第二神经网络模型获取到的第三特征向量对应的操作,第三特征向量用于指示基于已获取到的第六对象形成得到目标对象集合的概率;在第一资源大于第二资源的情况下,利用第二特征向量与第三操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型;在第二资源大于第一资源的情况下,利用第三特征向量与第四操作之间的映射关系对第二神经网络模型进行训练,得到训练好的神经网络模型。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,在客户端中控制第一游戏角色执行目标操作。

可选地,存储介质还被设置为存储用于执行以下步骤的计算机程序:在根据训练好的神经网络模型获取目标特征向量对应的目标操作之后,向客户端推送用于指示目标操作的操作信息,以指示在客户端中控制第一游戏角色执行目标操作。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1