操作控制方法、装置、设备及存储介质与流程

文档序号:16439551发布日期:2018-12-28 20:50阅读:181来源:国知局
操作控制方法、装置、设备及存储介质与流程

本发明涉及互联网技术领域,特别涉及一种操作控制方法、装置、设备及存储介质。

背景技术

mmo(massivelymultiplayeronline,大型多人在线)类游戏中,每个玩家控制一个角色,每个角色具有多种技能,玩家以所控制的角色击败对方角色为胜利。在游戏过程中,当玩家在线时,玩家可通过自身操作经验确定所要释放的技能和攻击的目标,并通过向该目标释放该技能,以取得游戏胜利。然而,当玩家托管或者暂时离线时,如何进行操作控制,成为了提高用户游戏体验的关键。

如果将mmo类游戏称为指定应用,将游戏类应用中的各个角色称为对象,将本次操作所要攻击的角色称为目标对象,将登录指定应用的用户账号所管理的角色称为指定对象,将本次操作时指定对象所释放的技能称为目标执行能力,现有技术在进行操作控制时,可采用如下方法:获取指定应用界面上各个对象的操作行为数据;从操作行为数据中,提取操作行为特征;将操作行为特征输入到策略决策模型中,输出目标对象和指定对象的目标执行能力,其中,策略决策模型用于基于历史操作行为数据,通过将操作行为特征与历史操作行为特征进行匹配,获取与操作行为特征相匹配的历史操作行为特征,并将该历史操作行为特征对应的目标对象和目标执行能力,作为本次操作的目标对象和目标执行能力;控制指定对象向目标对象释放目标执行能力。

由于所确定的目标对象和目标属性完全依赖于历史操作行为数据,而在不同的操作场景下,所适用的目标对象和目标属性执行能力是不同的,因此,现有技术进行操作控制时操作成功率较低。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种操作控制方法、装置、设备及存储介质。所述技术方案如下:

一方面,提供了一种操作控制方法,所述方法包括:

获取指定应用界面上包括指定对象在内的各个对象的操作行为数据,所述指定对象为登录指定应用的用户账号所管理的对象;

从所述操作行为数据中,提取各个对象的离散特征、连续特征及组合特征,所述离散特征是指特征值具有离散性的特征,所述连续特征是指特征值具有连续性的特征,所述组合特征是指由多个具有关联性的离散特征组合而成的特征;

将所述离散特征、所述连续特征及所述组合特征输入到操作策略确定模型中,输出目标对象和所述指定对象的目标执行能力,所述操作策略确定模型用于至少基于离散特征、连续特征及组合特征,确定目标对象和目标执行能力;

控制所述指定对象向所述目标对象释放所述目标执行能力。

另一方面,提供了一种操作控制装置,所述装置包括:

获取模块,用于获取指定应用界面上包括指定对象在内的各个对象的操作行为数据,所述指定对象为登录指定应用的用户账号所管理的对象;

提取模块,用于从所述操作行为数据中,提取各个对象的离散特征、连续特征及组合特征,所述离散特征是指特征值具有离散性的特征,所述连续特征是指特征值具有连续性的特征,所述组合特征是指由多个具有关联性的离散特征组合而成的特征;

处理模块,用于至少将所述离散特征、所述连续特征及所述组合特征输入到操作策略确定模型中,输出目标对象和所述指定对象的目标执行能力,所述操作策略确定模型用于基于离散特征、连续特征及组合特征,确定目标对象和目标执行能力;

释放模块,用于控制所述指定对象向所述目标对象释放所述目标执行能力。

另一方面,提供了一种操作控制设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现操作控制方法。

另一方面,提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现操作控制方法。

本发明实施例提供的技术方案带来的有益效果是:

通过提取不同类型的特征,并将所提取的特征输入到操作策略确定模型中,由于操作策略确定模型能够根据不同类型的特征,决策出适合当前操作场景的目标对象和目标执行能力,因而基于目标对象和目标执行能力进行操作控制时,操作成功率较高。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种操作控制方法的应用场景示意图;

图2是本发明实施例提供的一种操作策略确定模型的框架图;

图3是本发明实施例提供的一种建立操作策略确定模型的方法流程图;

图4是本发明实施例提供的一种操作策略确定模型的建立过程的示意图;

图5是本发明实施例提供的一种操作控制方法的流程图;

图6是本发明实施例提供的一种游戏界面的示意图;

图7是本发明实施例提供的一种操作控制装置的结构示意图;

图8示出了本发明一个示例性实施例提供的用于操作控制的终端的结构框图;

图9是根据一示例性实施例示出的一种用于操作策略确定模型的建立服务器的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

在执行本发明实施例之前,先对本发明涉及到的名词进行解释。

指定应用主要指游戏类应用,该指定应用所兼容的操作系统可以为安卓操作系统、ios操作系统等。

对象是指游戏类应用中的各个角色,包括游戏类应用的虚拟人物、虚拟动物等虚拟角色。对象包括操作对象和可选对象。指定对象是指登录指定应用的用户账号所管理的对象。可选对象是指指定应用界面上除指定对象以外的其他对象,可选对象可以为对方队伍中的英雄人物及当前场景中的小兵、怪兽、防御塔等,本发明实施例中所要确定的目标对象属于可选对象的范畴,为本次操作过程中需要被攻击的对象。

执行能力是指各个对象在指定应用中所具有的技能,可以为加速技能、反转技能等。本发明实施例所要确定的目标执行能力为指定对象的一种执行能力,在本次操作过程中向目标对象进行释放。

在现代生活中,为了缓解用户紧张的情绪,很多用户会在闲暇时间组队打游戏。而在游戏过程中,用户因这样或那样的原因,需要进行托管或者暂时离线,此时需要借助ai(artificialintelligence,人工智能)控制用户所管理的角色与其他角色进行对战。目前,在借助ai进行操作控制时,主要有以下几种方法:

第一种方法、随机选择需要待释放的技能和待攻击的目标,通过控制所管理的角色向该待攻击的目标释放该待释放的技能,实现对该所管理的角色的操作控制。

第二种方法、选择消耗能量值最高的技能作为待释放技能,并选择血量最少的角色作为待攻击的目标,通过控制所管理的角色向该待攻击的目标释放该释放的技能,实现对该所管理的角色的操作控制。

第三种方法、基于强化学习或深度学习等方法,通过采集样本数据训练策略决策模型,进而基于所训练的策略决策模型,确定待攻击的目标和待释放的技能,通过控制所管理的角色向该待攻击的目标释放所确定的技能,实现对该所管理角色的操作控制。

然而,在采用上述几种方法进行操作控制,操作成功率较低。为了解决上述几种方法中操作成功率的问题,本发明实施例提供了一种操作控制方法,该方法基于wide&deep(宽&深)思想,设计了宽深度模型框架(即本发明实例中的操作策略确定模型,该模型中的深度神经网络层体现了“深”的思想,该模型中的逻辑回归层体现了“宽”的思想),并将样本数据分为不同类型的数据,进而基于不同类型的数据,对宽深度模型进行训练,该宽深度模型中的宽线性部分(逻辑回归层)能够有效记录离散特征之间的相互作用,该宽深度模型中的深度神经网络部分能够挖掘各个特征之间的相互作用,从而提升模型的泛化能力,基于该宽深度模型进行策略决策时,能够决策出较为合适的待攻击的目标和待释放的技能,从而提高了操作成功率。

为了实现本发明实施例提供的操作控制方法,本发明实施例提供了一种操作控制设备,参见图1,该设备包括终端101和服务器102。

其中,终端101可以为智能手机、平板电脑、笔记本电脑等,本发明实施例不对终端101的产品类型作具体的限定。该终端101中安装有游戏类应用,从而可在游戏类应用运行过程中,可智能地辅助玩家完成对各个角色的控制,而为了实现辅助控制功能,游戏类应用中需要加载有操作策略确定模型,基于该操作策略确定模型,在游戏过程中,当玩家托管或者暂时离线时,终端可帮助玩家进行决策,从而提高玩家的游戏体验。

服务器102为游戏类应用的后台服务器,可通过游戏类应用向用户提供服务。该服务器102具有较强的计算能力,可基于玩家的历史操作行为,训练出操作策略决策模型,该操作策略确定模型可在玩家托管或者暂时离线时,帮助玩家进行决策。

图2为操作策略确定模型的框架图,参见图2,该框架包括输入单元、隐藏单元及输出单元。其中,输入单元用于输入每个训练样本中的特征,包括离散特征、连续特征及组合特征等;该隐藏单元包括至少三个线性整流函数,用于对输入的特征进行降维处理,示例性地,该至少三个线性整流函数可将输入的特征分别降到256维、128维及64维,即对于任一特征,将该特征输入到第一个线性整流函数中,可将特征的维度降为256维,将该特征输入到第二个线性整流函数中,可将该特征的维度降为128维,再将该特征输入到第三个线性整流函数中,可将该特征的维度降为64维;输出单元用于基于降维特征,对训练样本中所选择的技能和目标进行打分,并输出打分结果。基于图2所示的框架图,在离线阶段,操作策略确定模型的训练,可分为三个阶段:

第一阶段,训练样本的获取阶段。该阶段可对训练样本进行清洗和提权。清洗过程是指如果从两个样本中提取的特征相同或相似,而这两个样本一个为正样本,另一个为负样本时,将这两个样本同时去除。其中,正样本是指操作结果为成功的训练样本,负样本是指操作结果为失败的训练样本数据。提权过程是指为了提高所训练模型的准确性,缩短基于所训练的操作策略确定模型进行策略决策时的决策时间,对于导致操作快速取得成功的训练样本,可提高该训练样本在模型训练过程中的权重值。

第二阶段,特征提取阶段。该阶段通过采用归一化或离散化等方式对训练样本进行处理,得到不同类型的特征。具体地,对于训练样本中的离散数据进行离散化处理,得到离散特征;对于训练样本中的连续数据进行归一化处理,得到的是连续特征。

第三阶段,模型训练阶段。该阶段基于第二阶段所提取的特征,采用预先设置的损失函数,对初始模型进行训练,最终得到操作策略确定模型。

在上述离线训练过程中,可采用theano和tensorflow为模型引擎,采用adam为优化器,采用crossentropy为损失函数,且在训练过程中可设置batch-size为50000,epoch为20。

由于操作策略确定模型是进行操作控制的关键,因此,在采用本发明实施例提供的方法进行操作控制之前,可先建立操作策略确定模型。参见图3,本发明实施例提供的一种建立操作策略确定模型的方法,建立操作策略确定模型的流程包括:

301、服务器获取操作策略训练样本。

在本发明实施例中,操作策略训练样本用于对操作策略确定模型进行训练,可在指定应用运行过程中,通过采集每个用户在历史对战过程中每个回合的对战数据得到,即将每个用户在每个回合中的对战数据作为一个操作策略训练样本,该对战数据包括指定应用界面中各个对象的操作行为数据,该各个对象包括指定对象和可选对象,指定对象为登录指定应用的用户账号所管理的对象,可选对象是指指定应用界面上除指定对象以外的其他对象。操作行为数据包括用户账号、用户等级、对战时间、血量、攻击力、所具有的执行能力、与指定对象之间的距离(或指定对象所在的位置)等等。

对于每个操作策略样本,其操作结果可根据整个对战过程的最终结果确定,例如,如果在一次历史对战过程中,经过10个回合后取得胜利,则在该过程中采集到10个操作策略训练样本的操作结果均为胜利,该10个操作策略训练样本均作为正样本;如果在一次历史对战过程中,经过10个回合后失败,则在该过程中采集到10个操作策略训练样本的操作结果均为失败,该10个操作策略训练样本均作为负样本。为了防止所训练的模型过拟合(或者欠拟合),操作策略样本在获取时,还需控制正样本和副样本的比例,一般负样本和正样本的比例可在0~30%之间。

可选地,为了提高所训练的操作策略确定模型的准确性,缩短基于所训练的操作策略确定模型进行策略决策时的决策时间,在获取到操作策略训练样本之后,服务器还将对操作策略训练样本进行清洗,通过清洗去除所包括的噪声样本。具体地清洗过程为:对于任意两个操作策略训练样本,如果两个操作策略训练样本的特征值相同或者相近,但两个操作策略训练样本一个为正样本,另一个为负样本,则将这两个互斥的操作策略样本全部去除。

302、服务器从每个操作策略训练样本中,提取样本离散特征、样本连续特征及样本组合特征。

其中,离散特征是指特征值具有离散性的数据所具有的特征,所谓的离散性可以理解为在指定应用中该数据的数值的上限和下限是已知的,离散特征包括指定应用中的对战时间、用户等级、用户账号等;连续特征是指特征值具有连续性的数据所具有的特征,所谓的连续性可以理解为在指定应用中该数据的数值的上限和下限是未知的,连续特征包括指定应用中的攻击力、魔法值、血量等;组合特征是指由多个具有关联性的离散特征组合而成的特征,例如,对于多个离散特征“商户是否在用户常驻地”、“用户是否在常驻地”、“商户与用户当前距离”等,由于这些特征彼此具有一定的关联,能够反映“用户”—“商户”—“用户常住地”三者之间的位置关系,因此,可将这些离散特征组合为组合特征。例如,对于多个离散特征“对方英雄a是否在英雄b的射程范围内”、“对方英雄a与英雄b之间的距离”、“英雄b的射程范围为10米”,由于这些特征彼此之间具有一定的关联,能够反映“英雄a”、“英雄b”及“射程范围”三者之间的距离关系,因此,可将这些离散特征组合为组合特征。

对于任一操作策略训练样本,从该操作策略训练样本中提取样本离散特征、样本连续特征及样本组合特征的方式如下:

样本离散特征的提取方式:根据操作策略训练样本中包括的数据的数据类型,从操作策略训练样本中提取特征值具有离散性的特征,作为该操作策略训练样本的离散特征。例如,操作策略训练样本中的数据分别为用户等级、用户账号、宝贝的攻击力及魔法值,由于在指定应用中用户等级的上限和下限是已知的、用户账号也是已知的,而对于宝贝的攻击力及魔法值,因用户等级不同且不同用户为宝贝所购买的设备不同,导致在指定应用中宝贝的攻击力及魔法值的上限和下限是未知的,因此,根据该操作策略训练样本中各个数据的数据类型,服务器将用户等级、用户账号作为该操作策略训练样本的离散特征。

样本连续特征的提取方式包括一下两个步骤:

1、服务器根据操作策略训练样本中所包括的数据的数据类型,从操作策略训练样本中提取特征值具有连续性的特征。例如,操作策略训练样本中的数据分别为用户等级、用户账号、宝贝的攻击力及魔法值,由于在指定应用中用户等级的上限和下限是已知的、用户账号也是已知的,而对于宝贝的攻击力及魔法值,因用户等级不同且不同用户为宝贝所购买的设备不同,导致在指定应用中宝贝的攻击力及魔法值的上限和下限是未知的,因此,根据该操作策略训练样本中各个数据的数据类型,服务器将宝贝的攻击力及魔法值作为该操作策略训练样本的离散特征。

2、服务器对提取的特征进行归一化处理,得到该操作策略训练样本的连续特征。其中,归一化可以为min-max等。由于在一次对战过程中,可采集到多个操作策略训练样本,而在每个操作策略训练样本中,对于同一连续特征的特征值是不同的,因此,在对该特征进行归一化时,可获取该次对战过程中该特征的最小特征值min和最大特征值max。对于操作策略训练样本中的任一特征的当前特征值x,采用min-max归一化处理时,得到的归一化的特征值x`为:

例如,在英雄a和英雄b的一次对战过程中,服务器获取到10组对战数据,在10组对战数据中英雄a的攻击力的特征值分别为90、95、85、92、89、78、75、95、80、88,其中攻击力的最大特征值为95,最小特征值为80,如果获取到攻击力的当前特征值为90,则归一化的特征值=(90-80)/(95-80)=2/3。

样本组合特征的提取方式:根据特征组合形式,将样本离散特征中具有关联性的特征组成样本组合特征。其中,特征组合形式可将不同的操作场景下对目标对象和目标执行能力的确定具有重要作用的多个具有关联性的样本离散特征组合得到,例如,在实际的业务场景下,对目标对象和目标执行能力的确定具有重要作用的多个具有关联性的样本离散特征包括样本离散特征a、样本离散特征b及样本离散特征c,则特征组合形式可以为样本离散特征a&样本离散特征b&样本离散特征c。由于每个操作策略训练样本中所包括的各个对象的操作行为数据是不同的,因此,基于特征组合形式,从每个操作策略训练样本中所提取的样本组合特征是不同的,例如,预设的特征组合形式为“商户是否在用户常驻地”&“用户是否在常驻地”,对于第一个操作策略训练样本,其所提取的离散特征为“商户在用户常驻地”、“用户在常驻地”,则其对应的样本组合特征为“商户在用户常驻地”&“用户在常驻地”;对于第二个操作策略训练样本,其所提取的离散特征为“商户在用户常驻地”、“用户不在常驻地”,则其对应的样本组合特征为“商户在用户常驻地”&“用户不在常驻地”;对于第三个操作策略训练样本,其所提取的离散特征为“商户不在用户常驻地”、“用户在常驻地”,则其对应的样本组合特征为“商户不在用户常驻地”&“用户在常驻地”;对于第四个操作策略训练样本,其所提取的离散特征为“商户不在用户常驻地”、“用户不在常驻地”,则其对应的样本组合特征为“商户不在用户常驻地”&“用户不在常驻地”。其中,特征组合形式可以为:

其中,为样本组合特征,为离散特征,当cki=1时,样本组合特征中包括该离散特征,当cki=0时,样本组合特征中不包括该离散特征。

303、服务器获取初始操作策略确定模型。

其中,初始操作策略确定模型包括初始深度神经网络层和初始逻辑回归网络层。初始深度神经网络层和初始逻辑回归网络层具有待训练的参数,通过对这些参数进行训练,可得到深度神经网络层和逻辑回归网络层。考虑到不同的深度神经网络具有不同的应用方向,cnn(convolutionalneuralnetwork,卷积神经网络)一般应用于视频处理、画面处理等方面,rnn(recurrentneuralnetwork,循环神经网络)一般应用于语音处理方面,因而本发明实施例在选取初始深度神经网络层时,以选取dnn(deepneuralnetworks,深度神经网络)为例进行说明。

304、服务器根据每个操作策略训练样本的样本连续特征和样本组合特征,训练初始深度神经网络层,得到深度神经网络层。

服务器根据每个操作策略训练样本的样本连续特征和样本组合特征,训练初始深度神经网络层,得到深度神经网络层的步骤如下:

3041、服务器对每个操作策略训练样本的样本连续特征和样本组合特征进行降维处理,得到每个操作策略训练样本对应的样本训练特征。

服务器将每个操作策略训练样本的样本连续特征和样本组合特征输入到初始深度神经网络层,初始深度神经网络层对每个操作策略训练样本的样本连续特征和样本组合特征进行降维处理,得到每个操作策略训练样本对应的样本训练特征。在进行降维处理时,可将每个操作策略训练样本的样本连续特征和样本组合特征输入到线性整流函数中,通过线性整流函数分别对样本连续特征和样本组合特征进行降维处理,最终得到每个操作策略训练样本对应的样本训练特征。示例性地,本发明实施例以将每个操作策略训练样本的样本连续特征和样本组合特征输入到三层线性整流函数中为例,通过三层线性整流函数进行降维处理,可将样本连续特征和样本组合特征降到64维。

3042、服务器将每个操作策略训练样本对应的样本训练特征输入到第一损失函数中。

其中,第一损失函数可以为crossentropy(交叉熵)等。当将每个操作策略训练样本对应的样本训练特征及每个操作策略样本对应的目标训练对象和目标训练执行能力输入到第一损失函数中,第一损失函数可基于每个操作策略样本对应的样本训练特征,对目标训练对象和目标训练执行能力进行计算,得到第一损失函数的函数值,该第一损失函数的函数值用于表征采用初始深度神经网络层预测向目标训练对象释放目标训练执行能力的操作成功率。

3043、基于第一损失函数的函数值,服务器对初始深度神经网络层的参数进行调整,得到深度神经网络层。

在本发明实施例中,服务器可预先设置正样本的操作成功率为1,负样本的操作成功率为0。基于上述步骤3042得到的每个操作策略训练样本对应的第一损失函数的函数值,服务器获取每个操作策略训练样本对应的第一损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值,如果第一损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值大于第一预设阈值,则对初始深度神经网络层的参数进行调整,直至每个操作策略训练样本对应的第一损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值小于第一预设阈值,然后,服务器获取满足阈值条件时的初始深度神经网络层的参数,进而将该参数对应的初始深度神经网络层,作为深度神经网络层。其中,第一预设阈值可根据服务器的处理精度确定。

由于深度神经网络层是根据样本连续特征和样本组合特征训练得到的,而样本组合特征由各个具有关联性的离散特征组合得到,因此,本发明实施例在基于深度神经网络层进行策略决策时,能够提高操作策略确定模型的泛化能力,避免模型过度泛化。

305、服务器根据每个操作策略训练样本的样本离散特征和样本组合特征及深度神经网络层,训练初始逻辑回归网络层,得到逻辑回归网络层。

服务器根据每个操作策略训练样本的样本离散特征、样本组合特征及深度神经网络,训练初始逻辑回归网络层,得到逻辑回归网络层的步骤如下:

3051、服务器将每个操作策略训练样本的样本连续特征和样本组合特征输入到深度神经网络层,输出每个策略训练样本对应的已处理特征。

基于已经训练的深度神经网络层,服务器通过将每个操作策略训练样本的样本离散特征和样本组合特征输入到深度神经网络层,可输出每个策略训练样本对应的已处理特征。

3052、服务器将每个操作策略训练样本的样本离散特征、样本组合特征及已处理特征输入到第二损失函数中。

当将每个操作策略训练样本对应的样本离散特征、样本组合特征、已处理特征及每个操作策略样本对应的目标训练对象和目标训练执行能力输入到第二损失函数中,第二损失函数可基于每个操作策略样本对应的样本离散特征、样本组合特征及已处理特征,对目标训练对象和目标训练执行能力进行计算,得到第二损失函数的函数值,该第二损失函数的函数值用于表征采用初始逻辑回归网络层预测向目标训练对象释放目标训练执行能力的操作成功率。

3053、服务器基于第二损失函数的函数值,对初始逻辑回归网络层的参数进行调整,得到逻辑回归网络层。

基于上述步骤3042得到的每个操作策略训练样本对应的第二损失函数的函数值,服务器获取每个操作策略训练样本对应的第二损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值,如果第二损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值大于第二预设阈值,则对初始逻辑回归网络层的参数进行调整,直至每个操作策略训练样本对应的第一损失函数的函数值与每个操作策略训练样本的实际操作成功率之间的差值小于第二预设阈值,然后,服务器获取满足阈值条件时的初始逻辑回归网络层的参数,进而将该参数对应的初始逻辑回归网络层,作为逻辑回归网络层。其中,第二预设阈值可根据服务器的处理精度确定。

在本发明实施例中的逻辑回归网络层是根据离散特征训练得到,可记忆频繁出现的离散特征,因此,基于逻辑回归网络层在进行操作策略决策时,能够提高操作策略确定模型的泛化能力。其中,泛化能力是指机器学习算法对新鲜样本的适应能力。通过对部分样本进行学习,学习到隐含在样本背后的规律,对于具有同一规律的训练集以外的样本,输入所训练的模型也能给出合适的输出。

为了验证所训练的操作策略确定模型的准确性,本发明实施例还采用测试样本对所训练的操作策略确定模型进行测试,进而根据测试结果,对模型的性能进行评价。

图4是一种操作策略确定模型的建立过程的示意图,该过程如下:

1、在游戏类应用的运行过程中,服务器获取对战数据,得到操作策略训练样本。其中,对战数据包括指定应用界面中各个对象的操作行为,每个对象的操作行为数据包括用户账号、用户等级、对战时间、血量、攻击力等。

2、服务器从操作策略训练样本中提取特征。具体地,从操作策略训练样本中提取的特征包括离散特征、连续特征及组合特征,对于三种特征的具体提取方法,可参见上述步骤302。

3、服务器采用归一化、离散化等方式对提取的特征进行处理,得到样本离散特征、样本组合特征及样本连续特征。

4、基于所得到的样本离散特征、样本组合特征及样本连续特征,服务器进行模型训练,在模型训练过程中,服务器将用于训练模型的操作策略训练样本分为测试集和训练集,其中,训练集用于进行模型训练,测试集用于对所训练的模型性能进行测试。

5、服务器根据训练集中的每个操作策略训练样本的样本连续特征和样本组合特征,对初始深度神经网络层进行训练,得到深度神经网络层。

6、服务器根据训练集中的每个操作策略训练样本的样本离散特征和样本组合特征及深度神经网络层,对初始逻辑回归网络层进行训练,得到逻辑回归网络层,该深度神经网络层和逻辑回归网络层即为操作策略确定模型。

7、服务器采用测试集中的每个操作策略训练样本,对操作策略确定模型进行测试,从而对所训练的操作策略确定模型的性能进行评价。

本发明实施例提供的一种操作控制方法,参见图5,本发明实施例提供的方法流程包括:

501、终端获取指定应用界面上包括指定对象在内的各个对象的操作行为数据。

其中,指定对象为登录指定应用的用户账号对管理的对象。在指定应用运行过程中,当检测到指定对象处于托管状态或者暂时离散线状态,终端获取指定应用界面上各个对象的操作行为数据。

例如,在英雄a与英雄b、英雄c的对战过程中,管理英雄a的用户选择将英雄a进行托管,当检测到英雄a处于托管状态时,英雄a侧的终端获取游戏界面上各个角色的操作行为数据,该操作行为数据包括英雄a的等级、英雄a的用户账号、英雄b的等级、英雄b的用户账号、英雄c的等级、英雄c的用户账号、英雄a的攻击力、英雄a的血量、英雄b的攻击力、英雄b的血量、英雄c的攻击力、英雄c的血量、英雄a与英雄b之间的距离、英雄a与英雄c之间的距离、英雄b与英雄c之间的距离等。

502、终端从操作行为数据中,提取各个对象的离散特征、连续特征及组合特征。

其中,离散特征的提取方式为:终端根据操作行为数据中各个数据的数据类型,从操作行为数据中,提取特征值具有离散性的特征作为离散特征。

连续特征的提取方式:终端根据操作行为数据中各个数据的数据类型,从操作行为数据中,提取特征值具有连续性的特征,并对提取的特征进行归一化处理,得到连续特征。其中,归一化可以为min-max等。

组合特征的提取方式:终端根据特征组合形式,将离散特征中具有关联性的特征组成组合特征。

例如,在英雄a与英雄b、英雄c的对战过程中,当检测到英雄a处于托管状态时,英雄a侧的终端获取游戏界面上各个角色的操作行为数据,该操作行为数据包括英雄a的等级、英雄a的用户账号、英雄b的等级、英雄b的用户账号、英雄c的等级、英雄c的用户账号、英雄a的攻击力、英雄a的血量、英雄b的攻击力、英雄b的血量、英雄c的攻击力、英雄c的血量、英雄a与英雄b之间的距离、英雄a与英雄c之间的距离、英雄b与英雄c之间的距离等。终端根据操作行为数据中各个数据的类型,将英雄a的等级、英雄a的用户账号、英雄b的等级、英雄b的用户账号、英雄c的等级、英雄c的用户账号、英雄a与英雄b之间的距离、英雄a与英雄c之间的距离、英雄b与英雄c之间的距离作为离散特征,将英雄a的攻击力、英雄a的血量、英雄b的攻击力、英雄b的血量、英雄c的攻击力、英雄c的血量作为连续特征。由于不同英雄之间的距离影响操作成功率,因而终端可将英雄a与英雄b之间的距离、英雄a与英雄c之间的距离、英雄b与英雄c之间的距离组成组合特征。

503、终端将离散特征、连续特征及组合特征输入到操作策略确定模型中,输出目标对象和指定对象的目标执行能力。

其中,操作策略确定模型用于基于离散特征、连续特征及组合特征,确定目标对象和目标执行能力。终端至少将离散特征、连续特征及组合特征输入到操作策略确定模型中,输出目标对象和指定对象的目标执行能力的过程如下:

5031、终端获取指定对象所具有的每种执行能力及指定应用界面上除指定对象之外的每个可选对象,将指定对象的每种执行能力和每个可选对象作为一种待决策策略。

5032、终端将离散特征、连续特征、组合特征及每种待决策策略输入到操作策略确定模型中,输出每种待决策策略对应的策略分数。

其中,策略分数用于表征操作成功率。

5033、终端将策略分数最高的决策策略中的可选对象和指定对象的执行能力分别作为目标对象和目标执行能力。

504、终端控制指定对象向目标对象释放目标执行能力。

基于所确定的目标对象和目标执行能力,终端通过控制指定对象向目标对象释放目标执行能力,从而实现对指定对象的操作控制。

图6为一种游戏类应用界面的示意图,参见图6,当检测到指定对象处于托管状态或者暂时离散状态时,终端获取游戏类应用界面上各个对象的操作行为数据,并提取各个对象的离散特征、连续特征及组合特征,进而将各个对象的离散特征、连续特征及组合特征输入到操作策略确定模型中,操作策略确定模型基于离散特征、连续特征及组合特征,对每种可选对象和指定对象的每种技能进行决策,得到策略决策分数,并将策略分数最高的决策策略中的可选对象和指定对象的执行能力分别作为目标对象和目标执行能力,进而控制指定对象向目标对象释放目标执行能力,如图6中向游戏类应用界面上与指定对象距离最远的可选对象释放治疗光波。

由于本发明实施例提供的操作控制方法可根据当前的操作场景,如队友选择的技能、上回合释放的技能、上回合选择的目标等进行合理的决策,因此,在本回合中可智能地为用户选择合适的待释放技能和待攻击目标,从而在游戏过程中可提高本回合对战时的成功率。针对不同的ai在实际对战中,对战成功率如表1所示。

表1

表1可以看出,采用随机方式进行对战时,对战成功率仅为7.6%,采用大招集火方式进行对战时,对战成功率仅为22.7%,采用强化学习方式进行对战时,对战成功率仅为30.2%,…,而采用本发明实施例提供的模型(dnn+lr)进行对战时,对战成功率最高,接近60%。

本发明实施例提供的方法,通过提取不同类型的特征,并将所提取的特征输入到操作策略确定模型中,由于操作策略确定模型能够根据不同类型的特征,决策出适合当前操作场景的目标对象和目标执行能力,因而基于目标对象和目标执行能力进行操作控制时,操作成功率较高。

参见图7,本发明实施例提供了一种操作控制装置,该装置包括:

获取模块701,用于获取指定应用界面上包括指定对象在内的各个对象的操作行为数据,指定对象为登录指定应用的用户账号所管理的对象;

提取模块702,用于从操作行为数据中,提取各个对象的离散特征、连续特征及组合特征,离散特征是指特征值具有离散性的特征,连续特征是指特征值具有连续性的特征,组合特征是指由多个具有关联性的离散特征组合而成的特征;

处理模块703,用于将离散特征、连续特征及组合特征输入到操作策略确定模型中,输出目标对象和指定对象的目标执行能力,操作策略确定模型用于基于离散特征、连续特征及组合特征,确定目标对象和目标执行能力;

释放模块704,用于控制指定对象向目标对象释放目标执行能力。

在本发明另一个实施例中,提取模块702,用于从操作行为数据中,提取特征值具有离散性的离散特征;从操作行为数据中,提取特征值具有连续性的特征,并对提取的特征进行归一化处理,得到连续特征;将离散特征中具有关联性的特征组成组合特征。

在本发明的另一个实施例中,处理模块703,用于获取指定对象所具有的每种执行能力及指定应用界面上除指定对象之外的每个可选对象,将指定对象的每种执行能力和每个可选对象作为一种待决策策略;将离散特征、连续特征、组合特征及每种待决策策略输入到操作策略确定模型中,输出每种待决策策略对应的策略分数,策略分数用于表征操作成功率;将策略分数最高的决策策略中的可选对象和指定对象的执行能力分别作为目标对象和目标执行能力。

在本发明另一个实施例中,该装置还包括:

获取模块701,用于获取操作策略训练样本;

提取模块702,用于从每个操作策略训练样本中,提取样本离散特征、样本连续特征及样本组合特征;

获取模块701,用于获取初始操作策略确定模型,初始操作策略确定模型包括初始深度神经网络层和初始逻辑回归网络层;

训练模块,用于根据每个操作策略训练样本的样本连续特征和样本组合特征,训练初始深度神经网络层,得到深度神经网络层;

训练模块,用于根据每个操作策略训练样本的样本离散特征和样本组合特征及深度神经网络层,训练初始逻辑回归网络层,得到逻辑回归网络层。

在本发明另一个实施例中,训练模块,用于对每个操作策略训练样本的样本连续特征和样本组合特征进行降维处理,得到每个操作策略训练样本对应的样本训练特征;将每个操作策略训练样本对应的样本训练特征输入到第一损失函数中;基于第一损失函数的函数值,对初始深度神经网络层的参数进行调整,得到深度神经网络层。

在本发明另一个实施例中,训练模块,用于将每个操作策略训练样本的样本连续特征和样本组合特征输入到深度神经网络层,输出每个策略训练样本对应的已处理特征;将每个操作策略训练样本的样本离散特征、样本组合特征及已处理特征输入到第二损失函数中;基于第二损失函数的函数值,对初始逻辑回归网络层的参数进行调整,得到逻辑回归网络层。

综上所述,本发明实施例提供的装置,通过提取不同类型的特征,并将所提取的特征输入到操作策略确定模型中,由于操作策略确定模型能够根据不同类型的特征,决策出适合当前操作场景的目标对象和目标执行能力,因而基于目标对象和目标执行能力进行操作控制时,操作成功率较高。

图8示出了本发明一个示例性实施例提供的用于操作控制的终端800的结构框图。该终端800可以是:智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端800包括有:处理器801和存储器802。

处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的操作控制方法。

在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路804用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏805用于显示ui(userinterface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件808可以是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3d动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商logo时,指纹传感器814可以与物理按键或厂商logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。

接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

本发明实施例提供了一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现如图5所示的操作控制方法。

图9是根据一示例性实施例示出的一种用于建立操作策略确定模型的服务器。参照图9,服务器900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行图3所示的操作策略确定模型的建立中服务器所执行的功能。

服务器900还可以包括一个电源组件926被配置为执行服务器900的电源管理,一个有线或无线网络接口950被配置为将服务器900连接到网络,和一个输入输出(i/o)接口958。服务器900可以操作基于存储在存储器932的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

需要说明的是:上述实施例提供的操作控制装置在进行操作控制时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将操作控制装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的操作控制装置与操作控制方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1