一种游戏测试的方法及装置、电子设备、存储介质与流程

文档序号：17773427发布日期：2019-05-28 19:43阅读：229来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及游戏领域，特别是涉及一种游戏测试的方法及装置、电子设备、存储介质。

背景技术：

在网络游戏中，游戏测试是尤为重要的一个环节，现有技术中通常存在人工测试和自动测试两种测试方式。

对于人工测试，是由测试人员先确定游戏的设计思路，编写测试用例，然后通过测试用例，人工地不断测试游戏相关内容，找到与设计不符的问题。

对于自动测试，是在获得测试用例后，通过编程的方式编写自动测试的代码，然后自动地测试游戏相关内容，找到与设计不符的问题。

然而，不论是人工测试还是编写代码自动测试，均依赖于测试人员对游戏、玩家行为的理解，且需要大量重复性的测试工作，测试效率低且效果差。

技术实现要素：

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种游戏测试的方法及装置、电子设备、存储介质，包括：

一种游戏测试的方法，所述方法包括：

获取历史游戏数据；其中，所述历史游戏数据包括第一状态信息及所述第一状态信息对应的第一行为信息；

对所述历史游戏数据进行模型训练，得到数据模型；

采用所述数据模型，对当前游戏进行测试，得到测试结果数据。

可选的，所述采用所述数据模型，对当前游戏进行测试，得到测试结果数据的步骤包括：

获取当前游戏的第二状态信息，并将所述第二状态信息输入所述数据模型，接收所述数据模型输出的第二行为信息；

采用所述第二行为信息控制游戏角色，获得测试结果数据。

可选的，当所述数据模型为第一数据模型时，所述第二行为信息对应多个候选行为集合，所述采用所述第二行为信息控制游戏角色，获得测试结果数据的步骤包括：

依次采用所述候选行为集合，控制游戏角色进行重复测试；

计算每个候选行为集合对应的收益值；

当所述收益值与预设收益值相匹配时，确定所述相匹配的收益值对应的候选行为集合为最优策略；

生成所述最优策略对应的测试结果数据。

可选的，当所述数据模型为第二数据模型时，所述第二行为信息对应一个候选行为集合，所述采用所述第二行为信息控制游戏角色，获得测试结果数据的步骤包括：

采用所述候选行为集合，控制游戏角色测试当前游戏流程；

在游戏角色的控制过程中，生成测试结果数据。

可选的，所述方法还包括：

当检测到满足预设条件的测试结果数据时，终止测试。

可选的，所述数据模型为采用强化学习训练的模型。

一种游戏测试的装置，所述装置包括：

游戏数据获取模块，用于获取历史游戏数据；其中，所述历史游戏数据包括第一状态信息及所述第一状态信息对应的第一行为信息；

模型训练模块，用于对所述历史游戏数据进行模型训练，得到数据模型；

游戏测试模块，用于采用所述数据模型，对当前游戏进行测试，得到测试结果数据。

可选的，所述游戏测试模块包括：

第二行为信息获取子模块，用于获取当前游戏的第二状态信息，并将所述第二状态信息输入所述数据模型，接收所述数据模型输出的第二行为信息；

测试结果数据获得子模块，用于采用所述第二行为信息控制游戏角色，获得测试结果数据。

可选的，当所述数据模型为第一数据模型时，所述第二行为信息对应多个候选行为集合，所述测试结果数据获得子模块包括：

重复测试单元，用于依次采用所述候选行为集合，控制游戏角色进行重复测试；

收益值计算单元，用于计算每个候选行为集合对应的收益值；

最优策略确定单元，用于当所述收益值与预设收益值相匹配时，确定所述相匹配的收益值对应的候选行为集合为最优策略；

第一测试结果数据生成单元，用于生成所述最优策略对应的测试结果数据。

可选的，当所述数据模型为第二数据模型时，所述第二行为信息对应一个候选行为集合，所述测试结果数据获得子模块包括：

游戏流程测试单元，用于采用所述候选行为集合，控制游戏角色测试当前游戏流程；

第二测试结果数据生成单元，用于在游戏角色的控制过程中，生成测试结果数据。

可选的，所述装置还包括：

终止测试模块，用于当检测到满足预设条件的测试结果数据时，终止测试。

可选的，所述数据模型为采用强化学习训练的模型。

一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的游戏测试的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的游戏测试的方法的步骤。

本发明实施例具有以下优点：

在本发明实施例中，通过获取历史游戏数据，历史游戏数据包括第一状态信息及第一状态信息对应的第一行为信息，并可以对历史游戏数据进行模型训练，得到数据模型，然后可以采用数据模型，对当前游戏进行测试，得到测试结果数据，实现了采用数据模型对游戏进行测试，避免了依赖于测试人员，减少了测试工作量，提升了测试的效率和效果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种游戏测试的方法的步骤流程图；

图2是本发明一实施例提供的游戏测试的装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明一实施例提供的一种游戏测试的方法的步骤流程图，具体可以包括如下步骤：

步骤101，获取历史游戏数据；其中，所述历史游戏数据包括第一状态信息及所述第一状态信息对应的第一行为信息；

在具体实现中，可以获取多个游戏玩家的历史游戏数据，例如，历史游戏数据可以为<s,a>，s可以为玩家决策时的第一状态信息，a可以为在状态s下玩家决策的第一行为信息。

步骤102，对所述历史游戏数据进行模型训练，得到数据模型；

作为一示例，数据模型可以为采用强化学习训练的模型，如采用dqn(deepq-learning)、a3c(asynchronousadvantageactorcritic)、impala(importancesweightedactor-learnerarchitectures)算法。

强化学习是智能体(agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

在强化学习中，会尽可能的寻找一种最优策略以取得最高的累积回报(reward)，取得累积回报的快慢和高低可以用来衡量任务的难度，而在游戏任务中，数值就能够影响任务的难度，通过强化学习的结果就可以知道当前数值对应的难度，利用这一反馈，就能够辅助策划来设置更合理的数值。

在获得历史游戏数据后，可以预先采用强化学习算法对历史游戏数据进行训练，得到数据模型，用以模仿真实玩家的行为策略。

步骤103，采用所述数据模型，对当前游戏进行测试，得到测试结果数据。

在获得数据模型后，可以采用数据模型对当前游戏中的玩法或副本进行测试，进而可以通过分析得到测试结果数据。

在本发明一实施例中，步骤103可以包括如下子步骤：

子步骤11，获取当前游戏的第二状态信息，并将所述第二状态信息输入所述数据模型，接收所述数据模型输出的第二行为信息；

针对待测试的当前游戏，可以获取对应的第二状态信息，然后将第二状态信息输入数据模型，进而可以获得数据模型输出的第二行为信息。

子步骤12，采用所述第二行为信息控制游戏角色，获得测试结果数据。

在获得第二行为信息后，可以调用游戏函数的接口，控制游戏角色进行第二行为信息对应的行为，进而可以得到测试结果数据。

在本发明一实施例中，当数据模型为第一数据模型时，第一数据模型可以用于进行极端情况下游戏bug的测试，如技能设计不合理导致的无限控制、副本设置不合理导致卡boss等。

相应的，第一数据模型输出的第二行为信息可以对应多个候选行为集合，即可以不停的尝试各种情况，且可以不断的迭代网络使得其能更高效的通过游戏，则子步骤12可以包括如下子步骤：

依次采用所述候选行为集合，控制游戏角色进行重复测试；计算每个候选行为集合对应的收益值；当所述收益值与预设收益值相匹配时，确定所述相匹配的收益值对应的候选行为集合为最优策略；生成所述最优策略对应的测试结果数据。

在具体实现中，可以预先设置收益函数，在测试的过程中，依次采用候选行为集合控制游戏角色进行重复测试，然后采用收益函数计算每次测试对应的收益值，当某个收益值与预设收益值相匹配时，则可以确定相匹配的收益值对应的候选行为集合为最优策略，进而可以生成测试结果数据。

例如，当前待测试的为游戏角色a对战boss的副本，游戏角色a拥有技能a1、a2、a3，技能a3是伤害值最大的一个技能且冷却时间较长。

但在测试过程中，存在技能冷却失效的情况，则可以发现游戏角色a一直在使用技能a3，且能够在很短的时间内战胜boss，即可以确定该策略为最优策略，该最优策略对应了游戏的bug。

又如，在副本地图中存在障碍物，假设boss是一个规则控制的ai,其可以采取直线走进游戏角色a的方式，当距离近到一定程度时释放技能。

但在测试过程中，游戏角色a可以通过吸引boss到达障碍物附近，然后利用障碍物来困住boss，进而能够在很短的时间内战胜boss，即可以确定该策略为最优策略，该最优策略对应了游戏的bug。

在本发明一实施例中，当数据模型为第二数据模型时，第二数据模型可以用于进行常规测试，如测试游戏玩法或副本的流程是否正常、玩家获得游戏体验是否满足需求、游戏的平衡性是否满足需求等。

相应的，第二行为信息可以对应一个候选行为集合，即模拟真实玩家的最佳行为策略，则子步骤12可以包括如下子步骤：

采用所述候选行为集合，控制游戏角色测试当前游戏流程；在游戏角色的控制过程中，生成测试结果数据。

在具体实现中，可以采用候选行为集合，控制游戏角色测试当前游戏流程，进而可以在游戏角色的控制过程中，生成测试结果数据。

例如，为了验证副本设计的逻辑是否正确、是否存在bug，则测试当前游戏流程可以测试游戏副本实际的运行的情况，如果发生游戏崩溃或者无法触发预设的副本流程，则表征当前游戏流程存在异常。

在本发明一实施例中，还可以包括如下步骤：

当检测到满足预设条件的测试结果数据时，终止测试。

在具体实现中，当检测到满足预设条件的测试结果数据时，如测试结果数据与当前游戏流程存在异常情况下的数据相匹配，则可以终止测试，并可以进行通知和预警。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明一实施例提供的一种游戏测试的装置的结构示意图，具体可以包括如下模块：

游戏数据获取模块201，用于获取历史游戏数据；其中，所述历史游戏数据包括第一状态信息及所述第一状态信息对应的第一行为信息；

模型训练模块202，用于对所述历史游戏数据进行模型训练，得到数据模型；

游戏测试模块203，用于采用所述数据模型，对当前游戏进行测试，得到测试结果数据。

在本发明一实施例中，所述游戏测试模块203包括：

第二行为信息获取子模块，用于获取当前游戏的第二状态信息，并将所述第二状态信息输入所述数据模型，接收所述数据模型输出的第二行为信息；

测试结果数据获得子模块，用于采用所述第二行为信息控制游戏角色，获得测试结果数据。

在本发明一实施例中，当所述数据模型为第一数据模型时，所述第二行为信息对应多个候选行为集合，所述测试结果数据获得子模块包括：

重复测试单元，用于依次采用所述候选行为集合，控制游戏角色进行重复测试；

收益值计算单元，用于计算每个候选行为集合对应的收益值；

最优策略确定单元，用于当所述收益值与预设收益值相匹配时，确定所述相匹配的收益值对应的候选行为集合为最优策略；

第一测试结果数据生成单元，用于生成所述最优策略对应的测试结果数据。

在本发明一实施例中，当所述数据模型为第二数据模型时，所述第二行为信息对应一个候选行为集合，所述测试结果数据获得子模块包括：

游戏流程测试单元，用于采用所述候选行为集合，控制游戏角色测试当前游戏流程；

第二测试结果数据生成单元，用于在游戏角色的控制过程中，生成测试结果数据。

在本发明一实施例中，还包括：

终止测试模块，用于当检测到满足预设条件的测试结果数据时，终止测试。

在本发明一实施例中，所述数据模型为采用强化学习训练的模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明一实施例还提供了一种电子设备，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上游戏测试的方法的步骤。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上游戏测试的方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种游戏测试的方法及装置、电子设备、存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈赢峰;林磊;范长杰
技术所有人：网易（杭州）网络有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。