一种面向强化学习算法模型的自动化评测系统及方法与流程

文档序号：35713508发布日期：2023-10-12 16:35阅读：68来源：国知局

本技术涉及强化模型性能评价，特别是涉及一种面向强化学习算法模型的自动化评测系统及方法。

背景技术：

1、基于强化学习的智能算法在自动控制、人机交互以及博弈类对抗游戏等领域取得了非凡的成就，被广泛应用。强化学习算法主要用来处理较大甚至是连续的状态空间和动作空间问题，在这类应用中，强化学习智能体以仿真环境的反馈作为智能体输入的模型算法，主要通过智能体与环境交互和试错，利用奖励函数等评价性的反馈信号实现智能体的优化。但是，由于构建的仿真环境无法100％还原真实世界，当真实世界中发生“意想不到”的变化时，原来训练好的智能体便无法较好地适应已变化的新场景。所以，开展人工智能算法的评测对于确保人工智能技术好用、安全、可靠、可控具有重要意义。

2、现阶段对于强化学习算法模型的评测往往基于单一的或统计性指标，综合性能更优的模型就是更好的。然而，当面向对模型性能要求极高的场景，例如安防演练、红蓝博弈对抗类游戏，由于双方都时刻处于与对方的博弈对抗中，即使是已经取得了99％的胜率也难以确保1％的失败不会在特定的博弈对抗场景中出现。因此，在复杂环境下的实际应用中，亟需一种更加全面的评测方法，实现自动快速地评测强化学习算法模型的性能。

技术实现思路

1、本技术提供一种面向强化学习算法模型的自动化评测系统及方法，能够对算法模型的适用范围及边界条件下的能力进行评估，并进行综合性能的评价，为基于强化学习技术的智能算法提供一种全面、快速的评测方式。

2、本技术实施例第一方面提供一种面向强化学习算法模型的自动化评测系统，上述系统包括：

3、接口模块，用于与真实应用系统进行通信，以接收构建新应用仿真环境所需的真实环境数据；

4、数据上传模块，用于上传待评测强化学习模型及对应的样本环境数据和样本数据；

5、仿真环境构建模块，用于构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数据构建的新应用仿真环境；

6、模型复测模块，用于将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行验证；

7、基线算法模型管理模块，用于对若干基线算法模型进行存储和管理，任一上述基线算法模型标记有对应的适用范围和边界条件；

8、性能测试模块，用于分别测试上述待评测强化学习模型和选择的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数；

9、模型评测模块，用于基于测试分数，分别计算上述待评测强化学习模型相对于上述基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。

10、可选地，上述模型复测模块包括：

11、调用测试子模块，用于从上述数据上传模块中调用上述待评测强化学习模型及对应的样本环境数据，将上述待评测强化学习模型集成到上述第一仿真环境中，以检测上述待评测强化学习模型能否被正常调用；

12、运行测试子模块，用于在上述待评测强化学习模型调用成功后，从上述数据上传模块中调用上述待评测强化学习模型对应的样本数据，将上述样本数据中的输入数据输入上述待评测强化学习模型中进行处理，得到运行结果数据，并将上述运行结果数据与样本数据中对应的输出数据进行对比，以对上述待评测强化学习模型的功能进行验证。

13、可选地，上述性能测试模块包括：

14、指标确定子模块，用于确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；

15、基线算法模型选择子模块，用于根据新应用仿真环境的要求，从上述基线算法模型管理模块中选择并调用上述适用范围和边界条件符合要求的基线算法模型；

16、模型测试子模块，用于分别测试上述待评测强化学习模型和调用的基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；

17、分数计算子模块，用于根据上述性能分数进行综合计算，得到上述待评测强化学习模型和调用的基线算法模型各自的测试分数。

18、可选地，上述性能测试模块还用于选择评测的工作模式，包括：

19、第一工作模式，用于根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比；

20、第二工作模式，用于自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。

21、可选地，上述模型测试子模块包括：

22、可用性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线算法模型的成功率，根据成功率计算对应的可用性分数：

23、

24、其中，p1表示可用性分数，p表示成功率，a表示预设的标准值；

25、优劣性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应输出的奖励值，并通过计算平均奖励值得到优劣性分数：

26、

27、其中，p2表示优劣性分数，n表示真实环境数据的数量，mn表示第n组真实环境数据对应的奖励值；

28、敏捷性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的平均运行时间，并根据平均运行时间和预设的任务要求时间计算敏捷性分数：

29、

30、其中，p3表示敏捷性分数，t1表示平均运行时间，t2表示预设的任务要求时间；

31、稳定性分数计算单元，用于调用上述接口模块中的真实环境数据，输入上述待评测强化学习模型/基线算法模型中进行推演，得到对应的输出结果，并根据预设任务目标和输出结果统计上述待评测强化学习模型/基线算法模型的成功次数，根据成功次数计算对应的稳定性分数：

32、

33、其中，p4表示稳定性分数，n表示真实环境数据的数量，n表示成功次数。

34、可选地，上述分数计算子模块包括：

35、利用如下方式计算上述待评测强化学习模型和调用的基线算法模型各自的测试分数：

36、

37、其中，h表示综合的测试分数，pi表示第i个性能指标的性能分数，wi表示用户预设的第i个性能指标的权重系数，m表示性能指标的个数。

38、可选地，上述模型评测模块包括：

39、能力值计算子模块，用于基于上述测试分数，利用如下方式计算上述待评测强化学习模型相对于上述基线算法模型的能力值：

40、

41、其中，a表示待评测强化学习模型的能力值，h测表示待评测强化学习模型的测试分数，h基表示基线算法模型的测试分数；

42、模型更新子模块，用于将能力值大于或等于预设阈值的上述待评测强化学习模型保存至上述基线算法模型管理模块中，对上述基线算法模型进行更新。

43、本技术实施例第二方面提供一种面向强化学习算法模型的自动化评测方法，上述方法包括：

44、获取构建新应用仿真环境所需的真实环境数据、待评测强化学习模型及对应的样本环境数据和样本数据，上述待评测强化学习模型是通过上述样本数据在上述样本环境下进行训练得到的；

45、构建第一仿真环境和第二仿真环境，上述第一仿真环境为根据上述样本环境数据重建的待评测强化学习模型训练时的仿真环境，上述第二仿真环境为根据上述真实环境数据构建的新应用仿真环境；

46、将上述待评测强化学习模型集成到上述第一仿真环境中，并利用上述样本数据对上述待评测强化学习模型的功能进行复测；

47、根据上述新应用仿真环境的要求，从预置的基线算法模型管理库中选择出适用范围和边界条件符合要求的基线算法模型；

48、根据上述真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数；

49、基于上述测试分数，分别计算上述待评测强化学习模型相对于上述基线算法模型的能力值，实现对上述待评测强化学习模型的自动化评测。

50、可选地，上述根据真实环境数据分别测试上述待评测强化学习模型和选择出的基线算法模型在上述新应用仿真环境下的性能，得到对应的测试分数，包括：

51、确定评测所使用的性能指标，上述性能指标为可用性、优劣性、敏捷性和稳定性中的一个或多个；

52、分别测试上述待评测强化学习模型和上述基线算法模型在上述新应用仿真环境下的性能，得到对应的各性能指标的性能分数；

53、根据上述性能分数进行综合计算，得到上述待评测强化学习模型和上述基线算法模型各自的测试分数。

54、可选地，上述方法还包括选择评测的工作模式：

55、当选择第一工作模式时，根据用户选择的一种或多种性能指标进行对应的评测，得到测试分数，并与上述基线算法模型的测试分数进行对比；

56、当选择第二工作模式时，自动完成对上述可用性、优劣性、敏捷性和稳定性四种性能指标的综合评测，得到测试分数，并与上述基线算法模型的测试分数进行对比。

57、与现有技术相比，本技术包括以下优点：

58、本技术实施例通过对算法模型的适用范围及边界条件下的能力进行评估，给出对于算法模型的各项评价的实测值，以及待评测强化学习模型相对于基线算法模型的能力提升值，以判断待评测强化学习模型在新场景中的表现是否能达到用户预期，为基于强化学习技术的智能算法的快速评测提供一种便捷的解决方式。

59、本技术实施例在对待评测强化学习模型进行评测时，设计了两种工作模式可供用户选择。第一工作模式用于当用户评测模型的时间有限或有自己的评测方向时，可在模型的可用性、优劣性、敏捷性和稳定性四种角度中自行选择一种或多种评测角度，并将评测后的结果与基线算法模型的评测结果进行对比；第二工作模式用于当用户评测模型的时间充裕或想更加全面地评测模型时，能够一键自动完成对模型的可用性、优劣性、敏捷性和稳定性多角度的综合评测，将综合评测后的结果与基线算法模型的评测结果进行对比。

60、本技术实施例引入面向动态变化场景的模型评测技术和加权机制，将模型的综合指标与应用场景相结合，对模型成果进行系统全面的评测。同时，在评测过程中，针对用户实际需求，可自行选择评测指标并自适应调整各评测指标的占比权重，得到更为贴近用户需求的模型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾帅楠赵思聪曹扬彭渊吕乃冰吴双贾亦文
技术所有人：北京航天晨信科技有限责任公司
我是此专利的发明人

上一篇：一种挤出机废气收集罩装置的制作方法
上一篇：一种一体化下三工位开关及其智能化监测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。