模型决策能力的确定方法、装置、电子设备及存储介质与流程

文档序号：37364301发布日期：2024-03-22 10:17阅读：8来源：国知局

本发明涉及测试，特别是涉及模型决策能力的确定方法、装置、电子设备及存储介质。

背景技术：

1、llm(large language model，大型语言模型)是基于大量数据进行预训练的超大型深度学习模型，其可应用于各种自然语言处理任务中，例如：内容生成、机器人聊天、编写程式码等等。随着llm的飞速发展，llm展现出了良好的决策能力；然而，llm的决策能力并非完美无缺，在一些场景中，llm可能做出不准确、歧义或错误的决策。因此，针对llm这种具有决策能力的模型而言，测试该模型的决策能力有助于及时发现和修复该模型的不足。

2、相关技术中，通常是通过人工的方式，测试模型的决策能力，例如：人工测试模型做出的决策是否准确。

3、然而，人工测试模型的决策能力的方式，针对模型的决策能力的测试结果比较片面和模糊，对模型的决策能力的测试结果并不准确。因此，如何准确对模型的决策能力进行测试，是亟待解决的问题。

技术实现思路

1、本发明实施例的目的在于提供模型决策能力的确定方法、装置、电子设备及存储介质，以准确对模型的决策能力进行测试。具体技术方案如下：

2、第一方面，本发明实施例提供了一种模型决策能力的确定方法，所述方法包括：

3、确定虚拟场景中属于决策对象的目标场景元素，以及所述目标场景元素的描述特征；

4、基于所述目标场景元素的描述特征，确定目标控制方针对所述目标场景元素的多个候选控制决策；其中，所述目标控制方为对所述虚拟场景进行控制的任一控制方；

5、将所述多个候选控制决策输入至待进行决策能力测试的目标模型，以使所述目标模型从多个候选控制决策中，确定所述目标控制方针对所述目标场景元素待执行的目标控制决策；

6、在所述虚拟场景中，控制所述目标控制方针对所述目标场景元素执行所述目标控制决策，得到执行结果；

7、基于所述执行结果所表征的针对所述目标控制方的利弊程度，确定所述目标模型的决策能力测试结果。

8、可选地，所述基于所述执行结果所表征的针对所述目标控制方的利弊程度，确定所述目标模型的决策能力测试结果，包括：

9、响应于所述执行结果表征针对所述目标控制方产生有利结果，将第一测试结果作为所述目标模型的决策能力测试结果；

10、响应于所述执行结果表征针对所述目标控制方产生非有利结果，将第二测试结果作为所述目标模型的决策能力测试结果；

11、其中，所述第一测试结果所表征的决策能力优于第二测试结果所表征的决策能力。

12、可选地，所述目标场景元素为所述虚拟场景中的一区域范围；

13、所述目标场景元素的描述特征的确定过程，包括：

14、确定位于所述目标场景元素内的各个第一实体元素；

15、获取各个第一实体元素的描述特征；

16、针对各个第一实体元素中的同一类第一实体元素，将该同一类第一实体元素的描述特征进行融合，得到该同一类第一实体元素的融合特征；

17、基于所得到的融合特征以及所述目标场景元素的区域描述特征，生成所述目标场景元素的描述特征。

18、可选地，所述基于所述目标场景元素的描述特征，确定目标控制方针对所述目标场景元素的多个候选控制决策，包括：

19、根据预设的关于场景元素的描述特征、控制方以及控制决策的对应关系，确定与所述目标场景元素的描述特征对应的、针对所述目标控制方的控制决策，得到所述目标场景元素对应的、针对目标控制方的有益决策；

20、对所述目标场景元素对应的、针对目标控制方的有益决策进行扰动处理，得到所述目标场景元素对应的、针对目标控制方的噪声决策；

21、根据所述目标场景元素对应的、针对目标控制方的有益决策以及噪声决策，确定目标控制方针对所述目标场景元素的多个候选控制决策。

22、可选地，所述根据预设的关于场景元素的描述特征、控制方以及控制决策的对应关系，确定与所述目标场景元素的描述特征对应的、针对所述目标控制方的控制决策，得到所述目标场景元素对应的、针对目标控制方的有益决策，包括：

23、将所述目标场景元素的描述特征作为输入内容，输入至预先训练完成的基于注意力机制的神经网络，以使所述神经网络基于所述目标场景元素的描述特征，确定与所述目标场景元素的描述特征对应的、针对所述目标控制方的控制决策，得到所述目标场景元素对应的、针对目标控制方的有益决策；

24、其中，所述神经网络为在训练完成后学习得到关于场景元素的描述特征、控制方以及控制决策的对应关系的网络。

25、可选地，所述目标控制方对应有至少一个第二实体元素，任一第二实体元素为：所述目标控制方针对所述目标场景元素进行决策执行时所需操控的实体元素；

26、所述在所述虚拟场景中，控制所述目标控制方针对所述目标场景元素执行所述目标控制决策，得到执行结果，包括：

27、将所述目标控制决策解析为多个子决策；其中，任一子决策对应有一个或多个第二实体元素，任一子决策对应的一个或多个第二实体元素为：针对所述目标场景元素，被操控以执行该子决策的实体元素；

28、针对所述目标控制方对应的每一第二实体元素，在所述虚拟场景中，控制该第二实体元素针对所述目标场景元素执行所对应的子决策，得到该第二实体元素对应的执行结果；

29、基于各个第二实体元素对应的执行结果，确定所述目标控制方针对所述目标场景元素执行所述目标控制决策的执行结果。

30、可选地，所述将所述目标控制决策解析为多个子决策，包括：

31、将所述目标控制决策解析，得到多个成对的字段和字段值；

32、针对任一对字段和字段值，将该对字段和字段值确定为一个子决策，得到多个子决策；

33、其中，任一对字段和字段值中，该字段表征执行所对应的子决策的第二实体元素，该字段值表征该第二实体元素所需执行的子决策的内容。

34、可选地，所述将所述目标控制决策解析为多个子决策之前，所述方法还包括：

35、检测所述目标控制决策的内容格式是否为预定格式；其中，所述预定格式为所表示的数据内容可被解析为多个子内容的格式；

36、若检测结果为是，则触发所述将所述目标控制决策解析为多个子决策步骤；

37、若检测结果为否，则为所述目标控制决策添加预定标签，并将添加有所述预定标签的目标控制决策作为输入内容，输入至所述目标模型，以使所述目标模型响应于所述目标控制决策添加有所述预定标签，将所述目标控制决策的内容格式转换为所述预定格式；其中，所述预定标签用于表征输入内容的内容格式不符合所述预定格式；

38、获得具有所述预定格式的目标控制决策，并触发所述将所述目标控制决策解析为多个子决策的步骤。

39、第二方面，本发明实施例提供了一种模型决策能力的确定装置，所述装置包括：

40、第一确定模块，用于确定虚拟场景中属于决策对象的目标场景元素，以及所述目标场景元素的描述特征；

41、第二确定模块，用于基于所述目标场景元素的描述特征，确定目标控制方针对所述目标场景元素的多个候选控制决策；其中，所述目标控制方为对所述虚拟场景进行控制的任一控制方；

42、输入模块，用于将所述多个候选控制决策输入至待进行决策能力测试的目标模型，以使所述目标模型从多个候选控制决策中，确定所述目标控制方针对所述目标场景元素待执行的目标控制决策；

43、控制模块，用于在所述虚拟场景中，控制所述目标控制方针对所述目标场景元素执行所述目标控制决策，得到执行结果；

44、第三确定模块，用于基于所述执行结果所表征的针对所述目标控制方的利弊程度，确定所述目标模型的决策能力测试结果。

45、可选地，所述第三确定模块，具体用于：

46、响应于所述执行结果表征针对所述目标控制方产生有利结果，将第一测试结果作为所述目标模型的决策能力测试结果；

47、响应于所述执行结果表征针对所述目标控制方产生非有利结果，将第二测试结果作为所述目标模型的决策能力测试结果；

48、其中，所述第一测试结果所表征的决策能力优于第二测试结果所表征的决策能力。

49、可选地，所述目标场景元素为所述虚拟场景中的一区域范围；

50、所述目标场景元素的描述特征的确定过程，包括：

51、确定位于所述目标场景元素内的各个第一实体元素；

52、获取各个第一实体元素的描述特征；

53、针对各个第一实体元素中的同一类第一实体元素，将该同一类第一实体元素的描述特征进行融合，得到该同一类第一实体元素的融合特征；

54、基于所得到的融合特征以及所述目标场景元素的区域描述特征，生成所述目标场景元素的描述特征。

55、可选地，所述第二确定模块，包括：

56、第一确定子模块，用于根据预设的关于场景元素的描述特征、控制方以及控制决策的对应关系，确定与所述目标场景元素的描述特征对应的、针对所述目标控制方的控制决策，得到所述目标场景元素对应的、针对目标控制方的有益决策；

57、处理子模块，用于对所述目标场景元素对应的、针对目标控制方的有益决策进行扰动处理，得到所述目标场景元素对应的、针对目标控制方的噪声决策；

58、第二确定子模块，用于根据所述目标场景元素对应的、针对目标控制方的有益决策以及噪声决策，确定目标控制方针对所述目标场景元素的多个候选控制决策。

59、可选地，所述第一确定子模块，具体用于：

60、将所述目标场景元素的描述特征作为输入内容，输入至预先训练完成的基于注意力机制的神经网络，以使所述神经网络基于所述目标场景元素的描述特征，确定与所述目标场景元素的描述特征对应的、针对所述目标控制方的控制决策，得到所述目标场景元素对应的、针对目标控制方的有益决策；

61、其中，所述神经网络为在训练完成后学习得到关于场景元素的描述特征、控制方以及控制决策的对应关系的网络。

62、可选地，所述目标控制方对应有至少一个第二实体元素，任一第二实体元素为：所述目标控制方针对所述目标场景元素进行决策执行时所需操控的实体元素；

63、所述控制模块，包括：

64、解析子模块，用于将所述目标控制决策解析为多个子决策；其中，任一子决策对应有一个或多个第二实体元素，任一子决策对应的一个或多个第二实体元素为：针对所述目标场景元素，被操控以执行该子决策的实体元素；

65、控制子模块，用于针对所述目标控制方对应的每一第二实体元素，在所述虚拟场景中，控制该第二实体元素针对所述目标场景元素执行所对应的子决策，得到该第二实体元素对应的执行结果；

66、第三确定子模块，用于基于各个第二实体元素对应的执行结果，确定所述目标控制方针对所述目标场景元素执行所述目标控制决策的执行结果。

67、可选地，所述解析子模块，具体用于：

68、将所述目标控制决策解析，得到多个成对的字段和字段值；

69、针对任一对字段和字段值，将该对字段和字段值确定为一个子决策，得到多个子决策；其中，任一对字段和字段值中，该字段表征执行所对应的子决策的第二实体元素，该字段值表征该第二实体元素所需执行的子决策的内容。

70、可选地，所述装置还包括检测模块，用于：

71、若检测结果为是，则触发所述将所述目标控制决策解析为多个子决策步骤；

72、若检测结果为否，则为所述目标控制决策添加预定标签，并将添加有所述预定标签的目标控制决策作为输入内容，输入至所述目标模型，以使所述目标模型响应于所述目标控制决策添加有所述预定标签，将所述目标控制决策的内容格式转换为所述预定格式；其中，所述预定标签用于表征输入内容的内容格式不符合所述预定格式；

73、获得具有所述预定格式的目标控制决策，并触发所述将所述目标控制决策解析为多个子决策的步骤。

74、第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

75、存储器，用于存放计算机程序；

76、处理器，用于执行存储器上所存放的程序时，实现任一所述的模型决策能力的确定方法。

77、第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述的模型决策能力的确定方法。

78、本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的模型决策能力的确定方法。

79、本发明实施例有益效果：

80、本发明实施例提供的模型决策能力的确定方法，虚拟场景中的目标场景元素作为决策对象，即执行决策的对象，可以确定虚拟场景中属于决策对象的目标场景元素，以及目标场景元素的描述特征；虚拟场景中存在控制方，可以基于目标场景元素的描述特征，确定目标控制方针对目标场景元素的多个候选控制决策；通过将多个候选控制决策输入至待进行决策能力测试的目标模型的方式，目标模型可以从多个候选控制决策中，确定目标控制方针对目标场景元素待执行的目标控制决策；在虚拟场景中控制目标控制方针对目标场景元素执行目标控制决策，可以得到执行结果，而执行结果所表征的针对目标控制方的利弊程度，可以表征目标模型的决策能力，可以以此确定目标模型的决策能力测试结果。相较于人工测试模型的决策能力的方式，本发明在虚拟场景对目标模型的决策能力进行测试，目标模型可以确定虚拟场景中的目标控制方针对目标场景元素待执行的目标控制决策，并在虚拟场景中，控制目标控制方针对目标场景元素执行模块控制决策，根据执行结果所表征的针对目标控制方的利弊程度，可以准确确定目标模型的决策能力测试结果。可见，通过本发明可以准确对模型的决策能力进行测试。

81、当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李朝,张国鑫,孙佳佳
技术所有人：不鸣科技（杭州）有限公司
我是此专利的发明人

上一篇：一种均匀出光的LED背光灯条的制作方法
上一篇：一种可调节施工灯灯头的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。