指令生成方法、装置、设备、存储介质及产品与流程

文档序号：36398787发布日期：2023-12-16 00:29阅读：109来源：国知局

本技术涉及人工智能，特别涉及一种指令生成方法、装置、设备、存储介质及产品。

背景技术：

1、大语言模型(llm，large language model)是自然语言处理的强大工具。大语言模型能够处理多种自然语言任务，包括机器翻译、智能对话等。大语言模型是使用大量文本数据训练得到的深度学习模型。而若训练阶段使用的文本数据包含不良文本，而不良文本一般不符合社会规则，则在大语言模型的使用阶段，在基于对抗性指令执行任务的情况下，就容易输出这种不良文本，对社会造成不良影响，对抗性指令指包括不良文本的指令。因此，需要基于对抗性指令对大语言模型进行训练，以使大语言模型能够自动防御这种对抗性指令，即使大语言模型对这种对抗性指令不作处理。而在训练之前，需要生成对抗性指令。

2、现有技术中，一般是通过人工标注的方法来生成对抗性指令。而基于人工标注方法生成的对抗性指令较为简单，大语言模型基于这样的对抗性指令输出不良文本的概率较低；显然这样的对抗性指令对大语言模型的训练效果较差，进而降低了大语言模型防御对抗性指令的成功率。

技术实现思路

1、本技术实施例提供了一种指令生成方法、装置、设备、存储介质及产品，提高大语言模型对对抗性指令不作处理的概率，即提高了大语言模型防御对抗性指令的成功率。所述技术方案如下：

2、一方面，提供了一种指令生成方法，所述方法包括：

3、获取第一对抗性指令的对抗性文本和指令结构模板，所述指令结构模板用于从所述对抗性文本中提取所述第一对抗性指令在多个维度的描述信息；

4、基于所述对抗性文本和所述指令结构模板，对所述第一对抗性指令进行结构整理，得到所述第一对抗性指令的信息卡，所述信息卡包括所述第一对抗性指令在多个维度的描述信息；

5、基于所述第一对抗性指令的信息卡，对用于生成对抗性指令的第一指令描述信息进行补充，得到第二指令描述信息；

6、基于所述第二指令描述信息生成第二对抗性指令，所述第二对抗性指令用于训练大语言模型。

7、另一方面，提供了一种指令生成装置，所述装置包括：

8、获取模块，用于获取第一对抗性指令的对抗性文本和指令结构模板，所述指令结构模板用于从所述对抗性文本中提取所述第一对抗性指令在多个维度的描述信息；

9、整理模块，用于基于所述对抗性文本和所述指令结构模板，对所述第一对抗性指令进行结构整理，得到所述第一对抗性指令的信息卡，所述信息卡包括所述第一对抗性指令在多个维度的描述信息；

10、补充模块，用于基于所述第一对抗性指令的信息卡，对用于生成对抗性指令的第一指令描述信息进行补充，得到第二指令描述信息；

11、生成模块，用于基于所述第二指令描述信息生成第二对抗性指令，所述第二对抗性指令用于训练大语言模型。

12、在一些实施例中，所述补充模块，用于：

13、对所述信息卡中的内容进行划分，得到多个子信息；

14、确定所述第一指令描述信息分别与所述多个子信息之间的相似度；

15、基于与所述第一指令描述信息之间的相似度最大的子信息，对所述第一指令描述信息进行补充，得到所述第二指令描述信息。

16、在一些实施例中，所述补充模块，用于：

17、分别获取所述第一指令描述信息和所述多个子信息的编码向量；

18、将所述第一指令描述信息的编码向量分别与所述多个子信息的编码向量之间的相似度，作为所述第一指令描述信息分别与所述多个子信息之间的相似度。

19、在一些实施例中，所述补充模块，用于：

20、基于所述多个维度对所述信息卡中的内容进行划分，得到多个子信息，每个子信息包括至少一个维度的描述信息；或者，

21、基于参考字数对所述信息卡中的内容进行划分，得到多个子信息，每个子信息包括的字数与所述参考字数匹配。

22、在一些实施例中，所述生成模块，用于：

23、将所述第二指令描述信息输入所述大语言模型；

24、通过所述大语言模型，基于所述第二指令描述信息，生成所述第二对抗性指令。

25、在一些实施例中，所述整理模块，用于：

26、将所述指令结构模板和所述对抗性文本输入所述大语言模型；

27、通过所述大语言模型，基于所述指令结构模板和所述对抗性文本，对所述第一对抗性指令进行结构整理，得到所述第一对抗性指令的信息卡。

28、在一些实施例中，所述装置还包括：

29、测试模块，用于基于所述信息卡中第一对抗性指令在多个维度的描述信息，对大语言模型进行测试；

30、执行模块，用于将测试结果更新到所述信息卡上，在所述测试结果满足结果要求的情况下，执行所述基于所述第一对抗性指令的信息卡，对用于生成对抗性指令的第一指令描述信息进行补充，得到第二指令描述信息的步骤。

31、在一些实施例中，所述补充模块还用于：

32、基于所述第一对抗性指令的信息卡，对用于生成模型风险信息的第一风险描述信息进行补充，得到第二风险描述信息，所述模型风险信息用于指示对抗性指令对大语言模型造成的风险；

33、所述生成模块，还用于：

34、基于所述第二风险描述信息生成模型风险信息。

35、在一些实施例中，所述生成模块，用于：

36、将所述第二风险描述信息输入大语言模型；

37、通过所述大语言模型，基于所述第二风险描述信息，生成所述模型风险信息。

38、在一些实施例中，所述多个维度的描述信息包括指令的生成方式、对抗类型、内容、风险信息和应用场景中至少两项的描述信息。

39、另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本技术实施例中的指令生成方法。

40、另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现本技术实施例中的指令生成方法。

41、另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序，所述处理器执行所述计算机程序，使得所述计算机设备执行上述任一实现方式所述的指令生成方法。

42、本技术实施例提供了一种指令生成方法，该方法通过对现有的第一对抗性指令的非结构化文本进行结构化整理，得到了第一对抗性指令在多个维度的描述信息。然后基于第一对抗性指令在多个维度的描述信息对指令描述信息进行补充，使得指令描述信息的内容更加丰富和复杂，进而基于补充后的指令描述信息来生成对抗性指令，保证了所生成的对抗性指令的复杂性和多样性。而基于高复杂性和多样性的对抗性指令训练大语言模型，可提高训练的有效性和准确性，进而提高大语言模型对对抗性指令不作处理的概率，即提高了大语言模型防御对抗性指令的成功率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴秉哲
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种波浪能无人机
上一篇：一种塔式光热电站定日镜跟踪传动机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。