一种在模糊测试中生成提示模板的方法及装置与流程

文档序号：36427313发布日期：2023-12-20 22:53阅读：22来源：国知局

本说明书一个或多个实施例涉及机器学习领域，尤其涉及一种在模糊测试中生成提示模板的方法及装置。

背景技术：

1、近年来，大语言模型(large language models,llms)广受欢迎，应用于包括日常对话、文章生成、代码生成等多个方面。尽管大语言模型已经取得了巨大的成功，但是其并不是完全安全可靠的，例如，在一些场景中，它可能会针对用户输入的问题给出违法的或者不符合人类价值观的有害信息。尽管目前大语言模型自带的安全措施可以减少生成有害信息的情况，但是，仍然有一些方法可以越过这些安全措施，进而引导大语言模型生成有害信息，这其中最为流行的一类方法被称为“越狱”(jailbreak)。

2、目前，越狱通常基于人工专门设计的越狱提示文本(prompt)，通过利用模型训练数据或者模型架构中的漏洞或者偏差，引导大语言模型生成非预期的或者有害的输出文本。通过收集这些越狱提示文本并训练大语言模型拒绝遵从其中的指示，可以提高大语言模型的安全性。然而，现有的越狱提示都是人工设计的，难以对大语言模型进行大规模训练。因此，需要一种高效的批量生成越狱提示的方法，用来训练大语言模型拒绝输出相应的有害信息，以提高大语言模型的安全性。

技术实现思路

1、本说明书一个或多个实施例描述了一种在模糊测试中生成提示模板的方法及装置，基于现有的少量越狱提示模板所构成的集合，从中选择合适的越狱提示模板，并基于该越狱提示模板生成多个新的越狱提示模板。然后根据新的越狱提示模板在大语言模型上的测试结果，使用优质越狱提示模板对越狱提示模板集合进行扩充。以此批量地自动生成越狱提示，用于进一步训练大语言模型以提高安全性。

2、第一方面，提供了一种在模糊测试中生成提示模板的方法，包括：

3、从当前迭代轮次的提示模板集合中确定种子提示模板；

4、根据所述种子提示模板，生成至少一个目标提示模板；

5、获取第一问题，所述第一问题为被第一大语言模型拒绝回答的问题；

6、将所述第一问题填入任一目标提示模板中，得到目标提示文本；

7、将所述目标提示文本输入到所述第一大语言模型中，将所述第一大语言模型的输出文本输入到奖励模型中，得到对于所述目标提示模板的判定结果；

8、根据所述判定结果，使用目标提示模板更新所述提示模板集合；多轮迭代更新后的提示模板集合用于生成对大语言模型进行模糊测试的数据集。

9、在一种可能的实施方式中，所述判定结果包括奖励分数；从当前迭代轮次的提示模板集合中确定种子提示模板，包括：

10、获取当前的搜索树，所述搜索树基于所述提示模板集合中的各个提示模板构建；

11、从搜索树的根节点开始向叶节点进行多轮搜索，在每轮搜索中，选择uct分数最高的候选节点作为目标节点，将所述目标节点添加到搜索路径中，并将所述目标节点的子节点作为下一轮搜索的候选节点，所述uct分数基于之前迭代轮次中节点在搜索树中的历史搜索次数以及历史平均奖励分数所确定；

12、将搜索路径中最后一个节点对应的提示模板作为种子提示模板。

13、在一种可能的实施方式中，还包括：

14、在所述每轮搜索结束后，以预设的概率直接结束搜索，并输出所述搜索路径。

15、在一种可能的实施方式中，在得到对于所述目标提示模板的判定结果之后，所述方法还包括：

16、基于预设的奖励惩罚系数与最小奖励分数，根据所述判定结果中的奖励分数确定第二奖励分数；

17、对于所述搜索路径中的各个节点，基于所述第二奖励分数更新其平均奖励分数，并更新其搜索次数。

18、在一种可能的实施方式中，在生成至少一个目标提示模板之后，所述方法还包括：

19、将所述至少一个目标提示模板作为所述种子提示模板对应的节点的多个子节点，基于所述多个子节点更新所述搜索树。

20、在一种可能的实施方式中，根据所述种子提示模板，生成至少一个目标提示模板，包括：

21、根据所述种子提示模板，生成风格相似的目标提示模板；和/或

22、根据所述种子提示模板以及提示模板集合中的随机模板的结合，得到目标提示模板；和/或

23、将所述种子提示模板进行扩写，得到目标提示模板；和/或

24、将所述种子提示模板进行缩写，得到目标提示模板；和/或

25、将所述种子提示模板进行改写，得到目标提示模板。

26、在一种可能的实施方式中，根据所述种子提示模板，生成至少一个目标提示模板，包括：

27、至少将所述种子提示模板与预设的变换提示结合，输入到第二大语言模型中，得到至少一个目标提示模板；所述变换提示至少包括：生成提示、融合提示、扩写提示、缩写提示、改写提示。

28、在一种可能的实施方式中，所述奖励模型为经过微调的第三大语言模型，所述微调基于第一训练集，所述第一训练集中包含第一大语言模型的输出文本及其对应的判定结果作为标签。

29、在一种可能的实施方式中，所述判定结果包括，所述第一大语言模型对于所述目标提示文本是否接受的反馈结果；根据所述判定结果，使用目标提示模板更新所述提示模板集合，包括：

30、当所述反馈结果为接受时，将所述目标提示模板添加到所述提示模板集合中。

31、第二方面，提供了一种在模糊测试中生成提示模板的装置，包括：

32、种子选择单元，配置为，从当前迭代轮次的提示模板集合中确定种子提示模板；

33、模板变换单元，配置为，根据所述种子提示模板，生成至少一个目标提示模板；

34、问题获取单元，配置为，获取第一问题，所述第一问题为被第一大语言模型拒绝回答的问题；

35、提示生成单元，配置为，将所述第一问题填入任一目标提示模板中，得到目标提示文本；

36、结果判定单元，配置为，将所述目标提示文本输入到所述第一大语言模型中，将所述第一大语言模型的输出文本输入到奖励模型中，得到对于所述目标提示模板的判定结果；

37、集合更新单元，配置为，根据所述判定结果，使用目标提示模板更新所述提示模板集合；多轮迭代更新后的提示模板集合用于生成对大语言模型进行模糊测试的数据集。

38、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

39、第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

40、本说明书实施例提出的一种在模糊测试中生成提示模板的方法及装置，基于现有的少量越狱提示模板所构成的集合，从中选择合适的越狱提示模板，并基于该越狱提示模板生成多个新的越狱提示模板。然后根据新的越狱提示模板在大语言模型上的测试结果，使用优质越狱提示模板对越狱提示模板集合进行扩充。以此批量地自动生成越狱提示，用于进一步训练大语言模型以提高安全性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林性伟郁家豪
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：航天器服务装置及相关组件的制作方法
上一篇：基于贪心搜索的最大归集子图的检测方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。