一种异步混合RLHF标注方法及装置、存储介质及电子装置与流程

文档序号：36315061发布日期：2023-12-07 23:14阅读：40来源：国知局

本发明实施例涉及计算机领域，具体而言，涉及一种异步混合rlhf标注方法及装置、存储介质及电子装置。

背景技术：

1、当前大模型是一个技术热点，大模型的微调作为技术方向之一，主要用于针对特定的下游任务或者垂直领域进行更加精细地训练，通过微调期望达到在某个特定任务上比基模型更好的性能。其中主流的大模型微调技术主要有监督微调和基于人类反馈的强化学习微调(rlhf)。一般来说，基于人类反馈的强化学习微调需要大量的人类反馈标注，这对于很多公司或单位而言都是很大的人力开销，而且人类反馈也比较耗时间，每次新的模型都需要新的人类反馈，这进一步增加了成本。现在有些方法采用了通过其他大模型标注的方法来取代人类标注，但是完全去掉人类的反馈，可能会导致大模型崩溃，这种现象称为“递归诅咒”。

技术实现思路

1、本发明实施例提供了一种异步混合rlhf标注方法及装置、存储介质及电子装置，作为一种结合大模型标注和人类标注的互补式标注方法，以至少解决相关技术中剔除人类反馈导致的大模型崩溃现象，可有效减少人工成本，同时提升了标注速度。

2、本发明的目的是采用下述技术方案实现的：

3、根据本发明的一个实施例，提供了一种异步混合rlhf标注方法，所述方法包括：

4、对文本数据包含的内容要素进行预处理，得到自然语句；

5、采用预训练的语言模型生成所述自然语句对应的语言路径；

6、对模型生成的语言路径进行采样，将采样结果作为样本数据输入预先建立的投票模型中进行投票；并在投票结果的优选选项中确定最优标注结果。

7、在一个示例性实施例中，上述对待标注数据包含的内容要素进行预处理包括：

8、生成文本数据中任意两个关键词符的内容要素，对所述内容要素进行排列组合处理，得到内容要素相关联的自然语句。

9、在一个示例性实施例中，上述语言模型的预训练包括：

10、采集海量数据建立文本数据集，分别对文本数据集中的各条文本数据进行主体和关系的抽取，依次将一每条文本数据以及从该文本数据中抽取出的结果作为语言路径构成训练数据，生成训练数据集；

11、使用所述训练数据集对glm通用语言模型进行训练，通过自监督学习方式训练获得语言模型，用于生成自然语句的语言路径。

12、在一个示例性实施例中，上述对模型生成的语言路径进行采样包括：

13、将自然语句形成的问题或者对话输入预训练的语言模型，按照预先定义的数据采样格式，对模型生成的语言路径进行采样，并将采样结果作为待标注的样本数据。

14、在一个示例性实施例中，上述投票模型基于原则池的多个自然语句原则构建获得，其包括：

15、以自然语句包含的双重语义属性为依据，生成同一语义属性下的自然语句集合；

16、根据任务需求，为所述自然语句集合定义自然语句原则，构建原则池；

17、评估原则池的自然语句原则中的词符进行替换的事实偏差程度；

18、基于事实偏差程度进行大模型训练，得到投票模型。

19、在一个示例性实施例中，上述双重语义属性包括有用性和无害性。

20、在一个示例性实施例中，上述将采样结果作为样本数据输入预先建立的投票模型中进行投票包括：

21、为多个投票模型并行分配相同的待标注的样本数据；

22、每个投票模型从预先定义的原则池中随机抽取的若干条自然语句原则，异步输出优选选项，存储至投票池；当投票池中的某个选项票数达到预设阈值时，自动输出该选项为最优标注结果；若任一选项均未达到预设阀值，则转为人工标注，基于人工标注选择最优标注结果。

23、根据本发明的一个实施例，提供了一种异步混合rlhf标注装置，包括：

24、预处理模块，用于对文本数据包含的内容要素进行预处理，得到自然语句；

25、生成模块，用于采用预训练的语言模型生成所述自然语句对应的语言路径；

26、标注模块，用于对模型生成的语言路径进行采样，将采样结果作为样本数据输入预先建立的投票模型中进行投票；并在投票结果的优选选项中确定最优标注结果。

27、根据本发明的又一个实施例，还提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，其中，上述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

28、根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行上述任一项方法实施例中的步骤。

29、通过本发明，通过对文本数据包含的内容要素进行预处理，得到自然语句；采用预训练的语言模型生成所述自然语句对应的语言路径；对模型生成的语言路径进行采样，将采样结果作为样本数据输入预先建立的投票模型中进行投票；并在投票结果的优选选项中确定最优标注结果；通过本发明，实现了结合大模型标注和人类标注的互补式标注，从而减少了人工成本，有效避免了大模型崩溃的风险。

30、本发明中，当投票池中的某个选项票数达到预设阈值时就会直接进行后续的步骤，无需等待所有投票模型返回结果。通过这种异步的标注方式，即使有些模型的结果还没有返回也可以直接忽略掉，有效提升标注效率。

技术特征：

1.一种异步混合rlhf标注方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对待标注数据包含的内容要素进行预处理包括：

3.如权利要求1所述的方法，其特征在于，所述语言模型的预训练包括：

4.如权利要求1所述的方法，其特征在于，所述对模型生成的语言路径进行采样包括：

5.如权利要求1所述的方法，其特征在于，所述投票模型基于原则池的多个自然语句原则构建获得，其包括：

6.如权利要求5所述的方法，其特征在于，所述双重语义属性包括有用性和无害性。

7.如权利要求1所述的方法，其特征在于，所述将采样结果作为样本数据输入预先建立的投票模型中进行投票包括：

8.一种异步混合rlhf标注装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。

10.一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。

技术总结
本发明涉及一种异步混合RLHF标注方法及装置、存储介质及电子装置，该方法包括：对文本数据包含的内容要素进行预处理，得到自然语句；采用预训练的语言模型生成所述自然语句对应的语言路径；对模型生成的语言路径进行采样，将采样结果作为样本数据输入预先建立的投票模型中进行投票；并在投票结果的优选选项中确定最优标注结果；通过本发明，实现了结合大模型标注和人类标注的互补式标注，从而减少了人工成本，不但避免了大模型崩溃的风险，而且提升了标注速度。

技术研发人员：郑涵,曾冠奇
受保护的技术使用者：上海极目银河数字科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑涵曾冠奇
技术所有人：上海特赛发信息科技有限公司
我是此专利的发明人

上一篇：一种智能化的技术服务费的在线咨询系统的制作方法
上一篇：集群节点的配置共享方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。