数据扩充方法、装置、电子设备及存储介质与流程

文档序号:37282756发布日期:2024-03-12 21:23阅读:26来源:国知局
数据扩充方法、装置、电子设备及存储介质与流程

本申请实施例涉及数据处理领域,尤其涉及一种数据扩充方法、装置、电子设备及存储介质。


背景技术:

1、在对大语言模型进行训练时,通常需要大量的样本数据,由于人工编写的样本数据的数量有限,因此通常会通过数据扩充的方式得到更多的样本数据,其中,样本数据可以包括指令、该指令对应的参考数据和该指令对应的结果数据,例如,任一样本数据包括内容为“确定参考数据的情感分类为积极、消极或混合”的指令、内容为“喜欢这家餐厅的味道,但他们的服务太慢了”的参考数据、以及内容为“混合”的结果数据。

2、在对样本数据进行数据扩充时,通常会编写多个指令,并将编写的每个指令输入至深度学习模型中,对于编写的每一指令,深度学习模型可以生成对应的参考数据,再基于该指令和该指令对应的参考数据生成结果数据,以得到用于进行样本扩充的多个样本数据,进而,根据扩充的样本数据和原始的样本数据可以得到扩充后的样本数据。

3、但是,由于在基于编写的指令生成参考数据和结果数据时,是先生成参考数据,再根据参考数据生成结果数据,因此会使部分指令对应的结果数据较为单一,例如类似于上述例子中的用于对参考数据进行分类的指令,容易出现基于该指令和不同的参考数据获取到的结果数据大部分都相同的情况,进而使扩充的样本数据较为单一化,以致基于扩充后的样本数据进行模型训练的效果较差。


技术实现思路

1、有鉴于此,本申请实施例提供一种数据扩充方法、装置、电子设备及存储介质,以至少部分解决上述问题。

2、根据本申请实施例的第一方面,提供了一种数据扩充方法,包括:获取多个第一数据组,其中,所述第一数据组包括第一指令、所述第一指令对应的参考数据和所述第一指令对应的结果数据,所述第一指令用于指示根据所述第一指令对应的参考数据得到所述第一指令对应的结果数据;根据所述多个第一数据组中的第一指令,生成多个第二指令;根据各所述第二指令的指令类型,确定该第二指令对应的至少一个第二数据组,其中,所述第二指令对应的第二数据组包括该第二指令、该第二指令对应的参考数据和该第二指令对应的结果数据,所述第二指令用于指示根据该第二指令对应的参考数据得到该第二指令对应的结果数据,指令类型不同的任意两个所述第二指令对应的数据确定顺序不同,所述第二指令对应的数据确定顺序用于指示确定该第二指令对应的参考数据和结果数据的顺序;将所述多个第一数据组和多个所述第二数据组均确定为扩充后数据组。

3、根据本申请实施例的第二方面,提供了一种数据扩充装置,包括:获取单元,用于获取多个第一数据组,其中,所述第一数据组包括第一指令、所述第一指令对应的参考数据和所述第一指令对应的结果数据,所述第一指令用于指示根据所述第一指令对应的参考数据得到所述第一指令对应的结果数据;生成单元,用于根据所述多个第一数据组中的第一指令,生成多个第二指令;确定单元,用于根据各所述第二指令的指令类型,确定该第二指令对应的至少一个第二数据组,其中,所述第二指令对应的第二数据组包括该第二指令、该第二指令对应的参考数据和该第二指令对应的结果数据,所述第二指令用于指示根据该第二指令对应的参考数据得到该第二指令对应的结果数据,指令类型不同的任意两个所述第二指令对应的数据确定顺序不同,所述第二指令对应的数据确定顺序用于指示确定该第二指令对应的参考数据和结果数据的顺序;扩充单元,用于将所述多个第一数据组和多个所述第二数据组均确定为扩充后数据组。

4、根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述第一方面方法对应的操作。

5、根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行上述第一方面的方法。

6、根据本申请实施例的第五方面,提供了一种计算机程序产品,包括计算机指令,计算机指令指示计算设备执行上述第一方面的方法。

7、根据本申请实施例提供的数据扩充方案,首先获取多个第一数据组,然后根据多个第一数据组中的第一指令,生成多个第二指令,再根据各第二指令的指令类型,确定该第二指令对应的至少一个第二数据组,并将多个第一数据组和多个第二数据组均确定为扩充后数据组。由此,由于不同的任意两个第二指令对应的数据确定顺序不同,因此指令类型不同的两个第二指令对应的参考数据和结果数据的确定顺序不同,例如对于参考数据更为多样化的第二指令,可以先确定出其对应的结果数据,再根据该参考数据确定出其对应的参考数据,以使同一指令对应的参考数据和结果数据均较为多样化,进而扩充后数据组较为多样化,因此,可以优化基于扩充后数据组进行模型训练的效果。



技术特征:

1.一种数据扩充方法,其特征在于,包括:

2.根据权利要求1所述的数据扩充方法,其特征在于,包括:

3.根据权利要求1所述的数据扩充方法,其特征在于,包括:

4.根据权利要求2或3所述的数据扩充方法,其特征在于,包括:

5.根据权利要求1所述的数据扩充方法,其特征在于,所述获取多个第一数据组,包括:

6.根据权利要求1所述的数据扩充方法,其特征在于,所述根据所述多个第一数据组中的第一指令,生成多个第二指令,包括:

7.一种数据扩充装置,其特征在于,包括:

8.一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;

9.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一项的数据扩充方法。

10.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-6中任一项的数据扩充方法。


技术总结
本申请实施例提供了一种数据扩充方法、装置、电子设备及存储介质,该数据扩充方法包括:获取多个第一数据组,第一数据组包括第一指令、第一指令对应的参考数据和第一指令对应的结果数据;根据多个第一数据组中的第一指令,生成多个第二指令;根据各第二指令的指令类型,确定该第二指令对应的至少一个第二数据组,第二指令对应的第二数据组包括该第二指令、该第二指令对应的参考数据和该第二指令对应的结果数据,指令类型不同的任意两个第二指令对应的数据确定顺序不同;将多个第一数据组和多个第二数据组均确定为扩充后数据组。本方案使扩充后数据组较为多样化,以优化基于扩充后数据组进行模型训练的效果。

技术研发人员:王亚平,刘芬,刘振宇,乔振浩,赖新明,王志刚,张平
受保护的技术使用者:航天信息股份有限公司
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1