一种数据处理方法及装置与流程

文档序号:36326367发布日期:2023-12-09 15:34阅读:31来源:国知局
一种数据处理方法及装置与流程

本申请涉及数据处理,尤其涉及一种数据处理方法及装置。


背景技术:

1、目前,基于大规模预训练模型(large language model,llm)的内容生成类人工智能(artificial intelligence,ai)应用越来越多,例如,图画生成、文字生成、视频生成、音乐生成应用等。

2、而大规模预训练模型在进行预训练时所使用的大量训练数据,多数是从互联网上抓取的开源语料。


技术实现思路

1、本申请实施例提供一种数据处理的方法、装置、电子设备及计算机可读存储介质。

2、根据本申请实施例第一方面,提供一种数据处理方法,该方法包括:获得待应用数据,待应用数据包括原始数据以及原始数据对应的提示信息;确定基于原始数据进行目标任务处理的提示信息,提示信息表征通过原始数据进行目标任务处理的约束条件;根据表征约束条件的提示信息,确定进行目标任务处理的初始模型以及初始模型对应的训练参数,训练参数能够影响模型评价指标的提升率;通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型。

3、根据本申请一实施例,其中,根据提示信息待应用数据分为正样本、普通样本和负样本的至少一种,相应地,根据表征约束条件的提示信息,确定进行目标任务处理的初始模型对应的训练参数,包括以下至少一种:根据正样本对应的提示信息确定的训练参数为第一值;根据普通样本对应的提示信息确定的训练参数为第二值;根据负样本对应的提示信息确定的训练参数为第三值;第一值大于第二值,第二值大于第三值。

4、根据本申请一实施例,其中,确定基于原始数据进行目标任务处理的提示信息,包括:约束条件指示原始数据用于任一目标任务处理的初始模型的训练,对于任一目标任务处理的初始模型的训练,确定该原始数据的提示信息为第一提示信息;相应地,根据第一提示信息确定包含该原始数据的待应用数据为正样本。

5、根据本申请一实施例,其中,通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型,包括:通过正样本对应的原始数据对使用第一值的训练参数的初始模型进行训练,得到目标任务处理模型。

6、根据本申请一实施例,其中,确定基于原始数据进行目标任务处理的提示信息,包括:约束条件指示原始数据不能用于任一目标任务处理的初始模型的训练,对于任一目标任务处理的初始模型的训练,确定该原始数据的提示信息为第二提示信息;相应地,根据第二提示信息确定包含该原始数据的待应用数据为负样本。

7、根据本申请一实施例,其中,通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型,包括:通过负样本对应的原始数据对使用第三值的训练参数的初始模型进行训练,得到目标任务处理模型。

8、根据本申请一实施例,其中,确定基于原始数据进行目标任务处理的提示信息,包括:约束条件指示原始数据用于指定的至少一种目标任务处理的初始模型的训练,对于该指定的目标任务处理的初始模型的训练,确定该原始数据的提示信息为第三提示信息;对于非指定的目标任务处理的初始模型的训练,确定该原始数据的提示信息为第四提示信息;相应地,根据第三提示信息确定包含该原始数据的待应用数据为正样本;根据第四提示信息确定包含该原始数据的待应用数据为负样本。

9、根据本申请一实施例,其中,通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型,包括:通过正样本对应的原始数据对使用第一值的训练参数的初始模型进行训练,通过负样本对应的原始数据对使用第三值的训练参数的初始模型进行训练,得到目标任务处理模型。

10、根据本申请一实施例,其中,确定基于原始数据进行目标任务处理的提示信息,包括:约束条件指示原始数据用于指定的至少一种目标任务处理的初始模型的训练,且目标任务的输出与原始数据的相似度低于相似度阈值,对于该指定的目标任务处理的初始模型的训练,确定该原始数据的提示信息为第五提示信息;进行非指定的目标任务处理的初始模型的训练时,确定该原始数据的提示信息为第四提示信息;相应地,根据第五提示信息确定包含该原始数据的待应用数据为普通样本;根据第四提示信息确定包含该原始数据的待应用数据为负样本;相应地,通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型,包括:通过普通样本对应的原始数据对使用第二值的训练参数的初始模型进行训练,通过负样本对应的原始数据对使用第三值的训练参数的初始模型进行训练,得到目标任务处理模型。

11、根据本申请一实施例,其中,该方法还包括:确定待处理数据;通过目标任务处理模型对待处理数据进行目标任务处理。

12、根据本申请实施例第二方面,提供一种数据处理装置,该装置包括:待应用数据获得模块,用于获得待应用数据,待应用数据包括原始数据以及原始数据对应的提示信息;提示信息确定模块,用于确定基于原始数据进行目标任务处理的提示信息,提示信息表征通过原始数据进行目标任务处理的约束条件;训练参数确定模块,用于根据表征约束条件的提示信息,确定进行目标任务处理的初始模型以及初始模型对应的训练参数,训练参数能够影响模型评价指标的提升率;模型训练模块,用于通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型。

13、根据本申请实施例第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述任一项的数据处理方法。

14、根据本申请实施例第四方面,提供一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述任一项的数据处理方法。



技术特征:

1.一种数据处理方法,所述方法包括:

2.根据权利要求1所述的方法,根据提示信息所述待应用数据分为正样本、普通样本和负样本的至少一种,相应地,根据所述表征约束条件的提示信息,确定进行目标任务处理的初始模型对应的训练参数,包括以下至少一种:

3.根据权利要求2所述的方法,

4.根据权利要求3所述的方法,

5.根据权利要求2所述的方法,

6.根据权利要求5所述的方法,

7.根据权利要求2所述的方法,

8.根据权利要求7所述的方法,

9.根据权利要求2所述的方法,

10.一种数据处理装置,所述装置包括:


技术总结
本申请公开了一种数据处理方法及装置,该方法包括:获得待应用数据,待应用数据包括原始数据以及原始数据对应的提示信息;确定基于原始数据进行目标任务处理的提示信息,提示信息表征通过原始数据进行目标任务处理的约束条件;根据表征约束条件的提示信息,确定进行目标任务处理的初始模型以及初始模型对应的训练参数,训练参数能够影响模型评价指标的提升率;通过原始数据对使用训练参数的初始模型进行训练,得到目标任务处理模型。

技术研发人员:符博
受保护的技术使用者:联想诺谛(北京)智能科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1