深度学习模型的训练方法、文本数据处理方法和装置与流程

文档序号：30254071发布日期：2022-06-02 02:02阅读：来源：国知局

技术特征：
1.一种深度学习模型的训练方法，包括：利用深度学习模型分别处理样本源数据和对应的样本目标数据，得到第一输出值和第二输出值；根据所述第一输出值和第二输出值，确定正则化函数值；以及根据所述正则化函数值，调整所述深度学习模型的参数，得到经预训练的深度学习模型。2.根据权利要求1所述的方法，其中，所述利用深度学习模型分别处理样本源数据和对应的样本目标数据，得到第一输出值和第二输出值包括：将所述样本源数据和所述样本目标数据分别输入所述深度学习模型，得到第一基准输出值和第二基准输出值，作为第一输出值；对所述样本源数据和所述样本目标数据分别进行切词，得到多个源数据段和多个目标数据段；分别遮蔽所述多个源数据段中的至少一部分和遮蔽所述多个目标数据段中的至少一部分，得到经遮蔽的源数据和经遮蔽的目标数据；将所述经遮蔽的源数据和所述经遮蔽的目标数据分别输入所述深度学习模型，得到第一遮蔽输出值和第二遮蔽输出值，作为第二输出值。3.根据权利要求2所述的方法，其中，所述根据所述第一输出值和第二输出值，确定正则化函数值包括：确定所述第一基准输出值和所述第一遮蔽输出值之间的第一相对熵；确定所述第二基准输出值和所述第二遮蔽输出值之间的第二相对熵；以及根据所述第一相对熵和第二相对熵，确定所述正则化函数值。4.根据权利要求3所述的方法，其中，所述样本源数据具有第一标签，所述样本目标数据具有第二标签；所述根据所述第一输出值和第二输出值，确定正则化函数值还包括：确定所述第一基准输出值与所述第一标签之间的第一交叉熵；确定所述第二基准输出值与所述第二标签之间的第二交叉熵；以及根据所述第一交叉熵、所述第二交叉熵、所述第一相对熵和所述第二相对熵，确定所述正则化函数值。5.根据权利要求2-4之一所述的方法，还包括：将所述样本源数据输入所述经预训练的深度学习模型，得到第三基准输出值；将所述经遮蔽的源数据输入所述经预训练的深度学习模型，得到第三遮蔽输出值；以及根据所述第三基准输出值和所述第三遮蔽输出值，调整所述经预训练的深度学习模型的参数，得到经训练的深度学习模型。6.根据权利要求5所述的方法，其中，所述根据所述第三基准输出值和所述第三遮蔽输出值，调整所述经预训练的深度学习模型的参数，得到经训练的深度学习模型包括：确定所述第三基准输出值与第一标签之间的第三交叉熵；确定所示第三基准输出值与所述第三遮蔽输出值之间的第三相对熵；以及根据所述第三交叉熵和所述第三相对熵，调整所述经预训练的深度学习模型的参数。7.一种文本数据处理方法，包括：
将文本数据输入深度学习模型，得到处理结果，其中，所述深度学习模型是利用根据权利要求1-6之一所述的方法训练的。8.一种深度学习模型的训练装置，包括：第一获得模块，用于利用深度学习模型分别处理样本源数据和对应的样本目标数据，得到第一输出值和第二输出值；确定模块，用于根据所述第一输出值和第二输出值，确定正则化函数值；以及第一调整模块，用于根据所述正则化函数值，调整所述深度学习模型的参数，得到经预训练的深度学习模型。9.根据权利要求8所述的装置，其中，所述第一获得模块包括：第一获得子模块，用于将所述样本源数据和所述样本目标数据分别输入所述深度学习模型，得到第一基准输出值和第二基准输出值，作为第一输出值；切词子模块，用于对所述样本源数据和所述样本目标数据分别进行切词，得到多个源数据段和多个目标数据段；遮蔽模块，用于分别遮蔽所述多个源数据段中的至少一部分和遮蔽所述多个目标数据段中的至少一部分，得到经遮蔽的源数据和经遮蔽的目标数据；第二获得子模块，用于将所述经遮蔽的源数据和所述经遮蔽的目标数据分别输入所述深度学习模型，得到第一遮蔽输出值和第二遮蔽输出值，作为第二输出值。10.根据权利要求9所述的装置，其中，所述确定模块包括：第一确定子模块，用于确定所述第一基准输出值和所述第一遮蔽输出值之间的第一相对熵；第二确定子模块，用于确定所述第二基准输出值和所述第二遮蔽输出值之间的第二相对熵；以及第三确定子模块，用于根据所述第一相对熵和第二相对熵，确定所述正则化函数值。11.根据权利要求10所述的装置，其中，所述样本源数据具有第一标签，所述样本目标数据具有第二标签；所述确定模块还包括：第五确定子模块，用于确定所述第一基准输出值与所述第一标签之间的第一交叉熵；第六确定子模块，用于确定所述第二基准输出值与所述第二标签之间的第二交叉熵；以及第七确定子模块，用于根据所述第一交叉熵、所述第二交叉熵、所述第一相对熵和所述第二相对熵，确定所述正则化函数值。12.根据权利要求9-11之一所述的装置，还包括：第二获得模块，用于将所述样本源数据输入所述经预训练的深度学习模型，得到第三基准输出值；第三获得模块，用于将所述经遮蔽的源数据输入所述经预训练的深度学习模型，得到第三遮蔽输出值；以及第二调整模块，用于根据所述第三基准输出值和所述第三遮蔽输出值，调整所述经预训练的深度学习模型的参数，得到经训练的深度学习模型。13.根据权利要求5所述的装置，其中，所述第二调整模块包括：第八确定子模块，用于确定所述第三基准输出值与第一标签之间的第三交叉熵；
第九确定子模块，用于确定所示第三基准输出值与所述第三遮蔽输出值之间的第三相对熵；以及调整子模块，用于根据所述第三交叉熵和所述第三相对熵，调整所述经预训练的深度学习模型的参数。14.一种文本数据处理装置，包括：第四获得模块，用于将文本数据输入深度学习模型，得到处理结果，其中，所述深度学习模型是利用根据权利要求8-13之一所述的装置训练的。15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。

技术总结
本公开提供了一种深度学习模型的训练方法，涉及人工智能领域，尤其涉及自然语言处理技术领域和机器翻译技术领域。具体实现方案为：利用深度学习模型分别处理样本源数据和对应的样本目标数据，得到第一输出值和第二输出值；根据第一输出值和第二输出值，确定正则化函数值；以及根据正则化函数值，调整深度学习模型的参数，得到经预训练的深度学习模型。本公开还提供了一种文本数据处理方法、装置、电子设备和存储介质。子设备和存储介质。子设备和存储介质。

技术研发人员：高鹏至何中军李芝吴华
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.02.28
技术公布日：2022/6/1

完整全部详细技术资料下载

当前第2页1 2