1.一种建立预训练语言模型的方法,包括:
获取训练样本,所述训练样本包括文本;
将所述文本作为预先训练得到的第一预训练语言模型的输入以及第二预训练语言模型的输入,训练所述第二预训练语言模型;
其中,所述第二预训练语言模型的训练目标包括:最小化第二预训练语言模型基于所述文本中各字符的二维位置信息得到的中间层输出与第一预训练语言模型基于所述文本中各字符的一维位置信息得到的中间层输出之间的差异。
2.根据权利要求1所述的方法,其中,所述中间层输出包括:各字符的向量表示和注意力得分。
3.根据权利要求1所述的方法,其中,所述训练样本还包括所述文本中各字符对应的任务相关标签值;
所述第二预训练语言模型的训练目标进一步包括:最小化所述第二预训练语言模型的输出层输出与所述各字符对应的任务相关标签值之间的差异。
4.根据权利要求3所述的方法,其中,所述各字符对应的任务相关标签值包括:
各字符在所述文本包含的表单中的类型信息;或者,
各字符的正确阅读顺序信息。
5.根据权利要求3所述的方法,其中,训练所述第二预训练语言模型过程中采用的损失函数由第一损失函数、第二损失函数和第三损失函数的总和得到;
其中所述第一损失函数是利用所述第二预训练语言模型的中间层输出的所述文本中各字符的向量表示与所述第一预训练语言模型的中间层输出的所述文本中各字符的向量表示的差异得到的;所述第二损失函数是利用所述第二预训练语言模型的中间层输出的各字符的注意力得分与所述第一预训练语言模型的中间层输出的各字符的注意力得分的差异得到的;所述第三损失函数是利用所述第二预训练语言模型的输出层输出的各字符对应的任务相关估计值与所述各字符对应的任务相关标签值之间的差异得到的。
6.一种建立预训练语言模型的装置,包括:
样本获取单元,用于获取训练样本,所述训练样本包括文本;
模型训练单元,用于将所述文本作为预先训练得到的第一预训练语言模型的输入以及第二预训练语言模型的输入,训练所述第二预训练语言模型;
其中,所述第二预训练语言模型的训练目标包括:最小化第二预训练语言模型基于所述文本中各字符的二维位置信息得到的中间层输出与第一预训练语言模型基于所述文本中各字符的一维位置信息得到的中间层输出之间的差异。
7.根据权利要求6所述的装置,其中,所述中间层输出包括:各字符的向量表示和注意力得分。
8.根据权利要求6所述的装置,其中,所述训练样本还包括所述文本中各字符对应的任务相关标签值;
所述第二预训练语言模型的训练目标进一步包括:最小化所述第二预训练语言模型的输出层输出与所述各字符对应的任务相关标签值之间的差异。
9.根据权利要求8所述的装置,其中,所述各字符对应的任务相关标签值包括:
各字符在所述文本包含的表单中的类型信息;或者,
各字符的正确阅读顺序信息。
10.根据权利要求8所述的装置,其中,所述模型训练单元在训练所述第二预训练语言模型过程中采用的损失函数由第一损失函数、第二损失函数和第三损失函数的总和得到;
其中所述第一损失函数是利用所述第二预训练语言模型的中间层输出的所述文本中各字符的向量表示与所述第一预训练语言模型的中间层输出的所述文本中各字符的向量表示的差异得到的;所述第二损失函数是利用所述第二预训练语言模型的中间层输出的各字符的注意力得分与所述第一预训练语言模型的中间层输出的各字符的注意力得分的差异得到的;所述第三损失函数是利用所述第二预训练语言模型的输出层输出的各字符对应的任务相关估计值与所述各字符对应的任务相关标签值之间的差异得到的。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。