语言模型的训练方法、NLP任务处理方法及装置与流程

文档序号：26715763发布日期：2021-09-22 19:57阅读：109来源：国知局

语言模型的训练方法、nlp任务处理方法及装置
技术领域
1.本技术涉及自然语言处理技术领域，尤其涉及一种语言模型的训练方法、nlp任务处理方法及装置。

背景技术：

2.随着自然语言处理(natural language processing，nlp)技术的发展，语言模型已经被广泛地应用于生活的各个领域，从而完成不同种类的自然语言处理任务，如文本分类、情绪分类、对话系统语义角色标注等等。
3.目前，常规的神经网络在学习新任务后，在旧任务上的性能会急剧下降，即神经网络随着学习的数据集分布变化而导致的性能下降，因此，神经网络存在灾难性遗忘的问题。相关技术中，为了避免神经网络的灾难性遗忘，可以通过在主神经网络模型上增加多个子神经网络模型，不同的子神经网络模型学习不同的任务，还可以通过保存已经训练过的任务的训练样本和预测结果实现对已经训练过的任务的回顾。
4.但是，上述避免神经网络的灾难性遗忘的实现方式中，但是通过构建子网络造成模型随着子网络的增加而增大，则神经网络占用的存储资源也随之增大；通过保存已经训练过的任务的训练样本和预测结果需要占用大量存储资源。

技术实现要素：

5.本技术实施例提供了一种语言模型的训练方法、nlp任务处理方法及装置，能够通过教师语言模型生成已训练过的任务的训练文本，从而解决相关技术中存储资源占用大的问题。
6.第一方面，本技术实施例提供了语言模型的训练方法，该方法包括：
7.获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签，旧任务为语言模型为训练过的nlp任务，新任务为语言模型未训练过的nlp任务；
8.复制语言模型得到教师语言模型，将语言模型作为学生语言模型；
9.将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签；
10.将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一任务标签对应的第一预测文本、第一训练文本对应的第一预测结果、第二任务标签对应的第二预测文本和第二训练文本对应的第二预测结果；
11.根据第一训练文本和第一预测文本、第二训练文本和第二预测文本、第一预测结果和第一文本标签、第二预测结果和第二文本标签，对学生语言模型进行训练。
12.在一种可能的实现方式中，第一训练文本和第二训练文本均为问答格式文本，问答格式文本包括问题提示信息和根据问题提示信息生成的问题。
13.在一种可能的实现方式中，根据第一训练文本、第一预测文本、第二训练文本和第
二预测文本对学生语言模型进行训练，包括：
14.根据第二文本标签和第二预测结果对学生语言模型进行知识蒸馏；
15.根据第一训练文本和第一预测文本之间的损失、第二训练文本和第二预测文本之间的损失、第一预测结果和第一文本标签之间的损失、第二预测结果和第二文本标签之间的损失，对学生语言模型进行训练。
16.在一种可能的实现方式中，根据第二文本标签和第二预测结果对学生语言模型进行知识蒸馏，包括：
17.根据第二文本标签和第二预测结果，计算教师语言模型和学生语言模型的js散度；
18.计算教师语言模型中每一层的特征转移至学生语言模型中每一层的地球移动距离；
19.根据js散度和地球移动距离，计算教师语言模型和学生语言模型之间的损失；
20.根据教师语言模型和学生语言模型之间的损失，更新学生语言模型。
21.在一种可能的实现方式中，将第二任务标签输入至教师语言模型中，生成新任务对应的多个第二预测文本，包括：
22.将第二任务标签输入至教师语言模型中，根据第二训练文本集中第二训练文本的数量和预设比例，生成多个第二预测文本。
23.第二方面，本技术实施例提供了一种nlp任务处理方法，包括：
24.获取nlp任务的文本；
25.将文本输入至如第一方面或第一方面中任一种可能的实现方式中的学生语言模型中，生成nlp任务的预测结果。
26.在一种可能的实现方式中，文本包括nlp任务的问题提示信息和问题；将文本输入至如第一方面或第一方面中任一种可能的实现方式中的学生语言模型中，生成nlp任务的预测结果，包括：
27.将问题提示信息和问题输入至学生语言模型中，生成问题对应的答案。
28.第三方面，本技术实施例提供了一种语言模型的训练装置，包括：
29.获取模块，用于获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签，旧任务为语言模型为训练过的nlp任务，新任务为语言模型未训练过的nlp任务；
30.复制模块，用于复制语言模型得到教师语言模型，将语言模型作为学生语言模型；
31.生成模块，用于将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签；
32.生成模块还用于将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一任务标签对应的第一预测文本、第一训练文本对应的第一预测结果、第二任务标签对应的第二预测文本和第二训练文本对应的第二预测结果；
33.训练模块，用于根据第一训练文本和第一预测文本、第二训练文本和第二预测文本、第一预测结果和第一文本标签、第二预测结果和第二文本标签，对学生语言模型进行训练。
34.在一种可能的实现方式中，第一训练文本和第二训练文本均为问答格式文本，问答格式文本包括问题提示信息和根据问题提示信息生成的问题。
35.在一种可能的实现方式中，训练模块用于：
36.根据第二文本标签和第二预测结果对学生语言模型进行知识蒸馏；
37.根据第一训练文本和第一预测文本之间的损失、第二训练文本和第二预测文本之间的损失、第一预测结果和第一文本标签之间的损失、第二预测结果和第二文本标签之间的损失，对学生语言模型进行训练。
38.在一种可能的实现方式中，训练模块用于：
39.根据第二文本标签和第二预测结果，计算教师语言模型和学生语言模型的js散度；
40.计算教师语言模型中每一层的特征转移至学生语言模型中每一层的地球移动距离；
41.根据js散度和地球移动距离，计算教师语言模型和学生语言模型之间的损失；
42.根据教师语言模型和学生语言模型之间的损失，更新学生语言模型。
43.在一种可能的实现方式中，生成模块用于将第二任务标签输入至教师语言模型中，根据第二训练文本集中第二训练文本的数量和预设比例，生成多个第二预测文本。
44.第四方面，本技术实施例提供了一种nlp任务处理装置，包括：
45.获取模块，用于获取nlp任务的文本；
46.生成模块，用于将文本输入至如权利要求1
‑
5任一项的学生语言模型中，生成nlp任务的预测结果。
47.在一种可能的实现方式中，文本包括nlp任务的问题提示信息和问题；生成模块用于：将问题提示信息和问题输入至学生语言模型中，生成问题对应的答案。
48.第五方面，本技术实施例提供了一种计算机设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。
49.第六方面，本技术实施例提供了一种计算机存储介质，计算机存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一种可能的实现方式中所提供的方法，或实现如上述第二方面或第二方面中任一种可能的实现方式中所提供的方法。
50.本技术实施例提供的语言模型的训练方法、nlp任务处理方法及装置，通过将旧任务的第二任务标签输入至经过旧任务训练的教师语言模型中，从而产生旧任务对应的第二训练文本和第二训练文本对应的文本标签。其中，新任务是语言模型未训练过的nlp任务，旧任务是语言模型已经训练过的nlp任务。教师语言模型是通过复制语言模型得到的，学生语言模型即为语言模型。然后将新任务的第一训练文本和第一任务标签、第二训练文本和第二任务标签输入至学生语言模型中，生成第一任务标签对应的第一预测文本和第二任务标签对应的第二预测文本。根据第一训练文本、第一预测文本、第二训练文本、第二预测文本第一文本标签和第二文本标签对学生语言模型进行训练。如此，无需对教师语言模型已经训练过的任务对应的训练文本进行存储，就可以得到已经训练过的任务对应的训练文
本，并结合模型未训练过的任务对应的训练文本对与教师语言模型相同的学生语言模型进行训练，从而得到既能够执行已经训练过的任务，又能够执行未训练过的任务的模型，避免了模型的灾难性遗忘的问题，提高了模型的性能。
附图说明
51.图1示出了本技术实施例提供的一种语言模型的训练方法的流程示意图示意图；
52.图2示出了本技术实施例提供的一种nlp任务处理方法的流程示意图；
53.图3示出了本技术实施例提供的一种语言模型的训练装置的结构示意图；
54.图4示出了本技术实施例提供的一种nlp任务处理装置的结构示意图；
55.图5示出了本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
56.为了使本技术实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本技术实施例中的技术方案进行描述。
57.在本技术实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
58.在本技术实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，单独存在b，同时存在a和b这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。
59.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
60.随着自然语言处理(natural language processing,nlp)技术的发展，语言模型已经被广泛地应用于生活的各个领域，从而完成不同种类的自然语言处理任务，如文本分类、情绪分类、对话系统语义角色标注等等。
61.目前，由于神经网络存在灾难性遗忘的问题，因此，造成神经网络的性能会下降。相关技术中，为了避免神经网络的灾难性遗忘，可以通过在主神经网络模型上增加多个子神经网络模型，不同的子神经网络模型学习不同的任务，还可以通过保存已经训练过的任务的训练样本和预测结果实现对已经训练过的任务的回顾。
62.但是，上述避免神经网络的灾难性遗忘的实现方式中，但是通过构建子网络造成模型随着子网络的增加而增大，则神经网络占用的存储资源也随之增大；通过保存已经训练过的任务的训练样本和预测结果需要占用大量存储资源。
63.基于此，本技术实施例提供了一种语言模型的训练方法、nlp任务处理方法及装置，通过教师语言模型生成已训练过的任务的训练文本，避免了存储训练样本数据存储资源占用大的问题。
64.图1是本技术实施例提供的一种语言模型的训练方法的流程示意图。如图1所示，本技术实施例提供的语言模型的训练方法可以包括s101
‑
s104。
65.s101：获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签，旧任务为语言模型为训练过的nlp任务，新任务为语言模型未训练过的nlp任务。
66.nlp任务可以涉及多个方面，例如，数学、诗歌、音乐等等。为了区分不同nlp之间的种类，可以设置每种nlp任务的任务标签，任务标签能够表征任务种类。在这里，旧任务为语言模型训练过的nlp任务，新任务为语言模型未训练过的nlp任务。例如，新任务为数学方面的任务，旧任务为诗歌方面的任务。新任务的第一训练文本可以是“1+1等于2”。
67.在这里，旧任务可以有多个。
68.在一些实施例中，为了提高模型的性能，获取到第一训练文本后，可以将训练文本进行格式化。具体地，可以采用正则化的方法，将第一训练文本按照问答格式进行统一，统一成问答格式文本。在这里，问答格式文本包括问题提示信息、根据问题提示信息生成的问题。例如，新任务的文本为“加法，1+1等于2”，则可以将新任务的文本统一为“c#1+1，q#等于几，a#2”，则新任务的第一训练文本为“c#1+1，q#等于几”，第一训练文本的第一文本标签为“a#2”。
69.在这里，第一训练文本可以包括第一文本标签，例如，新任务的文本为“加法，1+1等于2”，则可以将新任务的文本统一为“c#1+1，q#等于几，a#2”，则可以确定第一训练文本为“c#1+1，q#等于几，a#2”。
70.在一些实施例中，语言模型为gpt
‑
2模型。
71.s102：复制语言模型得到教师语言模型，将语言模型作为学生语言模型。
72.为了能够实现语言模型自蒸馏，从而避免语言模型由于灾难性遗忘无法执行旧任务，还可以复制语言模型，将复制的语言模型作为教师语言模型，然后将语言模型自身作为学生语言模型。
73.在这里，为了避免存储资源的占用，待学生语言模型训练完毕后，可以将教师语言模型删除。
74.s103：将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签。
75.为了避免学生语言模型在新任务的训练过程中的灾难性遗忘，失去执行旧任务的性能，在训练过程中，可以结合新任务的训练文本和旧任务的训练文本。将旧任务的第二任务标签输入至教师语言模型中，得到旧任务对应的伪数据，该伪数据即可作为训练学生语言模型的旧任务的训练样本，即第二训练文本和第二文本标签。第二训练文本是教师语言模型根据第二任务标签随机生成的旧任务的第二任务标签的预测文本。
76.随着不同任务的增加，训练样本也会随之增加，那么占用的存储空间越来越大，本技术实施例通过训练过旧任务的教师语言模型生成伪数据的方式，得到训练学生语言模型的旧任务的训练文本，如此，无需分配存储空间存储大量的旧任务的训练样本，避免了存储资源占用大的问题。
77.在一些实施例中，第二训练文本的文本格式为问答格式。例如，第二任务标签是数学，则生成的第二训练文本可以是“1+1＝2”，“1*1＝1”。
78.为了保证模型的性能，可以将第二训练文本进行格式统一，例如，将“1+1＝2”统一成“c#1+1，q#等于几”以及“a#2”、将“1*1＝1”统一成“c#1*1，q#等于几”以及“a#1”等。第二文本标签表示问题对应的真值，例如，“a#x”中的“x”表示第二训练文本对应的真值。
79.在一些实施例中，为了提高模型的训练效率，可以根据第一训练文本的数量生成第二训练文本。具体地，计算第一训练文本的数量和预设比例的乘积，确定第二训练文本所需的数量。
80.s104：将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一任务标签对应的第一预测文本、第一训练文本对应的第一预测结果、第二任务标签对应的第二预测文本和第二训练文本对应的第二预测结果。
81.在这里，第二预测文本是指学生语言模型基于第二任务标签生成的与第二任务标签对应的预测文本。
82.具体地，将第一任务标签输入至学生语言模型中，生成第一预测文本；将第二任务标签输入至学生语言模型中生成第二预测文本，也即学生语言模型执行的是语言任务。将第一训练文本输入至学生语言模型中，可以得到第一训练文本对应的第一预测文本。例如，第一训练文本为“c#静夜思，q#作者是谁”，则第一预测文本可以为“a#杜甫”。将第二训练文本输入至学生语言模型中，可以得到第二训练文本对应的第二预测文本。也即，学生语言模型执行的是问答任务。
83.s105：根据第一训练文本和第一预测文本、第二训练文本和第二预测文本、第一预测结果和第一文本标签、第二预测结果和第二文本标签，对学生语言模型进行训练。
84.在一些实施例中，为了保证学生语言模型能够保留教师语言模型对旧任务的性能，需要对学生语言模型进行知识蒸馏，从而使得语言模型完成自蒸馏。具体地，在s105中，首先，根据第二预测文本和第二文本标签对学生语言模型进行知识蒸馏；接着，根据第一预测文本和第一训练文本之间的损失、第一文本标签和第一预测结果之间的损失、第二预测文本和第二训练文本之间的损失、第二文本标签和第二预测结果之间的损失，训练语言模型。
85.在这里，在对学生语言模型进行知识蒸馏的过程中，首先，根据第二预测文本和第二训练文本计算教师语言模型和学生语言模型之间的js(jensen
‑
shannon)散度。并计算教师语言模型中每一层的特征转移至学生语言模型中每一层的地球移动距离；接着，根据js散度和地球移动距离，计算教师语言模型和学生语言模型之间的损失；根据教师语言模型和学生语言模型之间的损失，更新学生语言模型。
86.如此，由于教师语言模型是复制语言模型得到的，对学生模型进行知识蒸馏，实现了语言模型的自蒸馏，即语言模型进行了增量式的学习，提高了语言模型能够执行任务的广泛性。
87.本技术实施例提供的语言模型的训练方法，通过将旧任务的第二任务标签输入至经过旧任务训练的教师语言模型中，从而产生旧任务对应的第二训练文本和第二训练文本对应的文本标签。其中，新任务是语言模型未训练过的nlp任务，旧任务是语言模型已经训练过的nlp任务。教师语言模型是通过复制语言模型得到的，学生语言模型即为语言模型。然后将新任务的第一训练文本和第一任务标签、第二训练文本和第二任务标签输入至学生语言模型中，生成第一任务标签对应的第一预测文本和第二任务标签对应的第二预测文
本。根据第一训练文本、第一预测文本、第二训练文本、第二预测文本第一文本标签和第二文本标签对学生语言模型进行训练。如此，无需对教师语言模型已经训练过的任务对应的训练文本进行存储，就可以得到已经训练过的任务对应的训练文本，并结合模型未训练过的任务对应的训练文本对与教师语言模型相同的学生语言模型进行训练，从而得到既能够执行已经训练过的任务，又能够执行未训练过的任务的模型，避免了模型的灾难性遗忘的问题，提高了模型的性能。
88.基于上述实施例中的语言模型，本技术实施例还提供了一种nlp任务处理方法。图2是本技术实施例提供的一种nlp任务处理方法的流程示意图，如图2所示，本技术实施例提供的nlp任务处理方法可以包括s201至s202。
89.s201：获取nlp任务的文本。
90.在一些实施例中，nlp任务文本为问答格式的文本，nlp任务的文本包括问题提示信息和问题。
91.s202：将文本输入语言模型中，生成nlp任务的预测结果。
92.在这里，语言模型为经过图1对应的实施例训练后的语言模型。
93.在一些实施例中，将问题提示信息和问题输入至语言模型中，通过贪婪解码，生成问题对应的答案。
94.本技术实施例提供的nlp任务处理方法，通过将nlp任务输入至经过图1对应的实施例训练后的语言模型，得到预测结果，提高了任务处理的广泛性。
95.基于上述实施例中的语言模型的训练方法，本技术实施例还提供了一种语言模型的训练装置。图3是本技术实施例提供的一种语言模型的训练装置300的结构示意图，如图3所示，该语言模型的训练装置300可以包括获取模块301，复制模块302，生成模块303，训练模块304。
96.获取模块301，用于获取训练样本集；训练样本集包括新任务的第一任务标签、新任务的多个第一训练文本和每个第一训练文本的第一文本标签、至少一个旧任务中每个旧任务的第二任务标签，旧任务为语言模型为训练过的nlp任务，新任务为语言模型未训练过的nlp任务；
97.复制模块302，用于复制语言模型得到教师语言模型，将语言模型作为学生语言模型；
98.生成模块303，用于将第二任务标签输入至教师语言模型中，生成旧任务对应的多个第二训练文本和每个第二训练文本的第二文本标签；
99.生成模块303还用于将第一任务标签、第二任务标签、第一训练文本和第二训练文本输入至学生语言模型中，生成第一任务标签对应的第一预测文本、第一训练文本对应的第一预测结果、第二任务标签对应的第二预测文本和第二训练文本对应的第二预测结果；
100.训练模块304，用于根据第一训练文本和第一预测文本、第二训练文本和第二预测文本、第一预测结果和第一文本标签、第二预测结果和第二文本标签，对学生语言模型进行训练。
101.在一种可能的实现方式中，第一训练文本和第二训练文本均为问答格式文本，问答格式文本包括问题提示信息和根据问题提示信息生成的问题。
102.在一种可能的实现方式中，训练模块304用于：
103.根据第二文本标签和第二预测结果对学生语言模型进行知识蒸馏；
104.根据第一训练文本和第一预测文本之间的损失、第二训练文本和第二预测文本之间的损失、第一预测结果和第一文本标签之间的损失、第二预测结果和第二文本标签之间的损失，对学生语言模型进行训练。
105.在一种可能的实现方式中，训练模块304用于：
106.根据第二文本标签和第二预测结果，计算教师语言模型和学生语言模型的js散度；
107.计算教师语言模型中每一层的特征转移至学生语言模型中每一层的地球移动距离；
108.根据js散度和地球移动距离，计算教师语言模型和学生语言模型之间的损失；
109.根据教师语言模型和学生语言模型之间的损失，更新学生语言模型。
110.在一种可能的实现方式中，生成模块303用于将第二任务标签输入至教师语言模型中，根据第二训练文本集中第二训练文本的数量和预设比例，生成多个第二预测文本。
111.本技术实施例提供的语言模型的训练装置能够执行图1对应的实施例中的方法的步骤，并能够达到相同的技术效果，为避免重复，在此不再详细说明。
112.本技术实施例提供的语言模型的训练装置，通过将旧任务的第二任务标签输入至经过旧任务训练的教师语言模型中，从而产生旧任务对应的第二训练文本和第二训练文本对应的文本标签。其中，新任务是语言模型未训练过的nlp任务，旧任务是语言模型已经训练过的nlp任务。教师语言模型是通过复制语言模型得到的，学生语言模型即为语言模型。然后将新任务的第一训练文本和第一任务标签、第二训练文本和第二任务标签输入至学生语言模型中，生成第一任务标签对应的第一预测文本和第二任务标签对应的第二预测文本。根据第一训练文本、第一预测文本、第二训练文本、第二预测文本第一文本标签和第二文本标签对学生语言模型进行训练。如此，无需对教师语言模型已经训练过的任务对应的训练文本进行存储，就可以得到已经训练过的任务对应的训练文本，并结合模型未训练过的任务对应的训练文本对与教师语言模型相同的学生语言模型进行训练，从而得到既能够执行已经训练过的任务，又能够执行未训练过的任务的模型，避免了模型的灾难性遗忘的问题，提高了模型的性能。
113.基于上述实施例中的nlp任务处理方法，本技术实施例还提供了一种nlp任务处理装置。图4是本技术实施例提供的nlp任务处理装置400的结构示意图，如图4所示，本技术实施例提供的nlp任务处理装置400可以包括获取模块401，生成模块402。
114.获取模块401，用于获取nlp任务的文本；
115.生成模块402，用于将文本输入至如权利要求1
‑
5任一项的学生语言模型中，生成nlp任务的预测结果。
116.在一种可能的实现方式中，文本包括nlp任务的问题提示信息和问题；生成模块402用于：将问题提示信息和问题输入至学生语言模型中，生成问题对应的答案。
117.本技术实施例提供的语言模型的训练装置能够执行图2对应的实施例中的方法的步骤，并能够达到相同的技术效果，为避免重复，在此不再详细说明。
118.本技术实施例提供的nlp任务处理装置，通过将nlp任务输入至经过图1对应的实施例训练后的语言模型，得到预测结果，提高了任务处理的广泛性。
119.下面介绍本技术实施例提供的一种计算机设备。
120.图5是本技术实施例提供的一种计算机设备的结构示意图。如图5所示，本技术实施例提供的计算机设备可用于实现上述方法实施例中描述的语言模型的训练方法或nlp任务处理方法。
121.计算机设备可以包括处理器501以及存储有计算机程序指令的存储器502。
122.具体地，上述处理器501可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
123.存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器502可在综合网关容灾设备的内部或外部。在特定实施例中，存储器502是非易失性固态存储器。
124.存储器可包括只读存储器(rom)，随机存取存储器(ram)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本技术中的方法所描述的操作。
125.处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现上述实施例中的任意一种语言模型的训练方法或nlp任务处理方法。
126.在一个示例中，电子设备还可包括通信接口505和总线510。其中，如图5所示，处理器501、存储器502、通信接口505通过总线510连接并完成相互间的通信。
127.通信接口505，主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
128.总线510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci
‑
express(pci
‑
x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
129.另外，结合上述实施例，本技术实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语言模型的训练方法或nlp任务处理方法。
130.以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传
输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd
‑
rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
131.还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
132.上面参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
133.以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张学君;张震;王晗;李鹏;刘建;石瑾;刘睿霖;颜永红
技术所有人：国家计算机网络与信息安全管理中心
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。