语言模型的预训练方法、文本处理方法及相关设备与流程

文档序号：34535262发布日期：2023-06-27 11:36阅读：45来源：国知局

本技术涉及自然语言处理，尤其涉及一种语言模型的预训练方法、文本处理方法及相关设备。

背景技术：

1、近来，预训练语言模型(pre-trained models，ptms)的发展将自然语言处理(natural language processing，nlp)领域的研究提升到了一个新的阶段，无需人工标签，即可从海量的语料中学习到通用的语言表征，并显著提升下游的任务能力。采用预训练语言模型作为下游任务的支柱，而无需从头开始学习模型，已经成为人工智能(artificialintelligence，ai)社区的共识。因此，对于语言模型的预训练尤为重要。

2、目前对于语言模型的预训练，通常从原始训练文本中随机抽取一定数量的词语进行掩码处理，然后利用原始训练文本中未被掩码的词语去预测被掩码的词语，以使语言模型通过学习原始训练文本中词语之间的联系，掌握文本语义理解能力，从而能够从海量的语料中学习到通用的语言表征。但是，由于被掩码的词语是从原始训练文本中随机抽取的，导致原始训练文本中词语之间的联系难以被学习和解释，且这种联系严重依赖原始训练文本的语法正确性，进而导致预训练后的语言模型无法准确表征文本语义，最终影响下游任务效果。

技术实现思路

1、本技术实施例的目的提供一种语音模型的预训练方法、文本处理方法及相关设备，用于目前预训练后的语言模型无法准确表征文本语义而最终影响下游任务效果的问题。

2、为了实现上述目的，本技术实施例采用下述技术方案：

3、第一方面，本技术实施例提供一种语言模型的预训练方法，包括：

4、获取样本文本序列以及所述样本文本序列对应的关系标签，所述样本文本序列由第一语言文本和第二语言文本拼接而成，所述关系标签用于表示所述样本文本序列中的第二语言文本是否由第一语言文本翻译而成；

5、对所述样本文本序列中的目标词语进行掩码处理，得到掩码文本序列，所述目标词语包括所述第一语言文本中的第一词语和所述第二语言文本中的第二词语，所述第一词语与所述第二词语具有相同的词性；

6、通过语言模型对所述掩码文本序列进行编码处理，得到所述掩码文本序列的掩码表示向量；

7、通过关系预测模型基于所述掩码表示向量，预测所述目标词语对应的预测词语以及所述第一语言文本与所述第二语言文本之间的预测关系；

8、基于所述目标词语及其对应的预测词语、所述第一语言文本与所述第二语言文本之间的预测关系以及所述关系标签，调整所述语言模型的模型参数，以得到预训练语言模型。

9、本技术实施例提供的语言模型的预训练方法，使用两种不同语言的文本拼接成样本文本序列，并将两种语言的文本之间是否为翻译关系作为样本文本序列对应的关系标签；进一步，将样本文本序列及其对应的关系标签作为对语言模型进行预训练的语料，通过在语言模型的下游增加关系预测模型，引入mlm(masked language model，掩码语言模型)训练任务和文本间关系预测任务，使得语言模型通过学习样本文本序列中词语之间的联系以及不同语言的文本之间的联系，掌握文本语义理解能力，从而能够从海量的语料中学习到通用的语言表征；在此基础上，对于mlm训练任务，对样本文本序列中不同语言的文本中词性相同的词语进行掩码，来替代从样本文本序列中随机抽取词语进行掩码，使得掩码后得到的掩码文本序列能够保留更多的多语言对比信息，使得样本文本序列中词语之间的联系更容易被语言模型学习和解释，从而有利于提高语言模型的文本表征准确性；对于文本间关系预测任务，从语言谱系关系来看，亲属关系越远的语言对比中越能发现一种语言表达某种时空概念的独特性，利用这一客观的自然规律，将样本文本序列对应的关系标签作为文本间关系预测任务的监督信号，由关系预测模型基于掩码文本序列对两种不同语言文本之间是否为翻译关系进行预测，使得语言模型能够利用不同语言文本之间的关系，充分挖掘各种语言中表达特定时空语义时所用到的表达方式，从而有利于提高语言模型的文本表征准确性。

10、第二方面，本技术实施例提供一种文本处理模型的训练方法，所述文本处理模型包括预训练语言模型和任务处理模型，所述预训练语言模型为基于第一方面所述的语言模型的预训练方法训练得到，所述任务处理模型用于执行目标任务，所述方法包括：

11、获取样本文本及其对应的任务标签，所述任务标签用于表示所述样本文本在所述目标任务下对应的预期处理结果；

12、通过所述预训练语言模型对所述样本文本进行编码处理，得到所述样本文本对应的文本表示向量；

13、通过所述任务处理模型基于所述文本表示向量对所述样本文本执行所述目标任务，得到所述样本文本对应的文本处理结果；

14、基于所述样本文本对应的文本处理结果及任务标签，调整所述文本处理模型的模型参数。

15、本技术实施例提供的文本处理模型的训练方法，在通过上述预训练方法训练好语言模型之后，根据对文本进行处理的目标任务，在预训练语言模型的下游增加用于执行目标任务的任务处理模型，即可得到文本处理模型；进一步，由于预训练语言模型已经具备了准确表征文本语义的能力，在过预训练语言模型对样本文本进行编码以得到相应的文本表示向量之后，将样本文本对应的任务标签作为目标任务的监督信号，通过文本处理任务基于该监督信号和文本表示向量对样本文本执行目标任务，并基于得到的文本处理结果和样本文本对应的任务标签，对文本处理模型进行微调(fine tune)，即可完成对文本处理模型的训练，不仅能够提高文本处理模型的文本处理准确性，还相对于从头开始训练模型(training a model from scatch)，能够省去大量计算资源和计算时间，提高训练效率。

16、第三方面，本技术实施例提供一种文本处理方法，包括：

17、获取待处理的目标文本；

18、将所述目标文本输入文本处理模型，得到所述目标文本对应的文本处理结果；其中，所述文本处理模型包括预训练语言模型和任务处理模型，所述文本处理模型为基于第一方面所述的语言模型的预训练方法训练得到；所述预训练语言模型用于对所述目标文本进行编码处理，得到所述目标文本对应的文本表示向量；所述任务处理模型用于基于所述目标文本对应的文本表示向量对所述目标文本执行目标任务，得到所述目标文本对应的文本处理结果。

19、本技术实施例提供的文本处理方法，由于上述文本处理模型的训练方法训练得到的文本处理模型具有较高的准确性力，利用该文本处理模型对待处理文本进行处理，有利于提高文本处理准确性。

20、第四方面，本技术实施例提供一种语言模型的预训练装置，包括：

21、获取单元，用于获取样本文本序列以及所述样本文本序列对应的关系标签，所述样本文本序列由第一语言文本和第二语言文本拼接而成，所述关系标签用于表示所述样本文本序列中的第二语言文本是否由第一语言文本翻译而成；

22、掩码单元，用于对所述样本文本序列中的目标词语进行掩码处理，得到掩码文本序列，所述目标词语包括所述第一语言文本中的第一词语和所述第二语言文本中的第二词语，所述第一词语与所述第二词语具有相同的词性；

23、编码单元，用于通过语言模型对所述掩码文本序列进行编码处理，得到所述掩码文本序列的掩码表示向量；

24、预测单元，用于通过关系预测模型基于所述掩码表示向量，预测所述目标词语对应的预测词语以及所述第一语言文本与所述第二语言文本之间的预测关系；

25、调整单元，用于基于所述目标词语及其对应的预测词语、所述第一语言文本与所述第二语言文本之间的预测关系以及所述关系标签，调整所述语言模型的模型参数，以得到预训练语言模型。

26、第五方面，本技术实施例提供一种文本处理模型的训练装置，所述文本处理模型包括预训练语言模型和任务处理模型，所述预训练语言模型为基于第一方面所述的预训练方法训练得到，所述任务处理模型用于执行目标任务，所述装置包括：

27、获取单元，用于获取样本文本及其对应的任务标签，所述任务标签用于表示所述样本文本在所述目标任务下对应的预期处理结果；

28、编码单元，用于通过所述预训练语言模型对所述样本文本进行编码处理，得到所述样本文本对应的文本表示向量；

29、处理单元，用于通过所述任务处理模型基于所述文本表示向量对所述样本文本执行所述目标任务，得到所述样本文本对应的文本处理结果；

30、调整单元，用于基于所述样本文本对应的文本处理结果及任务标签，调整所述文本处理模型的模型参数。

31、第六方面，本技术实施例提供一种文本处理装置，包括：

32、获取单元，用于获取待处理的目标文本；

33、处理单元，用于将所述目标文本输入文本处理模型，得到所述目标文本对应的文本处理结果；

34、其中，所述文本处理模型包括预训练语言模型和任务处理模型，所述文本处理模型为基于第一方面所述的预训练方法训练得到；所述预训练语言模型用于对所述目标文本进行编码处理，得到所述目标文本对应的文本表示向量；所述任务处理模型用于基于所述目标文本对应的文本表示向量对所述目标文本执行目标任务，得到所述目标文本对应的文本处理结果。

35、第七方面，本技术实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的方法；或者，所述处理器被配置为执行所述指令，以实现如第二方面所述的方法；或者，所述处理器被配置为执行所述指令，以实现如第三方面所述的方法。

36、第八方面，本技术实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第二方面所述的方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第三方面所述的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白安琪蒋宁夏粉吴海英肖冰
技术所有人：马上消费金融股份有限公司
我是此专利的发明人

上一篇：电解液与锂离子电池的制作方法
上一篇：一种双向阻感型直流限流器及控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。