模型训练方法、文本处理方法及其装置与流程

文档序号：34158892发布日期：2023-05-14 18:27阅读：34来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及计算机，尤其涉及模型训练方法、文本处理方法及其装置。

背景技术：

1、模型预训练是在模型正式训练前的一个预训练，模型预训练可以提高正式训练的模型的性能。其中，模型的预训练在自然语言理解任务方面取被广泛应用。

2、目前，语言模型的预训练是基于大量的未标记样本，采用自监督学习使模型学习到丰富的词汇、语法以及事实知识，但是该预训练得到的语言模型在应用于具体的下游任务时，具有性能较差的问题。

技术实现思路

1、本申请的多个方面提供模型训练方法、文本处理方法及其装置，以提高语言模型的性能。

2、本申请实施例第一方面提供一种模型训练方法，包括：获取与下游任务相关的样本文本，样本文本中包括至少一个实体文本，实体文本为描述具体对象的文本；在预设知识库中提取实体文本的关联文本；基于样本文本和关联文本生成目标文本，目标文本包括样本文本和关联文本；基于目标文本，训练语言模型，得到训练完成的语言模型。

3、本申请实施例第二方面提供一种模型训练方法，包括：接收终端设备发送的语言模型；基于目标文本训练语言模型，得到训练完成的语言模型，目标文本是根据第一方面的模型训练方法训练得到的；向终端设备发送训练完成的语言模型。

4、本申请实施例第三方面提供一种模型训练方法，包括：获取针对下游任务预设的多个任务样本；采用任务样本训练语言模型，得到下游任务模型，下游任务模型包括：问答模型或分类模型，语言模型根据第一方面的模型训练方法训练得到的。

5、本申请实施例第四方面提供一种文本处理方法，包括：获取待处理文本；将待处理文本输入下游任务模型进行处理，得到输出结果，其中，下游任务模型是根据第二方面的模型训练方法得到的，输出结果包括待处理文本对应的答案文本或者待处理文本对应的类别。

6、本申请实施例第五方面提供一种模型训练装置，包括：

7、获取模块，用于获取与下游任务相关的样本文本，样本文本中包括至少一个实体文本，实体文本为描述具体对象的文本；

8、提取模块，用于在预设知识库中提取实体文本的关联文本；

9、生成模块，用于基于样本文本和关联文本生成目标文本，目标文本包括样本文本和关联文本；

10、训练模块，用于基于目标文本，训练语言模型，得到训练完成的语言模型。

11、本申请实施例第六方面提供一种电子设备，包括：处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面、第二方面或第三方面的模型训练方法，和/或第四方面的文本处理方法。

12、本申请实施例第七方面提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序被处理器执行时，致使处理器实现如第一方面、第二方面或第三方面的模型训练方法，和/或第四方面的文本处理方法。

13、本申请实施例应用于语言模型的预训练场景中，通过获取与下游任务相关的样本文本，样本文本中包括至少一个实体文本，实体文本为描述具体对象的文本；在预设知识库中提取实体文本的关联文本；基于样本文本和关联文本生成目标文本，目标文本包括样本文本和关联文本；基于目标文本，训练语言模型，得到训练完成的语言模型。能够结合下游任务的样本文本以及知识注入的方法，提高预训练的语言模型的性能。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据所述样本文本和所述关联文本生成目标文本，包括：

3.根据权利要求2所述的模型训练方法，其特征在于，所述基于所述样本文本和所述填充文本生成所述目标文本，包括：

4.根据权利要求2所述的模型训练方法，其特征在于，所述基于所述样本文本和所述填充文本生成所述目标文本，包括：

5.根据权利要求2所述的模型训练方法，其特征在于，所述填充文本包括：预设模板中的至少一个连接词和所述连接词后的关联文本，或者，所述填充文本包括：预设模板中的两个预设符号和所述两个预设符号之间的关联文本。

6.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述采用所述训练文本和所述目标文本训练语言模型，包括：

7.根据权利要求6所述的模型训练方法，其特征在于，所述语言模型包括编码器和解码器，所述采用所述训练文本和所述目标文本训练语言模型，包括：

8.根据权利要求7所述的模型训练方法，其特征在于，所述预设规则包括以下至少一项：

9.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述预设知识库包括：图表知识库、百科数据库或所述下游任务对应的多个数据中的至少一项，若所述下游任务为分类任务，则所述数据为所述下游任务预设的类别。

10.根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述基于所述目标文本，训练语言模型，得到训练完成的语言模型之前，还包括：

11.一种模型训练方法，其特征在于，包括：

12.一种模型训练方法，其特征在于，包括：

13.一种文本处理方法，其特征在于，包括：

14.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如1至12任一项所述的模型训练方法，和/或权利要求13所述的文本处理方法。

技术总结
本申请提供一种模型训练方法、文本处理方法及其装置。该模型训练方法包括：获取与下游任务相关的样本文本，样本文本中包括至少一个实体文本，实体文本为描述具体对象的文本；在预设知识库中提取实体文本的关联文本；基于样本文本和关联文本生成目标文本，目标文本包括样本文本和关联文本；基于目标文本，训练语言模型，得到训练完成的语言模型。能够结合下游任务的样本文本以及知识注入的方法，提高预训练的语言模型的性能。

技术研发人员：谭传奇,裘炜康,章译铭,傅鹏,杨涵韬,黄松芳,赵俊博
受保护的技术使用者：阿里巴巴（中国）有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谭传奇裘炜康章译铭傅鹏杨涵韬黄松芳赵俊博
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：获取车辆长度的方法及车辆长度检测设备与流程
上一篇：一种管件的卡接结构及框架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。