语料生成方法、语料生成模型训练方法及相关设备与流程

文档序号:37311001发布日期:2024-03-13 21:00阅读:10来源:国知局
语料生成方法、语料生成模型训练方法及相关设备与流程

本申请涉及数据处理,尤其涉及一种语料生成方法、语料生成模型训练方法及相关设备。


背景技术:

1、在自然语言处理任务中,训练语言处理模型使用的文本数据叫做语料,语料的覆盖领域关系到模型学习的方向,语料的规模、质量关系到模型学习的质量,由于语言处理模型在实际使用时会用在不同领域,所以在对模型进行训练时,也需要考虑模型的应用领域做针对性语料训练。

2、现有技术中,人工编写的语料规模小,且耗费大量的人力成本,通过开源语料数据集获取的语料又无法针对某一领域对模型进行训练,就算人工从开源语料数据集中筛选某一领域的语料,也要耗费大量的人力成本,因此,目前亟需一种能够节约人工成本的语料生成方法。


技术实现思路

1、有鉴于此,为了解决人工成本高且开源语料无特定领域指向的问题,本申请的目的在于提出一种语料生成方法、语料生成模型训练方法及相关设备。

2、基于上述目的,本申请提供了一种语料生成方法,包括:获取初始文本,其中,所述初始文本的所属领域与需要生成的语料的所属领域相同;从所述初始文本中分割出至少一段分割文本;将所述至少一段分割文本输入至预先训练好的语料生成模型,并利用所述语料生成模型输出与每段所述分割文本相对应的至少一对问答语料。

3、可选地,所述从所述初始文本中分割出至少一段分割文本,包括:响应于所述初始文本中存在满足第一条件的语句,将每个满足所述第一条件的语句确定为一段所述一轮分割文本,其中,所述第一条件为位于两个第一标识符之间,且字数小于第一阈值,所述第一标识符为表征语句结束的标识符以及文本起始标识符,所述第一阈值表征所述一轮分割文本允许的最大字数。

4、可选地,所述从所述初始文本中分割出至少一段分割文本,还包括:响应于所述初始文本中存在不满足所述第一条件的语句,将全部不满足所述第一条件的语句输入至预先训练好的分割模型,利用所述分割模型分割出至少一段所述二轮分割文本。

5、可选地,所述利用所述分割模型分割出至少一段所述二轮分割文本,包括:根据所述第一标识符以及第二标识符,从全部不满足所述第一条件的语句中分割出至少一段预分割文本,其中,所述第二标识符为表征语句停顿的标识符;响应于所述预分割文本的数量为1,将该预分割文本确定为所述二轮分割文本;响应于所述预分割文本的数量大于1,利用所述分割模型按照语句顺序确定每两段所述预分割文本之间的上下句概率,并根据所述上下句概率,将所述预分割文本组合成至少一段所述二轮分割文本。

6、可选地,在所述从所述初始文本中分割出至少一段分割文本之前,所述方法还包括:对所述初始文本进行预处理,所述预处理包括:利用字符集过滤所述初始文本,保留中文、中文符号、英文单词以及英文符号;和/或,将所述英文单词转换为小写;和/或,将所述英文符号转换为对应的中文符号。

7、基于同一发明构思,本申请还提供了一种语料生成模型的训练方法,包括:获取多段样本文本;将所述样本文本处理为问答对格式,得到多对样本问答语料;利用所述问答样本语料对所述语料生成模型进行一轮训练与二轮训练,其中,所述一轮训练包括以第一学习率进行训练,所述二轮训练包括以第二学习率进行训练,所述第二学习率大于所述第一学习率。

8、基于同一发明构思,本申请还提供了一种语料生成装置,包括:获取模块,用于获取初始文本,其中,所述初始文本的所属领域与需要生成的语料的所属领域相同;文本分割模块,用于从所述初始文本中分割出至少一段分割文本;语料生成模块,用于将所述至少一段分割文本输入至预先训练好的语料生成模型,并利用所述语料生成模型输出与每段所述分割文本相对应的至少一对问答语料。

9、基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任意一项所述的方法。

10、基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行任意一项所述的所述方法。

11、基于同一发明构思,本申请还提供了一种车辆,包括所述装置或所述电子设备。

12、从上面所述可以看出,本申请提供了一种语料生成方法、语料生成模型训练方法及相关设备,其中,所述语料生成方法包括:获取初始文本,其中,所述初始文本的所属领域与需要生成的语料的所属领域相同;从所述初始文本中分割出至少一段分割文本;将所述至少一段分割文本输入至预先训练好的语料生成模型,并利用所述语料生成模型输出与每段所述分割文本相对应的至少一对问答语料。应用本申请提供的方法,能够自动根据初始文本生成多对问答语料,节约了语料获取过程中的人工成本;并且,相比于从开源语料数据集中获取的语料,应用本申请提供的方法,能够根据初始文本的领域生成适用于相应领域的语料,提高了语料的质量。



技术特征:

1.一种语料生成方法,其特征在于,包括:

2.根据权利要求1所述的语料生成方法,其特征在于,所述从所述初始文本中分割出至少一段分割文本,包括:

3.根据权利要求2所述的语料生成方法,其特征在于,所述从所述初始文本中分割出至少一段分割文本,还包括:

4.根据权利要求3所述的语料生成方法,其特征在于,所述利用所述分割模型分割出至少一段所述二轮分割文本,包括:

5.根据权利要求1所述的语料生成方法,其特征在于,在所述从所述初始文本中分割出至少一段分割文本之前,所述方法还包括:

6.一种语料生成模型的训练方法,其特征在于,包括:

7.一种语料生成装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。

9.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至6任意一项所述的所述方法。

10.一种车辆,其特征在于,包括权利要求7所述的装置或权利要求8所述的电子设备。


技术总结
本申请提供一种语料生成方法、语料生成模型训练方法及相关设备,其中,所述语料生成方法包括:获取初始文本,其中,所述初始文本的所属领域与需要生成的语料的所属领域相同;从所述初始文本中分割出至少一段分割文本;将所述至少一段分割文本输入至预先训练好的语料生成模型,并利用所述语料生成模型输出与每段所述分割文本相对应的至少一对问答语料。应用本申请提供的方法,能够自动根据初始文本生成多对问答语料,节约了语料获取过程中的人工成本;并且,相比于从开源语料数据集中获取的语料,应用本申请提供的方法,能够根据初始文本的领域生成适用于相应领域的语料,提高了语料的质量。

技术研发人员:江晓龙
受保护的技术使用者:北京罗克维尔斯科技有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1