文本顺滑处理方法、装置、电子设备及存储介质与流程

文档序号:35211010发布日期:2023-08-24 12:05阅读:47来源:国知局
文本顺滑处理方法、装置、电子设备及存储介质与流程

本公开涉及文本处理,尤其涉及一种文本顺滑处理方法、装置、电子设备及存储介质。


背景技术:

1、自动语音识别(automatic speech recognition,asr)得到的文本中往往包含有大量的不流畅文本。这些不流畅文本会对后续的自然语言理解(natural languageunderstanding,nlu)造成严重干扰。文本顺滑任务作为语音识别系统和自然语言理解系统之间的一个任务,是对语音识别后的文本不顺滑现象进行检测。

2、相关技术可知,通过训练好的序列标注模型对文本中的字打标签,删除标记为不流畅标签的字来实现对文本的顺滑处理。

3、然而,在当前的序列标注模型的训练过程中,往往关注标签分类任务本身,以标签分类正确作为目标,而没有关注文本语义,这将导致顺滑处理后的文本存在偏离文本原始语义的问题,降低了文本顺滑准确率。


技术实现思路

1、本公开提供一种文本顺滑处理方法、装置、电子设备及存储介质,用以解决现有技术中文本顺滑准确率低的缺陷,实现了在对待顺滑处理文本进行文字流畅性标注时,综合考虑文本语义和标签标注的准确性,从而确保顺滑处理后的待顺滑处理文本不会偏离文本原始语义,提高了文本顺滑准确率。

2、本公开提供一种文本顺滑处理方法,所述文本顺滑处理方法包括:获取待顺滑处理文本;将所述待顺滑处理文本输入至文本顺滑模型,得到所述文本顺滑模型输出的带有文字不流畅标签的待顺滑处理文本;对所述带有文字不流畅标签的待顺滑处理文本进行顺滑处理,得到顺滑文本;其中,所述文本顺滑模型包括编码器、文字标签分类器和语句流畅分类器,所述文字标签分类器和所述语句流畅分类器共用所述编码器,所述文本顺滑模型通过预训练得到。

3、根据本公开提供的一种文本顺滑处理方法,所述文本顺滑模型采用以下方式预训练得到:获取第一训练样本集和第二训练样本集;将所述第一训练样本集中的第一训练样本输入至所述文本顺滑模型,并基于所述编码器得到所述第一训练样本的第一语义表示;将所述第二训练样本集中的第二训练样本输入至所述文本顺滑模型,并基于所述编码器得到所述第二训练样本的第二语义表示和所述第二训练样本中各个字的单字语义表示;将所述第一语义表示输入至所述语句流畅分类器,得到所述语句流畅分类器输出的语句流畅分类结果,其中,所述语句流畅分类结果包括语句不流畅结果和语句流畅结果;将所述单字语义表示输入至所述文字标签分类器,得到所述文字标签分类器输出的文字标签分类结果,其中,所述文字标签分类结果包括文字不流畅标签结果和文字流畅标签结果;基于所述文字标签分类结果和所述第二训练样本,构建与所述第二训练样本对应的顺滑后训练样本;将所述顺滑后训练样本输入至所述编码器,得到所述顺滑后训练样本的第三语义表示,并基于所述第二语义表示和所述第三语义表示得到损失函数;基于所述损失函数对所述文本顺滑模型进行多轮次训练,直至所述损失函数的值小于或等于损失阈值。

4、根据本公开提供的一种文本顺滑处理方法,所述基于所述文字标签分类结果和所述第二训练样本,构建与所述第二训练样本对应的顺滑后训练样本,具体包括:基于所述文字标签分类结果,确定所述第二训练样本中的不流畅文字;将所述第二训练样本中的所述不流畅文字进行删除,得到与所述第二训练样本对应的顺滑后训练样本。

5、根据本公开提供的一种文本顺滑处理方法,基于所述第二语义表示和所述第三语义表示得到损失函数,具体包括:基于所述第二语义表示和所述第三语义表示的均方误差,得到所述损失函数。

6、根据本公开提供的一种文本顺滑处理方法,所述第一训练样本的预设位置设置有第一占位符;在所述基于所述编码器得到所述第一训练样本的第一语义表示之后,所述方法还包括:将所述第一语义表示标注至所述第一占位符;所述将所述第一语义表示输入至所述语句流畅分类器,得到所述语句流畅分类器输出的语句流畅分类结果,具体包括:由所述第一占位符处获取所述第一语义表示,并将所述第一语义表示输入至所述语句流畅分类器,得到所述语句流畅分类器输出的语句流畅分类结果。

7、根据本公开提供的一种文本顺滑处理方法,所述第二训练样本的预设位置设置有第二占位符,所述顺滑后训练样本的预设位置设置有第三占位符;在所述基于所述编码器得到所述第二训练样本的第二语义表示之后,所述方法还包括:将所述第二语义表示标注至所述第二占位符;在所述得到所述顺滑后训练样本的第三语义表示之后,所述方法还包括:将所述第三语义表示标注至所述第三占位符;所述基于所述第二语义表示和所述第三语义表示得到损失函数,具体包括:由所述第二占位符处获取所述第二语义表示,以及由所述第三占位符处获取所述第三语义表示;基于所述第二语义表示和所述第三语义表示得到损失函数。

8、根据本公开提供的一种文本顺滑处理方法,所述获取第一训练样本集,具体包括:获取多个流畅文本;对部分所述流畅文本随机添加噪声和\或删除句子成分,构造不流畅文本样本,其中,所述不流畅文本样本设置有语句不流畅标签;将未添加噪声或未删除句子成分的所述流畅文本,作为流畅文本样本,其中,所述流畅文本样本设置有语句流畅标签;基于所述流畅文本样本和所述不流畅文本样本,得到所述第一训练样本集。

9、根据本公开提供的一种文本顺滑处理方法,所述获取第二训练样本集,具体包括:获取多个流畅文本;分别对各所述流畅文本随机添加噪声,得到添加噪声后文本样本;对所述添加噪声后文本样本中的所述噪声添加文字不流畅标签,以及对所述添加噪声后文本样本中除所述噪声之外的其他字添加文字流畅标签;基于所述添加噪声后文本样本,得到所述第二训练样本集。

10、根据本公开提供的一种文本顺滑处理方法,所述对所述带有文字不流畅标签的待顺滑处理文本进行顺滑处理,得到顺滑文本,具体包括:确定所述带有文字不流畅标签的待顺滑处理文本中的不流畅文字;将所述待顺滑处理文本中的所述不流畅文字进行删除,得到所述顺滑文本。

11、本公开还提供一种文本顺滑处理装置,所述文本顺滑处理装置包括:获取模块,用于获取待顺滑处理文本;处理模块,用于将所述待顺滑处理文本输入至文本顺滑模型,得到所述文本顺滑模型输出的带有文字不流畅标签的待顺滑处理文本;生成模块,用于对所述带有文字不流畅标签的待顺滑处理文本进行顺滑处理,得到顺滑文本;其中,所述文本顺滑模型包括编码器、文字标签分类器和语句流畅分类器,所述文字标签分类器和所述语句流畅分类器共用所述编码器,所述文本顺滑模型通过预训练得到。

12、本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文本顺滑处理方法。

13、本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本顺滑处理方法。

14、本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的文本顺滑处理方法。

15、本公开提供的文本顺滑处理方法、装置、电子设备及存储介质,通过文字标签分类器和语句流畅分类器共用编码器,能够令语句流畅分类器隐式得为文字标签分类器传递句子级别的流畅或不流畅信息,从而影响语句流畅分类器的学习过程,确保基于预训练得到的文本顺滑模型在对待顺滑处理文本进行文字流畅性标注时,可以综合考虑文本语义和标签标注的准确性,从而确保顺滑处理后的待顺滑处理文本不会偏离文本原始语义,提高了文本顺滑准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1