本发明涉及自然语言处理,尤其涉及一种文本规整方法、装置、电子设备和存储介质。
背景技术:
1、自动语音识别技术(automatic speech recognition,asr)是一种将人类语音中的词汇内容转换为自然语言文本的技术。转换成文本之后通常需要对原始输出文本进行进一步处理,以形成更容易理解的文本输出,主要的后处理技术包括标点预测和数字规整。
2、相关技术中,数字规整和标点预测是按照一定的先后顺序进行,采用的是串联的逻辑,从而导致错误累计,影响文本规整准确性。
3、因此,亟需一种文本规整方案以解决相关技术中文本规整准确性差的问题。
技术实现思路
1、本发明提供一种文本规整方法、装置、电子设备和存储介质,用以解决现有技术中文本规整准确性差的缺陷。
2、本发明提供一种文本规整方法,包括:
3、获取待规整的原始文本;
4、提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,所述文本表示、数字规整表示和标点预测表示在同一建模空间内;
5、基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本。
6、根据本发明提供的文本规整方法,所述基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本,包括:
7、基于所述各文本单元的数字规整表示和标点预测表示,分别从所述各文本单元中确定出数字规整单元和标点预测单元;
8、基于所述数字规整单元和标点预测单元分别在所述原始文本中的位置,对所述标点预测表示进行调整,得到标点调整表示;
9、基于所述各文本单元的数字规整表示和标点调整表示,确定所述原始文本的规整文本。
10、根据本发明提供的文本规整方法,基于所述数字规整单元和标点预测单元分别在所述原始文本中的位置,对所述标点预测表示进行调整,得到标点调整表示,包括:
11、在所述标点预测单元的预测标点位于所述数字规整单元中每两个连续文本单元之间的情况下,将所述标点预测单元的标点预测表示调整为无标点输出,得到所述标点调整表示。
12、根据本发明提供的文本规整方法,所述提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,包括:
13、基于文本规整模型,提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示;
14、所述文本规整模型基于样本文本,以及所述样本文本的数字规整标签和标点预测标签训练得到。
15、根据本发明提供的文本规整方法,所述文本规整模型的训练步骤包括:
16、获取第一模型,分别对所述第一模型进行数字规整任务训练和标点预测任务训练,得到第二模型;
17、对所述第二模型进行数字规整任务和标点预测任务的融合训练,得到所述文本规整模型。
18、根据本发明提供的文本规整方法,所述对所述第二模型进行数字规整任务和标点预测任务的融合训练,得到所述文本规整模型,包括:
19、获取数字规整模型和标点预测模型;
20、将样本文本分别输入至所述数字规整模型、所述标点预测模型和所述第二模型,得到所述数字规整模型输出的第一数字表示,所述标点预测模型输出的第一标点表示,所述第二模型输出的第二数字表示和第二标点表示;
21、基于所述数字规整标签与所述第二数字表示之间的差异,以及所述标点预测标签与所述第二标点表示之间的差异,确定多任务损失;基于所述数字规整标签与所述第一数字表示之间的差异,确定数字规整损失;基于所述标点预测标签与所述第一标点表示之间的差异,确定标点预测损失;
22、基于所述多任务损失、所述数字规整损失,以及所述标点预测损失,对所述第二模型进行参数迭代,得到所述文本规整模型。
23、根据本发明提供的文本规整方法,所述文本表示、数字规整表示和标点预测表示是基于同一套词典编码得到的。
24、本发明还提供一种文本规整装置,包括:
25、文本获取单元,用于获取待规整的原始文本;
26、文本处理单元,用于提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,所述文本表示、数字规整表示和标点预测表示在同一建模空间内;
27、文本确定单元,用于基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本。
28、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本规整方法。
29、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本规整方法。
30、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本规整方法。
31、本发明提供的文本规整方法、装置、电子设备和存储介质,各文本单元的规整表示和标点预测表示是在同一文本表示的基础上,对原始文本进行数字规整和标点预测得到的,且文本表示、数字规整表示和标点预测表示在同一建模空间内,因此可采用并行逻辑同时对原始文本分别进行数字规整和标点预测,由此避免了串行逻辑带来的错误累计,提升了文本规整的准确性。
1.一种文本规整方法,其特征在于,包括:
2.根据权利要求1所述的文本规整方法,其特征在于,所述基于所述各文本单元的数字规整表示和标点预测表示,确定所述原始文本的规整文本,包括:
3.根据权利要求2所述的文本规整方法,其特征在于,所述基于所述数字规整单元和标点预测单元分别在所述原始文本中的位置,对所述标点预测表示进行调整,得到标点调整表示,包括:
4.根据权利要求1所述的文本规整方法,其特征在于,所述提取所述原始文本的文本表示,基于所述文本表示对所述原始文本进行数字规整和标点预测,得到所述原始文本中各文本单元的数字规整表示和标点预测表示,包括:
5.根据权利要求4所述的文本规整方法,其特征在于,所述文本规整模型的训练步骤包括:
6.根据权利要求5所述的文本规整方法,其特征在于,所述对所述第二模型进行数字规整任务和标点预测任务的融合训练,得到所述文本规整模型,包括:
7.根据权利要求1至6中任一项所述的文本规整方法,其特征在于,所述文本表示、数字规整表示和标点预测表示是基于同一套词典编码得到的。
8.一种文本规整装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本规整方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本规整方法。