一种口语的翻译方法、装置及存储介质与流程

文档序号:33294238发布日期:2023-02-28 20:56阅读:52来源:国知局
一种口语的翻译方法、装置及存储介质与流程

1.本发明涉及自然语言处理技术领域,具体涉及一种口语的翻译方法、装置及存储介质。


背景技术:

2.尽管基于深度神经网络的神经机器翻译取得了突破性地发展,被广泛地应用于实际生产中,但神经机器翻译系统极易受到输入噪声的干扰而产生错误的翻译,特别是在口语翻译场景中。这是因为在口语翻译场景,翻译系统的输入来自语音识别的输出,而即使是高性能的商用语音识别引擎别也难以避免地存在多字、少字、同音字替换等识别错误,这些错误导致神经机器翻译的性能大幅下降。
3.现有方法多采用在语音识别结果输入翻译系统之前进行错误校正的级联式策略,即首先对语音识别结果进行错误检测和修正,然后将修正后的口语文本输入翻译系统得到最终的译文。另外一些方法则通过噪声增强的方式,在训练数据中加入合成噪声,进而训练对识别错误鲁棒的神经机器翻译模型,以减少识别错误在系统应用时对翻译模型的影响。
4.上述级联式方法通常需要先训练一个复杂的错误检测和校正模型,极大地增加了系统部署时的计算资源开销,并且在检测和校正阶段可能引入其他额外的错误。第二类噪声增强的方法仅能合成同音词错误,对于翻译性能的提升有限,如何在不增加计算和存储开销的情况下,提升翻译模型的鲁棒性是现有技术的难题。


技术实现要素:

5.本发明的目的在于克服上述技术不足,提供一种口语的翻译方法、装置及存储介质,解决现有技术中如何在不增加计算和存储开销的情况下,提升翻译模型的鲁棒性的技术问题。
6.为达到上述技术目的,本发明的技术方案提供一种口语的翻译方法,包括以下步骤:
7.s1、将正确文本数据和噪声文本数据同时输入翻译模型,计算对比损失;
8.s2、根据所述对比损失和翻译任务损失计算模型的损失,训练模型。
9.进一步地,在步骤s1中,所述噪音本文数据是通过对所述正确文本数据进行预处理得到;所述预处理包括:将所述正确文本数据中的字替换为同音字或近音字、将所述正确文本数据中的字进行随机删除、在所述正确文本数据中根据语言模型概率产生多余字符进行随机插入。
10.进一步地,在步骤s1中,所述对比损失由以下步骤得到:通过正确文本数据和噪声文本数据经过编码器处理后得到语义表示,之后将所述语义表示经过非线性映射和池化投影到对比学习空间,得到对比学习表示,之后通过句子级别或词级别的对比损失学习对正例和负例的区分得到所述对比损失;所述对比损失包括句子级别对比损失和词级别对比损失。
11.进一步地,在步骤s1中,所述句子级别对比损失由以下步骤得到:
12.所述对于输入至翻译模型中的一对正确文本和噪声文本,首先经过编码器编码得到语义表示与然后经过非线性映射投影到对比空间,将对比空间中的词表示序列进行平均池化得到句表示s
x
与sz,句表示计算公式为:
[0013][0014]
其中,wa、wb、b为神经网络的参数,relu为非线性激活函数;使用s
x
与sz作为一组正例,s
x
或sz与同一训练批次内的其他正确文本和噪声文本的句表示作为负例,通过对比学习使x与z的句表示在对比空间中足够相似,同时与其他所有负例的句表示距离较远,所述句子级别对比损失为:
[0015][0016]
其中,sim(
·
)为余弦相似度函数,{s}为当前训练批次内所有句表示的集合,表示当前训练批次内除去以外的句表示集合;d表示正确文本数据集。
[0017]
进一步地,在步骤s1中,所述词级别对比损失由以下步骤得到:
[0018]
获得噪声文本z与正确文本x之间的非对齐子串;
[0019]
将所述非对齐子串对应的编码表示与经过非线性映射投影到对比空间,将对比空间中的非对齐子串表示序列进行平均池化得到非对齐子串的表示与非对齐子串表示的计算公式为:
[0020][0021]
则与构成一组正例,或与同一训练批次内的其他所有非对齐子串的表示向量构成负例,使用对比学习拉近噪声词与正确词的编码表示之间的距离,从而减少语音识别错误处词表示的偏移,则词级别对比损失为:
[0022]
其中,d表示正确文本数据集。
[0023]
进一步地,在步骤s2中,所述翻译任务损失由以下步骤得到:在翻译模块中,解码器获取到所述正确文本数据和所述噪声文本数据的语义文本,然后将所述语义文本分别解
码得到翻译结果,计算二者的翻译结果与参考译文的机器翻译损失得到所述翻译任务损失。
[0024]
进一步地,在步骤s2中,所述翻译任务损失由以下步骤得到:根据在正确文本数据集和包含识别错误的噪声文本数据集得到所述翻译任务损失为:
[0025][0026]
进一步地,在步骤s2中,所述模型的损失为:
[0027][0028]
,其中λ1和λ2为调节对比损失重要程度的超参数,表示翻译任务损失,表示句子级别对比损失,表示词级别对比损失。
[0029]
此外,本发明还提出一种口语的翻译装置,包括:
[0030]
计算单元,用于将正确文本数据和噪声文本数据同时输入翻译模型,计算对比损失;
[0031]
训练单元,所述训练单元用于根据对比损失和翻译任务损失计算模型的损失,训练模型。
[0032]
进一步地,本发明还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述口语的翻译方法的步骤。
[0033]
与现有技术相比,本发明的有益效果包括:本发明提出的口语翻译方法,针对口语翻译系统中语音识别错误的问题,采用了对比学习方法,将正确文本数据和噪声文本数据同时输入翻译模型,计算对比损失,根据对比损失和翻译任务损失联用计算模型的损失,训练模型,不需要增加计算和存储开销降低了识别错误对文本表示的影响,进而提升翻译模型的鲁棒性。
附图说明
[0034]
图1是本发明具体实施方式的口语的翻译方法的流程图;
[0035]
图2是本发明具体实施方式的口语的翻译装置的结构框图。
[0036]
图3是本发明实施例1中句子级别对比损失和次级别对比损失的示意图。
具体实施方式
[0037]
结合图1,本具体实施方式提供了一种口语的翻译方法,包括以下步骤:
[0038]
s1、将正确文本数据和噪声文本数据同时输入翻译模型,计算对比损失;所述噪音数据是通过对所述正确文本数据进行预处理得到;所述预处理包括:将所述正确文本数据中的字替换为同音字或近音字、将所述正确文本数据中的字进行随机删除、在所述正确文本数据中根据语言模型概率产生多余字符进行随机插入;
[0039]
进一步地,所述对比损失由以下步骤得到:通过正确文本数据和噪声文本数据经过编码器处理后得到语义表示,之后将所述语义表示经过非线性映射和池化投影到对比学
习空间,得到对比学习表示,之后通过句子级别或词级别的对比损失学习对正例和负例的区分得到所述对比损失;所述对比损失包括句子级别对比损失和词级别对比损失;
[0040]
进一步地,所述句子级别对比损失由以下步骤得到:
[0041]
对于输入至翻译模型中的一对正确文本和噪声文本,首先经过编码器编码得到语义表示与然后经过非线性映射投影到对比空间,将对比空间中的词表示序列进行平均池化得到句表示s
x
与sz,句表示计算公式为:
[0042][0043]
其中,wa、wb、b为神经网络的参数,relu为非线性激活函数;使用s
x
与sz作为一组正例,s
x
或sz与同一训练批次内的其他正确文本和噪声文本的句表示作为负例,通过对比学习使x与z的句表示在对比空间中足够相似,同时与其他所有负例的句表示距离较远,所述句子级别对比损失为:
[0044][0045]
其中,sim(
·
)为余弦相似度函数,{s}为当前训练批次内所有句表示的集合,表示当前训练批次内除去以外的句表示集合;
[0046]
进一步地,所述词级别对比损失由以下步骤得到:
[0047]
获得噪声文本z与正确文本x之间的非对齐子串;
[0048]
将所述非对齐子串对应的编码表示与经过非线性映射投影到对比空间,将对比空间中的非对齐子串表示序列进行平均池化得到非对齐子串的表示与非对齐子串表示的计算公式为:
[0049][0050]
则与构成一组正例,或与同一训练批次内的其他所有非对齐子串的表示向量构成负例,使用对比学习拉近噪声词与真实词的编码表示之间的距离,从而减少语音识别错误处词表示的偏移,则词级别对比损失为:
[0051][0052]
所述非对齐子串通过以下步骤得到:首先计算噪声文本z与正确文本x之间的编辑距离d,然后使用回溯算法找到编辑操作的位置,将连续的编辑位置合并得到编辑范围,编
辑范围内的文本即为噪声文本z与正确文本x之间的非对齐子串;
[0053]
所述句子级别对比损失和所述词级别对比损失的相关示意如图3所示,其中的正确文本为“该地区的形势更加岌岌可危”,对应的噪声文本为“该地区的形势更加其其可危”。
[0054]
s2、根据对比损失和翻译任务损失计算模型的损失,训练模型;
[0055]
进一步地,在步骤s2中,所述翻译任务损失由以下步骤得到:在翻译模块中,解码器获取到所述正确文本数据和所述噪声文本数据的语义文本,然后将所述语义文本分别解码得到翻译结果,计算二者的翻译结果与参考译文的机器翻译损失得到所述翻译任务损失

[0056]
进一步地,在步骤s2中,所述翻译任务损失由以下步骤得到:根据在正确文本数据集和包含识别错误的噪声文本数据集得到所述翻译任务损失为:
[0057][0058]
进一步地,在步骤s2中,所述模型的损失为:
[0059][0060]
,其中λ1和λ2为调节对比损失重要程度的超参数,表示翻译任务损失,表示句子级别对比损失,表示词级别对比损失。
[0061]
此外,结合图2,本具体实施方式还提出一种口语的翻译装置,包括:
[0062]
计算单元,用于将正确文本数据和噪声文本数据同时输入翻译模型,计算对比损失;
[0063]
训练单元,所述训练单元用于根据对比损失和翻译任务损失计算模型的损失,训练模型。
[0064]
另外,本具体实施方式还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述口语的翻译方法的步骤。
[0065]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0066]
实施例1
[0067]
本实施例提出一种口语的翻译方法,包括以下步骤:
[0068]
t1、对正确文本数据进行预处理,构造噪声文本数据;所述预处理包括:将所述正确文本数据中的字替换为同音字或近音字、将所述正确文本数据中的字进行随机删除、在所述正确文本数据中根据语言模型概率产生多余字符进行随机插入;
[0069]
将所述正确文本数据中的字替换为同音字或近音字包括:本实施例中字替换为同音字是指汉语拼音由声母加韵母两部分组成,规定当两个部分全部相同时为同音字,例如“一”(yi)和“以”(yi);字替换为近音字是指当有一个部分不同,且二者在该不同部分的发
音相似时为近音字,例如“一”(yi)和“西”(xi)。本实施例首先构建同音字和近音字表,并采用随机替换方式将正确文本数据中的字替换为同音字或近音字;
[0070]
将所述正确文本数据中的字进行随机删除是指在正确文本数据中的字根据字符出现频率进行随机删除;
[0071]
在所述正确文本数据中根据语言模型概率产生多余字符进行随机插入是指在正确文本数据中根据语言模型概率产生多余字符,具体地,为了使插入字符可以衔接上文,首先从语料库中统计所有的2元字符的频率,所有2元字符中根据多项式分布随机采样选择一个2元字符进行插入;所述语料库为对应语言的文本数据,可以为翻译语料的源语言文本也可以为其他来源的源语言文本;
[0072]
所述对比损失通过正确文本数据和噪声文本数据经过编码器处理后得到语义表示h
x
与hz,将h
x
与hz经过非线性映射和池化投影到对比学习空间,得到对比学习表示s
x
与sz,通过句子级别或词级别的对比损失学习对正例和负例的区分;所述对比损失包括句子级别对比损失和词级别对比损失;
[0073]
t2、根据对比损失和翻译任务损失计算模型的损失,训练模型;所述对比损失包括句子级别对比损失和词级别对比损失;
[0074]
进一步地,所述句子级别对比损失由以下步骤得到:
[0075]
对于输入至翻译模型中的一对正确文本和噪声文本,首先经过编码器编码得到语义表示与然后经过非线性映射投影到对比空间,将对比空间中的词表示序列进行平均池化得到句表示s
x
与sz,句表示计算公式为:
[0076][0077]
其中,wa、wb、b为神经网络的参数,relu为非线性激活函数;使用s
x
与sz作为一组正例,s
x
或sz与同一训练批次内的其他正确文本和噪声文本的句表示作为负例,通过对比学习使x与z的句表示在对比空间中足够相似,同时与其他所有负例的句表示距离较远,所述句子级别对比损失为:
[0078][0079]
其中,sim(
·
)为余弦相似度函数,{s}为当前训练批次内所有句表示的集合,表示当前训练批次内除去以外的句表示集合;
[0080]
进一步地,所述词级别对比损失由以下步骤得到:
[0081]
获得噪声文本z与正确文本x之间的非对齐子串;
[0082]
将所述非对齐子串对应的编码表示与经过非线性映射投影到对比空间,将对比空间中的非对齐子串表示序列进行平均池化得到
非对齐子串的表示与非对齐子串表示的计算公式为:
[0083][0084]
则与构成一组正例,或与同一训练批次内的其他所有非对齐子串的表示向量构成负例,使用对比学习拉近噪声词与真实词的编码表示之间的距离,从而减少语音识别错误处词表示的偏移,则词级别对比损失为:
[0085][0086]
所述非对齐子串通过以下步骤得到:首先计算噪声文本z与正确文本x之间的编辑距离d,然后使用回溯算法找到编辑操作的位置,将连续的编辑位置合并得到编辑范围,编辑范围内的文本即为噪声文本z与正确文本x之间的非对齐子串;
[0087]
t3、根据对比损失和翻译任务损失计算模型的损失,训练模型。
[0088]
在正确文本数据集和包含识别错误的噪声文本数据集上的翻译任务损失为:
[0089][0090]
模型使用对比损失和翻译任务损失联合训练,结合句级别和词级别对比学习方法,模型整体的损失函数为:
[0091][0092]
其中λ1和λ2为调节对比损失重要程度的超参数;λ1和λ2的取值按照经验取值0.2,在不同的实施例中需要通过实验调整。
[0093]
本发明提出了一种基于对比学习的口语翻译方法。针对口语翻译系统中语音识别错误的问题,采用了基于句级别和词级别的两种对比学习方法。具体地,在对比学习方法中,将包含识别错误的样本作为正例,句级别和词级别的方法分别从整体和局部的角度缩小包含识别错误的文本和正确文本在表示空间中的距离,以此降低识别错误对文本表示的影响,进而提升翻译模型的鲁棒性。由于包含真实asr错误的翻译数据十分匮乏,本发明设计了多种精细化的错误合成方法以模拟更加真实的语音识别错误。
[0094]
与现有方法相比,本发明具有以下优点:
[0095]
1).该发明无需修改翻译模型的框架,不增加计算和存储开销;
[0096]
2).该方法适用于各类语音识别错误,能够提升翻译模型对于不同类型的识别错误的鲁棒性。
[0097]
3)本发明提出了一种基于对比学习的鲁棒口语翻译方法,通过模拟语音识别错误
构造了噪声文本,并进行正负例自动构造,使用句级别或词级别对比学习得到与正确文本一致的编码表示,降低了识别错误带来的影响。在包含识别错误的文本与真实文本上均能获得翻译性能的提升,有效增强了翻译模型对于噪声文本的鲁棒性。
[0098]
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1