本技术涉及金融科技,尤其涉及一种语音翻译方法、语音翻译装置、电子设备及存储介质。
背景技术:
1、随着网络、通讯、计算机技术的发展,企业呈现出电子化、远程化、虚拟化、网络化的特点,更多的线上企业大量涌现。而客户与企业之间的通信与对话,也由面对面的咨询、交涉发展到基于网络、电话等远程手段的交流和沟通。在此背景下,智能语音交互在被广泛应用于金融、物流、客服等领域。
2、目前,基于语音交互的金融交易平台每天都面对着大量的电话语音服务,处理客户多样化的服务需求,包括售前咨询、购买、售后、投诉等。在电话服务的过程中,智能客服机器人需要应对不同的服务对象,并作出合适的反应。如果智能客服在对话交流中无法准确地识别到不同方言、不同语种的服务对象在语音数据中所表征的诉求,会导致基于语音数据反馈的服务应答不符合对象需求等问题,影响服务质量和对象满意度。
3、目前,在语音翻译时,常常通过预训练模型构建级联的语音翻译系统来实现语音翻译,但这一方式构建的语音翻译系统往往在提取语音数据的语音特征信息时会存在特征信息缺失、提取过程复杂等问题,会导致语音翻译的准确性较差,翻译效率不高。
技术实现思路
1、本技术实施例的主要目的在于提出一种语音翻译方法、语音翻译装置、电子设备及存储介质,旨在提高语音翻译的准确性和效率。
2、为实现上述目的,本技术实施例的第一方面提出了一种语音翻译方法,所述方法包括:
3、获取原始语音数据;
4、将所述原始语音数据输入至预先训练的语音翻译模型中,所述语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络;
5、基于所述语音识别网络对所述原始语音数据进行语音识别,得到初步语音隐状态特征;
6、基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐,得到中间语音隐状态特征,其中,所述中间语音隐状态特征包含所述原始语音数据的字符语义信息;
7、基于所述特征变换网络对所述中间语音隐状态特征进行特征变换,得到目标语音隐状态特征,其中,所述目标语音隐状态特征包含所述原始语音数据的词语语义信息;
8、基于所述语音翻译网络和目标语音隐状态特征进行语音翻译,得到所述原始语音数据的翻译文本数据。
9、在一些实施例,所述基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐,得到中间语音隐状态特征,包括:
10、基于所述原始语音数据中字符的字符位置,对所述初步语音隐状态特征进行分类,得到每个所述字符的特征集合,每个所述特征集合包括至少一个所述初步语音隐状态特征;
11、基于所述特征对齐网络对同一所述特征集合的初步语音隐状态特征进行均值计算,得到所述中间语音隐状态特征。
12、在一些实施例,所述特征变换网络包括第一bi-lstm层、第二bi-lstm层和第三bi-lstm层,所述基于所述特征变换网络对所述中间语音隐状态特征进行特征变换,得到目标语音隐状态特征,包括:
13、通过所述第一bi-lstm层对所述中间语音隐状态特征进行第一上下文本提取,得到第一语义融合向量;
14、通过所述第二bi-lstm层对所述第一语义融合向量进行第二上下文本提取,得到第二语义融合向量;
15、通过所述第三bi-lstm层对所述第二语义融合向量进行第三上下文本提取,得到所述目标语音隐状态特征。
16、在一些实施例,所述语音翻译网络包括编码器、解码器,所述基于所述语音翻译网络和目标语音隐状态特征进行语音翻译,得到所述原始语音数据的翻译文本数据,包括:
17、通过所述编码器对所述目标语音隐状态特征进行语义分析,得到语音上下文特征向量;
18、通过所述解码器对所述语音上下文特征向量进行内容识别,得到翻译文本序列;
19、将所述翻译文本序列映射到预设的数据空间,得到所述翻译文本数据。
20、在一些实施例,在所述将所述原始语音数据输入至预先训练的语音翻译模型中之前,所述方法还包括预先训练所述语音翻译模型,具体包括:
21、获取样本音频的样本音频数据和样本翻译文本;
22、将所述样本音频数据和所述样本翻译文本输入至所述语音翻译模型中;
23、基于所述语音识别网络对所述样本音频数据进行语音识别,得到第一样本语音隐状态特征;
24、基于所述特征对齐网络对所述第一样本语音隐状态特征进行特征对齐,得到第二样本语音隐状态特征,其中,所述第二样本语音隐状态特征包含所述样本音频数据的字符语义信息;
25、基于所述特征变换网络对所述第二样本语音隐状态特征进行特征变换,得到第三样本语音隐状态特征,其中,所述第三样本语音隐状态特征包含所述样本音频数据的词语语义信息;
26、基于所述语音翻译网络对第三样本语音隐状态特征和所述样本翻译文本进行相似度评分,得到样本评分数据;
27、基于所述样本评分数据对所述语音翻译模型的模型参数进行更新。
28、在一些实施例,所述语音翻译网络包括嵌入层和编码层,所述基于所述语音翻译网络对第三样本语音隐状态特征和所述样本翻译文本进行相似度评分,得到样本评分数据,包括:
29、基于所述嵌入层对所述样本翻译文本进行语言嵌入,得到所述样本翻译文本对应的翻译语言嵌入特征,并基于所述嵌入层对所述样本翻译文本进行内容嵌入,得到所述样本翻译文本的样本文本嵌入特征;
30、基于所述编码层对所述样本文本嵌入特征进行编码处理,得到样本翻译文本表征向量,并基于所述编码层对所述翻译语言嵌入特征和所述第三样本语音隐状态特征进行编码处理,得到样本语音表征向量;
31、基于所述样本语音表征向量和所述样本翻译文本表征向量对进行相似度评分,得到所述样本评分数据。
32、在一些实施例,所述基于所述样本语音表征向量和所述样本翻译文本表征向量对进行相似度评分,得到所述样本评分数据,包括:
33、针对每个所述样本音频,计算所述样本语音表征向量和所述样本翻译文本表征向量之间的相似分数;
34、根据所有所述样本音频的相似分数,得到所述样本评分数据。
35、为实现上述目的,本技术实施例的第二方面提出了一种语音翻译装置,所述装置包括:
36、语音数据获取模块,用于获取原始语音数据;
37、输入模块,用于将所述原始语音数据输入至预先训练的语音翻译模型中,所述语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络;
38、语音识别模块,用于基于所述语音识别网络对所述原始语音数据进行语音识别,得到初步语音隐状态特征;
39、特征对齐模块,用于基于所述特征对齐网络对所述初步语音隐状态特征进行特征对齐,得到中间语音隐状态特征,其中,所述中间语音隐状态特征包含所述原始语音数据的字符语义信息;
40、特征变换模块,用于基于所述特征变换网络对所述中间语音隐状态特征进行特征变换,得到目标语音隐状态特征,其中,所述目标语音隐状态特征包含所述原始语音数据的词语语义信息;
41、语音翻译模块,用于基于所述语音翻译网络和目标语音隐状态特征进行语音翻译,得到所述原始语音数据的翻译文本数据。
42、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
43、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
44、本技术提出的语音翻译方法、语音翻译装置、电子设备及存储介质,其通过获取原始语音数据;将原始语音数据输入至预先训练的语音翻译模型中,语音翻译模型包括语音识别网络、特征对齐网络、特征变换网络以及语音翻译网络;基于语音识别网络对原始语音数据进行语音识别,得到初步语音隐状态特征;基于特征对齐网络对初步语音隐状态特征进行特征对齐,得到中间语音隐状态特征,其中,中间语音隐状态特征包含原始语音数据的字符语义信息;基于特征变换网络对中间语音隐状态特征进行特征变换,得到目标语音隐状态特征,其中,目标语音隐状态特征包含原始语音数据的词语语义信息,这一方式能够实现不同级别的音频语义信息的转换,有利于改善特征质量,最后,基于语音翻译网络和目标语音隐状态特征进行语音翻译,得到原始语音数据的翻译文本数据,能够提高语音翻译的准确性和效率,进而使得智能客服机器人在与服务对象的对话过程中,能更为准确地识别服务对象的语音数据中所表征的诉求,从而提高有针对性的应答和服务反馈,能有效地改善金融交易过程中的对话质量和对话有效性,能实现智能语音对话服务,提高客户的服务质量以及客户满意度,从而提高业务成交率。