本公开涉及通信,尤其涉及一种语音处理方法、装置、电子设备、芯片及介质。
背景技术:
1、在对话场景中,若说话人双方所使用的语种不同,往往会存在双方说法人无法理解对方说话内容的问题,导致沟通效果比较差。
技术实现思路
1、本公开提供一种语音处理方法、装置、电子设备、芯片及介质。
2、根据本公开实施例的第一方面,提供一种语音处理方法,所述方法包括:确定目标说话人的语音数据;启动至少两个语音处理路径,并向每个语音处理路径并行分发所述语音数据,所述至少两个语音处理路径包括语音识别路径和语音翻译路径;通过所述语音识别路径,对所述语音数据进行语音识别,得到所述识别文本;通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,所述翻译结果包括翻译文本和翻译语音中的至少一个;显示所述识别文本和/或所述翻译结果。
3、在本公开的一个实施例中,所述通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,包括:确定所述语音数据的语种信息,所述语种信息包括源语种和目标语种;根据所述语种信息,确定所述语音数据对应的目标翻译子路径;通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果。
4、在本公开的一个实施例中,所述根据所述语种信息,确定所述语音数据对应的目标翻译子路径,包括:响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型,确定所述目标翻译子路径为e2e翻译子路径;响应于所述模型库中未存在所述目标e2e翻译模型,确定所述目标翻译子路径为级联翻译子路径,所述级联翻译子路径至少包括级联的语音识别模型和神经机器翻译nmt模型。
5、在本公开的一个实施例中,所述目标翻译子路径为所述e2e翻译子路径,所述基于所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果,包括:调用所述目标e2e翻译模型;将所述语音数据输入所述目标e2e翻译模型中,由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译,输出所述翻译结果。
6、在本公开的一个实施例中,所述目标翻译子路径为所述级联翻译子路径,所述级联翻译子路复用所述语音识别路径中的语音识别模型;所述通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果,包括:
7、调用所述nmt模型;将所述语音识别路径得到的所述识别文本输入所述nmt模型中,由所述nmt模型根据所述语种信息,对所述识别文本进行翻译,得到所述翻译文本。
8、在本公开的一个实施例中,所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型,得到所述翻译文本之后,还包括:调用所述tts模型;将所述翻译文本输入所述tts模型中,由所述tts模型对所述翻译文本进行语音合成,生成所述翻译语音。
9、在本公开的一个实施例中,所述显示所述识别文本和/或所述翻译结果,包括:通过设备的显示屏显示所述识别文本和/或所述翻译文本;或,通过设备的播放组件播放所述翻译语音。
10、在本公开的一个实施例中,所述通过设备的显示屏显示所述识别文本和所述翻译文本,包括:在所述显示屏上同时显示所述识别文本和所述翻译文本;或者,在所述显示屏上交替显示所述识别文本和所述翻译文本;或者,在所述显示屏上覆盖显示所述识别文本和所述翻译文本。
11、根据本公开实施例的第二方面,还提供一种语音处理装置,所述装置包括:确定模块,被配置为确定目标说话人的语音数据;
12、启动模块,被配置为启动至少两个语音处理路径,并向每个语音处理路径并行分发所述语音数据,所述至少两个语音处理路径包括语音识别路径和语音翻译路径;语音识别模块,被配置为通过所述语音识别路径,对所述语音数据进行语音识别,得到所述识别文本;语音翻译模块,被配置为通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,所述翻译结果包括翻译文本和翻译语音中的至少一个;显示模块,被配置为通过智能穿戴设备显示所述识别文本和所述翻译结果。
13、在本公开的一个实施例中,所述语音翻译模块,还被配置为:确定所述语音数据的语种信息,所述语种信息包括源语种和目标语种;根据所述语种信息,确定所述语音数据对应的目标翻译子路径;通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果。
14、在本公开的一个实施例中,所述语音翻译模块,还被配置为:响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型,确定所述目标翻译子路径为e2e翻译子路径;响应于所述模型库中未存在所述目标e2e翻译模型,确定所述目标翻译子路径为级联翻译子路径,所述级联翻译子路径至少包括级联的语音识别模型和nmt模型。
15、在本公开的一个实施例中,所述目标翻译子路径为所述e2e翻译子路径,所述语音翻译模块,还被配置为:调用所述目标e2e翻译模型;将所述语音数据输入所述目标e2e翻译模型中,由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译,输出所述翻译结果。
16、在本公开的一个实施例中,所述目标翻译子路径为所述级联翻译子路径,所述级联翻译子路复用所述语音识别路径中的语音识别模型;所述语音翻译模块,还被配置为:调用所述nmt模型;将所述语音识别路径得到的所述识别文本输入所述nmt模型中,由所述nmt模型根据所述语种信息,对所述识别文本进行翻译,得到所述翻译文本。
17、在本公开的一个实施例中,所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型,所述语音翻译模块,还被配置为:在得到所述翻译文本之后,调用所述tts模型;将所述翻译文本输入所述tts模型中,由所述tts模型对所述翻译文本进行语音合成,生成所述翻译语音。
18、在本公开的一个实施例中,所述显示模块,还被配置为:
19、通过设备的显示屏显示所述识别文本和/或所述翻译文本;或,
20、通过设备的播放组件播放所述翻译语音。
21、在本公开的一个实施例中,所述显示模块,还被配置为:在所述显示屏上同时显示所述识别文本和所述翻译文本;或者,在所述显示屏上交替显示所述识别文本和所述翻译文本;或者,在所述显示屏上覆盖显示所述识别文本和所述翻译文本。
22、根据本公开实施例的第三方面,还提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:实现如上所述的语音处理方法的步骤。
23、根据本公开实施例的第四方面,还提供一种非临时性计算机可读存储介质,当存储介质中的指令由处理器执行时,使得处理器能够执行如上所述的语音处理方法。
24、根据本公开实施例的第五方面,还提供一种芯片,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于接收信号,所述信号包括计算机指令,当所述处理器执行所述计算机指令时,使得所述芯片执行如上所述的语音处理方法。
25、本公开的实施例提供的技术方案至少带来以下有益效果:
26、在确定目标说话人的语音数据后,至少同步启动语音识别路径和语音翻译路径,通过语音识别路径对语音数据进行语音识别,得到识别文本,通过语音翻译路径对语音数据进行翻译,得到翻译文本和翻译语音中的至少一个,并显示识别文本和/或翻译结果。本公开能够实现同步语音识别和翻译,能够获取到目标说话人所讲内容的多维度信息,使得双方可以进行跨语种对话,既能让用户快速看到语音数据的原文,能让用户快递地获取到翻译结果,从而可以在多个方面帮忙用户全面理解目标说话人所讲内容。
27、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。