语音处理方法、装置、电子设备、芯片及介质与流程

文档序号:43619926发布日期:2025-10-31 22:38阅读:23来源:国知局

本公开涉及通信,尤其涉及一种语音处理方法、装置、电子设备、芯片及介质。


背景技术:

1、在对话场景中,若说话人双方所使用的语种不同,往往会存在双方说法人无法理解对方说话内容的问题,导致沟通效果比较差。


技术实现思路

1、本公开提供一种语音处理方法、装置、电子设备、芯片及介质。

2、根据本公开实施例的第一方面,提供一种语音处理方法,所述方法包括:确定目标说话人的语音数据;启动至少两个语音处理路径,并向每个语音处理路径并行分发所述语音数据,所述至少两个语音处理路径包括语音识别路径和语音翻译路径;通过所述语音识别路径,对所述语音数据进行语音识别,得到所述识别文本;通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,所述翻译结果包括翻译文本和翻译语音中的至少一个;显示所述识别文本和/或所述翻译结果。

3、在本公开的一个实施例中,所述通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,包括:确定所述语音数据的语种信息,所述语种信息包括源语种和目标语种;根据所述语种信息,确定所述语音数据对应的目标翻译子路径;通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果。

4、在本公开的一个实施例中,所述根据所述语种信息,确定所述语音数据对应的目标翻译子路径,包括:响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型,确定所述目标翻译子路径为e2e翻译子路径;响应于所述模型库中未存在所述目标e2e翻译模型,确定所述目标翻译子路径为级联翻译子路径,所述级联翻译子路径至少包括级联的语音识别模型和神经机器翻译nmt模型。

5、在本公开的一个实施例中,所述目标翻译子路径为所述e2e翻译子路径,所述基于所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果,包括:调用所述目标e2e翻译模型;将所述语音数据输入所述目标e2e翻译模型中,由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译,输出所述翻译结果。

6、在本公开的一个实施例中,所述目标翻译子路径为所述级联翻译子路径,所述级联翻译子路复用所述语音识别路径中的语音识别模型;所述通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果,包括:

7、调用所述nmt模型;将所述语音识别路径得到的所述识别文本输入所述nmt模型中,由所述nmt模型根据所述语种信息,对所述识别文本进行翻译,得到所述翻译文本。

8、在本公开的一个实施例中,所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型,得到所述翻译文本之后,还包括:调用所述tts模型;将所述翻译文本输入所述tts模型中,由所述tts模型对所述翻译文本进行语音合成,生成所述翻译语音。

9、在本公开的一个实施例中,所述显示所述识别文本和/或所述翻译结果,包括:通过设备的显示屏显示所述识别文本和/或所述翻译文本;或,通过设备的播放组件播放所述翻译语音。

10、在本公开的一个实施例中,所述通过设备的显示屏显示所述识别文本和所述翻译文本,包括:在所述显示屏上同时显示所述识别文本和所述翻译文本;或者,在所述显示屏上交替显示所述识别文本和所述翻译文本;或者,在所述显示屏上覆盖显示所述识别文本和所述翻译文本。

11、根据本公开实施例的第二方面,还提供一种语音处理装置,所述装置包括:确定模块,被配置为确定目标说话人的语音数据;

12、启动模块,被配置为启动至少两个语音处理路径,并向每个语音处理路径并行分发所述语音数据,所述至少两个语音处理路径包括语音识别路径和语音翻译路径;语音识别模块,被配置为通过所述语音识别路径,对所述语音数据进行语音识别,得到所述识别文本;语音翻译模块,被配置为通过所述语音翻译路径,对所述语音数据进行翻译,得到所述翻译结果,所述翻译结果包括翻译文本和翻译语音中的至少一个;显示模块,被配置为通过智能穿戴设备显示所述识别文本和所述翻译结果。

13、在本公开的一个实施例中,所述语音翻译模块,还被配置为:确定所述语音数据的语种信息,所述语种信息包括源语种和目标语种;根据所述语种信息,确定所述语音数据对应的目标翻译子路径;通过所述目标翻译子路径,对所述语音数据进行翻译,得到所述翻译结果。

14、在本公开的一个实施例中,所述语音翻译模块,还被配置为:响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型,确定所述目标翻译子路径为e2e翻译子路径;响应于所述模型库中未存在所述目标e2e翻译模型,确定所述目标翻译子路径为级联翻译子路径,所述级联翻译子路径至少包括级联的语音识别模型和nmt模型。

15、在本公开的一个实施例中,所述目标翻译子路径为所述e2e翻译子路径,所述语音翻译模块,还被配置为:调用所述目标e2e翻译模型;将所述语音数据输入所述目标e2e翻译模型中,由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译,输出所述翻译结果。

16、在本公开的一个实施例中,所述目标翻译子路径为所述级联翻译子路径,所述级联翻译子路复用所述语音识别路径中的语音识别模型;所述语音翻译模块,还被配置为:调用所述nmt模型;将所述语音识别路径得到的所述识别文本输入所述nmt模型中,由所述nmt模型根据所述语种信息,对所述识别文本进行翻译,得到所述翻译文本。

17、在本公开的一个实施例中,所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型,所述语音翻译模块,还被配置为:在得到所述翻译文本之后,调用所述tts模型;将所述翻译文本输入所述tts模型中,由所述tts模型对所述翻译文本进行语音合成,生成所述翻译语音。

18、在本公开的一个实施例中,所述显示模块,还被配置为:

19、通过设备的显示屏显示所述识别文本和/或所述翻译文本;或,

20、通过设备的播放组件播放所述翻译语音。

21、在本公开的一个实施例中,所述显示模块,还被配置为:在所述显示屏上同时显示所述识别文本和所述翻译文本;或者,在所述显示屏上交替显示所述识别文本和所述翻译文本;或者,在所述显示屏上覆盖显示所述识别文本和所述翻译文本。

22、根据本公开实施例的第三方面,还提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:实现如上所述的语音处理方法的步骤。

23、根据本公开实施例的第四方面,还提供一种非临时性计算机可读存储介质,当存储介质中的指令由处理器执行时,使得处理器能够执行如上所述的语音处理方法。

24、根据本公开实施例的第五方面,还提供一种芯片,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于接收信号,所述信号包括计算机指令,当所述处理器执行所述计算机指令时,使得所述芯片执行如上所述的语音处理方法。

25、本公开的实施例提供的技术方案至少带来以下有益效果:

26、在确定目标说话人的语音数据后,至少同步启动语音识别路径和语音翻译路径,通过语音识别路径对语音数据进行语音识别,得到识别文本,通过语音翻译路径对语音数据进行翻译,得到翻译文本和翻译语音中的至少一个,并显示识别文本和/或翻译结果。本公开能够实现同步语音识别和翻译,能够获取到目标说话人所讲内容的多维度信息,使得双方可以进行跨语种对话,既能让用户快速看到语音数据的原文,能让用户快递地获取到翻译结果,从而可以在多个方面帮忙用户全面理解目标说话人所讲内容。

27、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!