语音处理方法、装置、电子设备、芯片及介质与流程

文档序号：43619926发布日期：2025-10-31 22:38阅读：23来源：国知局

本公开涉及通信，尤其涉及一种语音处理方法、装置、电子设备、芯片及介质。

背景技术：

1、在对话场景中，若说话人双方所使用的语种不同，往往会存在双方说法人无法理解对方说话内容的问题，导致沟通效果比较差。

技术实现思路

1、本公开提供一种语音处理方法、装置、电子设备、芯片及介质。

2、根据本公开实施例的第一方面，提供一种语音处理方法，所述方法包括：确定目标说话人的语音数据；启动至少两个语音处理路径，并向每个语音处理路径并行分发所述语音数据，所述至少两个语音处理路径包括语音识别路径和语音翻译路径；通过所述语音识别路径，对所述语音数据进行语音识别，得到所述识别文本；通过所述语音翻译路径，对所述语音数据进行翻译，得到所述翻译结果，所述翻译结果包括翻译文本和翻译语音中的至少一个；显示所述识别文本和/或所述翻译结果。

3、在本公开的一个实施例中，所述通过所述语音翻译路径，对所述语音数据进行翻译，得到所述翻译结果，包括：确定所述语音数据的语种信息，所述语种信息包括源语种和目标语种；根据所述语种信息，确定所述语音数据对应的目标翻译子路径；通过所述目标翻译子路径，对所述语音数据进行翻译，得到所述翻译结果。

4、在本公开的一个实施例中，所述根据所述语种信息，确定所述语音数据对应的目标翻译子路径，包括：响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型，确定所述目标翻译子路径为e2e翻译子路径；响应于所述模型库中未存在所述目标e2e翻译模型，确定所述目标翻译子路径为级联翻译子路径，所述级联翻译子路径至少包括级联的语音识别模型和神经机器翻译nmt模型。

5、在本公开的一个实施例中，所述目标翻译子路径为所述e2e翻译子路径，所述基于所述目标翻译子路径，对所述语音数据进行翻译，得到所述翻译结果，包括：调用所述目标e2e翻译模型；将所述语音数据输入所述目标e2e翻译模型中，由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译，输出所述翻译结果。

6、在本公开的一个实施例中，所述目标翻译子路径为所述级联翻译子路径，所述级联翻译子路复用所述语音识别路径中的语音识别模型；所述通过所述目标翻译子路径，对所述语音数据进行翻译，得到所述翻译结果，包括：

7、调用所述nmt模型；将所述语音识别路径得到的所述识别文本输入所述nmt模型中，由所述nmt模型根据所述语种信息，对所述识别文本进行翻译，得到所述翻译文本。

8、在本公开的一个实施例中，所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型，得到所述翻译文本之后，还包括：调用所述tts模型；将所述翻译文本输入所述tts模型中，由所述tts模型对所述翻译文本进行语音合成，生成所述翻译语音。

9、在本公开的一个实施例中，所述显示所述识别文本和/或所述翻译结果，包括：通过设备的显示屏显示所述识别文本和/或所述翻译文本；或，通过设备的播放组件播放所述翻译语音。

10、在本公开的一个实施例中，所述通过设备的显示屏显示所述识别文本和所述翻译文本，包括：在所述显示屏上同时显示所述识别文本和所述翻译文本；或者，在所述显示屏上交替显示所述识别文本和所述翻译文本；或者，在所述显示屏上覆盖显示所述识别文本和所述翻译文本。

11、根据本公开实施例的第二方面，还提供一种语音处理装置，所述装置包括：确定模块，被配置为确定目标说话人的语音数据；

12、启动模块，被配置为启动至少两个语音处理路径，并向每个语音处理路径并行分发所述语音数据，所述至少两个语音处理路径包括语音识别路径和语音翻译路径；语音识别模块，被配置为通过所述语音识别路径，对所述语音数据进行语音识别，得到所述识别文本；语音翻译模块，被配置为通过所述语音翻译路径，对所述语音数据进行翻译，得到所述翻译结果，所述翻译结果包括翻译文本和翻译语音中的至少一个；显示模块，被配置为通过智能穿戴设备显示所述识别文本和所述翻译结果。

13、在本公开的一个实施例中，所述语音翻译模块，还被配置为：确定所述语音数据的语种信息，所述语种信息包括源语种和目标语种；根据所述语种信息，确定所述语音数据对应的目标翻译子路径；通过所述目标翻译子路径，对所述语音数据进行翻译，得到所述翻译结果。

14、在本公开的一个实施例中，所述语音翻译模块，还被配置为：响应于模型库中存在与所述源语种和所述目标语种适配的目标e2e翻译模型，确定所述目标翻译子路径为e2e翻译子路径；响应于所述模型库中未存在所述目标e2e翻译模型，确定所述目标翻译子路径为级联翻译子路径，所述级联翻译子路径至少包括级联的语音识别模型和nmt模型。

15、在本公开的一个实施例中，所述目标翻译子路径为所述e2e翻译子路径，所述语音翻译模块，还被配置为：调用所述目标e2e翻译模型；将所述语音数据输入所述目标e2e翻译模型中，由所述目标e2e翻译模型根据所述语种信息对所述语音数据进行翻译，输出所述翻译结果。

16、在本公开的一个实施例中，所述目标翻译子路径为所述级联翻译子路径，所述级联翻译子路复用所述语音识别路径中的语音识别模型；所述语音翻译模块，还被配置为：调用所述nmt模型；将所述语音识别路径得到的所述识别文本输入所述nmt模型中，由所述nmt模型根据所述语种信息，对所述识别文本进行翻译，得到所述翻译文本。

17、在本公开的一个实施例中，所述级联翻译子路径还包括与所述ntm模型级联的语音tts模型，所述语音翻译模块，还被配置为：在得到所述翻译文本之后，调用所述tts模型；将所述翻译文本输入所述tts模型中，由所述tts模型对所述翻译文本进行语音合成，生成所述翻译语音。

18、在本公开的一个实施例中，所述显示模块，还被配置为：

19、通过设备的显示屏显示所述识别文本和/或所述翻译文本；或，

20、通过设备的播放组件播放所述翻译语音。

21、在本公开的一个实施例中，所述显示模块，还被配置为：在所述显示屏上同时显示所述识别文本和所述翻译文本；或者，在所述显示屏上交替显示所述识别文本和所述翻译文本；或者，在所述显示屏上覆盖显示所述识别文本和所述翻译文本。

22、根据本公开实施例的第三方面，还提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：实现如上所述的语音处理方法的步骤。

23、根据本公开实施例的第四方面，还提供一种非临时性计算机可读存储介质，当存储介质中的指令由处理器执行时，使得处理器能够执行如上所述的语音处理方法。

24、根据本公开实施例的第五方面，还提供一种芯片，包括一个或多个接口电路和一个或多个处理器；所述接口电路用于接收信号，所述信号包括计算机指令，当所述处理器执行所述计算机指令时，使得所述芯片执行如上所述的语音处理方法。

25、本公开的实施例提供的技术方案至少带来以下有益效果：

26、在确定目标说话人的语音数据后，至少同步启动语音识别路径和语音翻译路径，通过语音识别路径对语音数据进行语音识别，得到识别文本，通过语音翻译路径对语音数据进行翻译，得到翻译文本和翻译语音中的至少一个，并显示识别文本和/或翻译结果。本公开能够实现同步语音识别和翻译，能够获取到目标说话人所讲内容的多维度信息，使得双方可以进行跨语种对话，既能让用户快速看到语音数据的原文，能让用户快递地获取到翻译结果，从而可以在多个方面帮忙用户全面理解目标说话人所讲内容。

27、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张鹏飞,樊鸽
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

上一篇：一种基于极限学习机的康复机器人六维力传感器温度漂移补偿方法
下一篇：一类D-π-A型近红外AIE分子的合成及应用

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！