一种语音合成方法、装置、电子设备和存储介质与流程

文档序号：35898552发布日期：2023-10-28 23:27阅读：38来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及人工智能，尤其涉及深度学习、语音处理，具体涉及一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。

背景技术：

1、语音合成技术又称文语转换(text to speech，tts)技术，它能将文字信息实时转化为语音。在人机对话、远程语音信息服务、机器阅读、电信、娱乐等方面得到了广泛的应用。

技术实现思路

1、本公开提供了一种语音合成方法、装置、电子设备、存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种语音合成方法，应用于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述方法包括：

3、接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；

4、并发的从所述缓存队列中获取所述目标文本片段，并将所述目标文本片段分别发送到不同的计算核心，使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。

5、根据本公开的另一方面，提供了一种语音合成装置，配置于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述装置包括：

6、数据接收与缓存模块，用于接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，所述语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；

7、数据提取并计算模块，用于并发的从所述缓存队列中获取所述目标文本片段，并将所述目标文本片段分别发送到不同的计算核心，使得所述计算核心基于目标发言人模型将所述目标文本片段转换成对应的语音数据。

8、根据本公开的另一方面，提供了一种电子设备，包括：

9、至少一个处理器；以及

10、与所述至少一个处理器通信连接的存储器；其中，

11、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例所述的语音合成方法。

12、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行本公开任意实施例所述的语音合成方法。

13、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开任意实施例的语音合成方法。

14、根据本公开的技术，可以提高多发言人模型场景下的语音合成效率。

15、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种语音合成方法，应用于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述方法包括：

2.根据权利要求1所述的方法，其中，每个发言人模型关联有多个在线服务线程；

3.根据权利要求1所述的方法，其中，每个发言人模型关联有多个内部计算线程；

4.根据权利要求1所述的方法，其中，多个发言人模型共享一个显存池；所述显存池包括多个预设的用于存数据的数据块，且所述数据块的数量与所述人工智能芯片的计算核心的数量相同；

5.根据权利要求4所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求1所述的方法，还包括：

8.根据权利要求1所述的方法，其中，所述人工智能芯片为mlu100芯片。

9.一种语音合成装置，配置于配置有人工智能芯片的云端设备；所述云端设备预先部署多个用于语音合成的发言人模型；所述人工智能芯片包括多个独立处理语音合成请求的计算核心；所述装置包括：

10.根据权利要求9所述的装置，其中，每个发言人模型关联有多个在线服务线程；

11.根据权利要求9所述的装置，其中，每个发言人模型关联有多个内部计算线程；

12.根据权利要求9所述的装置，其中，多个发言人模型共享一个显存池；所述显存池包括多个预设的用于存数据的数据块，且所述数据块的数量与所述人工智能芯片的计算核心的数量相同；

13.根据权利要求12所述的装置，还包括：

14.根据权利要求9所述的装置，还包括：

15.根据权利要求9所述的装置，还包括：

16.根据权利要求9所述的装置，其中，所述人工智能芯片为mlu100芯片。

17.一种电子设备，包括：

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的语音合成方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的语音合成方法。

技术总结
本公开提供了一种语音合成方法、装置、电子设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习、语音处理技术领域。语音合成方法应用于配置有人工智能芯片的云端设备；云端设备预先部署多个发言人模型；人工智能芯片包括多个独立处理语音合成请求的计算核心；方法包括：接收用户发送的语音合成请求数据，并添加到缓存队列中；其中，语音合成请求数据包括至少一个目标文本片段和用户指定的目标发言人模型；并发的从缓存队列中获取目标文本片段，并将目标文本片段分别发送到不同的计算核心，使得计算核心基于目标发言人模型将目标文本片段转换成对应的语音数据。本公开方案可以提高多发言人模型场景下的语音合成效率。

技术研发人员：丛士钧,王桂彬,贾铭
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丛士钧王桂彬贾铭
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人