一种音频数据处理方法、装置、存储介质和电子设备与流程

文档序号：35393830发布日期：2023-09-09 15:21阅读：55来源：国知局

【】本申请涉及人工智能，尤其涉及一种音频数据处理方法、装置、存储介质和电子设备。

背景技术

0、
背景技术：

1、语音合成技术，即将输入的文字信息转化为可听的声音信息，可以通过不同的音色说出想表达的内容。

2、端到端的语音合成(text to speech，简称tts)系统成为了主流的语音合成系统框架。终端设备通过预装、采购的方式需要使用多家供应商的tts技术能力，音色未进行统一，且同一终端设备上不同业务的语音播报效果不一致，不同终端设备上的语音播报效果也不一致，终端设备安装的tts引擎合成的语音的音质较差，机械感较强。

技术实现思路

0、
技术实现要素：

1、有鉴于此，本申请实施例提供了一种音频数据处理方法、装置、存储介质和电子设备，用以提升音频音质和音频效果。

2、本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供了一种音频数据处理方法，方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，方法包括：

4、将声学特征通过上采样生成全频带音频信号；

5、基于多周期判别器框架鉴别全频带音频信号的真假。

6、根据本申请提供的音频数据处理方法，可以快速生成全频带音频信号，并基于多周期判别器框架鉴别全频带音频信号的真假，进而提升音频音质和音频效果。

7、具体的，在第一方面的一种实现方式中，基于多周期判别器框架鉴别所述全频带音频信号的真假，包括：

8、根据全频带音频信号，生成多个周期的音频信号；

9、针对多个周期的音频信号，分别鉴别每个周期的音频信号的真假。

10、根据本申请实施例所提出的上述实现方式，可以根据全频带音频信号生成多个周期的音频信号，以鉴别每个周期的音频信号的真假，提高了鉴别音频信号的准确性。

11、在第一方面的一种实现方式中，方法还包括：

12、基于多尺度判别器框架鉴别全频带音频信号的真假。

13、具体的，在第一方面的一种实现方式中，基于多尺度判别器框架鉴别全频带音频信号的真假，包括：

14、根据全频带音频信号，生成多个尺度的音频信号；

15、针对多个尺度的音频信号，分别鉴别每个尺度的音频信号的真假。

16、根据本申请实施例所提出的上述实现方式，可以根据全频带音频信号生成多个尺度的音频信号，以鉴别每个尺度的音频信号的真假，提高了鉴别音频信号的准确性。

17、在第一方面的一种实现方式中，将声学特征通过上采样生成全频带音频信号，包括：

18、根据声学特征生成多频带的第一音频子信号；

19、根据时域音频信号生成多频带的第二音频子信号；

20、对第一音频子信号与第二音频子信号进行损失度计算，生成多个子频带音频信号；

21、将多个子频带音频信号合并成全频带音频信号。

22、在第一方面的一种实现方式中，根据声学特征生成多频带的第一音频子信号，包括：

23、将声学特征转化为四维声学特征；

24、根据四维声学特征生成多频带的第一音频子信号。

25、在第一方面的一种实现方式中，将声学特征转化为四维声学特征，包括：

26、基于二维卷积，将声学特征转化为四维声学特征。

27、根据本申请实施例所提出的上述实现方式，基于二维卷积，将声学特征转换为四维声学特征，就可以绕过后续原有的三维特征转四维特征的操作步骤，减少生成器中的维度变换操作，从而提升生成器的运算效率，加速模型计算。

28、在第一方面的一种实现方式中，根据四维声学特征生成多频带的第一音频子信号，包括：

29、对四维声学特征进行信号处理，提高音频信号的分辨率，生成信号处理结果；

30、对信号处理结果进行二维卷积非线性处理，生成多频带的第一音频子信号。

31、第二方面，本申请实施例提供了一种音频数据处理装置，装置应用于电子设备，装置用于基于生成式对抗网络，根据声学特征生成全频带音频信号，其中，装置包括：

32、生成器，其用于将声学特征通过上采样生成全频带音频信号；

33、判别器，其用于基于多周期判别器框架鉴别全频带音频信号的真假。

34、第三方面，本申请实施例提供了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当计算机程序指令被该处理器执行时，触发电子设备执行如第一方面所述的方法步骤。

35、第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

技术特征：

1.一种音频数据处理方法，其特征在于，所述方法应用于电子设备，所述电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于多周期判别器框架鉴别所述全频带音频信号的真假，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于多尺度判别器框架鉴别所述全频带音频信号的真假，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将声学特征通过上采样生成全频带音频信号，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述声学特征生成多频带的第一音频子信号，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述声学特征转化为四维声学特征，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述四维声学特征生成所述多频带的第一音频子信号，包括：

9.一种音频数据处理装置，其特征在于，所述装置应用于电子设备，所述装置用于基于生成式对抗网络，根据声学特征生成全频带音频信号，其中，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1-8中任一项所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法。

技术总结
本申请涉及人工智能技术领域，本申请实施例提供了一种音频数据处理方法、装置、存储介质和电子设备。该方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，该方法包括：将声学特征通过上采样生成全频带音频信号；基于多周期判别器框架鉴别全频带音频信号的真假。根据本申请提供的音频数据处理方法，可以快速生成全频带音频信号，并基于多周期判别器框架鉴别全频带音频信号的真假，进而提升音频音质和音频效果。

技术研发人员：龚雪飞,陆二伟
受保护的技术使用者：荣耀终端有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚雪飞陆二伟
技术所有人：荣耀终端有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！