本技术实施例涉及数据处理,尤其涉及一种音频处理方法、装置、计算机设备、计算机可读存储介质、计算机程序产品。
背景技术:
1、歌声语音转换(singing voice conversion,svc)指的是在保留原歌声原本的技巧和内容基础上,将音色转换成目标发音人的音色。音频创作者在对自己的音色不满意或者想适配多种不同音色时,可以通过歌声语音转换等方法处理自己创作的音频。但是歌声语音转换等音频处理方法在使用时,对音频的处理不够精细,处理的效率和质量无法满足需求。
2、需要说明的是,上述内容并不必然是现有技术,也不用于限制本技术的专利保护范围。
技术实现思路
1、本技术实施例提供一种音频处理方法、装置、计算机设备、计算机可读存储介质、计算机程序产品,以解决或缓解上面提出的一项或更多项技术问题。
2、本技术实施例的一个方面提供了一种音频处理方法,所述方法包括:
3、获取初始音频的音高特征和瓶颈特征,所述初始音频包括分别对应不同频率范围的多个频段;
4、根据所述音高特征、瓶颈特征和参考音色生成多个频段各自的高斯分布,通过多个分段解码器基于对应频段的高斯分布生成多个分段频谱,一个分段频谱对应一个频段;
5、对所述多个分段频谱进行合成,以生成合成频谱;
6、根据所述合成频谱和所述音高特征,通过目标解码器生成目标频谱,所述目标频谱的平滑度高于所述合成频谱的平滑度;
7、将所述目标频谱作为模型输入,通过预先训练好的音频生成模型生成目标音频。
8、可选地,根据所述音高特征、瓶颈特征和参考音色生成多个频段各自的高斯分布,通过多个分段解码器基于对应频段的高斯分布生成多个分段频谱,包括:
9、根据所述音高特征、所述瓶颈特征和所述参考音色,通过多个目标编码器生成多个高斯分布,一个频段对应一个所述目标编码器和一个所述高斯分布;
10、根据所述多个高斯分布,确定多个目标变量;
11、根据所述多个目标变量和所述参考音色,通过多个分段解码器生成所述多个分段频谱;其中,一个目标变量对应一个所述分段解码器和一个所述分段频谱。
12、可选地,所述参考音色有多个,一个参考音色对应一个频段;根据所述音高特征、瓶颈特征和参考音色生成多个频段各自的高斯分布,通过多个分段解码器基于对应频段的高斯分布生成多个分段频谱,包括:
13、根据所述音高特征、所述瓶颈特征和各个频段对应的目标音色,通过多个目标编码器生成多个高斯分布,一个频段对应一个所述目标编码器和一个所述高斯分布;
14、根据所述多个高斯分布,确定多个目标变量,一个所述目标变量对应一个所述高斯分布和一个所述参考音色;
15、根据所述多个目标变量和各个所述目标变量对应的参考音色,通过多个分段解码器生成所述多个分段频谱;其中,一个目标变量对应一个所述分段解码器和一个所述分段频谱。
16、可选地,所述多个频段包括低频频段和高频频段,多个目标编码器包括低频编码器和高频编码器,多个高斯分布包括低频高斯分布和高频高斯分布;
17、根据所述音高特征、所述瓶颈特征和所述参考音色,通过多个目标编码器生成多个高斯分布,包括:
18、根据所述音高特征、所述瓶颈特征和所述低频频段对应的参考音色,通过所述低频编码器生成所述低频高斯分布;及
19、根据所述高频频段对应的参考音色,获取目标音色,所述目标音色与所述参考音色的相似度高于预设阈值;
20、根据所述音高特征、所述瓶颈特征和所述目标音色,通过所述高频编码器生成所述高频高斯分布。
21、可选地,所述音频处理模型的训练方法包括:
22、获取样本音频;
23、获取所述样本音频的样本瓶颈特征、样本音高特征和样本频谱;
24、根据所述样本频谱获取多个样本分段频谱,每个样本分段频谱对应一个不同的频段;
25、根据所述多个样本分段频谱、所述样本瓶颈特征、样本音色和所述样本音高特征,确定多个目标散度损失;
26、根据所述多个样本分段频谱、多个样本变量和所述样本音色,确定多个分段重构损失;所述多个样本变量根据所述多个样本分段频谱、样本音色和所述样本音高特征,通过多个后验编码器得到;
27、根据所述多个样本分段频谱、多个重构频谱,确定重构能量损失;其中,所述多个重构频谱根据所述多个样本变量和所述样本音色,通过所述多个分段解码器生成;
28、根据所述多个重构频谱、样本音高特征和所述样本频谱,确定合成重构损失;
29、根据所述多个目标散度损失、所述多个分段重构损失、所述重构能量损失和/或所述合成重构损失,调整所述音频处理模型。
30、可选地,根据所述多个样本分段频谱、所述样本瓶颈特征、样本音色和所述样本音高特征,确定多个目标散度损失,包括:
31、根据所述多个样本分段频谱、样本音色和所述样本音高特征,通过多个后验编码器得到多个样本变量,一个所述样本变量对应一个所述样本分段频谱和一个所述后验编码器;
32、根据所述多个样本变量得到多个第一样本高斯分布,一个所述第一样本高斯分布对应一个所述样本变量;
33、根据所述样本音高特征、所述样本瓶颈特征和所述样本音色,通过多个目标编码器生成多个第二样本高斯分布,一个频段对应一个所述目标编码器和一个所述第二样本高斯分布;
34、根据所述多个第一样本高斯分布和所述多个第二样本高斯分布,确定所述多个目标散度损失,一个所述目标散度损失由对应相同频段的一个所述第一样本高斯分布和一个所述第二样本高斯分布确定。
35、可选地,根据所述多个样本分段频谱、多个样本变量和所述样本音色,确定多个分段重构损失,包括:
36、根据所述多个样本变量和所述样本音色,通过所述多个分段解码器生成多个重构频谱;其中,一个所述重构频谱对应一个所述分段解码器和一个所述样本变量;
37、根据所述多个重构频谱和所述多个样本分段频谱,确定多个分段重构损失;其中,一个所述分段重构损失由对应相同频段的一个所述重构频谱和一个所述样本分段频谱确定。
38、可选地,根据所述多个样本分段频谱、多个重构频谱,确定重构能量损失,包括:
39、确定多个样本分段频谱对应的多个样本平均能量,及多个重构频谱对应的多个重构平均能量;
40、根据所述多个样本平均能量和所述多个重构平均能量,确定多个能量损失,一个所述能量损失由对应相同频段的一个所述样本平均能量和一个所述重构平均能量确定;
41、根据所述多个能量损失,确定所述重构能量损失。
42、可选地,根据所述多个重构频谱、样本音高特征和所述样本频谱,确定合成重构损失,包括:
43、根据所述多个重构频谱,生成重构合成频谱;
44、根据所述重构合成频谱和样本音高特征,通过所述目标解码器生成重构目标频谱;
45、根据所述重构目标频谱和所述样本频谱,确定所述合成重构损失。
46、本技术实施例的另一个方面提供了一种音频处理装置,所述装置包括:
47、第一获取模块,用于获取初始音频的音高特征和瓶颈特征,所述初始音频包括分别对应不同频率范围的多个频段;
48、第二获取模块,用于根据所述音高特征、瓶颈特征和参考音色生成多个频段各自的高斯分布,通过多个分段解码器基于对应频段的高斯分布生成多个分段频谱,一个分段频谱对应一个频段;
49、第一生成模块,用于对所述多个分段频谱进行合成,以生成合成频谱;
50、第二生成模块,用于根据所述合成频谱和所述音高特征,通过目标解码器生成目标频谱,所述目标频谱的平滑度高于所述合成频谱的平滑度;
51、第三生成模块,用于将所述目标频谱作为模型输入,通过预先训练好的音频生成模型生成目标音频。
52、本技术实施例的另一个方面提供了一种计算机设备,包括:
53、至少一个处理器;及
54、与所述至少一个处理器通信连接的存储器;
55、其中:所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
56、本技术实施例的另一个方面提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机指令,所述计算机指令被处理器执行时实现如上所述的方法。
57、本技术实施例的另一个方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
58、本技术实施例采用上述技术方案可以包括如下优势:
59、通过获取初始音频不同频段的分段频谱分别进行处理,可以根据不同频段音频的不同特点进行精细化处理,从而提高音频处理的质量。同时,各个频段的工作模块专注自身频段的音频处理任务,也可以降低音频处理的难度,提高音频处理的效率。