本发明涉及人工智能,尤其涉及一种基于人工智能的声音转换方法、装置、设备及介质。
背景技术:
1、语音转换是一种保留源说话人语音的内容信息,并转换为目标说话人的声音的语音技术。该技术有着广泛的应用场景,如“变声蝴蝶结”,此外,语音转换技术的发展对与个性化语音合成、声纹识别、声纹安全等领域具有重要意义。现有技术中,现有的语音转换方法是无情感地将一个人的声音转移到另一个人的说话内容上,使转换后的语音效果较差,因此,在语音转换过程中,如何提高转换效果成为亟需解决的问题。
技术实现思路
1、有鉴于此,本申请实施例提供了一种基于人工智能的声音转换方法、装置、设备及介质,以解决在语音转换过程中,转换后的语音效果较差的问题。
2、第一方面,本申请实施例提供一种基于人工智能的声音转换方法,所述声音转换方法包括:
3、获取源说话人的源语音,提取所述源语音中的基频,对所述基频进行音高特征提取,得到音高特征,确定所述音高特征的帧数;
4、获取目标说话人的目标语音,提取所述目标语音中的梅尔频谱信息,得到目标梅尔频谱,对所述目标梅尔频谱进行音色特征提取,得到音色特征,对所述目标梅尔频谱进行情感特征提取,得到情感特征;
5、将所述音色特征与所述情感特征的帧数均扩充至与所述音高特征的帧数相等,得到扩充后的音色特征与扩充后的情感特征;
6、将所述音高特征、所述扩充后的音色特征与所述扩充后的情感特征对齐后进行融合,得到第一融合特征;
7、对所述源语音进行说话内容提取,得到源语音内容,将所述源语音内容与所述第一融合特征进行融合,得到第二融合特征,对所述第二融合特征进行频谱重构,得到重构的梅尔频谱,根据所述重构的梅尔频谱,得到转换语音。
8、第二方面,本申请实施例提供一种基于人工智能的声音转换装置,所述声音转换装置包括:
9、第一获取模块,用于获取源说话人的源语音,提取所述源语音中的基频,对所述基频进行音高特征提取,得到音高特征,确定所述音高特征的帧数;
10、第二获取模块,用于获取目标说话人的目标语音,提取所述目标语音中的梅尔频谱信息,得到目标梅尔频谱,对所述目标梅尔频谱进行音色特征提取,得到音色特征,对所述目标梅尔频谱进行情感特征提取,得到情感特征;
11、扩充模块,用于将所述音色特征与所述情感特征的帧数均扩充至与所述音高特征的帧数相等,得到扩充后的音色特征与扩充后的情感特征;
12、融合模块,用于将所述音高特征、所述扩充后的音色特征与所述扩充后的情感特征对齐后进行融合,得到第一融合特征;
13、重构模块,用于对所述源语音进行说话内容提取,得到源语音内容,将所述源语音内容与所述第一融合特征进行融合,得到第二融合特征,对所述第二融合特征进行频谱重构,得到重构的梅尔频谱,根据所述重构的梅尔频谱,得到转换语音。
14、第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于人工智能的声音转换方法。
15、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于人工智能的声音转换方法。
16、本发明与现有技术相比存在的有益效果是:
17、获取源说话人的源语音,提取源语音中的基频,对基频进行音高特征提取,得到音高特征,确定音高特征的帧数,获取目标说话人的目标语音,提取目标语音中的梅尔频谱信息,得到目标梅尔频谱,对目标梅尔频谱进行音色特征提取,得到音色特征,对目标梅尔频谱进行情感特征提取,得到情感特征,将音色特征与情感特征的帧数均扩充至与音高特征的帧数相等,得到扩充后的音色特征与扩充后的情感特征,将音高特征、扩充后的音色特征与扩充后的情感特征对齐后进行融合,得到第一融合特征,对源语音进行说话内容提取,得到源语音内容,将源语音内容与第一融合特征进行融合,得到第二融合特征,对第二融合特征进行频谱重构,得到重构的梅尔频谱,根据重构的梅尔频谱,得到转换语音。本申请中,在语音转换过程中,将对应目标说话人的情感信息与音高信息融合至源说话人的内容信息中,使得到的转换后的目标语音可以更好体现目标说话人的声音,从而提高语音转换效果。
1.一种基于人工智能的声音转换方法,其特征在于,所述声音转换方法包括:
2.如权利要求1所述的声音转换方法,其特征在于,所述对所述源语音进行说话内容提取,得到源语音内容,包括:
3.如权利要求2所述的声音转换方法,其特征在于,所述通过预设的残差网络对所述隐状态特征进行特征提取,得到对应源语音内容,包括:
4.如权利要求1所述的声音转换方法,其特征在于,所述对所述基频进行音高特征提取,得到音高特征,包括:
5.如权利要求1所述的声音转换方法,其特征在于,所述将所述音色特征与所述情感特征的帧数均扩充至与所述音高特征的帧数相等,得到扩充后的音色特征与扩充后的情感特征,包括:
6.如权利要求1所述的声音转换方法,其特征在于,所述将所述源语音内容与所述第一融合特征进行融合,得到第二融合特征,包括:
7.一种基于人工智能的声音转换装置,其特征在于,所述声音转换装置包括:
8.如权利要求7所述的声音转换装置,其特征在于,所述重构模块包括:
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的声音转换方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的声音转换方法。