本技术涉及终端,尤其涉及一种音频合成方法及相关设备。
背景技术:
1、语音合成技术常应用于终端设备与用户交互的场景,比如用户与终端设备进行语音交互的场景下,语音助手可以借助语音合成技术向用户发声。
2、目前,以语音助手为例,主要生成用于对话的人声。语音合成技术主要致力于优化人声本身的音色、语速、情绪等。然而,随着终端设备智能程度的提升,用户对于其合成的语音的要求也越来越高。
3、因此,如何优化终端设备向用户播放的语音的效果,成为亟待解决的问题。
技术实现思路
1、本技术提供了一种音频合成方法及相关设备,可以优化终端设备向用户发声的效果,提升用户对文本内容的感受和认知,从而优化电子设备与用户交互的效果,提升用户体验。
2、第一方面,提供一种音频合成方法,应用于电子设备,方法包括:获取待生成语音的第一文本;确定与第一文本匹配的第一音频,其中,第一音频所处的声场景与第一文本的内容匹配;获取第一文本的文本特征;根据第一音频和文本特征,得到第二音频,其中,第二音频与第一音频和第一语音关联,第一语音是根据文本特征得到的且与第一文本内容相同的语音,其中,在第二音频中,将第一音频作为第一语音的背景声。
3、上述方案,将声场景的概念运用到语音交互场景下,针对用于生成语音信号的文本,确定该文本匹配的声场景而确定该声场景对应的第一音频,并将第一音频作为语音信号的背景声,合成带有背景声的语音信号,即第二音频。若将该第二音频播放给用户,相比于单纯给用户播放语音信号的方案,背景音的增加能够优化听觉这一感官的体验,优化终端设备向用户发声的效果,从而提升用户对文本内容的感受和认知,优化电子设备与用户交互的效果,提升用户体验。
4、在一种可能的实施例中,确定与第一文本匹配的第一音频,包括:根据第一文本的内容,在预设声场景数据库中,确定与第一文本匹配的声场景的类别为第一声场景,预设声场景数据库中还包括与第一声场景对应的第一音频。
5、可理解,通过预设声场景数据库,为多种声场景配置对应的音频,以便于创造性地将声场景的概念运用到语音交互场景,并且便捷地获取与文本匹配的第一音频。
6、在一种可能的实施例中,根据第一文本的内容,在预设声场景数据库中,确定与第一文本匹配的声场景的类别为第一声场景,包括:获取第一文本的短时特征,短时特征用于表征第一文本中,分别与不同时间帧对应的子文本的相关性,子文本包括一个或多个字符;将短时特征映射到便于分类的特征域中,得到映射特征;对映射特征进行分类,得到与第一文本匹配的声场景的指示信息,指示信息指示第一声场景。
7、上述方案,针对如何确定文本匹配的第一声场景,给出一种可能的实现方式,使得将声场景的概念运用到语音交互场景成为可能。
8、在一种可能的实施例中,根据第一音频和文本特征,得到第二音频,包括:将指示信息和文本特征输入修正流模型,得到第一声学特征,第一声学特征用于表征将第一音频作为背景声的第一语音;对第一声学特征进行解码,得到第二音频。
9、上述方案,采用修正流模块对文本特征进行处理,相比于通过扩散模型对文本特征进行处理的方案,生成过程中所需要的迭代步数明显更少,能够降低计算成本且提升推理速度,从而提升生成效率。
10、在一种可能的实施例中,文本特征包括语义特征和音素长度特征,获取第一文本的文本特征,包括:获取第一文本的语义特征,语义特征用于表征第一文本的语义信息;根据语义特征得到第一文本的音素长度特征,音素长度特征用于指示第一文本中的每个字符对应的音素长度,音素长度为音素所持续的时间。
11、上述方案,针对文本特征给出可能的实现方式。由于生成的语音与文本的内容一致,因此语义特征对于语音的成功生成非常重要。由于音素是语音的最小单元,而音素长度特征是与文本对应的音素特征,因此音素长度特征对于语音的成功生成非常重要。
12、在一种可能的实施例中,将指示信息和文本特征输入修正流模型,得到第一声学特征,包括:将指示信息和文本特征以及随机采样得到的第一高斯噪声,输入修正流模型,得到第一高斯噪声的第一导数;针对第一导数进行欧拉采样,得到第一采样信号;将指示信息和文本特征以及第一采样信号,输入修正流模型,得到第一采样信号的第二导数;针对第二导数进行欧拉采样,得到第二采样信号;根据第二采样信号,得到第一声学特征。
13、可理解,使用修正流网络之后,理论上可以单步采样,就能得到生成结果,因此,采样过程较简单,这种情况下,使用简单或复杂的采样方法,所能达到的效果是几乎是一致的,所以本技术优选简单的采样方法,例如欧拉采样。或者还可以是其他简单的采样方法,本技术不做限定。并且,k≥2的情况下,相比于只采样一次,能够提升最终的生成效果。
14、在一种可能的实施例中,方法还包括:获取样本干净语音信号和对应的样本文本,样本干净语音信号和样本文本的内容相同;生成与样本文本对应的样本背景声音频和样本声场景索引;对样本干净语音信号与样本背景声音频进行融合,得到带样本背景声的样本语音信号;获取带样本背景声的样本语音信号的样本声学特征;根据随机生成的第二高斯噪声与样本声学特征,生成第一样本信号;根据样本文本得到样本语义特征和样本音素长度特征;将第一样本信号、样本语义特征和样本音素长度特征输入修正流模型,得到样本导数;根据样本导数和目标数据计算损失函数,目标数据为样本声学特征减去第二高斯噪声得到的差值;根据损失函数更新修正流模型的参数。
15、上述方案,将样本声学特征减去第二高斯噪声得到的差值作为训练目标,以实现修正流模型的训练过程,以便于修正流模型的推理侧相比于扩散模型能够提升音频合成的效果以及提升推理速度。
16、第二方面,本技术提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器;其中,一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
17、第三方面,本技术实施例提供了一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
18、第四方面,本技术提供一种计算机可读存储介质,包括指令,当上述指令在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
19、第五方面,本技术提供一种包含指令的计算机程序产品,当上述计算机程序产品在电子设备上运行时,使得上述电子设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
20、可以理解地,上述第二方面提供的电子设备、第三方面提供的芯片系统、第四方面提供的计算机存储介质、第五方面提供的计算机程序产品均用于执行本技术所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。