本申请属于人工智能,尤其涉及一种语音合成方法、装置、设备、存储介质及程序产品。
背景技术:
1、语音合成是指将文本转化为人类听觉系统能够识别的声音的技术。在相关技术中,语音合成系统合成语音的流程是,先将文本对应的文本序列转换成音韵序列,再使用声学模型将音韵序列合成语音波形。然而,文本中普遍存在的多音字现象,使得语音合成系统难以准确确定多音字在特定语境中的正确发音,导致最终生成的语音内容不准确。
技术实现思路
1、本申请实施例提供一种语音合成方法、装置、设备、存储介质及程序产品,能够解决语音合成系统难以准确确定多音字在特定语境中的正确发音,导致最终生成的语音内容不准确的问题。
2、第一方面,本申请实施例提供一种语音合成方法,该语音合成方法包括:获取文本和文本对应的拼音信息,拼音信息包括文本中多音字的至少两个候选拼音;对文本的文本语言学特征和拼音信息的拼音声学特征进行多模态特征融合,得到文本的双模态融合信息,双模态融合信息包括多音字的目标拼音,目标拼音为至少两个候选拼音中的一个;根据双模态融合信息,生成与文本对应的语音信息。
3、在本申请实施例的一些可能的实现方式中,上述对文本的文本语言学特征和拼音信息的拼音声学特征进行多模态特征融合,得到文本的双模态融合信息,包括:将文本和拼音信息输入语音合成模型,通过语音合成模型的交叉注意力算法,对文本的文本语言学特征和拼音信息的拼音声学特征进行多模态特征融合,得到文本的双模态融合信息。
4、在本申请实施例的一些可能的实现方式中,语音合成模型还包括文本编码器和声学编码器;上述语音合成方法还包括:通过文本编码器对文本进行语义编码,获得文本语言学特征;通过声学编码器对拼音信息进行声学编码,获得拼音声学特征。
5、在本申请实施例的一些可能的实现方式中,上述根据双模态融合信息,生成与文本对应的语音信息,包括:根据双模态融合信息和文本的韵律特征,确定文本对应的音素序列中每个音素的发音时长,韵律特征基于文本的句子结构和标点符号确定;根据双模态融合信息和每个音素的发音时长,生成声学特征序列;根据声学特征序列,生成文本对应的语音信息。
6、在本申请实施例的一些可能的实现方式中,上述根据双模态融合信息和每个音素的发音时长,生成声学特征序列,包括:根据双模态融合信息、每个音素的发音时长和参考声学风格特征,生成声学特征序列;其中,参考声学风格特征包括以下至少一项:韵律特征、音色特征、语调特征。
7、在本申请实施例的一些可能的实现方式中,上述语音合成方法还包括:接收用户的第一输入,第一输入为用户上传参考语音样本的输入;响应于第一输入,将参考语音样本输入预训练的深度神经网络,通过预训练的深度神经网络提取参考语音样本的参考声学风格特征。
8、在本申请实施例的一些可能的实现方式中,上述语音合成方法还包括:显示第一界面,第一界面包括至少两个语音风格类型;接收用户从至少两个语音风格类型中选择参考语音风格类型的第二输入;响应于第二输入,根据预设语音风格类型和预设声学风格特征的关联关系,将与参考语音风格类型关联的预设声学风格特征确定为参考声学风格特征。
9、在本申请实施例的一些可能的实现方式中,根据双模态融合信息,生成与文本对应的语音信息之后,上述语音合成方法还包括:显示第二界面,第二界面包括第一显示区域和第二显示区域,第一显示区域用于显示语音信息的语音音轨,第二显示区域用于显示第一控件,第一控件用于触发显示多音字关联的候选拼音选项,候选拼音选项为多音字的至少两个候选拼音中除目标拼音之外拼音的选项;接收用户对第一控件的第三输入;响应于第三输入,显示候选拼音选项;接收用户从候选拼音选项中选择目标拼音选项的第四输入;响应于第四输入,根据目标拼音选项对应的候选拼音,更新声学特征序列。
10、第二方面,本申请实施例提供了一种语音合成装置,该语音合成装置包括:第一获取模块,用于获取文本和文本对应的拼音信息,拼音信息包括文本中多音字的至少两个候选拼音;特征处理模块,用于对文本的文本语言学特征和拼音信息的拼音声学特征进行多模态特征融合,得到文本的双模态融合信息,双模态融合信息包括多音字的目标拼音,目标拼音为至少两个候选拼音中的一个;生成模块,用于根据双模态融合信息,生成与文本对应的语音信息。
11、第三方面,本申请实施例提供一种计算机设备,该计算机设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面任意一项的语音合成方法。
12、第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面任意一项的语音合成方法。
13、第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,计算机程序或指令被处理器执行时实现如第一方面任意一项的语音合成方法。
14、本申请实施例的语音合成方法、装置、设备、存储介质及程序产品,通过获取文本及包含多音字的至少两个候选拼音的完整拼音信息,杜绝了因多音字的单一拼音预设而可能导致的因多音字歧义引发的发音错误风险。进一步地,通过对文本语言学特征和拼音声学特征进行多模态特征融合,实现了上下文语义和声学信息的协同分析,使得语音合成系统能够基于文本的语境和声学规律从至少两个候选拼音中筛选出最符合当前文本环境的目标拼音。这样,基于已包含准确目标拼音的双模态融合信息生成语音信息,有效确保了生成的语音内容能准确反映文本的语境含义,从而最终解决了相关技术中语音合成系统难以准确确定多音字在特定语境中的正确发音,导致最终生成的语音内容不准确的问题,实现了语音合成输出的准确性。
1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述文本的文本语言学特征和所述拼音信息的拼音声学特征进行多模态特征融合,得到所述文本的双模态融合信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述语音合成模型还包括文本编码器和声学编码器;所述方法还包括:
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述根据所述双模态融合信息,生成与所述文本对应的语音信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述双模态融合信息和所述每个音素的发音时长,生成声学特征序列,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
8.根据权利要求5至7中任意一项所述的方法,其特征在于,所述根据所述双模态融合信息,生成与所述文本对应的语音信息之后,所述方法还包括:
9.一种语音合成装置,其特征在于,所述装置包括:
10.一种计算机设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的语音合成方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-8任意一项所述的语音合成方法。