本技术涉及人工智能和语音合成领域,具体而言,涉及一种语音生成方法、装置、存储介质及电子设备。
背景技术:
1、随着人工智能技术的不断演进,语音合成(tts)系统已成为人机交互的重要桥梁,广泛应用于智能助手、教育软件和无障碍服务等多个领域。尽管深度学习驱动的tts模型显著提升了语音的自然度和流畅性,但在实际应用中,仍面临精准表达控制的难题。
2、具体来说,大多数系统在处理情感语音合成时,仅能提供有限的预设情感风格,缺乏对文本情感细节的动态调整能力,导致合成语音的情感表达力和自然度不足。此外,语调和语速的控制也往往过于粗糙,无法满足对朗读节奏、停顿时间、重音位置等细节的精确控制需求,特别是在戏剧、新闻播报等场景下,对语调变化的高精度要求未能得到充分满足。再者,专业领域内特定词汇的准确发音,特别是医疗、法律、科技等行业术语的合成,面临系统训练数据不足或模型适应性差的问题,常导致发音错误,影响语音合成的专业性和可信度。针对这些挑战,现有技术尚未提供一种通用、灵活且高精度的控制手段,能够同时兼顾情感表达、语调调整和专业发音的准确控制。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本技术提供了一种语音生成方法、装置、存储介质及电子设备,以至少解决现有语音合成领域内无法精确控制合成语音情感、语调和专业发音的技术问题。
2、根据本技术的一个方面,提供了一种语音生成方法,包括:获取待处理文本;根据目标标记库将待处理文本转换为第一文本,其中,目标标记库为预定义的多个标记和每个标记对应的属性的集合,其中,每个标记用于标识待处理文本中需处理的语段,属性用于调整待处理文本对应的语音信息的输出特性;对第一文本进行解析,得到第一文本中s个子文本对应的控制参数列表,其中,s为大于或等于1的整数,控制参数列表包括每个子文本对应的属性和属性对应的属性值;将待处理文本和s个子文本对应的控制参数列表输入至目标模型中,依据目标模型生成针对待处理文本的目标语音信息,其中,目标模型为预先训练的、用于生成符合预设要求的语音信息的模型,其中,预设要求用于约束目标语音信息的输出特性。
3、可选地,目标标记库通过以下步骤得到:设置目标标记集合,其中,目标标记集合中包括多个预定义的标记;设置目标属性集合,其中,目标属性集合中的属性为与目标标记集合中标记相关联的控制参数;根据目标标记集合和目标属性集合确定目标标记库。
4、可选地,目标属性集合至少包括以下属性:第一属性,其中,第一属性用于调整生成语音信息的播放速度;第二属性,其中,第二属性用于调整生成语音信息的音调;第三属性,其中,第三属性用于调整生成语音信息的情绪;第四属性,其中,第四属性用于调整文字的发音;第五属性,其中,第五属性用于表征文本所属的领域信息。
5、可选地,对第一文本进行解析,得到第一文本中s个子文本对应的控制参数列表,包括:识别第一文本中的标记,得到第一标记集合;提取第一标记集合中每个标记对应的属性以及该属性对应的属性值,得到第一属性集合;确定第一标记集合中的各个标记之间的嵌套关系;根据第一标记集合和嵌套关系,将第一文本划分为s个子文本,并基于第一标记集合、嵌套关系以及第一属性集合为每个子文本生成对应的控制参数列表。
6、可选地,根据第一标记集合和嵌套关系,将第一文本划分为s个子文本,并基于第一标记集合、嵌套关系以及第一属性集合为每个子文本生成对应的控制参数列表,包括:根据第一标记集合中每个标记的位置信息和嵌套关系将第一文本划分为s个子文本;基于嵌套关系和每个子文本对应的至少一个标记,从第一属性集合中确定该子文本对应的属性以及该属性对应的属性值;根据每个子文本对应的属性以及该属性对应的属性值为每个子文本生成对应的控制参数列表。
7、可选地,将待处理文本和s个子文本对应的控制参数列表输入至目标模型中,依据目标模型生成针对待处理文本的目标语音信息,包括:基于映射规则更新每个子文本对应的控制参数列表;其中,映射规则包括控制参数列表中每个属性与目标模型中的参数之间的映射关系,映射规则用于将每个子文本对应的控制参数列表中的每个属性映射为对应的控制向量,其中,控制向量用于指导目标模型生成语音信息;将待处理文本和更新后的每个子文本对应的控制参数列表输入至目标模型中,依据目标模型输出针对待处理文本的目标语音信息。
8、可选地,将待处理文本和更新后的每个子文本对应的控制参数列表输入至目标模型中,依据目标模型生成针对待处理文本的目标语音信息,包括:对待处理文本进行预处理,得到目标文本,其中,预处理用于将待处理文本转换为统一格式;基于每个子文本对应的控制参数列表中的第四属性和第五属性,将目标文本转换为音素序列,其中,第四属性用于调整文字的发音,第五属性用于表征文本所属的领域信息;通过目标模型的编码模块分别对音素序列、每个子文本对应的控制参数列表中的控制向量进行编码,得到目标向量和每个子文本对应的目标控制向量集合;通过目标模型的声学特征预测模块,根据目标向量和每个子文本对应的目标控制向量集合,预测针对待处理文本的输出语音信息的声学特征;通过目标模型的声码器,根据声学特征、每个子文本对应的目标控制向量集合生成针对待处理文本的目标语音信息。
9、根据本技术的另一方面,还提供了一种语音生成装置,包括:获取单元,用于获取待处理文本;转换单元,用于根据目标标记库将待处理文本转换为第一文本,其中,目标标记库为预定义的多个标记和每个标记对应的属性的集合,其中,每个标记用于标识待处理文本中需处理的语段,属性用于调整待处理文本对应的语音信息的输出特性;解析单元,用于对第一文本进行解析,得到第一文本中s个子文本对应的控制参数列表,其中,s为大于或等于1的整数,控制参数列表包括每个子文本对应的属性和属性对应的属性值;生成单元,用于将待处理文本和s个子文本对应的控制参数列表输入至目标模型中,依据目标模型生成针对待处理文本的目标语音信息,其中,目标模型为预先训练的、用于生成符合预设要求的语音信息的模型,其中,预设要求用于约束目标语音信息的输出特性。
10、根据本技术的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制计算机可读存储介质所在设备执行上述的语音生成方法。
11、根据本技术的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述的语音生成方法。
12、在本技术中,首先获取待处理文本,接着根据目标标记库将待处理文本转换为第一文本,其中,目标标记库为预定义的多个标记和每个标记对应的属性的集合,其中,每个标记用于标识待处理文本中需处理的语段,属性用于调整待处理文本对应的语音信息的输出特性,然后对第一文本进行解析,得到第一文本中s个子文本对应的控制参数列表,其中,s为大于或等于1的整数,控制参数列表包括每个子文本对应的属性和属性对应的属性值,最后将待处理文本和s个子文本对应的控制参数列表输入至目标模型中,依据目标模型生成针对待处理文本的目标语音信息,其中,目标模型为预先训练的、用于生成符合预设要求的语音信息的模型,其中,预设要求用于约束目标语音信息的输出特性。即通过在文本中嵌入可自定义的标记并转化为模型控制参数的方式,达到了对语音合成输出特性的精确调控的目的,从而实现了提升语音合成自然度、情感丰富性和专业领域适应性的技术效果,进而解决了现有语音合成领域内无法精确控制合成语音情感、语调和专业发音的技术问题。