本发明涉及语音处理,尤其涉及一种跨语言语音迁移合成方法、装置、设备及存储介质。
背景技术:
1、当前低资源语言的语音合成系统普遍面临语料稀缺、语言特性复杂、迁移建模能力不足等问题,尤其在多语言处理与声学特征生成阶段缺乏有效的结构化机制,难以支持准确的跨语言语音迁移。现有方法在特征提取和语义对齐方面存在严重限制,缺乏稳定的音素与声调分离机制,也缺乏面向不同语言之间迁移结构的自适应训练策略,导致在低资源语言环境下生成语音的音质、韵律、可懂度均受到影响,限制了多语种语音合成系统的可扩展性与实用性。
2、在金融科技业务领域,现有多语种语音系统在处理跨语言客户交互内容时,无法从标准化金融术语文本中有效提取特征用于语音迁移,导致语音客服生成内容中存在发音错误、语调突兀等问题,影响用户体验及业务合规性。
3、在医疗健康业务领域,医学术语多样、声调敏感度高,现有系统在处理医疗场景中低资源语言的文本到语音转换时,难以准确建模术语音素及重音特性,容易出现术语读音混淆、语义误解等问题,影响信息传达的准确性与医患沟通的效率。
4、在语音合成模型研究与构建领域,当前跨语言语音合成方法大多缺乏有效的共享音素建模机制与语言特异性分离能力,面对语种间差异较大的结构(如语调系统差异、音节结构不同)时表现不稳定,无法满足多语种、高保真、低样本条件下的建模需求,尤其缺少分层自适应参数迁移与分离式语音生成结构的支持。
技术实现思路
1、本发明的主要目的在于提供一种跨语言语音迁移合成方法、装置、设备及存储介质,旨在解决现有技术中缺乏跨语言共享建模与语言特异性分离的联合机制,导致低资源语言在语音迁移中难以同时实现音素对齐精度与声调生成准确性的技术问题。
2、为实现上述目的,本发明提供一种跨语言语音迁移合成方法,包括:
3、通过跨语言共享特征提取模块处理跨语言原始语音数据和跨语言原始文本数据,生成跨语言共享音素特征序列;
4、通过语言特异性分离模块对所述跨语言共享音素特征序列进行特征分离,生成目标语言音素序列和目标语言声调标记;
5、基于所述目标语言音素序列和所述目标语言声调标记生成增强特征数据;
6、合并所述目标语言音素序列和所述增强特征数据形成目标语言训练数据集合;
7、基于分层自适应微调策略,使用所述目标语言训练数据集合训练目标语言声学模型,生成阶段微调参数集合;
8、基于目标语言待合成文本,通过所述跨语言共享特征提取模块和语言特异性分离模块生成推理用音素序列和推理用声调标记;
9、基于所述阶段微调参数集合,融合所述推理用音素序列和所述推理用声调标记生成联合表示序列;
10、通过双流声码器将所述联合表示序列转换为目标语言合成语音信号。
11、进一步地,为实现上述目的,本发明提供一种跨语言语音迁移合成装置,包括:
12、共享特征提取模块,用于通过跨语言共享特征提取模块处理跨语言原始语音数据和跨语言原始文本数据,生成跨语言共享音素特征序列;
13、语言特异性分离模块,用于通过语言特异性分离模块对所述跨语言共享音素特征序列进行特征分离,生成目标语言音素序列和目标语言声调标记;
14、声学特征增强模块,用于基于所述目标语言音素序列和所述目标语言声调标记生成增强特征数据;
15、数据融合构建模块,用于合并所述目标语言音素序列和所述增强特征数据形成目标语言训练数据集合;
16、分层自适应微调模块,用于基于分层自适应微调策略,使用所述目标语言训练数据集合训练目标语言声学模型,生成阶段微调参数集合;
17、文本特征生成模块,用于基于目标语言待合成文本,通过所述跨语言共享特征提取模块和语言特异性分离模块生成推理用音素序列和推理用声调标记;
18、联合编码表示模块,用于基于所述阶段微调参数集合,融合所述推理用音素序列和所述推理用声调标记生成联合表示序列;
19、双流声码器模块,用于通过双流声码器将所述联合表示序列转换为目标语言合成语音信号。
20、进一步地,为实现上述目的,本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储至所述存储器上并可在所述处理器上运行的跨语言语音迁移合成程序,所述跨语言语音迁移合成程序被所述处理器执行时实现如上述所述的跨语言语音迁移合成方法的步骤。
21、进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述存储介质上存储有跨语言语音迁移合成程序,所述跨语言语音迁移合成程序被处理器执行时实现如上所述的跨语言语音迁移合成方法的步骤。
22、有益效果:本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种跨语言语音迁移合成方法、装置、设备及介质,包括:利用跨语言共享特征提取模块处理跨语言原始语音数据与跨语言原始文本数据,生成跨语言共享音素特征序列;通过语言特异性分离模块对该音素特征序列进行分离,获得目标语言音素序列和目标语言声调标记;依据音素序列与声调标记生成增强特征数据,并合并为目标语言训练数据集合;基于分层自适应微调策略训练目标语言声学模型,生成阶段微调参数集合;利用目标语言待合成文本生成推理用音素序列和声调标记;融合推理用音素序列与声调标记生成联合表示序列;将联合表示序列转换为目标语言合成语音信号。本发明通过构建共享与分离并行的跨语言建模结构,有效提升了低资源语言中音素与声调建模的准确性,结合多阶段自适应微调与训练数据增强策略,使目标语言声学模型具备更强泛化能力和迁移效率,最终实现语音自然度与音色保真度的同步提升。
1.一种跨语言语音迁移合成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,通过跨语言共享特征提取模块处理跨语言原始语音数据和跨语言原始文本数据,生成跨语言共享音素特征序列,包括:
3.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,通过语言特异性分离模块对所述跨语言共享音素特征序列进行特征分离,生成目标语言音素序列和目标语言声调标记,包括:
4.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,基于所述目标语言音素序列和所述目标语言声调标记生成增强特征数据,包括:
5.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,基于分层自适应微调策略,使用所述目标语言训练数据集合训练目标语言声学模型,生成阶段微调参数集合,包括:
6.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,基于所述阶段微调参数集合,融合所述推理用音素序列和所述推理用声调标记生成联合表示序列,包括:
7.如权利要求1所述的跨语言语音迁移合成方法,其特征在于,基于所述阶段微调参数集合,融合所述推理用音素序列和所述推理用声调标记生成联合表示序列之前,还包括:
8.一种跨语言语音迁移合成装置,其特征在于,所述跨语言语音迁移合成装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储至所述存储器上并可以在所述处理器上运行的跨语言语音迁移合成程序,所述跨语言语音迁移合成程序被所述处理器执行时实现如权利要求1-7中任一项所述的跨语言语音迁移合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有跨语言语音迁移合成程序,所述跨语言语音迁移合成程序被处理器执行时实现如权利要求1-7中任一项所述的跨语言语音迁移合成方法的步骤。