一种语音编辑及优化方法、装置、设备及存储介质与流程

文档序号：36796772发布日期：2024-01-23 12:19阅读：来源：国知局

技术特征：

1.一种语音编辑及优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将原始音频所对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于解码模块处理所述文本特征信息、所述全局特征、所述第一局部特征和所述第二局部特征，得到所述待合成文本所对应待合成音频的声学特征，包括：

4.根据权利要求1所述的方法，其特征在于，将所述编辑后音频和所述原始音频输入至声音转换模型，得到转换后音频，包括：

5.根据权利要求1所述的方法，其特征在于，训练所述语音编辑模型的训练集包括通用训练集和定制训练集；

6.根据权利要求1所述的方法，所述声音转换模型的训练集包括：

7.根据权利要求1所述的方法，其特征在于，所述待合成文本为用以替换所述模板文本的自定义文本，所述模板文本为所述原始音频中需要进行编辑替换的文本。

8.一种语音编辑及优化装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的语音编辑及优化方法。

技术总结
本发明公开了一种语音编辑及优化方法、装置、设备及存储介质，该方法包括：将原始音频对应的掩盖后音频和待合成文本输入至语音编辑模型，得到编辑后音频，编辑后音频为将掩盖后音频和待合成文本进行编辑合成后生成的音频；将编辑后音频和原始音频输入声音转换模型，得到转换后音频，转换后音频为基于原始音频对编辑后音频的音频特征进行转换后的音频，本发明将原始音频对应的掩盖后音频和待合成文本输入语音编辑模型，得到编辑后音频，完成了自定义角色名场景下的配音任务，提升了用户的沉浸感；将编辑后音频和原始音频输入声音转换模型，优化了编辑后音频与原始音频边界的过渡，且保留了声优原始录制状态，提升了声音编辑后语音的表现力。

技术研发人员：张毅,陈博,付振,王明月,何金鑫,孙宇嘉,梁小明,王紫烟
受保护的技术使用者：中国第一汽车股份有限公司
技术研发日：
技术公布日：2024/1/22

完整全部详细技术资料下载

当前第2页1 2