一种语音处理方法、装置、电子设备及存储介质与流程

文档序号：29495190发布日期：2022-04-06 14:59阅读：来源：国知局

技术特征：
1.一种语音处理方法，其特征在于，包括：获取原始对象的第一语音；确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征；基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征，确定所述目标对象的声学特征；基于所述目标对象的声学特征生成所述目标对象的第二语音。2.根据权利要求1所述的语音处理方法，其特征在于，所述基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征，确定所述目标对象的声学特征，包括：利用声学特征转换模型基于所述基频特征以及所述音色特征，对所述梅尔频率倒谱系数进行声学特征转换，得到所述目标对象的声学特征。3.根据权利要求2所述的语音处理方法，其特征在于，所述利用声学特征转换模型基于所述基频特征以及所述音色特征，对所述梅尔频率倒谱系数进行声学特征转换，得到所述目标对象的声学特征，包括：将所述梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器，以促使所述第一编码器对所述梅尔频率倒谱系数包含的所述第一语音的内容特征编码，其中，所述第一编码器以时间下采样方式输出编码结果；将所述基频特征以及所述音色特征输入到所述声学特征转换模型的解码器，以促使所述解码器对所述编码结果进行时间上采样处理后，基于所述基频特征和所述音色特征对所述编码结果进行解码，得到所述目标对象的声学特征。4.根据权利要求3所述的语音处理方法，其特征在于，进一步包括：将所述第一语音输入到所述声学特征转换模型的基频提取器；其中，所述基频特征是所述基频提取器从所述第一语音中提取的。5.根据权利要求3所述的语音处理方法，其特征在于，进一步包括：将所述目标对象的发声者信息输入到所述声学特征转换模型的第二编码器；其中，所述音色特征是所述第二编码器针对所述发声者信息编码确定的。6.根据权利要求5所述的语音处理方法，其特征在于，所述第二编码器被配置为基于查找表方式编码得到所述音色特征。7.根据权利要求3所述的语音处理方法，其特征在于，还包括：将样本对象的样本语音的梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器进行编码，得到所述样本语音的第一内容特征；将样本语音的基频特征、样本对象对应的音色特征和所述第一内容特征输入到所述声学特征转换模型的解码器进行解码，得到所述样本对象的训练声学特征；基于所述样本语音的梅尔频谱与所述训练声学特征，确定重建损失；基于所述重建损失对所述声学特征转换模型进行训练。8.一种语音处理装置，其特征在于，包括：获取模块，被配置为获取原始对象的第一语音；确定模块，被配置为确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征；转换模块，被配置为基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的
音色特征，确定所述目标对象的声学特征；生成模块，被配置为基于所述目标对象的声学特征生成所述目标对象的第二语音。9.一种电子设备，其特征在于，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现权利要求1-7任一项所述的语音处理方法。10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1-7任一项所述的语音处理方法。

技术总结
本公开关于一种语音处理方法、装置、电子设备及存储介质。该语音处理方法包括：获取原始对象的第一语音；确定第一语音的梅尔频率倒谱系数及第一语音的基频特征；基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征，确定所述目标对象的声学特征；基于目标对象的声学特征生成目标对象的第二语音。由于包含了内容特征的梅尔频率倒谱系数中滤除了原始对象的大部分音色特征，因而本公开以梅尔频率倒谱系数作为声学特征转换模型的输入，可以降低对内容特征和音色特征的解耦压力。力。力。

技术研发人员：张颖杨鹏
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：2021.12.24
技术公布日：2022/4/5

完整全部详细技术资料下载

当前第2页1 2