一种语音处理方法、装置、电子设备及存储介质与流程

文档序号:29495190发布日期:2022-04-06 14:59阅读:102来源:国知局
1.本公开涉及深度学习
技术领域
:,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
::2.语音转换是指在保留内容特征不变的情况下,将一句话的音色从原始对象的音色转为目标对象的音色。语音转换技术在歌唱变声、电影配音、短视频变声、虚拟人等方面发挥着重要作用。3.目前,一般将梅尔频谱作为输入特征提供给语音转换模型以实现语音转换。然而,梅尔频谱中除了包含被转换的语音中的内容特征之外,还包含该语音中表征发声者音色的大量音色特征,因而需要在语音转换中对音色特征和内容特征进行解耦处理。比如,为了保证解耦效果,通常需要在语音转换模型中增加对抗网络。技术实现要素:4.本公开实施例提出一种语音处理方法、装置、电子设备及存储介质,从而降低解耦压力。5.根据本公开实施例的一方面,提供了一种语音处理方法,包括:6.获取原始对象的第一语音;7.确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征;8.基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征;9.基于所述目标对象的声学特征生成所述目标对象的第二语音。10.在一种可能实施方式中,所述基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征,包括:11.利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到所述目标对象的声学特征。12.在一种可能实施方式中,所述利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到所述目标对象的声学特征,包括:13.将所述梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器,以促使所述第一编码器对所述梅尔频率倒谱系数包含的所述第一语音的内容特征编码,其中,所述第一编码器以时间下采样方式输出编码结果;14.将所述基频特征以及所述音色特征输入到所述声学特征转换模型的解码器,以促使所述解码器对所述编码结果进行时间上采样处理后,基于所述基频特征和所述音色特征对所述编码结果进行解码,得到所述目标对象的声学特征。15.在一种可能实施方式中,进一步包括:16.将所述第一语音输入到所述声学特征转换模型的基频提取器;17.其中所述基频特征是所述基频提取器从所述第一语音中提取的。18.在一种可能实施方式中,进一步包括:19.将所述目标对象的发声者信息输入到所述声学特征转换模型的第二编码器;其中所述音色特征是所述第二编码器针对所述发声者信息编码确定的。20.在一种可能实施方式中,所述第二编码器被配置为基于查找表方式编码得到所述音色特征。21.在一种可能实施方式中,还包括:22.将样本对象的样本语音的梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器进行编码,得到所述样本语音的第一内容特征;23.将样本语音的基频特征、样本对象对应的音色特征和所述第一内容特征输入到所述声学特征转换模型的解码器进行解码,得到所述样本对象的训练声学特征;24.基于所述样本语音的梅尔频谱与所述训练声学特征,确定重建损失;25.基于所述重建损失对所述声学特征转换模型进行训练。26.在一种可能实施方式中,还包括:27.将所述训练声学特征输入到所述声学特征转换模型的离散余弦变换滤波器进行离散余弦变换,得到所述样本对象的重构梅尔频率倒谱系数;28.将所述样本对象的重构梅尔频率倒谱系数输入到所述第一编码器进行编码,得到所述样本语音的第二内容特征;29.基于所述第一内容特征与所述第二内容特征,确定内容损失;30.其中所述基于所述重建损失对所述声学特征转换模型进行训练包括:31.基于所述重建损失和所述内容损失对所述声学特征转换模型进行训练。32.在一种可能实施方式中,基于所述重建损失和所述内容损失对所述声学特征转换模型进行训练包括:33.根据所述重建损失和所述内容损失,确定整体损失;34.基于所述整体损失对所述声学特征转换模型进行训练。35.根据本公开实施例的另一方面,提供了一种语音处理装置,包括:36.获取模块,被配置为获取原始对象的第一语音;37.确定模块,被配置为确定所述第一语音的梅尔频率倒谱系数及所述第一语音的基频特征;38.转换模块,被配置为基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征;39.生成模块,被配置为基于所述目标对象的声学特征生成所述目标对象的第二语音。40.在一种可能实施方式中,所述转换模块被配置为:41.利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到所述目标对象的声学特征。42.在一种可能实施方式中,所述转换模块被配置为:43.将所述梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器,以促使所述第一编码器对所述梅尔频率倒谱系数包含的所述第一语音的内容特征编码,其中,所述第一编码器以时间下采样方式输出的编码结果;44.将所述基频特征以及所述音色特征输入到所述声学特征转换模型的解码器,以促使所述解码器对所述编码结果进行时间上采样处理后,基于所述基频特征和所述音色特征对所述编码结果进行解码,得到所述目标对象的声学特征。45.在一种可能实施方式中,所述转换模块被配置为将所述第一语音输入到所述声学特征转换模型的基频提取器;其中所述基频特征是所述基频提取器从所述第一语音中提取的。46.在一种可能实施方式中,所述转换模块被配置为将所述目标对象的发声者信息输入到所述声学特征转换模型的第二编码器;其中所述音色特征是所述第二编码器针对所述发声者信息编码确定的。47.在一种可能实施方式中,还包括训练模块,被配置为:48.将样本对象的样本语音的梅尔频率倒谱系数输入到所述声学特征转换模型的第一编码器进行编码,得到所述样本语音的第一内容特征;49.将样本语音的基频特征、样本对象对应的音色特征和所述第一内容特征输入到所述声学特征转换模型的解码器进行解码,得到所述样本对象的训练声学特征;50.基于所述样本语音的梅尔频谱与所述训练声学特征,确定重建损失;51.基于所述重建损失对所述声学特征转换模型进行训练。52.在一种可能实施方式中,所述训练模块进一步被配置为:53.将所述训练声学特征输入到所述声学特征转换模型的离散余弦变换滤波器进行离散余弦变换,得到所述样本对象的重构梅尔频率倒谱系数;54.将所述样本对象的重构梅尔频率倒谱系数输入到所述第一编码器进行编码,得到所述样本语音的第二内容特征;55.基于所述第一内容特征与所述第二内容特征,确定内容损失;56.其中所述训练模块被配置为:基于所述重建损失和所述内容损失对所述声学特征转换模型进行训练。57.在一种可能实施方式中,所述训练模块被配置为:58.根据所述重建损失和所述内容损失,确定整体损失;59.基于所述整体损失对所述声学特征转换模型进行训练。60.根据本公开实施例的另一方面,提供了一种电子设备,该电子设备包括:61.处理器;62.用于存储所述处理器可执行指令的存储器;63.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施方式所述的语音处理方法。64.根据本公开实施例的另一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现上述任一实施方式所述的语音处理方法。65.根据本公开实施例的另一方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一实施方式所述的语音处理方法。66.本公开的实施例提供的技术方案至少带来以下有益效果:67.本公开的实施例使用梅尔频率倒谱系数实现语音转换,由于包含了内容特征的梅尔频率倒谱系数中滤除了原始对象的大部分音色特征,因而以梅尔频率倒谱系数作为声学特征转换模型的输入声学特征,有利于语音转换中音色特征和内容特征的解耦处理,从而可以降低语音转换的解耦压力,进而可以省略在模型中设置的对抗网络。68.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明69.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。70.图1是根据一示例性实施例示出的语音处理方法的流程图;71.图2是根据一示例性实施例示出的声学特征转换模型的框架示意图;72.图3是根据一示例性实施例示出的用于语音处理的声学特征转换模型的模型训练方法的流程图;73.图4是根据一示例性实施例示出的声学特征转换模型的训练原理图;74.图5是根据一示例性实施例示出的语音处理装置的结构图;75.图6是根据一示例性实施例示出的一种电子设备的结构图;76.图7是根据一示例性实施例示出的一种语音处理装置的结构图;77.图8是根据一示例性实施例示出的另一种语音处理装置的结构图。具体实施方式78.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。79.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。80.以下,对本公开实施例涉及的术语进行解释说明。81.标记信息为能够唯一表示发声者(比如说话人或唱歌人,等等)的身份的信息,并且,标记信息用于索引其对应的发声者的音色特征。在语音转换过程中,发声者可以是指产生被执行转换的语音的原始对象;或者,发声者也可以是指被执行转换的语音的目标对象,该目标对象表示原始对象的原始语音中的音色特征要被转换成哪个对象的音色特征。在模型训练过程中,发声者可以是指样本对象,该样本对象表示样本语音中的音色特征需要被转换成哪个对象的音色特征。标记信息具体可采用向量标记的形式,每个目标对象或样本对象对应一个标记向量。在一些示例中,标记信息也可以称为发声者信息。82.梅尔频谱是在语音的频谱图加上梅尔滤波函数得到的梅尔刻度(melscale)下的频谱,其中,梅尔频谱中包含发声者的音色特征和内容特征,发声者的音色特征表征发声者的音色,内容特征表征语音中包含的语义信息。83.梅尔频率倒谱是通过对梅尔频谱取对数、然后进行离散余弦变换(discretecosinetransform,dct)得到的,并且,梅尔频率倒谱的频带均匀分布于梅尔刻度(melscale)。梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)是用于建立梅尔频率倒谱的一组系数,其中,梅尔频率倒谱系数具有比梅尔频谱更低的维度,并且,梅尔频率倒谱系数包含梅尔频谱中的内容特征、并且滤除了该梅尔频谱中的大部分音色特征。84.在一些示例中,语音转换可以用于歌唱变声(singingvoiceconversion,svc),歌唱变声是为了在保留歌曲中的内容特征和曲调特征的情况下,将表征原始对象的音色的音色特征转换为表征目标对象的音色的音色特征,原始对象可以是歌曲的原唱者,而目标对象可以是用户。85.其中,对于语音转换用于歌唱变声的情况,曲调特征至少可以体现歌曲的音高信息,内容特征包含的语义信息可以指歌词。86.若以梅尔频谱特征作为语音转换的模型输入,则,需要对音色特征和内容特征的解耦付出较高的代价,才能将梅尔频谱中的原始对象的音色特征被替换为目标对象的音色特征、并且保持梅尔频谱中的内容特征不变。87.针对上述问题,本公开的实施例选用梅尔频率倒谱系数作为声学特征转换模型的输入声学特征,根据源-滤波模型假设,语音是声门震动通过滤波器后的冲击响应结果,而低维的梅尔频率倒频谱系数可以在一定程度上过滤掉与发声者的音色特征强相关的声门激励。88.因此,被执行转换的语音中的内容特征可以包含在低维度的梅尔频率倒频谱系数中,并且,被执行转换的语音中的原始对象的音色特征在梅尔频率倒谱系数中被大部分滤除,由此可以降低语音转换的解耦压力。89.并且,在本公开的实施例中,利用独立于从语音获取到的基频特征来表征曲调特征。90.图1是根据一示例性实施例示出的语音处理方法的流程图。请参见图1,该语音处理方法可以包括:91.步骤101,获取原始对象的第一语音。92.步骤102,确定第一语音的梅尔频率倒谱系数及第一语音的基频特征。93.在一些示例中,第一语音的梅尔频率倒谱系数中可以包含第一语音中的内容特征,并且,第一语音的基频特征可以表征第一语音的曲调特征。94.步骤103,基于所述梅尔频率倒谱系数、所述基频特征以及目标对象对应的音色特征,确定所述目标对象的声学特征。95.通常情况下,原始对象与目标对象不同。96.在一些实例中,步骤103中基于梅尔频率倒谱系数、基频特征以及目标对象对应的音色特征,确定目标对象的声学特征,包括:利用声学特征转换模型基于基频特征以及目标对象对应的音色特征,对梅尔频率倒谱系数进行声学特征转换,得到目标对象的声学特征。97.在一些示例中,步骤103得到的目标对象的声学特征,可以是声学特征转换模型输出的梅尔频谱特征。其中,声学特征转换模型输出的梅尔频谱特征中可以包含目标对象的音色特征,并且,声学特征转换模型输出的梅尔频谱特征中还可以包含第一语音的基频特征以及第一语音中的内容特征。98.步骤104,基于目标对象的声学特征生成目标对象的第二语音。其中第一语音与第二语音的内容特征相同。99.基于上述流程,本公开实施例中的语音转换处理方法可以使用梅尔频率倒谱系数实现语音转换,由于包含了内容特征的梅尔频率倒谱系数中滤除了大部分的发声者音色特征,因而以梅尔频率倒谱系数作为声学特征转换模型的输入声学特征,有利于语音转换中发声者音色特征和内容特征的解耦处理,从而可以降低语音转换的解耦压力,进而可以省略在模型中设置的对抗网络。100.图2是根据一示例性实施例示出的声学特征转换模型的框架示意图。请参见图2,如图1所示流程使用的声学特征转换模型可以包括第一编码器201、第二编码器202、基频提取器203和解码器204,从图2中可以清楚地看出,该声学特征转换模型中省略了对抗网络。并且,该声学特征转换模型的解码器204的输出还可以与声码器205连接。101.第一编码器201可以被称为内容特征编码器,用于响应于针对第一语音的语音转换请求,对第一语音的梅尔频率倒谱系数中与发声者音色特征无关、且与基频特征无关的内容特征进行编码。102.第二编码器202可以被称为发声者编码器,用于响应于针对第一语音的语音转换请求,对目标对象的发声者信息进行编码。例如,第二编码器202可以通过查找表(look-uptable)的方式,根据目标对象的发声者信息查询得到该目标对象的发声者音色特征,并且,对目标对象的发声者信息的编码结果可以包含查找得到的该目标对象的音色特征。103.基频提取器203用于响应于针对第一语音的语音转换请求,从第一语音中提取基频信息。104.解码器204用于以第一编码器201编码后的第一语音的内容特征、第二编码器202编码得到的目标对象的音色特征、以及基频提取器203提取的第一语音的基频特征,解码得到包含及第一语音的内容特征、目标对象的音色特征、以及第一语音的基频特征的梅尔频谱特征。105.也就是说,如图1所示流程中的步骤102确定第一语音的基频特征可以是利用基频提取器203获得的。并且,如图1所示步骤103可以获取声学特征转换模型的解码器203输出的梅尔频谱特征,得到目标对象的声学特征。106.基于如图2所示的包含第一编码器201和解码器204的声学特征转换模型,如图1所示流程中的步骤103可以认为包括:107.将第一语音的梅尔频率倒谱系数输入到第一编码器201,以促使第一编码器201对第一语音的梅尔频率倒谱系数包含的第一语音的内容特征进行编码;108.将第一语音的基频特征、以及根据目标对象的标记信息索引到的目标对象的音色特征输入到声学特征转换模型的解码器204,以促使解码器204基于第一语音的基频特征、以及目标对象的音色特征对第一编码器201编码后的内容特征进行解码,得到目标对象的声学特征。109.声码器205,用于基于目标对象的声学特征生成目标对象的第二语音,即,如图1所示流程中的步骤104可以利用声码器来得到第二语音。110.从原始对象的第一语音的获取、利用如图2所示的声学特征转换模型从原始对象的第一音频的梅尔频率倒谱系数到目标对象的声学特征(例如梅尔频谱特征)的转换过程、以及基于目标对象的声学特征得到第二语音的过程,可以认为是语音的重建过程。111.在一些示例中,低维度的梅尔频率倒谱系数中可能仍残留有第一语音中的、少量的发声者音色特征、并且第一语音的基频特征中包含有少量的绝对音高信息,对于此类可能的情况,第一编码器201可以采用时间下采样,以助于过滤掉输入的梅尔频率倒谱系数中包含的、少量的发声者音色特征和少量绝对音高信息,并且,通过合理的配置时间下采样的采样率,可以确保第一语音中的内容特征不丢失。112.在一般情况下,内容特征可以看作是发音因素的音节单元,因此,内容特征的音节单元的音节长度会远小于第一语音的持续时长(即帧数),从而,可以认为第一语音与内容特征之间存在一对多的映射关系。基于这样的假设,若第一编码器201对其输出的编码后内容特征进行采样率为r的时间下采样,则,对于第一语音的n帧语音帧,第一编码器201可以输出帧的语音帧。其中,采样率r被设定为确保帧的语音帧可以包含内容特征的所有音节单元的特征信息的值,并且,发声者的音色特征由于时间下采样的打断而被丢弃。113.若第一编码器201以时间下采样方式输出的编码结果,则,解码器204可以对第一编码器201输出的编码结果进行时间上采样后再执行基于基频特征和音色特征的解码。即,解码器204可以对第一编码器201时间下采样后的帧的内容特征执行时间上采样,得到n帧语音帧的内容特征,并且,解码器204基于第二编码器202编码得到的目标对象的音色特征、以及基频提取器203提取的第一语音的基频特征,对时间上采样后的n帧语音帧的内容特征进行解码,得到目标对象的声学特征。114.从图2中可以看出,第一编码器201可以具体包括编码模块211和时间下采样模块212,并且,解码器204可以包括解码模块242和时间上采样模块241。115.在一些示例中,如图1所示流程中的步骤103将第一语音的梅尔频率倒谱系数输入到第一编码器201进行编码,得到第一语音的内容特征,可以包括:116.第一编码器201的时间下采样模块212获取编码模块211输出的n个语音帧中包含的第一语音的内容特征,并且,第一编码器201的时间下采样模块212从获取到的n个语音帧的内容特征中去除(n-m)个语音帧的内容特征,得到m个语音帧包含第一语音的内容特征,m小于n,例如,m≈n/r。例如,第一编码器201的时间下采样模块212可以从n个语音帧的内容特征中去除连续时间段内的(n-m)个语音帧的内容特征;117.第一编码器201的时间下采样模块212将时间下采样后的m个语音帧的内容特征输入到解码器204的时间上采样模块241执行时间上采样。118.在一些示例中,如图1所示流程中的步骤103将第一语音的基频特征、以及根据目标对象的标记信息索引到的目标对象的音色特征输入到声学特征转换模型的解码器204,以促使解码器204对第一编码器201编码后的内容特征进行解码,得到目标对象的声学特征,可以包括:119.解码器204的时间上采样模块241在m个语音帧的内容特征中增加(n-m)个语音帧的内容特征,得到包含n个语音帧的内容特征。例如,将m个语音帧中的每一个语音帧的内容特征,连续复制到m个语音帧的预设连续时间段处;并且,解码器204可以基于输入的第一语音的基频特征、以及目标对象的音色特征,对第一编码器201编码后经时间上采样的内容特征进行解码。120.从图2中还可以看出,包含第一编码器201和解码器204的声学特征转换模型可以为神经网络模型,在此情况下:121.第一编码器201的编码模块211可以顺序包含从输入到时间下采样模块212逐层部署的卷积神经网络层、实例归一化(instancenormalization)层、激活函数层、循环神经网络(recurrentneuralnetwork,rnn)层,其中,该编码模块211的激活函数层可以选用线性整流函数(rectifiedlinearunit,relu),并且,该编码模块211的循环神经网络层可以选用双向记忆网络(bi-longshort-termmemory,blstm);122.解码器204的解码模块242可以包含从时间上采样模块241到输出逐层部署的循环神经网络层、卷积神经网络层、批量初始化(batchnormalization)层、激活函数层、循环神经网络层、以及线性化处理层,其中,该解码模块242的激活函数层也可以选用线性整流函数,并且,该解码模块242的循环神经网络层可以选用长短期记忆网络(longshort-termmemory,lstm)。123.在一些示例中,声学特征转换模型可以被训练为具有内容特征的一致性保持能力,若如此,基于目标对象生成的目标对象的第二语音包含的内容特征可以与第一语音的内容特征相同,从而,可以摆脱对语音识别系统的依赖,以无监督的方式实现内容特征和发声者音色特征的解耦。124.图3是根据一示例性实施例示出的用于语音处理的声学特征转换模型的模型训练方法的流程图。如图3所示的模型训练方法意图使如图1所示的语音处理方法所使用的声学特征转换模型,被训练为具有内容特征的一致性保持能力,并且,该模型训练方法可以认为是语音处理方法在如图1所示流程之前被进一步执行的步骤。请参见图3,该模型训练方法可以包括:125.步骤301,获取样本对象的样本语音。126.步骤302,确定样本语音的梅尔频率倒谱系数及样本语音的基频特征。127.步骤303,将样本语音的梅尔频率倒谱系数、样本语音的基频特征和该样本目标对象的标记信息输入到声学特征转换模型进行声学特征转换,得到该样本对象的训练声学特征。128.在一些示例中,训练声学特征可以是梅尔频谱特征。129.在一些示例中,步骤303可以具体包括:130.将样本对象的样本语音的梅尔频率倒谱系数输入到编码器进行编码,得到样本语音的第一内容特征,其中,本步骤中的编码器,可以是图2中示出的可被称为内容特征编码器的第一编码器201;131.将样本语音的基频特征、以及根据样本对象的标记信息索引到的样本对象的发声者信息输入到声学特征转换模型的解码器,以促使该解码器基于样本语音的基频特征、以及样本对象的发声者信息,对第一内容特征输入到声学特征转换模型的解码器进行解码,得到样本对象的训练声学特征。132.步骤304,基于样本语音的梅尔频谱特征与训练声学特征,确定重建损失。133.步骤305,基于重建损失对声学特征转换模型进行训练。134.如图3所示的上述流程可以是循环执行的流程,并且,该流程的循环执行可以直至重建损失收敛达到预设的期望值而停止。由于重建损失可以衡量模型输出的重建声学特征(即训练声学特征)和输入语音的真实声学特征(即样本语音的梅尔普特征)之间的区别,因此,重建损失的收敛可以表示声学特征转换模型被训练为具有内容特征的一致性保持能力。135.除了重建损失以外,本公开的实施例还可以进一步引入内容损失作为另外一个衡量指标。内容损失用于衡量输入语音的内容特征经第一编码器201编码后的结果与重建特征经第一编码器201编码后的结果之间的差异。相比于关注声学特征级别损失的重建损失,该内容损失更关注于比声学特征级别更具体的内容特征的损失程度。136.若进一步引入内容损失,则,在一些示例中,还可以在步骤303得到样本语音的第一内容特征之后进一步包括:137.基于训练声学特征生成样本对象的梅尔频率倒谱系数,将该梅尔频率倒谱系数输入到编码器进行编码,得到样本语音的第二内容特征,在一些示例中,若训练声学特征为梅尔频谱特征,则,可以通过对训练声学特征执行dct处理得到训练结果的梅尔频率倒谱系数;基于第一内容特征与第二内容特征,确定内容损失。138.在此情况下,步骤405可以基于重建损失和内容损失,对声学特征转换模型进行训练。139.图4是根据一示例性实施例示出的声学特征转换模型的训练原理图。在图4中,示出了基于重建损失和内容损失对声学特征转换模型进行训练的过程。并且,基于重建损失和内容损失对声学特征转换模型进行训练的过程,可以包括:140.基于重建损失和内容损失确定整体损失;141.基于整体损失对声学特征转换模型进行训练。142.例如,整体损失ltotal可以表示为如下的表达式:143.ltotal=lrecon+λlconsist;其中,lrecon为重建损失,lconsist为内容损失,λ为预设权重,例如,λ的取值可以在[0,1]的区间内。[0144]并且,基于重建损失和内容损失对声学特征转换模型进行训练的过程,可以被循环执行至整体损失ltotal收敛达到预设的期望值而停止。[0145]若采用第一编码器201对第一语音的梅尔频率倒谱系数的编码结果时间下采样、解码器204对时间下采样后的编码结果时间上采样后得到目标对象的声学特征,则,在训练过程中,第一编码器201对样本语音的梅尔频率倒谱系数的编码结果同样采用时间下采样,并且,解码器204同样对时间下采样后的编码结果时间上采样的方式。[0146]在此情况下,如图3所示流程中的步骤302可以包括:将样本对象的样本语音的梅尔频率倒谱系数输入到编码模块211进行编码,得到初始的第一内容特征;将初始的第一内容特征输入到时间下采样模块212执行时间下采样,得到时间下采样后的第一内容特征。[0147]并且,如图3所示流程中的步骤303可以包括:将时间下采样后的第一内容特征输入到时间上采样模块241执行时间上采样,得到时间上采样后的第一内容特征;将时间上采样后的第一内容特征输入到解码模块242进行解码,得到样本对象的训练声学特征。[0148]在一些示例中,如图3所示流程中的步骤302将初始的第一内容特征输入到时间下采样模块212执行时间下采样,得到时间下采样后的第一内容特征,可以具体包括:从包含n个语音帧、初始的第一内容特征中去除(n-m)个语音帧,得到包含m个语音帧、时间下采样后的第一内容特征。例如,从包含n个语音帧、初始的第一内容特征中去除(n-m)个语音帧包括:从初始的第一内容特征中去除对应于预定的连续时间段的语音帧。[0149]在一些示例中,如图3所示流程中的步骤303将时间下采样后的第一内容特征输入到时间上采样模块241执行时间上采样,得到时间上采样后的第一内容特征,可以具体包括:在包含m个语音帧、时间下采样后的第一内容特征中增加(n-m)个语音帧,得到包含n个语音帧、时间上采样后的第一内容特征;其中m小于n。例如,在包含m个语音帧、时间下采样后的第一内容特征中增加(n-m)个语音帧包括:将m个语音帧中的每一个语音帧,分别复制到对应于该每一个语音帧的各自连续时间段处。[0150]图5是根据一示例性实施例示出的语音转换处理装置的结构图。如图5所示,本公开实施例还提供了一种语音处理装置,包括:[0151]获取模块501,被配置为获取原始对象的第一语音;[0152]确定模块502,被配置为确定第一语音的梅尔频率倒谱系数及第一语音的基频特征;[0153]转换模块503,被配置为基于所述梅尔频率倒谱系数、所述基频特征以及目标对象的音色特征,确定所述目标对象的声学特征;[0154]生成模块504,被配置为基于目标对象的声学特征生成目标对象的第二语音。[0155]基于上述结构,本公开实施例中的语音转换装置可以使用梅尔频率倒谱系数实现语音转换,由于包含了内容特征的梅尔频率倒谱系数中滤除了大部分发声者的音色特征,因而以梅尔频率倒谱系数作为声学特征转换模型的输入声学特征,有利于语音转换中发声者的音色特征和内容特征的解耦处理,从而可以降低语音转换的解耦压力,进而可以省略在模型中设置的对抗网络。[0156]在一些示例中,上述语音转换装置可以使用深度学习中的声学特征转换模型实现声学特征转换。在此情况下,转换模块503可以被配置为:利用声学特征转换模型基于所述基频特征以及所述音色特征,对所述梅尔频率倒谱系数进行声学特征转换,得到目标对象的声学特征。[0157]在一些示例中,上述语音转换装置使用的声学特征转换模型可以具有如图2所示的形态。在此情况下,转换模块503可以被配置为:将第一语音的梅尔频率倒谱系数输入到第一编码器201,以促使第一编码器201对第一语音的梅尔频率倒谱系数包含的第一语音的内容特征进行编码,其中,第一编码器201以时间下采样方式将编码后的内容特征作为编码结果输出;将第一语音的基频特征、以及根据目标对象的标记信息索引到的目标对象的音色特征输入到声学特征转换模型的解码器204,以促使解码器204对编码结果(即第一编码器201以时间下采样方式输出的编码后的内容特征)进行时间上采样处理后,基于第一语音的基频特征、以及目标对象的音色特征对第一编码器201编码后的内容特征进行解码,得到目标对象的声学特征。[0158]基于第一编码器201对输出的时间下采样、以及解码器204对输入的时间上采样,可以在确保内容特征不丢失的情况下,滤掉输入的梅尔频率倒谱系数中包含的少量发声者音色特征和少量绝对音高信息。[0159]在一些示例中,转换模块503被配置为:将第一语音输入到所述声学特征转换模型的基频提取器;其中所述基频特征是所述基频提取器从所述第一语音中提取的。[0160]在一些示例中,转换模块503被配置为:将所述目标对象的发声者信息输入到所述声学特征转换模型的第二编码器;其中所述音色特征是所述第二编码器针对所述发声者信息编码确定的。[0161]在一些示例中,声学特征转换模型被期望训练为具有内容特征的一致性保持能力,若如此,如图5所示的语音转换处理装置还可以进一步包括训练模块,被配置为:将样本对象的样本语音的梅尔频率倒谱系数、样本语音的基频特征和该样本对象的音色特征输入到声学特征转换模型进行声学特征转换,得到该样本对象的训练声学特征;基于样本语音的梅尔频谱与训练声学特征,确定重建损失;基于重建损失对声学特征转换模型进行训练。[0162]在一些示例中,为了得到该样本对象的训练声学特征,训练模块可以被具体配置为:将样本对象的样本语音的梅尔频率倒谱系数输入到声学特征转换模型的第一编码器进行编码,得到样本语音的第一内容特征;将样本语音的基频特征、样本对象的音色特征和第一内容特征输入到声学特征转换模型的解码器进行解码,得到样本对象的训练声学特征。[0163]除了重建损失以外,还可以引入内容损失作为另外一个衡量指标,则,训练模块进一步被配置为:基于训练声学特征生成样本对象的重构梅尔频率倒谱系数;将样本对象的重构梅尔频率倒谱系数输入到第一编码器进行编码,得到样本语音的第二内容特征;基于第一内容特征与第二内容特征,确定内容损失;其中训练模块被配置为按照如下方式基于重建损失对声学特征转换模型进行训练:基于重建损失和内容损失对声学特征转换模型进行训练。[0164]在一种可能实施方式中,训练模块被配置为:根据所述重建损失和所述内容损失,确定整体损失;基于所述整体损失对所述声学特征转换模型进行训练。[0165]在一种可能实施方式中,训练模块被配置为:将所述重建损失和所述内容损失的总和,确定为所述整体损失。[0166]在一种可能实施方式中,训练模块被配置为:利用dct滤波器,将所述训练声学特征转换得到所述样本对象的重构梅尔频率倒谱系数。[0167]在一种可能实施方式中,训练模块被配置为按照如下方式基于重建损失和内容损失对声学特征转换模型进行训练:基于ltotal=lrecon+λlconsist确定整体损失ltotal,其中lrecon为重建损失,lconsist为内容损失;λ为预设权重,例如,λ的取值可以在[0,1]的区间内;基于整体损失ltotal对声学特征转换模型进行训练。[0168]无论是基于重建损失对声学特征转换模型进行训练,还是基于重建损失和内容损失对声学特征转换模型进行训练,上述语音转换处理装置基于目标对象生成的目标对象的第二语音包含的内容特征都可以与第一语音的内容特征相同,从而,可以摆脱对语音识别系统的依赖,以无监督的方式实现内容特征和发声者音色特征的解耦。[0169]在一些示例中,若第一编码器201对输出的时间下采样、以及解码器204对输入的时间上采样,则,在训练过程中,从第一编码器201得到的第一内容特征是通过时间下采样的方式输出的,并且,第一内容特征被输出到解码器204后是被解码器204以时间上采样方式处理后才执行解码的。[0170]本技术实施例还提供了一种电子设备。图6是根据一示例性实施例示出的一种电子设备的结构图。如图6所示,该电子设备600可以包括:处理器601;用于存储处理器601可执行指令的存储器602;其中,处理器601被配置为:执行存储器602上所存放的可执行指令时,实现本公开实施例所提供的一种语音转换处理方法,并且,该语音转换处理方法中还可以进一步包括前述的模型训练方法的步骤。[0171]可以理解的是,该电子设备600可以是服务器或是终端设备,在具体应用中,该终端设备可以为移动电话、计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。[0172]图7是根据一示例性实施例示出的一种语音转换处理装置的结构图。例如,装置700可以是:智能手机、平板电脑、动态影像专家压缩标准音频层面3播放器(movingpictureexpertsgroupaudiolayeriii,mp3)、动态影像专家压缩标准音频层面4(movingpictureexpertsgroupaudiolayeriv,mp4)播放器、笔记本电脑或台式电脑。装置700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。[0173]通常,装置700包括有:处理器701和存储器702。[0174]处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(centralprocessingunit,cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有图像处理器(graphicsprocessingunit,gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括人工智能(artificialintelligence,ai)处理器,该ai处理器用于处理有关机器学习的计算操作。[0175]存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。[0176]在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本公开中各个实施例提供的语音转换处理方法,并且,该语音转换处理方法中还可以进一步包括前述的模型训练方法的步骤。在一些实施例中,装置700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。[0177]外围设备接口703可被用于将输入/输出(input/output,i/o)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。[0178]射频电路704用于接收和发射射频(radiofrequency,rf)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或无线保真(wirelessfidelity,wifi)网络。在一些实施例中,射频电路704还可以包括近距离无线通信(nearfieldcommunication,nfc)有关的电路,本公开对此不加以限定。[0179]显示屏705用于显示用户界面(userinterface,ui)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置装置700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在装置700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在装置700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用液晶显示屏(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等材质制备。[0180]摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(virtualreality,vr)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。[0181]音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在装置700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。[0182]定位组件708用于定位装置700的当前地理位置,以实现导航或基于位置的服务(locationbasedservice,lbs)。定位组件708可以是基于美国的全球定位系统(globalpositioningsystem,gps)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。[0183]电源709用于为装置700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以支持快充技术。[0184]在一些实施例中,装置700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。[0185]加速度传感器711可以检测以装置700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。[0186]陀螺仪传感器712可以检测装置700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对装置700的3d动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。[0187]压力传感器713可以设置在装置700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在装置700的侧边框时,可以检测用户对装置700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。[0188]指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置装置700的正面、背面或侧面。当装置700上设置有物理按键或厂商logo时,指纹传感器714可以与物理按键或厂商logo集成在一起。[0189]光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。[0190]接近传感器716,也称距离传感器,通常设置在装置700的前面板。接近传感器716用于采集用户与装置700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与装置700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与装置700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。[0191]本领域技术人员可以理解,上述的结构并不构成对装置700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。[0192]图8是根据一示例性实施例示出的另一种语音转换处理装置的结构图。例如,装置800可以被提供为一服务器。参照图8,装置800包括处理组件801,其进一步包括一个或多个处理器,以及由存储器802所代表的存储器资源,用于存储可由处理组件801的执行的指令,例如应用程序。存储器802中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件801被配置为执行指令,以执行上述的语音转换处理方法,并且,该语音转换处理方法中还可以进一步包括前述的模型训练方法的步骤。[0193]装置800还可以包括一个电源组件803被配置为执行装置801的电源管理,一个有线或无线网络接口804被配置为将装置800连接到网络,和一个输入输出接口805。装置800可以操作基于存储在存储器802的操作系统,例如windowsserver,macosx,unix,linux,freebsd或类似。[0194]另外,本技术实施例还提供了一种非临时性计算机可读存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本技术实施例所提供的一种语音转换处理方法的步骤,并且还可以执行该语音转换处理方法中可能进一步包括前述的模型训练方法的步骤。计算机可读存储介质可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本发明保护的范围。在本发明公开的实施方式中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。[0195]另外,本技术实施例还提供了一种计算机程序产品,当计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述的语音转换处理方法的步骤,并且还可以执行该语音转换处理方法中可能进一步包括前述的模型训练方法的步骤。[0196]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本
技术领域
:中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。[0197]应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1