语音克隆方法、训练方法、装置和介质与流程

文档序号：28917823发布日期：2022-02-16 11:54阅读：539来源：国知局

1.本发明实施例涉及语音处理技术领域，特别是涉及一种语音克隆方法、训练方法、装置和介质。

背景技术：

2.语音克隆技术，指的是使用克隆对象的少量音频，来完成对克隆对象的声音的克隆。通常，语音克隆技术能够根据输入的任意文本，生成逼近克隆对象的声音的目标音频。
3.传统的语音克隆方法通常包括：首先，训练多人的语音克隆模型；其次，采集克隆对象的音频；对克隆对象的音频，进行降噪、特征提取、时长切分等一系列操作，以得到对应的处理结果；接着利用上述处理结果，对多人的语音克隆模型进行自适应训练，以对多人的语音克隆模型进行调整，以及得到克隆对象的语音克隆模型，该克隆对象的语音克隆模型用于对该克隆对象进行声音克隆。
4.在实际应用中，上述自适应训练对克隆对象的音频数据量有一定的要求，通常要求克隆对象的音频为几十到上百句，这增加了克隆对象的音频的获取难度。而且，自适应训练需要额外的训练时间，这影响了处理效率。此外，自适应训练对设备性能有一定的要求，这影响了语音克隆方法的使用范围，例如，目前语音克隆方法仅仅能够适用于服务端。

技术实现要素：

5.如何降低克隆对象的音频数据量，如何提高语音克隆的处理效率和适用范围，是本领域技术人员需要解决的技术问题。鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音克隆方法、装置和介质。
6.为了解决上述问题，本发明公开了一种训练方法，包括：
7.确定训练样本对应的声纹特征；
8.根据所述训练样本对应的声纹特征，训练声学模型。
9.为了解决上述问题，本发明公开了一种语音克隆方法，包括：
10.接收文本和克隆对象的原始音频；
11.确定所述原始音频对应的声纹特征；
12.将所述文本和所述声纹特征输入声学模型，以得到对应的声学特征；其中，所述声学模型为根据训练样本对应的声纹特征得到；
13.根据所述声学特征，确定对应的目标音频。
14.另一方面，本发明实施例公开了一种训练装置，包括：
15.声纹确定模块，用于确定训练样本对应的声纹特征；
16.声学训练模块，用于根据所述训练样本对应的声纹特征，训练声学模型。
17.另一方面，本发明实施例公开了一种语音克隆装置，包括：
18.接收模块，用于接收文本和克隆对象的原始音频；
19.声纹确定模块，用于确定所述原始音频对应的声纹特征；
20.声学确定模块，用于将所述文本和所述声纹特征输入声学模型，以得到对应的声学特征；其中，所述声学模型为根据训练样本对应的声纹特征得到；
21.音频确定模块，用于根据所述声学特征，确定对应的目标音频。
22.再一方面，本发明实施例公开了一种用于训练语音克隆模型的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。
23.再一方面，本发明实施例公开了一种用于语音克隆的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。
24.本发明实施例还公开了一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。
25.本发明实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行前述的方法。
26.本发明实施例包括以下优点：
27.本发明实施例根据训练样本对应的声纹特征，训练得到声学模型。其中，声学模型可以表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系，能够得到与输入相匹配的输出。由于声学模型的输入包括声纹特征，因此，本发明实施例可以基于声学模型，得到与声纹特征相匹配的声学特征。
28.本发明实施例的语音克隆过程中，克隆对象的原始音频用于确定声纹特征。由于声纹特征的确定对音频数据量的要求较低，因此，本发明实施例能够降低对于克隆对象的原始音频的要求，也即，能够降低克隆对象的音频数据量。在实际应用中，克隆对象录制一句话或多句话，即可实现语音克隆，因此能够提升用户体验。
29.并且，本发明实施例的语音克隆流程的原理具体为：根据原始音频对应的声纹特征、以及声学模型表征的输入(包含声纹特征)与声学特征之间的映射关系，实现语音克隆。由于可以节省原始音频对应的自适应训练，故本发明实施例的语音克隆流程可以节省自适应训练的时间，能够提高处理效率；并且，本发明实施例的语音克隆流程可以降低对于设备性能的要求，既能够适用于服务端，又能够适用于客户端，因此能够增加适用范围。
附图说明
30.图1是本发明实施例的一种训练方法的步骤流程图；
31.图2是本发明实施例的一种声学模型的训练流程的示意；
32.图3是本发明实施例的一种语音克隆模型的结构示意图；
33.图4是本发明实施例的一种语音克隆方法的步骤流程图；
34.图5是本发明实施例的一种声学模型的使用流程的示意；
35.图6是本发明实施例的一种语音克隆装置的结构框图；
36.图7是本发明实施例的一种训练装置的结构框图；
37.图8是本发明实施例的一种用于语音克隆的装置1300的框图；及
38.图9是本发明实施例的一种服务端的结构示意图。
具体实施方式
39.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
40.本发明实施例可以应用于语音克隆场景。语音克隆场景，可用于根据输入的任意文本和克隆对象的少量音频，生成逼近克隆对象的声音的目标音频。
41.针对如何降低克隆对象的音频数据量、如何提高语音克隆的处理效率和适用范围的技术问题，本发明实施例提供了一种语音克隆方法，该方法具体包括：接收文本和克隆对象的原始音频；确定该原始音频对应的声纹特征；将该文本和该声纹特征输入声学模型，以得到对应的声学特征；其中，该声学模型可以为根据训练样本对应的声纹特征得到；根据该声学特征，确定对应的目标音频。
42.本发明实施例在声学模型的训练过程和语音克隆过程中使用了声纹特征。声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点，因此能够表征用户的身份。
43.本发明实施例根据训练样本对应的声纹特征，训练得到声学模型。其中，声学模型可以表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系，能够得到与输入相匹配的输出。由于声学模型的输入包括声纹特征，因此，本发明实施例可以基于声学模型，得到与声纹特征相匹配的声学特征。
44.本发明实施例的语音克隆过程中，克隆对象的原始音频用于确定声纹特征。由于声纹特征的确定对音频数据量的要求较低，因此，本发明实施例能够降低对于克隆对象的原始音频的要求，也即，能够降低克隆对象的音频数据量。在实际应用中，克隆对象录制一句话或多句话，即可实现语音克隆，因此能够提升用户体验。
45.并且，本发明实施例的语音克隆流程的原理具体为：根据原始音频对应的声纹特征、以及声学模型表征的输入(包含声纹特征)与声学特征之间的映射关系，实现语音克隆。由于可以节省原始音频对应的自适应训练，故本发明实施例的语音克隆流程可以节省自适应训练的时间，能够提高处理效率；并且，本发明实施例的语音克隆流程可以降低对于设备性能的要求，既能够适用于服务端，又能够适用于客户端，因此能够增加适用范围。
46.本发明实施例提供的语音克隆方法可应用于客户端与服务端对应的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。
47.可选地，客户端可以运行在终端上，上述终端具体包括但不限于：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，moving picture experts group audio layer iii)播放器、mp4(动态影像专家压缩标准音频层面4，moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
48.客户端可以对应于网站、或者app(应用程序，application)。例如，客户端可以对应有语音处理app、语音克隆app等应用程序。
49.在训练阶段，服务端可以执行训练方法，以使训练得到的声学模型能够表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系。
50.在语音克隆阶段，服务端可以接收客户端发送的文本和原始音频，并利用语音克
隆方法得到目标音频，并向客户端返回目标音频。或者，客户端可以从服务端获得训练后的声学模型，并利用语音克隆方法得到目标音频，并向用户泛化目标音频。
51.方法实施例一
52.本实施例对确定声纹特征的过程进行说明。
53.本实施例中，根据预设语音库，训练声纹模型；该声纹模型用于根据声学特征得到声纹特征。
54.在具体实现中，预设语音库可以为第一语音库。第一语音库中可以包括符合n(n可以为自然数)个讲话人的语音样本，以使训练得到的声纹模型具备声纹特征的提取能力。本发明实施例对于n的具体数值不加以限制，例如，n的数量级可以为百、千、万等。
55.第一语音库中语音样本的环境可以为多种。例如，语音库中语音样本的环境可以包括：室内环境和室外环境。又如，语音库中语音样本的环境可以包括：噪声环境和无噪声环境等。多环境的语音样本，能够提高声纹模型的鲁棒性。
56.在本发明的一个可选实施例中，可基于语音样本对数学模型进行训练，以得到声纹模型，声纹模型可表征输入数据(第一声学特征)和输出数据(声纹特征)之间的映射关系。
57.数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型，数学模型是针对参照某种事物系统的特征或数量依存关系，采用数学语言，概括地或近似地表述出的一种数学结构，这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合，通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外，还有用其他数学工具，如代数、几何、拓扑、数理逻辑等描述的模型。其中，数学模型描述的是系统的行为和特征而不是系统的实际结构。其中，可采用机器学习、深度学习方法等方法进行数学模型的训练，机器学习方法可包括：线性回归、决策树、随机森林等，深度学习方法可包括：卷积神经网络(convolutional neural networks,cnn)、长短期记忆网络(long short-term memory，lstm)、门控循环单元(gated recurrent unit，gru)等。
58.作为声纹模型的输入，第一声学特征可以为未经过声学模型的处理的声学特征；第一声学特征与讲话人声纹特征之间可以为弱相关关系。而声学模型输出的声学特征是能够反映讲话人声纹特征的、与讲话人声纹特征强相关的声学特征。为了方便区别，将声学模型输出的声学特征表示为第二声学特征。第一声学特征与说话人声纹特征之间的相关性可以弱于第二声学特征与说话人声纹特征之间的相关性。
59.在实际应用中，第一声学特征的例子可以包括：线性预测倒谱系数(lpcc，linearpredictioncoefficients)、梅尔频率倒谱系数(mfcc，mel frequency cepstrum coefficient)等。
60.在声纹模型训练完成后，可以利用训练后的声纹模型，确定任意音频对应的声纹特征。以原始音频对应声纹特征的确定为例，可以提取原始音频的第一声学特征，并将原始音频的第一声学特征输入声纹模型，以得到声纹模型输出的声纹特征。
61.方法实施例二
62.本实施例对声学模型的训练过程进行说明。
63.参照图1，示出了本发明实施例的一种训练方法的步骤流程图，该方法具体可以包
括如下步骤：
64.步骤101、确定训练样本对应的声纹特征；
65.步骤102、根据该训练样本对应的声纹特征，训练声学模型。
66.图1所示方法实施例可由服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。
67.步骤101中，训练样本可以来源于第一语音库，或者，可以来源于不同于第一语音库的第二语音库。第二语音库中训练样本的数量级也可以为百、千、万等。可选地，第二语音库中训练样本可以为无噪声环境的语音，以提高声学模型的性能。
68.在具体实现中，可以提取训练样本的第一声学特征，并将训练样本的第一声学特征输入声纹模型，以得到声纹模型输出的、训练样本对应的声纹特征。
69.步骤102中，可基于训练样本对数学模型进行训练，以得到声学模型，声学模型可以表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系。
70.在训练过程中，除了将文本、声纹特征作为声学模型的输入之外，还可以将实际时长特征、第一声学特征、实际韵律特征等作为声学模型的输入。
71.文本可以为训练样本表征的语音对应的文本。可以基于语音识别技术或者人工标注技术，确定训练样本对应的文本。
72.时长特征可用于表征文本所对应音素的时长。时长特征能够刻画出语音中的抑扬顿挫与轻重缓急。实际时长特征可用于确定声学模型在时长预测方面的误差。
73.韵律特征可以包含情感、语速、语音质量等级等等信息，能够使语音更加自然，富有情感。实际韵律特征可用于确定声学模型在韵律预测方面的误差。在实际应用中，可以利用vae(变分自动编码器，variational auto-encoder)，根据文本和声纹特征，确定对应的实际韵律特征。
74.第一声学特征可用于确定声学模型在声学预测方面的预测。
75.在本发明的一种实现方式中，声学模型具体可以包括：时长预测模块、韵律预测模块和声学预测模块。
76.其中，时长预测模型用于预测文本和声纹特征对应的时长特征。时长预测模型的输入可以包括：文本和声纹特征，输出可以包括：预测时长特征。
77.韵律预测模块用于预测文本和声纹特征对应的韵律特征。韵律预测模块的输入可以包括：文本和声纹特征，输出可以包括：预测韵律特征。
78.声学预测模块用于预测文本、声纹特征、时长特征和韵律特征对应的声学特征。声学预测模块的输入可以包括：文本、声纹特征、时长特征和韵律特征，输出可以包括：第二声学特征。
79.在本发明的另一种实现方式中，声学模型除了包括：时长预测模块、韵律预测模块和声学预测模块之外，还可以包括：韵律提取模块，该韵律提取模块用于提取训练样本对应的实际韵律特征。可以理解，韵律提取模块设置在声学模型的内部或外部，均是可行的，本发明实施例对于韵律提取模块的具体位置不加以限制。
80.在训练声学模型的过程中，可以确定误差，以在反向传播过程中，根据误差对时长预测模块、韵律预测模块和声学预测模块的参数进行更新，以使声学模型的训练收敛，进而使训练后的声学模型能够表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关
系。声学模型的训练收敛条件可以包括：误差小于预设误差值等，可以理解，本发明实施例对于具体的训练收敛条件不加以限制。
81.在一种实现方式中，上述训练声学模型，具体可以包括：
82.根据训练样本对应的声纹特征，确定时长预测模块对应的第一误差，确定韵律预测模块对应的第二误差，以及，确定声学预测模块对应的第三误差；
83.对第一误差、第二误差和第三误差进行融合，得到对应的第一融合误差，以在反向传播过程中，根据第一融合误差对时长预测模块、韵律预测模块和所述声学预测模块的参数进行更新。
84.其中，第一误差可以为时长预测模型的输出与实际时长特征之间的误差。第二误差可以为韵律预测模型的输出与实际韵律特征之间的误差。第三误差可以为声学预测模块的输出与第一声学特征之间的误差。
85.在一种可选的实现方式中，第三误差可以为对抗误差。具体地，可以利用gan(生成对抗网络，generative adversarial networks)，根据声学预测模块的输出与第一声学特征，确定对抗误差。gan具有流程简单和硬件压力小的优点。
86.本发明实施例对第一误差、第二误差和第三误差进行融合，并将得到的第一融合误差用于三个模块的反向传播过程，能够使三个模块的参数满足时长预测方面、韵律预测方面和声学预测方面的需求。
87.在一种实现方式中，上述训练声学模型，具体可以包括：
88.根据训练样本对应的声纹特征，确定时长预测模块对应的第一误差，确定韵律预测模块对应的第二误差，以及，确定声学预测模块对应的第三误差；
89.针对声学预测模块输出的预测声学特征，确定对应的预测声纹特征；
90.根据声纹特征和预测声纹特征，确定第四误差；
91.对第一误差、第二误差、第三误差和第四误差进行融合，得到对应的第二融合误差，以在反向传播过程中，根据第二融合误差对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新。
92.第二融合误差可以为第一误差、第二误差、第三误差和第四误差的融合。第四误差可以表征声学模型在声纹方面的误差，将第四误差的成分应用于声学模型的反向传播，能够提高声学模型与输入的声纹特征之间的匹配度。
93.在具体实现中，可以将预测声学模型作为声纹模型的输入，以得到声纹模型输出的预测声纹模型。
94.参照图2，示出了本发明实施例的一种声学模型的训练流程的示意，其中，在声学模型的训练流程中，声学模型的输入可以包括：文本、实际时长特征、实际韵律特征、声纹特征1和声学特征1。在具体实现中，可以按照传统的声学特征的提取方法，确定训练样本对应的声学特征1，并将声学特征1输入声纹模型，以得到声纹模型输出的声纹特征1。
95.声学模型具体可以包括：时长预测模块、韵律预测模块和声学预测模块。其中，时长预测模型的输出对应有第一误差loss1，韵律预测模块的输出对应有第二误差loss2，声学预测模块的输出对应有第三误差loss3和第四误差loss4。对第一误差、第二误差、第三误差和第四误差进行融合，对应的融合方式可以包括但不限于：求和、加权平均等，将得到的第二融合误差loss用于整个声学模型的反向传播过程中，能够使三个模块的参数满足时长
预测方面、韵律预测方面、声学预测方面和声纹匹配方面的需求，因此能够提高声学模型与输入的声纹特征之间的匹配度。
96.方法实施例三
97.本实施例对声码器的训练过程进行说明。
98.本实施例中，声码器可用于将声学特征转换为可播放的语音波形。可基于训练样本对数学模型进行训练，以得到声码器，声码器可以表征输入(声学特征等)与输出(语音)之间的映射关系。
99.声码器的训练过程可以包括：利用训练后的声学模型，确定训练样本及其声纹特征对应的训练声学特征；根据该训练声学特征，对声码器进行训练；所述声码器用于根据声学特征得到音频。
100.声学模型和声码器可以使用相同的训练样本，可以根据该训练样本，依次进行声学模型和声码器的训练。具体地，在声学模型被训练完成后，将训练样本对应的文本和声纹特征输入训练后的声学模型，以得到训练后的声学模型输出的训练声学特征。在声码器的训练过程中，可以将该训练声学特征作为声码器的输入。还可以根据声码器的输出与该训练样本对应的语音，确定声码器的损失，并根据该损失进行反向传播，以实现声码器的训练收敛。
101.参照图3，示出了本发明实施例的一种语音克隆模型的结构示意图，该语音克隆模型具体可以包括：声纹模型、声学模型和声码器，其中，声纹模型根据输入的语音，输出声纹特征；声学模型根据输入的文本和声纹模型输出的声纹特征，输出声学特征；声码器根据声学模型输出的声学特征，输出目标音频。
102.综上，本发明实施例将声纹技术用于语音克隆，基于声纹模型的训练，构建超多用户的声纹空间，可以节省原始音频的自适应训练。
103.其次，用户只需录制一句话的原始音频即可实现语音克隆，能够简化处理流程，提升用户体验。
104.再者，由于可以节省原始音频的自适应训练，故语音克隆模型的训练可以离线允许，相对传统克隆技术需要云端训练，能够降低使用成本，降低对于设备的性能要求。
105.方法实施例四
106.参照图4，示出了本发明实施例的一种语音克隆方法的步骤流程图，该方法具体可以包括如下步骤：
107.步骤401、接收文本和克隆对象的原始音频；
108.步骤402、确定该原始音频对应的声纹特征；
109.步骤403、将该文本和该声纹特征输入声学模型，以得到对应的声学特征；其中，该声学模型可以为根据训练样本对应的声纹特征得到；
110.步骤404、根据该声学特征，确定对应的目标音频。
111.图4所示方法实施例可由客户端或服务端执行，可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。
112.步骤401中，克隆对象可以为原始音频对应的讲话人。原始音频可以对应一句话或多句话。文本可以表征待转换为目标音频的文本。文本和克隆对象的原始音频均可由用户确定。
113.步骤402中，可以提取原始音频的第一声学特征，并将原始音频的第一声学特征输入声纹模型，以得到声纹模型输出的声纹特征。
114.步骤403中，根据训练样本对应的声纹特征，训练得到声学模型。，以使声学模型能够表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系。
115.在一种实现方式中，该声学模型可以包括：时长预测模块、韵律预测模块和声学预测模块；在训练该声学模型的反向传播过程中，根据该时长预测模块、该韵律预测模块和该声学预测模块对应的第一融合误差，对该时长预测模块、该韵律预测模块和该声学预测模块的参数进行更新。
116.在另一种实现方式中，该声学模型可以包括：时长预测模块、韵律预测模块和声学预测模块；在训练该声学模型的反向传播过程中，根据该时长预测模块、该韵律预测模块、该声学预测模块、以及声纹误差对应的第二融合误差，对该时长预测模块、该韵律预测模块和该声学预测模块的参数进行更新；其中，该声纹误差表征基于该声学预测模块的输出得到的预测声纹特征、与训练样本对应的声纹特征之间的误差。
117.参照图5，示出了本发明实施例的一种声学模型的使用流程的示意，其中，声学模型的输入包括：文本和原始音频对应的声纹特征，声学模型可以包括：时长预测模块、韵律预测模块和声学预测模块。其中，时长预测模型可以预测文本和声纹特征对应的时长特征；韵律预测模块可以预测文本和声纹特征对应的韵律特；声学预测模块可以根据文本、声纹特征、时长预测模块的输出和韵律预测模块的输出，对声学特征进行预测，并输出预测得到的声学特征。
118.步骤404中，可以将该声学特征输入声码器，以得到声码器输出的目标音频。在实际应用中，可以将目标音频输出给用户。
119.综上，本发明实施例的语音克隆方法，根据训练样本对应的声纹特征，训练得到声学模型。其中，声学模型可以表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系，能够得到与输入相匹配的输出。由于声学模型的输入包括声纹特征，因此，本发明实施例可以基于声学模型，得到与声纹特征相匹配的声学特征。
120.此外，本发明实施例的语音克隆过程中，克隆对象的原始音频用于确定声纹特征。由于声纹特征的确定对音频数据量的要求较低，因此，本发明实施例能够降低对于克隆对象的原始音频的要求，也即，能够降低克隆对象的音频数据量。在实际应用中，克隆对象录制一句话或多句话，即可实现语音克隆，因此能够提升用户体验。
121.并且，本发明实施例的语音克隆流程的原理具体为：根据原始音频对应的声纹特征、以及声学模型表征的输入(包含声纹特征)与声学特征之间的映射关系，实现语音克隆。由于可以节省原始音频对应的自适应训练，故本发明实施例的语音克隆流程可以节省自适应训练的时间，能够提高处理效率；并且，本发明实施例的语音克隆流程可以降低对于设备性能的要求，既能够适用于服务端，又能够适用于客户端，因此能够增加适用范围。
122.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。
123.装置实施例
124.参照图6，示出了本发明的一种语音克隆装置实施例的结构框图，上述装置具体可以包括：
125.接收模块601，用于接收文本和克隆对象的原始音频；
126.声纹确定模块602，用于确定该原始音频对应的声纹特征；
127.声学确定模块603，用于将该文本和该声纹特征输入声学模型，以得到对应的声学特征；其中，该声学模型为根据训练样本对应的声纹特征得到；
128.音频确定模块604，用于根据该声学特征，确定对应的目标音频。
129.可选地，该声学模型可以包括：时长预测模块、韵律预测模块和声学预测模块；
130.在训练该声学模型的反向传播过程中，根据该时长预测模块、该韵律预测模块和该声学预测模块对应的第一融合误差，对该时长预测模块、该韵律预测模块和该声学预测模块的参数进行更新。
131.可选地，该声学模型可以包括：时长预测模块、韵律预测模块和声学预测模块；
132.在训练该声学模型的反向传播过程中，根据该时长预测模块、该韵律预测模块、该声学预测模块、以及声纹误差对应的第二融合误差，对该时长预测模块、该韵律预测模块和该声学预测模块的参数进行更新；其中，该声纹误差表征基于该声学预测模块的输出得到的预测声纹特征、与训练样本对应的声纹特征之间的误差。
133.参照图7，示出了本发明的一种训练装置实施例的结构框图，上述装置具体可以包括：
134.声纹确定模块701，用于确定训练样本对应的声纹特征；
135.声学训练模块702，用于根据该训练样本对应的声纹特征，训练声学模型。
136.可选地，声学模型包括：时长预测模块、韵律预测模块和声学预测模块；
137.该训练声学模型，包括：
138.根据该训练样本对应的声纹特征，确定该时长预测模块对应的第一误差，确定该韵律预测模块对应的第二误差，以及，确定该声学预测模块对应的第三误差；
139.对该第一误差、该第二误差和该第三误差进行融合，得到对应的第一融合误差，以在反向传播过程中，根据该第一融合误差对该时长预测模块、该韵律预测模块和该声学预测模块的参数进行更新。
140.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
141.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
142.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
143.图8是根据一示例性实施例示出的一种用于语音克隆的装置1300的框图。例如，装置1300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
144.参照图8，装置1300可以包括以下一个或多个组件：处理组件1302，存储器1304，电源组件1306，多媒体组件1308，音频组件1310，输入/输出(i/o)的接口1312，传感器组件
1314，以及通信组件1316。
145.处理组件1302通常控制装置1300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1302可以包括一个或多个处理器1320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1302可以包括一个或多个模块，便于处理组件1302和其他组件之间的交互。例如，处理组件1302可以包括多媒体模块，以方便多媒体组件1308和处理组件1302之间的交互。
146.存储器1304被配置为存储各种类型的数据以支持在设备1300的操作。这些数据的示例包括用于在装置1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
147.电源组件1306为装置1300的各种组件提供电力。电源组件1306可以包括电源管理系统，一个或多个电源，及其他与为装置1300生成、管理和分配电力相关联的组件。
148.多媒体组件1308包括在所述装置1300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1308包括一个前置摄像头和/或后置摄像头。当设备1300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
149.音频组件1310被配置为输出和/或输入音频信号。例如，音频组件1310包括一个麦克风(mic)，当装置1300处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中，音频组件1310还包括一个扬声器，用于输出音频信号。
150.i/o接口1312为处理组件1302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
151.传感器组件1314包括一个或多个传感器，用于为装置1300提供各个方面的状态评估。例如，传感器组件1314可以检测到设备1300的打开/关闭状态，组件的相对定位，例如所述组件为装置1300的显示器和小键盘，传感器组件1314还可以检测装置1300或装置1300一个组件的位置改变，用户与装置1300接触的存在或不存在，装置1300方位或加速/减速和装置1300的温度变化。传感器组件1314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1314还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
152.通信组件1316被配置为便于装置1300和其他设备之间有线或无线方式的通信。装
置1300可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1316还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频数据处理(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
153.在示例性实施例中，装置1300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
154.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1304，上述指令可由装置1300的处理器1320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
155.此外，这里需要指出的是本技术实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的第一跨设备装置和第二跨设备装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图1及图4所对应实施例中训练方法或语音克隆方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述。
156.此外，需要说明的是：本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图1和图4所对应实施例中训练方法或语音克隆方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本技术所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本技术方法实施例的描述。
157.图9是本发明实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。
158.服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
159.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或
者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
160.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
161.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
162.以上对本发明实施例所提供的一种训练方法、一种语音克隆方法、一种训练装置、一种语音克隆装置、一种用于训练的装置、一种用于语音克隆的装置和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方鹏;刘恺
技术所有人：北京搜狗科技发展有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！