声音转换方法和装置的制造方法

文档序号：9632283阅读：579来源：国知局

声音转换方法和装置的制造方法
【技术领域】
[0001] 本发明涉及语音信号技术领域，尤其涉及一种声音转换方法和装置。
【背景技术】
[0002] 声音转换的目标是将源说话人的语音转换为目标说话人的语音。近年来，由于其广泛的应用前景，声音转换技术得到了广泛的研究与关注。同样，声音转换技术在娱乐方面也有很大的应用前景，例如，可以将用户的声音转换为想要的明星的声音，或者转换为用户所熟悉的人的声音。此外，声音转换技术还可以帮助因发音器官受损而植入电子喉的病人发出高质量的语音，将说话语音变换为歌唱语音等等。另外，声音转换技术也可以作为语音合成技术的个性化音色构建的一种方法。
[0003] 现有的声音转换方法都是一对一的转换方法，即转换方法是与源说话人和目标说话人相关的，例如，如果构建源发音人到目标发音人的声音转换模型，需要获得源发音人和目标发音人足够的训练语料，用以学习他们之间的转换关系，但是该转换模型对于其他源发音人或目标发音人并不适用，这样，转换模型的灵活性差，在实际产品应用中，技术门槛尚。

【发明内容】

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此，本发明的一个目的在于提出一种声音转换方法，该声音转换方法能够有效提尚声首转换的灵活性。
[0006] 本发明的另一个目的在于提出一种声音转换装置。
[0007] 为达到上述目的，本发明第一方面实施例提出的声音转换方法，包括：预先构建声音转换模型；接收源发音人的语音信号，并提取所述语音信号的频谱特征；确定所述源发音人对应的声音转换模型；根据所述频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。
[0008] 本发明第一方面实施例提出的声音转换方法，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。
[0009] 为达到上述目的，本发明第二方面实施例提出的声音转换装置，包括：构建模块，用于预先构建声音转换模型；接收模块，用于接收源发音人的语音信号，并提取所述语音信号的频谱特征；确定模块，用于确定所述源发音人对应的声音转换模型；转换模块，用于根据所述频谱特征和所述源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。
[0010] 本发明第二方面实施例提出的声音转换装置，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。
[0011] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0013]图1是本发明一实施例提出的声音转换方法的流程示意图；
[0014]图2是本发明实施例中声音转换模型的结构示意图；
[0015]图3是本发明另一实施例提出的声音转换方法的流程示意图；
[0016]图4是本发明另一实施例提出的声音转换装置的结构示意图；
[0017]图5是本发明另一实施例提出的声音转换装置的结构示意图；
[0018]图6是本发明另一实施例提出的声音转换装置的结构示意图；
[0019]图7是本发明另一实施例提出的声音转换装置的结构示意图。
【具体实施方式】
[0020] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0021] 图1是本发明一实施例提出的声音转换方法的流程示意图，该方法包括：
[0022] S11 :预先构建声音转换模型。
[0023] 其中，声音转换模型可以是神经网络模型，参见图2,包括输入编码层21、中间转换层22、输出解码层23。
[0024] 神经网络模型可以是深度神经网络（DeepNeuralNetworks，DNN)模型、递归神经网络（RecurrentNeuralNetworks，RNN)模型、卷积神经网络（ConvolutionalNeural Networks，CNN)模型等，本申请以DNN模型为例构建声音转换模型。
[0025] 可选的，预先构建声音转换模型，可以包括：获取训练数据，并对训练数据进行预处理；提取训练数据的频谱特征；确定声音转换模型的拓扑结构；初始化声音转换模型的参数；根据训练数据的频谱特征，以及初始化后的声音转换模型的参数，训练声音转换模型。
[0026]S12:接收源发音人的语音信号，并提取语音信号的频谱特征。
[0027] 其中，频谱特征例如能量谱特征，或者梅尔域倒谱系数（MCEP)。
[0028] 本实施例中，提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25 维的频谱特征。
[0029]S13:确定源发音人对应的声音转换模型。
[0030] 可选的，确定源发音人对应的声音转换模型，可以包括：确定目标发音人，并提取目标发音人的语音信号的频谱特征；根据目标发音人的语音信号的频谱特征，调整声音转换模型的输出解码层融合权值，以及，根据源发音人的语音信号的频谱特征，调整声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型。
[0031]S14:根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。
[0032] 具体地，将提取出的源发音人语音信号的25维的频谱特征，作为源发音人对应的声音转换模型的输入，进行声音转换，以得到目标发音人的语音信息。
[0033] 本实施例中，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。
[0034]图3是本发明另一实施例提出的声音转换方法的流程示意图，该方法包括：
[0035]S301:获取训练数据，并对训练数据进行预处理。
[0036] 其中，训练数据为平行语料。
[0037] 平行语料指针对同一文本内容，不同源发音人的语音信息。
[0038] 可选的，获取训练数据，并对训练数据进行预处理，可以包括：
[0039] 将平行语料进行配对，以构造声音转换模型的输入数据和输出数据；将输入数据和输出数据做时长对齐，以训练声音转换模型。
[0040] 例如，可以根据动态时间规整（DynamicTimeWarping，DTW)算法将输入数据和输出数据做时长对齐。
[0041] 具体地，可以收集至少一位的源发音人的语音信号，本实施例以收集100位不同的源发音人的每人10分钟的语音信号为例，构造训练数据，并对训练数据集内的100位发音人进行两两配对，得到9900对不同源发音人的语音信号，将每对不同源发音人的语音信号，分别构造声音转换模型的输入数据和输出数据。
[0042] 进一步，对同一文本内容，不同的源发音人录音，由于源发音人的个体差异性，100 位源发音人对同一文本内容的发音，不可能控制在完全相同的时长内，因此，需要使用时长对齐算法自动的做时长对齐，其中，时长对齐算法例如为DTW算法，将两两配对后，将每对不同源发音人的语音信号进行时长对齐，得到时长对齐后的9900对源-目标发音人的训练样本，作为声音转换模型的输入数据和输出数据用以训练模型。
[0043] 例如，将第一位源发音人和第二位的源发音人的针对同一文本内容的语音信号进行配对，其中，第一位源发音人的语音信号时长为l〇s，第二位的源发音人的语音信号时长为12s，进而，采用DTW算法自动的做这两段语音信号时长对齐，得到时长对齐后的一对训练样本，将第一位源发音人的语音信号作为声音转换模型的输入数据，将第二位源发音人的语音信号作为声音转换模型的输出数据用以训练模型，并可以采用同样的方法构造出另外若干对训练数据。
[0044]S302:提取训练数据的频谱特征。
[0045] 本实施例中，提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25 维的频谱特征。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈凌辉;张卫庆;江源;杨浦;潘青华;胡国平;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人