声音转换方法和装置的制造方法_2

文档序号：9632283阅读：来源：国知局

[0046]S303:确定声音转换模型的拓扑结构。
[0047] 其中，声音转换模型可以是神经网络模型，参见图2,声音转换模型包括输入编码层21、中间转换层22、输出解码层23，本申请以DNN模型为例。
[0048] 其中，输入编码层21由N个神经网络，即编码器组成，每个编码器代表整个声学空间中，某一类相似源发音人语音信息的本征空间。
[0049] 本申请中，每个编码器为一个单层神经网络，其中，编码器的个数N-般由大量实验或经验确定，本实施例中，N取值16。
[0050] 具体地，每个神经网络的输入数据是源发音人语音信号的频谱特征，本实施例中输入数据是25维的频谱特征，每个神经网络根据以下公式，对源发音人语音信号的频谱特征进行变换，输出结构化的高层特征，其中，
[0051]
[0052] 其中，/T(x)表示输入编码层i的第η个本征空间模型的输出，!Τ、V表示输入层 i的第η个本征空间模型对应的网络参数，σ表示激励函数，例如，σ可以是sigmoid函数。
[0053] 中间转换层22由多层神经网络构成，本申请中，多层神经网络为3层的深度神经网络，中间转换层22的输入数据是由输入编码层21对源发音人语音信号的频谱特征，经过多个编码器编码后，进行融合得到的特征，输入编码层21中的各个编码器的融合权重分别为<?;,，''·，略…,<。
[0054] 本申请中，中间转换层22输入节点数取为512,经过中间转换层22转换后，输出节点数取为512。
[0055] 输出解码层23由N个神经网络，即解码器组成，每个神经网络均可用来重建输出目标发音人的频谱特征，每个解码器代表整个声学空间中的某一类相似目标发音人的本征空间。
[0056] 每个解码器的输入数据为中间转换层22的输出数据；每个解码器的输出数据为 25维的频谱特征，每个神经网络根据以下公式，重建输出目标发音人的频谱特征，其中，
[0057]
[0058] 其中，g?表示输出解码层〇的第η个本征空间的输出数据，C，<分别为输出解码层〇的第η个本征空间模型对应的网络参数。
[0059] 需要说明的是，整个声音转换模型的输出数据是输出解码层23中各个解码器输出目标发音人语音信号的频谱特征，同样经过融合得到的融合后的频谱特征，其融合权值
[0060]S304:初始化声音转换模型的参数。
[0061] 其中，声音转换模型的参数包括：输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数，以及中间转换层各层间参数。
[0062] 例如，模型参数包括输入编码层21的融合权值、输出解码层23的融合权值4,.输入编码层21的参数f和琴、输出解码层23参数^和€、以及中间转换层22的各层间参数t和b"。其中输入编码层21的参数、输出解码层23的参数以及中间转换层22的各层间的参数初始化，由大量实验或经验确定。
[0063] 进一步，训练数据集中每位源发音人都有一套融合每位源发音人的权值，如对第s 位源发音人，其融合权值为ω1，..ft/'，包括：输入编码层21融合权值和输出解码层23 融合权值。
[0064] 其中，融合权值由以下方法进行初始化：
[0065] 首先将训练数据集中源发音人进行聚类，例如，可以使用声纹识别中的i-vector 特征进行k-means聚类；并将每类源发音人对应到N位源发音人本征空间；然后对每个源发音人分配初始化的融合权值，包括：输入编码层21融合权值和输出解码层23融合权值，对应的本征空间权值为1，其余空间权值为0。
[0066] S305 :根据训练数据的频谱特征，以及初始化后的声音转换模型的参数，训练声音转换模型。
[0067] 可选的，可以根据训练数据的频谱特征，以及初始化后的输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数，以及中间转换层各层间参数，训练声音转换模型。
[0068] 具体的，为确保各个本征空间的权值大于0且和为1，可以使用如下公式构造第s 位源发音人的融合权值，其中，
[0069]
[0070] 其中，<为训练阶段要更新的模型参数。
[0071] 如果源发音人为Sp，目标发音人为Sk，则转换关系可以表示为如下公式，
[0072]
[0073] 其中，Fpk(x)表示源发音人为Sp经过声音转换模型转换后的语音信号的频谱特征，N为源发音人本征空间数，本申请中取N= 16,Θ(.)表示中间转换层转换函数。
[0074]因此，声音转换模型的训练准则如下公式：
[0075]
[0076]其中，表示参数Pf和表示参数^和奪Θ表示参数WjPbyS表示源发音人数目，T表示经过时长对齐后每个源发音人语音信号的总帧数，< 表示第t帧期望得到的目标发音人k的值，表示第t帧通过声音转换模型实际得到的从源发音人p 到目标发音人k转换的值。
[0077] S306:接收源发音人的语音信号，并提取语音信号的频谱特征。
[0078] 本实施例中，提取语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25 维的频谱特征。
[0079] S307:确定目标发音人，并提取目标发音人的语音信号的频谱特征。
[0080] 具体地，提取目标发音人的语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征，共25维的频谱特征。
[0081] S308:根据目标发音人的语音信信号的频谱特征，调整声音转换模型的输出解码层融合权值。
[0082] 具体的，在预先训练好的声音转换模型基础上，使用获取到的目标发音人训练数据，得到它对应的融合权值。
[0083] 其中，声音转换模型作为自编码器，即输入数据和输出数据均为目标发音人语音信号的频谱特征，绑定输入编码层21与输出解码层23的融合权值，即两层的融合权值取相同值进行求解，其求解过程与声音转换模型参数训练过程相似，仅是调整融合权值，其余参数保持不变。
[0084]S309:根据源发音人的语音信号的频谱特征，调整声音转换模型的输入编码层融合权值，以得到所述源发音人对应的声音转换模型。
[0085] 具体的，根据源发音人语音信号的频谱特征数据，调整确定输入编码层21的融合权值。
[0086] S310 :根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。
[0087] 具体地，将提取出的源发音人语音信号的25维的频谱特征，作为源发音人对应的声音转换模型的输入，进行声音转换，以得到目标发音人的语音信息。
[0088] 本实施例中，通过预先构建声音转换模型，接收源发音人的语音信号并提取频谱特征，确定源发音人对应的声音转换模型，根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息，有效提高声音转换的灵活性。另外，本实施例通过训练得到与源发音人和目标发音人无关的声音转换模型，可以实现从任意源发音人到任意目标发音人之间的声音转换，有效降低了声音转换方法的使用门槛。
[0089]图4是本发明另一实施例提出的声音转换装置的结构示意图，该装置40包括构建模块401、接收模块402、确定模块403,以及转换模块404,其中，构建模块401，用于预先构建声音转换模型；接收模块402,用于接收源发音人的语音信号，并提取语音信号的频谱特征；确定模块403,用于确定源发音人对应的声音转换模型；转换模块404,用于根据频谱特征和源发音人对应的声音转换模型，进行声音转换，以得到目标发音人的语音信息。
[0090] 构建模块401，用于预先构建声音转换模型。
[0091] 其中，声音转换模型可以是神经网络模型，参见图2,包括输入编码层21、中间转换层22、输出解码层23。
[0092] 神经网络模型可以是深度神经网络（DeepNeuralNetworks，DNN)模型、递归神经网络（RecurrentNeuralNetworks，RNN)模型、卷积神经网络（ConvolutionalNeural Networks，CNN)模型等，本申请以DNN模型为例构建声音转换模型。
[0093] 一个实施例中，参见图5,构建模块401包括：
[0094] 训练数据获取子模块4011，用于获取训练数据，并对训练数据进行预处理。
[0095] 另一个实施例中，参见图6,训练数据为平行语料，训练数据获取子模块4011具体包括：
[0096] 配对单元40111，用于将平行语料进行配对，以构造声音转换模型的输入数据和输出数据。
[0097] 其中，训练数据为平行语料。
[0098] 平行语料指针对同一文本内容

完整全部详细技术资料下载

当前第2页1 2 3 4