声音转换方法和装置的制造方法_2

文档序号:9632283阅读:来源:国知局

[0046]S303:确定声音转换模型的拓扑结构。
[0047] 其中,声音转换模型可以是神经网络模型,参见图2,声音转换模型包括输入编码 层21、中间转换层22、输出解码层23,本申请以DNN模型为例。
[0048] 其中,输入编码层21由N个神经网络,即编码器组成,每个编码器代表整个声学空 间中,某一类相似源发音人语音信息的本征空间。
[0049] 本申请中,每个编码器为一个单层神经网络,其中,编码器的个数N-般由大量实 验或经验确定,本实施例中,N取值16。
[0050] 具体地,每个神经网络的输入数据是源发音人语音信号的频谱特征,本实施例中 输入数据是25维的频谱特征,每个神经网络根据以下公式,对源发音人语音信号的频谱特 征进行变换,输出结构化的高层特征,其中,
[0051]
[0052] 其中,/T(x)表示输入编码层i的第η个本征空间模型的输出,!Τ、V表示输入层 i的第η个本征空间模型对应的网络参数,σ表示激励函数,例如,σ可以是sigmoid函数。
[0053] 中间转换层22由多层神经网络构成,本申请中,多层神经网络为3层的深度神经 网络,中间转换层22的输入数据是由输入编码层21对源发音人语音信号的频谱特征,经过 多个编码器编码后,进行融合得到的特征,输入编码层21中的各个编码器的融合权重分别 为<?;,,''·,略…,<。
[0054] 本申请中,中间转换层22输入节点数取为512,经过中间转换层22转换后,输出节 点数取为512。
[0055] 输出解码层23由N个神经网络,即解码器组成,每个神经网络均可用来重建输出 目标发音人的频谱特征,每个解码器代表整个声学空间中的某一类相似目标发音人的本征 空间。
[0056] 每个解码器的输入数据为中间转换层22的输出数据;每个解码器的输出数据为 25维的频谱特征,每个神经网络根据以下公式,重建输出目标发音人的频谱特征,其中,
[0057]
[0058] 其中,g?表示输出解码层〇的第η个本征空间的输出数据,C,<分别为输出 解码层〇的第η个本征空间模型对应的网络参数。
[0059] 需要说明的是,整个声音转换模型的输出数据是输出解码层23中各个解码器输 出目标发音人语音信号的频谱特征,同样经过融合得到的融合后的频谱特征,其融合权值
[0060]S304:初始化声音转换模型的参数。
[0061] 其中,声音转换模型的参数包括:输入编码层融合权值、输出解码层融合权值、输 入编码层参数、输出解码层参数,以及中间转换层各层间参数。
[0062] 例如,模型参数包括输入编码层21的融合权值、输出解码层23的 融合权值4,.输入编码层21的参数f和琴、输出解码层23参数^和€、以及 中间转换层22的各层间参数t和b"。其中输入编码层21的参数、输出解码层23的参数 以及中间转换层22的各层间的参数初始化,由大量实验或经验确定。
[0063] 进一步,训练数据集中每位源发音人都有一套融合每位源发音人的权值,如对第s 位源发音人,其融合权值为ω1,..ft/',包括:输入编码层21融合权值和输出解码层23 融合权值。
[0064] 其中,融合权值由以下方法进行初始化:
[0065] 首先将训练数据集中源发音人进行聚类,例如,可以使用声纹识别中的i-vector 特征进行k-means聚类;并将每类源发音人对应到N位源发音人本征空间;然后对每个源 发音人分配初始化的融合权值,包括:输入编码层21融合权值和输出解码层23融合权值, 对应的本征空间权值为1,其余空间权值为0。
[0066] S305 :根据训练数据的频谱特征,以及初始化后的声音转换模型的参数,训练声音 转换模型。
[0067] 可选的,可以根据训练数据的频谱特征,以及初始化后的输入编码层融合权值、输 出解码层融合权值、输入编码层参数、输出解码层参数,以及中间转换层各层间参数,训练 声音转换模型。
[0068] 具体的,为确保各个本征空间的权值大于0且和为1,可以使用如下公式构造第s 位源发音人的融合权值,其中,
[0069]
[0070] 其中,<为训练阶段要更新的模型参数。
[0071] 如果源发音人为Sp,目标发音人为Sk,则转换关系可以表示为如下公式,
[0072]
[0073] 其中,Fpk(x)表示源发音人为Sp经过声音转换模型转换后的语音信号的频谱特 征,N为源发音人本征空间数,本申请中取N= 16,Θ(.)表示中间转换层转换函数。
[0074]因此,声音转换模型的训练准则如下公式:
[0075]
[0076]其中,表示参数Pf和表示参数^和奪Θ表示参数WjPbyS表示 源发音人数目,T表示经过时长对齐后每个源发音人语音信号的总帧数,< 表示第t帧期望 得到的目标发音人k的值,表示第t帧通过声音转换模型实际得到的从源发音人p 到目标发音人k转换的值。
[0077] S306:接收源发音人的语音信号,并提取语音信号的频谱特征。
[0078] 本实施例中,提取语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25 维的频谱特征。
[0079] S307:确定目标发音人,并提取目标发音人的语音信号的频谱特征。
[0080] 具体地,提取目标发音人的语音信号的24维梅尔域倒谱系数MCEP和1维能量谱 特征,共25维的频谱特征。
[0081] S308:根据目标发音人的语音信信号的频谱特征,调整声音转换模型的输出解码 层融合权值。
[0082] 具体的,在预先训练好的声音转换模型基础上,使用获取到的目标发音人训练数 据,得到它对应的融合权值。
[0083] 其中,声音转换模型作为自编码器,即输入数据和输出数据均为目标发音人语音 信号的频谱特征,绑定输入编码层21与输出解码层23的融合权值,即两层的融合权值取相 同值进行求解,其求解过程与声音转换模型参数训练过程相似,仅是调整融合权值,其余 参数保持不变。
[0084]S309:根据源发音人的语音信号的频谱特征,调整声音转换模型的输入编码层融 合权值,以得到所述源发音人对应的声音转换模型。
[0085] 具体的,根据源发音人语音信号的频谱特征数据,调整确定输入编码层21的融合 权值。
[0086] S310 :根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标 发音人的语音信息。
[0087] 具体地,将提取出的源发音人语音信号的25维的频谱特征,作为源发音人对应的 声音转换模型的输入,进行声音转换,以得到目标发音人的语音信息。
[0088] 本实施例中,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱 特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型, 进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。另外,本实施 例通过训练得到与源发音人和目标发音人无关的声音转换模型,可以实现从任意源发音人 到任意目标发音人之间的声音转换,有效降低了声音转换方法的使用门槛。
[0089]图4是本发明另一实施例提出的声音转换装置的结构示意图,该装置40包括构建 模块401、接收模块402、确定模块403,以及转换模块404,其中,构建模块401,用于预先构 建声音转换模型;接收模块402,用于接收源发音人的语音信号,并提取语音信号的频谱特 征;确定模块403,用于确定源发音人对应的声音转换模型;转换模块404,用于根据频谱特 征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
[0090] 构建模块401,用于预先构建声音转换模型。
[0091] 其中,声音转换模型可以是神经网络模型,参见图2,包括输入编码层21、中间转 换层22、输出解码层23。
[0092] 神经网络模型可以是深度神经网络(DeepNeuralNetworks,DNN)模型、递归神 经网络(RecurrentNeuralNetworks,RNN)模型、卷积神经网络(ConvolutionalNeural Networks,CNN)模型等,本申请以DNN模型为例构建声音转换模型。
[0093] 一个实施例中,参见图5,构建模块401包括:
[0094] 训练数据获取子模块4011,用于获取训练数据,并对训练数据进行预处理。
[0095] 另一个实施例中,参见图6,训练数据为平行语料,训练数据获取子模块4011具体 包括:
[0096] 配对单元40111,用于将平行语料进行配对,以构造声音转换模型的输入数据和输 出数据。
[0097] 其中,训练数据为平行语料。
[0098] 平行语料指针对同一文本内容
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1