1.一种基于特定人物少样本情况下情感可控语音合成方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,在步骤s1中,数据自动化处理模型的处理流程包括:
3.根据权利要求2所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,所述特定人的语音首先经过去噪处理,消除语音中的背景声音、噪音,并以固定采样率进行重新采样,包括:将所搜集的针对于特定人语音,重新采样为单通道,16000hz的音频;将重新采样后的音频,通过深度学习算法进行去噪处理,去掉杂音和背景音干扰声音,得到只有干净的人声音频。
4.根据权利要求2所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,所述根据vad沉默检测,进行语音片段裁剪,包括:
5.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,在步骤s2中,情感特征和经过音素编码模块后的特征在维度上一致;两个相同维度矩阵,通过矩阵中相同位置逐点相加得到融合情感特征后的音素序列特征;其中,维度矩阵大小为(b,t,h),b表示一批次训练中样本数量,t表示传的序列长度,h表示隐藏层维度。
6.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,在步骤s4中,整个端到端的语音合成训练流程中,网络结构采用基于vae、流网络、hifigan、随机时长预测网络、说话人声纹提取网络;同时,增加双向流网络损失,用于约束在经过流网络变化前后特征。
7.根据权利要求6所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,基于kl散度用于约束经过先验编码器以及线性层得到的先验分布,和线性频谱经过后验编码器、流网络得到的后验分布;线性频谱经过后验编码器,得到后验特征,hifigan声码器将经过后验编码器得到的后验特征重建为语音波形;在做kl散度约束时,采用双向流网络损失;
8.根据权利要求7所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,训练过程中,通过单调对齐搜索,估计文本音素所对应的时长,作为训练随机时长预测器的真实标签;训练过程中,情感特征提取器和说话人特征提取器,不参与网络参数的更新,分别计算说话人音频中的情感特征和说话人特征。
9.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法,其特征在于,所述推理过程包括:根据输入文本,和指定的说话人参考音频情感,结合说话人特征,得到文本音素的时长预测,将经过线性层的先验分布,根据时长预测进行扩充,扩充后的特征再经过流网络的逆变换得逆变换后的特征,最后hifigan声码器根据逆变换后的特征进行波形重建,得到具有指定情感、指定说话人的情感语音合成。
10.一种基于特定人物少样本情况下情感可控语音合成系统,其特征在于,该系统实施权利要求1-9任意一项所述的基于特定人物少样本情况下情感可控语音合成方法,该系统包括: