基于特定人物少样本情况下情感可控语音合成方法及系统与流程

文档序号：37425306发布日期：2024-03-25 19:12阅读：来源：国知局

技术特征：

1.一种基于特定人物少样本情况下情感可控语音合成方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，在步骤s1中，数据自动化处理模型的处理流程包括：

3.根据权利要求2所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，所述特定人的语音首先经过去噪处理，消除语音中的背景声音、噪音，并以固定采样率进行重新采样，包括：将所搜集的针对于特定人语音，重新采样为单通道，16000hz的音频；将重新采样后的音频，通过深度学习算法进行去噪处理，去掉杂音和背景音干扰声音，得到只有干净的人声音频。

4.根据权利要求2所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，所述根据vad沉默检测，进行语音片段裁剪，包括：

5.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，在步骤s2中，情感特征和经过音素编码模块后的特征在维度上一致；两个相同维度矩阵，通过矩阵中相同位置逐点相加得到融合情感特征后的音素序列特征；其中，维度矩阵大小为(b,t,h)，b表示一批次训练中样本数量，t表示传的序列长度，h表示隐藏层维度。

6.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，在步骤s4中，整个端到端的语音合成训练流程中，网络结构采用基于vae、流网络、hifigan、随机时长预测网络、说话人声纹提取网络；同时，增加双向流网络损失，用于约束在经过流网络变化前后特征。

7.根据权利要求6所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，基于kl散度用于约束经过先验编码器以及线性层得到的先验分布，和线性频谱经过后验编码器、流网络得到的后验分布；线性频谱经过后验编码器，得到后验特征，hifigan声码器将经过后验编码器得到的后验特征重建为语音波形；在做kl散度约束时，采用双向流网络损失；

8.根据权利要求7所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，训练过程中，通过单调对齐搜索，估计文本音素所对应的时长，作为训练随机时长预测器的真实标签；训练过程中，情感特征提取器和说话人特征提取器，不参与网络参数的更新，分别计算说话人音频中的情感特征和说话人特征。

9.根据权利要求1所述的基于特定人物少样本情况下情感可控语音合成方法，其特征在于，所述推理过程包括：根据输入文本，和指定的说话人参考音频情感，结合说话人特征，得到文本音素的时长预测，将经过线性层的先验分布，根据时长预测进行扩充，扩充后的特征再经过流网络的逆变换得逆变换后的特征，最后hifigan声码器根据逆变换后的特征进行波形重建，得到具有指定情感、指定说话人的情感语音合成。

10.一种基于特定人物少样本情况下情感可控语音合成系统，其特征在于，该系统实施权利要求1-9任意一项所述的基于特定人物少样本情况下情感可控语音合成方法，该系统包括：

技术总结
本发明属于语音合成技术领域，公开了基于特定人物少样本情况下情感可控语音合成方法及系统。该方法将选定的特定说话音频输入到数据自动化处理模型，形成特定人的可训练数据；针对特定人的可训练数据，利用声纹提取模块和情感特征提取模块分别提取对应声纹特征和情感特征；将得到的融合情感特征后的音素序列特征，嵌入到不同网络中；进行整个端到端的语音合成训练和推理流程，将所提取的说话人特征嵌入到不同的网络中，得到具有指定情感、指定说话人的情感语音合成。本发明采用端到端的语音合成流程，基于数据自动化处理模块形成实现快速响应的自动化训练流程。

技术研发人员：杨捍,马军,郭先会,汪淼,曾宇龙,王海兮,庄祖江
受保护的技术使用者：深圳市网联安瑞网络科技有限公司
技术研发日：
技术公布日：2024/3/24

完整全部详细技术资料下载

当前第2页1 2