一种基于离散语音标记和离散扩散模型的语音合成系统

文档序号：37943837发布日期：2024-05-11 00:25阅读：来源：国知局

技术特征：

1.一种基于离散语音标记和离散扩散模型的语音合成系统，涉及语音领域，本发明首先经过说话人特征编码器得到维度为512的说话人特征，音素和说话人特征共同被送入音素编码器，得到音素级别的特征；所述音素级别的特征和所述说话人特征再经过时长预测器，可得到每个音素所对应的时长，通过复制音素相对应的帧的次数，我们就得到了含有时长信息的帧级别特征；所述帧级别特征将作为条件送入离散扩散模型，生成对应的离散的语音标记序列，所述语音标记序列又被进一步送入神经音频解码器，从而得到最终的语音波形。

2.如权利要求1所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述说话人特征编码器以提示语音经过神经语音编码器量化后的连续潜在向量作为输入；模型通过一个一维卷积层处理该连续潜在向量，然后经过一系列的注意力模块对提示语音特征进行处理，最终对处理后的特征在时间维度上取平均值，得到最终的说话人嵌入。

3.如权利要求2所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述音素编码器是一个基于转换器编码器结构(transformer encoder block)的编码器，它以音素序列作为输入；其中，所述说话人嵌入通过加入编码器的层正则化(layernorm)层实现；所述音素编码器的作用是提取音素的上下文相关表示，这些表示捕捉了音素之间的关系和它们在句子中的位置信息。

4.如权利要求3所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述时长预测器负责预测给定输入文本的每个音素应该发音的时间长度，从所述音素编码器中得到的音素级别特征接着被送入所述时长预测器，它的任务是为每个音素预测一个时长值，所述时长值表征了每个音素应该持续的时间长度，它们是连续的，并需要被量化成离散的时间步。

5.如权利要求4所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，本发明使用单调对齐(monotonic alignment search，mas)实现文本到语音的生成流，在训练过程中，所述时长预测器的训练目标是最大化给定文本情况下语音的对数似然，并且由于生成流的性质，其采样过程是完全并行的；所述时长预测器由卷积层和正则化层组成；

6.如权利要求5所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述离散扩散模型是一种生成模型，通过模拟从无序的噪声数据逐步转换为有序结构的过程来生成数据；这个过程包括两个阶段：正向扩散和反向扩散；在正向扩散阶段，所述离散扩散模型逐步向数据添加噪声，直至数据完全变为随机噪声；在反向扩散阶段，所述离散扩散模型逐步从噪声中恢复出有意义的数据结构；通过这个过程，所述离散扩散模型学习如何从随机噪声生成目标数据。

7.如权利要求6所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述离散扩散模型与连续的扩散模型不同，离散标记不能通过加以高斯噪声的方式进行正向扩散，因此在正向加噪过程中，引入如图所示的状态转移矩阵qt，并且采取掩码并恢复的策略，即某一标记有k+1种状态可以转移，其中有γt的概率被转移到掩码标记，kβt的概率被转移到另一个标记，αt概率保持为原有标记；一旦该标记成为了掩码标记，状态便会保持在掩码状态不再改变状态转移矩阵为大小是[k+1,k+1]的方阵。

8.如权利要求7所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述离散扩散模型的优化目标是找到最大化p(x|y)的x，但为了使得生成模型能够更好地匹配输入文本的要求，一个直接的解决方案是优化目标函数log p(x|y)+s log p(y|x)，其中s是一个超参数，用于控制后验约束的程度；通过应用贝叶斯定理，将这个优化目标导出为如下方程，其中x是模型生成的结果，y是给定的条件(输入文本)。

9.如权利要求8所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，所述离散扩散模型以正向扩散后的离散标记序列作为输入，以帧级特征作为条件；所述离散标记序列首先通过位置编码与所述帧级特征拼接在一起，然后送入transformer解码器；在所述transformer解码器中，每一个模块依次进行自注意力和交叉注意力，其中所述交叉注意力中以帧级特征作为key向量和value向量；最终，该扩散模型预测出离散标记序列，并按照上文所述计算损失；在实际训练中，所述离散扩散模型、所述时长预测器、所述音素编码器和所述说话人特征编码器是联合训练的。

10.如权利要求9所述的一种基于离散语音标记和离散扩散模型的语音合成系统，其特征在于，本发明使用基于delightfultts2的所述神经音频编解码器提取离散语音标记和波形重建，该模型基于向量量化自动编码器和对抗训练(vq-gan)的分层编解码器网络，提取出细粒度编解码器的连续帧级语音表示和粗粒度编解码器的离散标记，其训练目标是重建与真实语音非常相似的高质量波形；

技术总结
本发明公开了一种基于离散语音标记和离散扩散模型的语音合成系统，涉及语音领域，本发明首先经过说话人特征编码器得到维度为512的说话人特征，音素和说话人特征共同被送入音素编码器，得到音素级别的特征；所述音素级别的特征和所述说话人特征再经过时长预测器，可得到每个音素所对应的时长，通过复制音素相对应的帧的次数，我们就得到了含有时长信息的帧级别特征；所述帧级别特征将作为条件送入离散扩散模型，生成对应的离散的语音标记序列，所述语音标记序列又被进一步送入神经音频解码器，从而得到最终的语音波形。本发明通过使用神经音频编码方案，能够降低输入数据的维度并提高模型效率。

技术研发人员：钱彦旻,张乐莹
受保护的技术使用者：上海交通大学
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

当前第2页1 2