一种无约束唇语到语音合成方法、系统和存储介质与流程

文档序号:31344269发布日期:2022-08-31 11:23阅读:306来源:国知局
一种无约束唇语到语音合成方法、系统和存储介质与流程

1.本发明涉及语音领域,具体涉及一种无约束唇语到语音合成方法、系统和存储介质。


背景技术:

2.无约束的唇语到语音合成任务旨在从有说话人的不受头部姿势或词汇限制的无声视频中合成相应的语音音频。目前的方法无论是在自回归架构或基于流的非自回归架构主要使用序列到序列模型来解决这个问题。然而,这些模型有以下缺点:
3.(1)这些模型不是直接生成音频,而是通过2个步骤生成音频,即首先生成梅尔频谱,然后从梅尔频谱合成音频。这会带来复杂的模型部署步骤以及由于错误传播导致的语音质量下降等问题;
4.(2)这些模型使用的音频重建算法限制了推理速度和音频质量,而neural vocoder(神经声码器)则不可以用于这些模型,因为它们在无约束输入上的输出频谱图不够准确;
5.(3)基于自回归架构的模型具有高推理延迟,而基于流架构的模型具有高内存占用,它们在时间和内存的使用上都不够高效。


技术实现要素:

6.针对上述问题,本发明提供一种无约束唇语到语音合成方法、系统和存储介质,该方法可以直接在无约束的视频上以更快地的推理速度合成更高质量的语音。
7.为此,本发明采用的技术方案如下:
8.第一个方面,本发明提供了一种无约束唇语到语音合成方法,包括如下步骤:
9.s1:通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;
10.s2:将步骤s1得到的视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;
11.s3:通过声学编码器将步骤s2得到的对齐后的视觉特征向量转换成对应的声学特征向量;
12.s4:根据步骤s3得到的声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;
13.s5:固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将步骤s3得到的声学特征向量合成音频波形,转化为预测音频。
14.第二个方面,本发明提供了一种无约束唇语到语音合成系统,用于实现上述的无约束唇语到语音合成方法。
15.第三个方面,本发明提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的无约束唇语到语音合成方法。
16.与现有技术相比,本发明的优势在于:
17.本发明提出了一种无约束唇语合成的端到端模型,该模型采用非自回归端到端架构有效减少了计算延迟,并建立了一种通过使用基于gan的声码器进行对抗训练的方法提高了音频质量,结果表明,本发明提出的模型合成的语音质量更高,并且梅尔频谱推理速度、音频推理速度在3秒视频时长的数据集上分别比目前最先进的模型快9.14倍和19.76倍,实现了在无约束的条件下以更低的推理延迟和更小的模型大小直接合成更高质量的语音的目标。
附图说明
18.图1根据一示例性实施例提出的一种无约束唇语到语音合成方法整体架构示意图;
19.图2为根据一示例性实施例提出的梅尔频谱推理速度对比图;
20.图3为根据一示例性实施例提出的音频推理速度对比图;
21.图4为根据一示例性实施例示出的具备数据处理能力的设备终端示意图。
具体实施方式
22.下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解,附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
23.本发明首次提出了一种在唇语到语音合成任务中用于对唇部动作进行编码的基于transformer的视觉编码器,在大型无约束数据集和小型数据集上都有很高的性能表现;提出了一种非自回归端到端架构的声学编码器和基于对抗生成网络的音频生成器,用于在无约束的条件下以更低的推理延迟和更小的模型大小直接合成更高质量的语音。
24.无约束唇语合成的问题可以表示为:假设有一个说话的人的唇语视频序列v={v1,v2,......,vn},其中,n表示视频序列的长度,vi代表视频序列中第i帧,vi和vi可能存在有很大的不同,即说话人的头部位置不受约束。该唇语合成的任务是生成相应的语音音频a={a1,a2,......,al},其中,l表示语音的长度,aj表示语音中的第j个词,不受有限词汇表的限制。
25.t
·
sr=l
·
fps
26.其中,sr是音频的采样率,fps是视频的帧率。
27.如图1所示,将本发明使用的模型记为fastlts,其主要由三部分组成:视觉编码器、声学编码器模块和音频生成器。视觉编码器用于从输入的唇语视频序列中提取和编码视觉特征,声学编码器用于将视觉特征转化为对应的声学特征,音频生成器用于根据声学特征合成音频波形。fastlts模型在训练阶段,还会在声学编码器的输出层之后引入辅助梅尔频谱层,用于对视觉编码器、声学编码器模块进行预训练。
28.结合图1所示,在本发明的一项具体实施中,无约束唇语到语音合成方法主要包括以下步骤:
29.s1:通过视觉编码模块从输入视频序列中提取并编码得到视觉特征向量;所述的视觉编码器包含一个视觉标记层、一个空间transformer、一个时序transformer。
30.本步骤中,视觉标记层用于初步提取输入视频序列的局部特征并生成时空标记,得到视觉标记序列t,为视觉标记序列t添加位置嵌入后作为空间transformer的输入;空间transformer用于对相邻视觉标记之间的相关性进行建模,利用线性近似多头注意力层减少注意力的计算负担,对于空间transformer的前馈部分,采用局部增强前馈网络,增加局部特征建模能力,得到空间编码后的视觉标记序列t

,层线性映射到低维后进行位置编码,得到初始视觉特征向量f

;时序transformer用于对视觉特征向量f

进行时序编码,得到最终视觉特征向量f。
31.具体的,步骤s1的实现过程为:
32.s1-1:输入视频序列v={v1,v2,......,vn},其中vi代表视频序列中第i帧,n代表视频序列长度;所述的视觉标记层包含一个3维卷积层、一个层标准化层和一个最大池化层,用于初步提取视频序列的局部特征并生成包含时空信息的视觉标记,并对视觉标记进行位置编码,得到视觉标记序列t={t1,t2,......,tn},其中ti代表视频序列中第i帧的视觉标记;
33.s1-2:通过空间transformer对步骤s1-1得到的视觉标记序列t进行相邻视觉标记之间的空间相关性编码,其中空间transformer包含两个标准化层、一个线性相似性多头注意力层和一个局部增强前馈网络,得到视觉标记序列t


34.s1-3:将步骤s1-2得到的视觉标记序列t

中具有相同时序索引的多个隐藏层线性映射成一个低维的单个隐藏层,并进行位置编码,得到视觉特征向量序列f


35.s1-4:通过时序transformer对步骤s1-3得到的视觉特征向量序列f

进行隐藏层之间的时序相关性编码,时序transformer包含两个残差连接和归一化层、一个多头自注意力层和一个前馈神经网络,得到最终视觉特征向量f;
36.s2:通过长度调整器将步骤s1得到的最终视觉特征向量f的长度调整至对应音频内容的长度,得到与对应音频内容相匹配的视觉特征向量;
37.本步骤中,其主要目的是将视觉特征进行长度对齐,以匹配声学特征的长度,具体的,步骤s2的实现过程为:
38.s2-1:根据音频每秒特征序列长度l
aud
和视频每秒帧数fps,计算调整因子d,计算公式如下:
[0039][0040]
s2-2:如果调整因子d是整数,则复制步骤s1得到的最终视觉特征向量f中每个视频帧的视觉特征d次;如果调整因子d不是整数,则取l
aud
、fps最大公约数为k,将最终视觉特征向量分割为k组,每组个,每组视觉特征向量的调整因子序列都为di代表每组第i视频帧对应的视觉特征复制次数,也就是说,调整因子序列中的每一个调整因子对应该组中的一个视频帧的视觉特征,该视频帧的视觉特征复制次数对应调整因子的数值;
[0041]
经过上述调整,最终得到对齐后的视觉特征向量f。
[0042]
本实施例中,调整因子序列δ满足以下2个条件:
[0043]
max(δ)-min(δ)≤1
[0044][0045]
其中,max(δ)表示调整因子序列δ中的最大值,min(δ)表示调整因子序列δ中的最小值,∑δ表示调整因子序列中的调整因子数量。
[0046]
例如,如果帧速率为30fps和音频特征的长度是每秒80,则可以将最终视觉特征向量分割为10组,每一组包括3个视频帧的特征向量,每组视觉特征向量的调整因子序列都为δ={3,3,2}。
[0047]
s3:通过声学编码器将步骤s2得到的视觉特征向量f转换成对应的声学特征向量,声学编码器包含2个残差连接和归一化、一个多头注意力层和一个1维卷积层;
[0048]
本步骤中,声学编码器用于将对齐后的对齐后的视觉特征向量f转化为声学特征向量。
[0049]
由于原始音频很难直接用作监控信号以端到端的方式训练整个模型。因此本发明提出了一种两阶段训练方法。
[0050]
在第一阶段的训练过程中,不涉及音频生成器,仅利用辅助梅尔频谱层训练视觉编码器和声学编码器;
[0051]
本步骤中,根据辅助梅尔频谱层输出的梅尔谱图,采用ssim损失和l1损失优化视觉编码器和声学编码器。
[0052]
在第二阶段的训练过程中,移除辅助梅尔频谱层,利用一个线性投影层将步骤s3得到的声学特征向量转化为与梅尔频谱相同维度的声学特征向量,使用对抗生成网络进行对抗训练,在训练过程中,将视觉编码器和声学编码器的参数固定,仅优化音频生成器参数。第二阶段的训练目标包括三部分:对抗性损失、梅尔谱图损失和特征匹配损失。
[0053]
两阶段训练方法包括下述步骤s4和步骤s5。
[0054]
s4:通过辅助梅尔频谱层将步骤s3得到的声学特征向量生成对应的梅尔频谱来完成对视觉编码模块和声学编码器的训练;
[0055]
本步骤中,辅助梅尔频谱层仅用于对视觉编码模块和声学编码器的预训练过程,具体的,步骤s4的实现过程为:s4-1:根据步骤s3得到的与对应音频内容相匹配的视觉特征向量通过辅助梅尔频谱层生成梅尔频谱;
[0056]
s4-2:在训练过程中不断迭代更新ssim损失函数和l1损失函数完成对视觉编码器和声学编码器的训练,总损失函数为计算公式如下:
[0057][0058][0059][0060]
其中,l
mel
代表梅尔频谱的长度;yi代表第i帧的真实梅尔频谱,代表第i帧的预测梅尔频谱,ssim(.,.)代表计算两个向量之间的结构相似指数,λ
ssim
、λ
l1
为超参数,||.||1代表l1范数。
[0061]
s5:移除辅助梅尔频谱层,用音频生成器代替辅助梅尔频谱层。通过音频生成器将步骤s3得到的声学特征向量生成对应的语音,音频生成器包含一个线性投影层和一个对抗生成网络。
[0062]
本步骤中,线性投影层与辅助梅尔频谱层具有相同的维度,用于对步骤s3得到的声学特征向量进行投影,转化为与梅尔频谱相同维度的声学特征向量;对抗生成网络中的生成器用于根据转化后的声学特征向量合成音频波形。
[0063]
具体的,步骤s5的实现过程为:
[0064]
s5-1:在完成对视觉编码器和声学编码器的训练后,移除辅助梅尔频谱层,用音频生成器代替辅助梅尔频谱层;
[0065]
s5-2:通过线性投影层将步骤s3得到的声学特征向量变换成与梅尔频谱相同维度的声学特征,得到声学特征向量a;
[0066]
s5-3:将步骤s5-2得到的声学特征向量a通过对抗生成网络合成语音,其中对抗生成网络包含一个鉴别器d和一个生成器g。
[0067]
训练过程中鉴别器d和生成器g的对抗损失计算公式如下:
[0068][0069][0070]
其中,s为预测音频,x为真实音频,表示求期望,d(.)表示鉴别器,g(.)表示生成器,表示鉴别器d的对抗训练损失,表示生成器g的对抗训练损失。
[0071]
梅尔频谱损失计算公式如下:
[0072][0073]
其中,φ(
·
)代表将音频转换成梅尔频谱函数。
[0074]
特征匹配损失计算公式如下:
[0075][0076]
其中,t代表鉴别器d的层数,di代表鉴别器第i层的特征,ni代表鉴别器第i层的特征个数。
[0077]
训练过程中总损失为:
[0078][0079][0080]
其中,λa、λm、λf为超参数,代表总生成器g损失,代表总鉴别器d损失。
[0081]
在本发明的一项具体实施中,在训练过程中发现,计算所有音频片段的损失会占用大量计算资源和内存容量,因此在第二阶段的音频生成器训练过程中采用窗口采样机制,从步骤s3得到的声学特征向量中采样一段连续的子序列并使用与之对应的真实音频片段进行训练。这一方法在小型数据集上具有较好的效果,但在大型无约束数据集上效果欠佳。针对这一问题,本发明先在步骤s4完成对视觉编码器和声学编码器的训练,在步骤s5仅
对音频生成器进行训练。这样做的好处在于能够提高模型对小型数据集和大型无约束数据集的表现性能。
[0082]
在本实施例中还提供了一种无约束唇语到语音合成系统,该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能的。
[0083]
所述的系统包括:
[0084]
视觉编码模块,其用于从唇语视频序列中提取并编码得到视觉特征向量;
[0085]
长度调整模块,其用于将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;
[0086]
声学编码模块,其用于将对齐后的视觉特征向量转换成对应的声学特征向量;
[0087]
音频生成模块,其用于根据声学特征向量合成音频波形,并转化为预测音频输出;
[0088]
辅助训练模块,其用于根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;
[0089]
二次训练模块,其用于固定视觉编码器和声学编码器的参数,训练音频生成器。
[0090]
上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,例如,上述系统的一项具体过程可以为:
[0091]
(1)通过视觉编码器从唇语视频序列中提取并编码得到视觉特征向量;
[0092]
(2)将视觉特征向量的长度调整至对应音频内容的长度,得到与对应音频内容对齐后的视觉特征向量;
[0093]
(3)通过声学编码器将对齐后的视觉特征向量转换成对应的声学特征向量;
[0094]
(4)根据声学特征向量生成对应的梅尔频谱,结合真实的梅尔频谱对所述的视觉编码器和声学编码器进行训练;
[0095]
(5)固定视觉编码器和声学编码器的参数,训练音频生成器,利用训练好的音频生成器将声学特征向量合成音频波形,转化为预测音频。
[0096]
对于系统实施例而言,由于其基本对应于方法实施例,所以各个步骤的具体实现方式可参考方法部分的说明即可,此不再赘述。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0097]
本发明的无约束唇语到语音合成系统的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本实施例提供的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0098]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的无约束唇语到语音合成方法。
[0099]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0100]
下面通过实验验证了本发明的技术效果。
[0101]
本实施例中,采用lip2wav数据集和grid数据集。音频采样率为16000hz,视频时长3秒,采样窗口大小为800,条约长度为200,梅尔频谱长度为80。视频帧大小为96
×
96。
[0102]
本实施例采用模型配置:tokenization层3维卷积层的卷积核大小为5
×5×
5。token维度为32,空间transformer个数为4个,隐藏层维度为36,注意力头个数为6个。时序transformer个数为4个,注意力头个数为8个,处理lip2wav数据集时隐藏层维度为384,处理grid数据集时隐藏层维度为160。声学编码器配置同时序transformer。采用adam优化器进行优化训练,步骤s4学习率为0.002,步骤s5学习率为0.0002。
[0103]
本实施例采用主观评法mos和客观评价法pesq评价本发明的fastlts模型性能,实验结果如下表所示。
[0104]
表1 lip2wav数据集上的mos得分统计
[0105][0106]
表2 grid数据集上的mos得分统计
[0107][0108]
从表1和表2看到,无论是在lip2wav数据集还是grid数据集上,本发明提出的fastlts模型在语音生成质量、清晰度和自然度方面都有着很不俗的性能表现,这也证明了本发明提出的视觉编码器、声学编码器和音频生成器的优越性。
[0109]
表3 grid数据集上的pesq得分统计
[0110][0111]
从表3看到,本发明提出的fastlts模型的pesq得分与当前性能最先进的vca-gan仅有0.067的差距,几乎可以认为fastlts模型是目前在唇语到语音合成任务中性能最先进的模型之一。
[0112]
从图2、图3可以看到,随着视频时长的增加,lip2wav模型的梅尔频谱、音频的推理速度急剧增加,这表明lip2wav模型不适合处理无约束的大型数据集。本发明提出的fastlts模型在视频较长的情况下有着较好的性能表现,在视频时长为3秒时梅尔频谱推理速度、音频推理速度比lip2wav模型快9.14倍和19.76倍,这是因为fastlts模型采用非自回归的端到端架构能够进行并行预测。
[0113]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1