对抗域自适应模型训练方法及对抗域自适应模型与流程

文档序号:22578523发布日期:2020-10-20 16:52阅读:628来源:国知局
对抗域自适应模型训练方法及对抗域自适应模型与流程

本发明涉及人工智能技术领域,尤其涉及一种对抗域自适应模型训练方法及对抗域自适应模型。



背景技术:

自从提出基于深度神经网络(dnn)的说话人嵌入以来,旨在验证用户在其语音段中所声称的身份的说话人验证任务已获得了显着改进。研究人员已经研究了不同的dnn架构和不同的损失函数,以增强基于dnn的说话人嵌入的辨别力。

尽管用于说话人验证的dnn嵌入成功,但dnn训练通常需要大量带有说话人标签的经过标注的数据。另一方面,我们知道从一个域训练的模型的性能在应用于数据分布不相同的不同域时会急剧下降。针对每种应用场景训练特定于域的模型是一种幼稚的解决方案,为每个域收集和标记数据既耗时又非常昂贵。因此,有必要找到一种有效的方法,以将经过良好标记的源域数据集训练的现有模型快速调整到新的目标域,在该目标域中,只有弱标记或者甚至未标记的数据可用。

已经提出了不同的方法来解决用于说话者验证的域自适应问题,其中最常用的一种方法是利用对抗学习使表示域不变,并减少源域数据和目标域数据之间的不匹配。失配可能来自不同的通道,噪声类型和语言等。现有技术提出使用通道对抗训练来使说话人嵌入更具通道不变性。但是,在当前的大多数工作中,来自源域和目标域的数据共享相同的特征提取器。

源域数据和目标域数据一般都有着很大的差别,对源域和目标域数据使用完全相同的特征提取器提取特征,然后在使用对抗训练使得两者提取的特征分布一致,这会损害主任务的性能。



技术实现要素:

本发明实施例提供一种对抗域自适应模型训练方法及对抗域自适应模型,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种对抗域自适应模型训练方法,所述对抗域自适应模型包括源域嵌入提取器、说话者判别器、目标域嵌入提取器和域判别器,所述方法包括:

s10、配置所述源域嵌入提取器和所述目标域嵌入提取器之间共享部分层的参数;

s20、将有标注的源域训练数据输入至所述源域嵌入提取器,所述源域嵌入提取器的输出输入至所述说话者判别器,得到说话者损失;

s30、将无标注的目标域训练数据输入至所述目标域嵌入提取器,所述目标域提取器的输出和所述源域嵌入提取器的输出输入至所述域判别器,得到wasserstein损失。

第二方面,本发明实施例提供一种对抗域自适应模型,包括:源域嵌入提取器、说话者判别器、目标域嵌入提取器和域判别器,其中,

所述源域嵌入提取器和所述目标域嵌入提取器之间共享部分层的参数;

所述源域嵌入提取器用于输入有标注的源域训练数据,并与所述说话者判别器的输入端连接,得到说话者损失;

所述目标域嵌入提取器用于无标注的目标域训练数据输入;

所述域判别器用于接收所述目标域提取器的输出和所述源域嵌入提取器的输出,以得到wasserstein损失。

第三方面,提供一种电子设备,该电子设备配置有本发明任一实施例所述的对抗域自适应模型。

第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项对抗域自适应模型训练方法。

第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项对抗域自适应模型训练方法。

第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项对抗域自适应模型训练方法。

本发明实施例的有益效果在于:在本发明提出的方法中,源域和目标域的特征提取器并不是完全相同的。这样特征提取器不同的参数部分可以解决主任务和域对抗训练任务之间的冲突问题。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的对抗域自适应模型训练方法的一实施例的流程图;

图2为本发明的对抗域自适应模型训练方法的另一实施例的流程图;

图3为本发明的对抗域自适应模型的一实施例的原理框图;

图4a为现有技术中具有对抗性训练标准的完全共享网络的对抗域自适应模型的结构示意图;

图4b为本发明中具有对抗训练标准的部分共享网络的对抗域自适应模型的结构示意图;

图5为联合训练源提取器和目标提取器的不同权重分配策略的结果对比图;

图6为本发明中源域嵌入提取器的参数固定情况下不同模型配置的结果比较示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示,本发明的实施例提供一种对抗域自适应模型训练方法,所述对抗域自适应模型包括源域嵌入提取器、说话者判别器、目标域嵌入提取器和域判别器,所述方法包括:

s10、配置所述源域嵌入提取器和所述目标域嵌入提取器之间共享部分层的参数。示例性地,所述源域嵌入提取器和所述目标域嵌入提取器分别包括多个tdnn层、一个池化层和一个密集层。通过权重正则化损失配置所述源域嵌入提取器和所述目标域嵌入提取器之间的多个层共享参数,所述多个层为所述多个tdnn层和所述密集层中的部分层。

s20、将有标注的源域训练数据输入至所述源域嵌入提取器,所述源域嵌入提取器的输出输入至所述说话者判别器,得到说话者损失;

s30、将无标注的目标域训练数据输入至所述目标域嵌入提取器,所述目标域提取器的输出和所述源域嵌入提取器的输出输入至所述域判别器,得到wasserstein损失。

本发明实施例中,在神经网络训练的时候,有两个任务:1.主任务:在这里是说话人的分类。2.域对抗训练任务:目标是使得从源域和目标域提取的特征分布基本一致。

现有技术中对于源域和目标域数据,使用了完全相同的特征提取器提取特征,这时,特征提取器在优化的时候要兼顾主任务和域对抗任务,但这种兼顾,不一定能够达到,提升域对抗任务的性能可能会损害主任务的性能,因为两者共享了同一个特征提取器。

而在本发明提出的方法中,源域和目标域的特征提取器并不是完全相同的。这样特征提取器不同的参数部分可以解决主任务和域对抗训练任务之间的冲突问题。

在一些实施例中,对抗域自适应模型训练方法还包括预先对所述域判别器进行多次迭代训练。

在一些实施例中,所述多个层包括最靠近所述源域嵌入提取器和所述目标域嵌入提取器的输出端的至少一个tdnn层。

如图2所示,本发明的实施例提供一种对抗域自适应模型训练方法,所述对抗域自适应模型包括源域嵌入提取器、说话者判别器、目标域嵌入提取器和域判别器,所述方法包括:

s10、配置所述源域嵌入提取器和所述目标域嵌入提取器之间共享部分层的参数;

s20、将有标注的源域训练数据输入至所述源域嵌入提取器,所述源域嵌入提取器的输出输入至所述说话者判别器,得到说话者损失;

s30、将无标注的目标域训练数据输入至所述目标域嵌入提取器,所述目标域提取器的输出和所述源域嵌入提取器的输出输入至所述域判别器,得到wasserstein损失。

s40、根据所述说话者损失、wasserstein损失和权重正则化损失确定所述对抗域自适应模型的总损失,以完成所述对抗域自适应模型的训练。

如图3所示,为本发明的对抗域自适应模型的一实施例的原理框图,该实施例中对抗域自适应模型300,包括:源域嵌入提取器310、说话者判别器320、目标域嵌入提取器330和域判别器340,其中,

所述源域嵌入提取器310和所述目标域嵌入提取器330之间共享部分层的参数;示例性地,源域嵌入提取器和目标域嵌入提取器分别包括多个tdnn层、一个池化层和一个密集层。

所述源域嵌入提取器310用于输入有标注的源域训练数据,并与所述说话者判别器320的输入端连接,得到说话者损失;

所述目标域嵌入提取器330用于无标注的目标域训练数据输入;

所述域判别器340用于接收所述目标域提取器330的输出和所述源域嵌入提取器310的输出,以得到wasserstein损失。

在一些实施例中,源域嵌入提取器和目标域嵌入提取器之间通过权重正则化损失实现多个层共享参数,所述多个层为所述多个tdnn层和所述密集层中的部分层。

在一些实施例中本发明还提供一种电子设备,该电子设备配置有前述任一实施例所述的对抗域自适应模型。该电子设备可以是智能音箱、智能手机、平板电脑等,本发明对此不作限定。

为更加清楚的介绍本发明的技术方案,也为更直接地证明本发明的可实时性以及相对于现有技术的有益性,以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。

摘要

说话者验证系统在应用于另一个不同域的新数据集时,通常会遭受很大的性能下降。在本发明中,我们将使用领域对抗训练研究具有不同语言的数据集之间的领域适应策略。我们介绍了一种基于部分共享网络的域对抗训练架构,以学习源域和目标域嵌入提取器的非对称映射。这种体系结构可以帮助嵌入提取器学习领域不变特征,而不会牺牲说话者辨别能力。在评估跨语言域适应性时,源域数据是来自nistsre04-10和switchboard的英语,而目标域数据是来自粤语和nistsre16的他加禄语。结果表明,当源域和目标域嵌入提取器完全共享时,通常的对抗训练模式确实会损害说话者的辨别力。相反,新提出的体系结构解决了该问题,并实现了在sre16粤语和菲律宾语上等错误率(eer)25.0%的相对提升。

1、介绍

在本发明中,我们将展示完全共享的网络确实会损害学习到的说话者嵌入的区别,并引入了部分共享的神经网络体系结构来解决此问题。在nistsre16数据集上彻底探讨了不同权重分配策略的影响。域不匹配问题是最近nist评估(nistsre16和sre18)的主要关注点,而sre16主要关注不同语言之间的不匹配。在本发明中,源域数据是来自nistsre04-10和switchboard的英语,而目标域数据是来自nistsre16的他加禄语和粤语。因此,在本文中,我们在跨语言说话者验证任务上评估了我们提出的方法,同时它们也可以轻松扩展到其他域不匹配的情况。本文的主要贡献如下:

·wassersteingan(wgan)损失用于对抗性训练,目的是学习域不变嵌入。

·与源域和目标域的完全共享特征提取器不同,本发明设计并引入了部分共享的基于网络的域对抗训练,以为说话者验证任务生成更好的表示。

·为说话者验证充分探讨了不同权重分配策略的影响,结果表明,较高层的较低层共享比其他位置更好。最佳策略是在标准nistsre16评估中将eer相对降低25.0%。

如图4a所示,为现有技术中具有对抗性训练标准的完全共享网络(fsn),源域和目标域的数据共享同一嵌入提取器;如图4b所示,为本发明中具有对抗训练标准的部分共享网络(psn),两个并行嵌入提取器用于源域和目标域的数据,而相应层的权重可以由权重正则化损失共享或限制。

2、对抗学习的部分共享网络

2.1、完全共享的网络

对于典型的领域对抗架构,使用通用特征提取器在对抗训练损失的监督下学习领域不变特征。现有技术中研究了这种策略用于说话人嵌入学习。如图4a所示,我们使用fe,fc,fw表示嵌入提取器,说话者鉴别器和域判别器,它们分别由θe,θc和θw参数化。我们假设一个标记的源数据集和一个未标记的目标域数据集其中x表示语句,y表示说话者标签。完全共享网络(fsn)的总损失定义如下:

其中,lc是定义为lc=ce(fc(fe(xi)),yi)的正态交叉熵损失,而lw是wgan损失,定义为:

其中,lwd是wasserstein距离,定义为:

lgrad代表域评论家参数梯度上的1-lipschitz约束,这使lwd近似为wasserstein距离,

其中,是成对的hs(hs=fe(xs))和ht(ht=fe(xt))的线性组合。

2.2、部分共享的网络

2.2.1、模型架构

本发明不是完全共享嵌入提取器,而是提出了部分共享的网络。如图4b所示,分别对来自源域和目标域的数据采用两个并行嵌入提取器。来自两个分支的同一层位置的参数可以共享,也可以不共享。源和目标域数据分别馈入这两个分支以生成嵌入。

2.2.2、损失函数

在部分共享网络(psn)中,fsn中定义的公共嵌入提取器fe将被拆分为分别由θs和θt参数化的并行提取器fs和ft。我们使用θsj和θtj表示第j层(不包括统计池化层)的参数。除了fsn损失中的lwd和lgrad之外,还集成了另一个权重正则化损失来约束θs和θt的权重分布。psn的总损失在公式5中定义。

其中,lr定义为:

lr的定义是从现有技术中的指数形式权重正则化损失中修改得到的,其中指数计算可以更严厉地惩罚θsj和θtj之间的不同,并且我们删除了原始定义中的线性变换,因为它在我们的实验中使训练不稳定。ω是层的集合,在基于x向量的体系结构中定义为ω={1…6}。

2.2.3、训练算法

整个训练过程如算法1所示,可以分为两个迭代步骤。第一步,对wgan域判别器进行多次迭代训练,以便域判别器网络可以区分来自不同域的嵌入。然后,说话人分类损失和训练好的领域判别网络将引导嵌入提取器学习说话人区分和领域不变的嵌入。

算法1:用于对抗训练的部分共享网络

1通过θs、θt、θc和θw初始化源和目标域嵌入提取器、说话者辨别器、域判别器。

3、实验设置

3.1、数据集

以前的nist-sre评估(2004-2010年)和switchboardcellular音频用于训练基准系统。遵循相同数据增强策略。我们随机选择128000个扩充数据并将其添加到干净的语音中。之后,使用基于能量的语音活动检测器将静音部分移除。此外,我们会删除少于0.5s的语句和少于8个语句的说话者。最后,还有4805个说话者,剩余193551个语句。

为了进行对抗训练,我们还按照现有技术中的策略增加了sre16主要数据。我们将所有扩充后的副本与清晰的语音结合在一起,最终得到11360个录音。在进行对抗训练时,这些录音将被视为目标域数据,而上段中说明的数据将被视为源域数据。

3.2、系统结构

使用kaldi提取的23维mfcc特征用于神经网络训练。训练语句被分割为2s-4s的块,而整个语句将在评估期间用于提取嵌入。我们的基线系统是使用标准x向量,并且整个训练流程都遵循kaldisre16的方法。

fsn中的嵌入提取器和提议的psn中的两个并行提取器均采用与基线使用的相同x向量架构,其中包含五个tdnn层和一个密集层。使用训练好的基准x向量系统初始化fsn和建议的psn的嵌入提取器。域判别网络是一个简单的前馈网络,尺寸为512x512x512x1,而relu被用作非线性函数。域判别网络是随机初始化的。我们在算法1中将对抗训练的参数设置为γ=10.0,α=0.0001,λw=0.1,λr=0.001和n=5。

首先使用150维lda减少嵌入维数,然后使用plda进行评分。lda和plda均在nistsre04-10数据集上进行训练。此外,评估数据以nisesre16未标记开发集的平均值为中心。

4、结果与讨论

在我们提出的部分共享网络中,两个并行提取器的相应层可以共享,也可以不共享,但是受到正则化损失的约束。在训练阶段,执行和比较两种模式:1)联合训练源提取器和目标提取器;2)固定源提取器,仅更新目标提取器。

4.1、模式1:联合训练源提取器和目标提取器

如图5所示,为联合训练源提取器和目标提取器的不同权重分配策略的结果。其中,wd(wassersteindistance)为wasserstein距离,eer(%)表示sre16上的池化结果。在x轴上,1或0表示是否共享相应层的权重(从最低层到最高层,低是指靠近输入层),例如,100000表示仅共享最低层的参数。使用可训练的两个提取器,可以在图5中找到不同权重分配策略的结果。

仅在源域数据上训练的x向量基线的eer达到11.81%,当源提取器和目标提取器的参数完全共享时,域对抗训练的网络(对应于图5中的配置111111)在甚至获得更差的eer12.21%。在通常的完全共享结构下也观察到类似的性能下降。此外,在训练该配置时,说话人分类准确性也是最低的,这意味着强加领域不变性可能会通过简单地共享整个嵌入提取器来针对不同领域数据而损害说话者的辨别力。

说话者准确性代表说话者辨别能力,而wasserstein距离代表来自源域和目标域的数据的失配程度。不出所料,就eer而言,系统性能显然与说话者准确度呈正相关,与wasserstein距离呈负相关。

有趣的是,仅共享最低层(100000或110000)或最高层(000001或000011)可以显着提高系统性能,更详细的结果如表1所示。

表1:具有不同部分共享配置的结果。

并且可能的解释是,图5中的这些良好配置都实现了很大的说话人准确度改善,这可能在目标域中最终eer提升中起重要作用。下一节将分析另一个避免说话者分类准确性变化影响的实验。

4.2、模式2:固定源提取器

如图6所示,为本发明中源域嵌入提取器的参数固定情况下不同模型配置的结果比较示意图。

由于本文的主要任务是补偿域不匹配,因此我们决定通过固定源提取器的参数并着重优化wasserstein距离来保持说话者的辨别能力。结果如图6所示。

结果表明,共享层越少,源域和目标域说话者嵌入之间的分布越相似(wasserstein距离越小)。这种观察意味着,为源域数据精心选择的参数不适合目标域数据,需要一组不同的参数来学习差异。当不共享嵌入提取器的顶层时,可以获得更好的结果。此外,图5和图6中的结果均表明,仅在较高层即最后一层或最后两层上解开嵌入提取器权重才能获得良好的性能。诸如语言之类的高级信息的可能解释主要是在较高层中进行的,因此有助于在两个提取器的高层保留不同的参数。

表2中比较了本发明中提出的具有部分共享网络的对抗训练的最佳系统和通常完全共享的模型。部分共享权重架构的最佳配置在很大程度上优于基线,与基准系统相比在池化eer上有25.0%的相对改善。

表2:使用不同权重分配策略的结果比较。

4.3、正则化损失的影响

最后,我们探讨了权重正则化损失的有效性。结果显示在表3中。我们可以发现,当λw较小时,例如,λw=0.1,权重正则化损失对最终改善的贡献很小。但是当λw较大时,例如,λw=1.0,该模型在没有权重正则化的情况下几乎失去了对说话人嵌入的判别能力。因此,权重正则化损失使模型对其他超参数更鲁棒,并且在保持说话人对目标域嵌入的区分时发挥了重要作用。

表3:有或没有权重正则化的结果。模型配置对应于图6中的111000。

5、结论

本发明介绍了基于部分共享网络的对抗训练架构来进行跨语言领域的适应。与完全共享的网络相比,除了学习域不变嵌入之外,部分共享的网络可以学习更多针对说话者的区分性嵌入。所提出的方法优于x向量基线,在eer方面有25.0%的相对改善。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项对抗域自适应模型训练方法。

在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项对抗域自适应模型训练方法。

在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行对抗域自适应模型训练方法。

在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现对抗域自适应模型训练方法。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1