提取说话人嵌入特征的神经网络的训练方法和装置与流程

文档序号:20842255发布日期:2020-05-22 17:39阅读:319来源:国知局
提取说话人嵌入特征的神经网络的训练方法和装置与流程
本发明属于神经网络训练
技术领域
,尤其涉及提取说话人嵌入特征的神经网络的训练方法和装置。
背景技术
:说话人验证(sv,speakerverfication)的目的是根据用户的语音片段来验证其要求的身份。最近,基于深度神经网络(dnn,deepneuralnetwork)的说话人嵌入学习已成为该领域的主要方法。研究人员研究了不同的体系结构,不同的损失函数和不同的模型补偿方法,这极大地提高了sv系统的性能。尽管深度学习技术在sv研究领域中取得了巨大的成功,但实际应用构建sv系统仍然非常困难。众所周知,就系统的鲁棒性而言,说话人验证比语音识别更脆弱。为了提高sv系统的鲁棒性,需要解决两个可变性来源:语音内容和信道可变性。对于文本无关的说话人验证,这要求将来自同一说话人的具有不同语音内容的两种话语归为一类,在说话人建模过程中应对音素变化很重要。对于使用不同设备和录音环境的现实世界中与文本相关和与文本无关的说话人验证任务,由于这种信道不匹配,系统性能将急剧下降。相关技术中,对于信道带来的不同于说话人的特性或者是噪声,一般会使用前端处理去除信道带来的不同于说话人的特性或者是噪声,或者使用对抗训练的方式去除。这些相似的技术的目的都是为了消除不同信道对同一个说话人的特性带来的差异或噪声,只不过所采取的方式不同。发明人在实现本申请的过程中发现,虽然信道差异带来的与说话人无关的特性是需要被消除的,但关于信道的信息也是可以被利用的,利用好这些信息可以帮助神经网络提取更好的声学特征。而上面提到的相关技术都没有很好利用信道的信息。技术实现要素:本发明实施例提供一种提取说话人嵌入特征的神经网络的训练方法和装置,用于至少解决上述技术问题之一。第一方面,本发明实施例提供一种提取说话人嵌入特征的神经网络的训练方法,其中,所述神经网络包括多个帧级层、统计池化层和多个段级层,所述方法包括:经由所述多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征;经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;以及通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。第二方面,本发明实施例提供一种提取说话人嵌入特征的神经网络的训练装置,其中,所述神经网络包括多个帧级层、统计池化层和多个段级层,所述装置包括:接收处理模块,配置为经由所述多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征;聚合模块,配置为经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;第一分支模块,配置为在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;合并模块,配置为经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;第二分支模块,配置为在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;以及训练模块,配置为通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的提取说话人嵌入特征的神经网络的训练方法的步骤。第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的提取说话人嵌入特征的神经网络的训练方法的步骤。本申请的方法和装置提供的方案可以帮助神经网络提取更好的声学特征同时又可以消除信道特性对于说话人嵌入特征的影响,比之前直接消除信道特性的方法的效果更好。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练方法的流程图;图2为本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练方法的流程图;图3为本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练方法的一个具体实施例的基于神经网络的文本分类方法的神经网络模型的网络架构图;图4为本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练方法的一个具体实施例的示意图;图5为本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练装置的框图;图6为本发明一实施例提供的电子设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参考图1,其示出了本申请的提取说话人嵌入特征的神经网络的训练方法一实施例的流程图,本实施例的提取说话人嵌入特征的神经网络的训练方法可以适用于提取说话人嵌入特征的神经网络的训练,其中,该神经网络可以包括多个帧级层、统计池化层和多个段级层。如图1所示,在步骤101中,经由所述多个帧级层接收并处理输入的音频片段;在步骤102中,经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;在步骤103中,在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;在步骤104中,经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;在步骤105中,在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;在步骤106中,通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。在本实施例中,对于步骤101,用于提取说话人嵌入特征的神经网络的训练装置经由神经网络中的多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征。之后,对于步骤102,再经由该统计池化层将帧级频谱特征聚合为段级频谱特征。对于步骤103,通过再统计池化层的基础上再拆分出第一多层线性层用以计算段级频谱特征的第一信道损失。然后,对于步骤104,经由多个段级层将段级频谱特征合并成话语级频谱特征,并在该层计算话语级频谱特征的说话人损失。之后,对于步骤105,在后续的多个段级层的基础上再拆分出第二多层线性层以用于计算该话语级频谱特征的第二信道损失。最后,对于步骤106,通过控制该第一信道损失、第二信道损失和说话人损失的值训练该神经网络。本实施例的方法通过在对音频进行处理的过程中在不同的层分别拆分出分支来计算不同的损失,之后通过控制该损失可以训练出信道无关的说话人嵌入特征。在一些可选的实施例中,上述方法还包括:在所述第一多层线性层之前插入梯度翻转层以用于对抗训练;和/或在所述第二多层线性层之前插入梯度翻转层以用于对抗训练。例如可以只在第二多层线性层之前插入梯度翻转层以用于对抗训练时帮助网络消除信道的信息,从而提取信道无关的说话人嵌入特征。也可以只在第一多层线性层之前插入梯度翻转层,或者在第一多层线性层和第二多层线性层之前都插入梯度翻转层,本申请在此没有限制,在此不再赘述。事实上,发明人在实验中对说话人损失加信道损失1(对应第二信道损失)对应的分支(这时候信道损失2(对应第一信道损失)对应的分支是去掉的)或说话人损失加信道损失2对应的分支进行了单独的实验。在这两个单独的实验中,发现在信道损失1处插入梯度翻转层会更好,在信道损失2处不加梯度翻转会更好。所以,我们认为说话人损失加上插入了梯度翻转层的信道损失1和不加梯度翻转信道损失2会更好(这时候三个损失是共存的),结果也是如此。由于说话人损失加信道损失2单独的实验中已经验证了信道损失2不加梯度翻转会更好,所以在三者结合的时候,说话人损失+梯度翻转层的信道损失1+梯度翻转层的信道损失2这种组合就没有做实验。我们推测结果不会最好,但也不会太差。从而在网络的浅层部分,本实施例的方案会帮助网络学习信道的信息,进而可以提取更好的声学特征,在说话人嵌入特征层面,即神经网络的深层,本实施例的方案可以帮助神经网络消除信道的特征,从而提取信道无关的说话人嵌入特征。在一些可选的实施例中,上述第一信道损失和所述第二信道损失包括使用交叉熵计算。在另一些可选的实施例中,上述说话人损失包括使用附加角裕量损失计算。该附加角裕量损失施加了更严格的约束,该约束迫使正确类别的相似度比不正确类别的相似度大裕度m。进一步可选的,上述多个帧级层包括时延神经网络特征提取器,所述多个段级层包括线性嵌入层。从而采用tdnn(timedelayneuralnetwork,时延神经网络)特征提取器,可以更好地提取帧级特征。利用线性嵌入层也能更好地提取说话人嵌入特征。进一步可选的,神经网络包括深度神经网络,深度神经网络作为说话人嵌入学习的主要方法,具备更好地提取说话人嵌入特征的能力。发明人发现,现有技术中存在的缺陷是由于这些技术的实现手段导致的,这些技术旨在消除信道的差异,并没有实现对信道信息的利用。本领域技术人员在面对现有技术的缺陷时,因为信道的特性是对最后的说话人嵌入特征有害的,通常的做法是消除信道特性带来的影响。信道的特性对于最后的说话人嵌入特征有害,把这个特性消除是最为直接的想法。因此不容易想到本申请的利用信道信息的方案。本申请实施例的方案中,在使用神经网络提取说话人嵌入特征的时候,在网络的底层,会帮助神经网络学习信道信息,这样网络就可以学到更好的声学特征。然后在说话人嵌入特征层面,再帮助网络消除关于信道的特性,这样提取的说话人特征就和信道无关了。图2示出了提取信道无关说话人嵌入特征的神经网络流程图。如图2所示,首先在统计池化层,也就是神经网络比较浅层的部分,会引出一个对信道进行分类的头,产生信道损失2,帮助网络学习信道的信息,从而帮助网络提取更好的声学特征。信道损失1也是对信道进行分类产生的损失,但通过在前面加入一个梯度翻转层,可以帮助网络消除信道的信息,从而提取信道无关的说话人嵌入特征。说话人损失帮助网络学习说话人相关的信息。也就是说,在神经网络的浅层部分,我们的设计会帮助网络学习信道的信息,从而可以提取更好的声学特征,在说话人嵌入特征层面(神经网络的深层),我们的设计会帮助神经网络消除信道的特性,从而提取信道无关的说话人嵌入特征。本申请的实施例能够直接达到的效果:本方案可以帮助神经网络提取更好的声学特征同时又可以消除信道特性对于说话人嵌入特征的影响,比之前直接消除信道特性的方法的效果更好。本申请的实施例能够实现的更深层次的效果:通过这个实验我们可以推断即使有些声学的特性在最后的任务中没有用,但我们仍然可以利用这些已有的信息帮助网络学习更好的声学特征。下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。近来,已经进行了许多工作来减轻特定任务中的干扰属性。在语音领域中已经使用对抗训练来抑制语音识别时说话人的信息,例如使用域对抗训练来进行说话人反欺骗。或者使用gan和grl策略并进行了对抗训练来应对sv任务中的信道变化。以上所有现有技术旨在消除主要任务中的干扰信息,而对抗性训练是最常用的方法。但是,应该意识到,有两种方法可以利用现有的干扰信息,即多任务学习和对抗学习。我们先前的工作显示了将两种方法结合起来以在与文本无关的sv任务中更好地利用语音信息的可能性:在早期帧级别的层中鼓励语音信息,而在后面的说话人嵌入层中抑制此类信息。在本申请实施例中,我们遵循先前工作中类似的想法。我们假设,即使我们希望获得信道无关嵌入,也可以将可用信道信息用于浅层模型层中更好的通用声学特征学习,然后在后面的说话人嵌入中将其抑制。正如我们的实验所证实的,在嵌入提取层之前应用多任务学习以及对说话人嵌入进行对抗训练都是有益的。当我们将多任务学习与对抗训练相结合时,设计了两种训练策略,包括联合模式和渐进模式。在基于唤醒词的td-sv数据集上进行实验。最好的系统在使用录音设备和环境作为信道信息的时候分别取得了10.77%和9.37%的相对提升。相关工作深度神经网络(dnn)以其强大的建模能力和灵活性而闻名,基于dnn的说话人嵌入已成为主导的说话人身份建模方法。x-vector是一种典型的方法,被许多研究人员使用。在x-vector框架中,对时延神经网络(tdnn,time-delayneuralnetwork)进行了训练,以区分训练数据中的不同说话人。帧级频谱特征将首先经过几个帧级层,然后是统计池化层,该统计池化层将帧级表示形式聚合为单个段级表示形式。可以将一个或多个嵌入层合并到话语级别的层中以提取说话人嵌入。在我们的实验中,x-vector提取器被用作我们提出的框架的基线和主干。多任务和对抗训练我们先前的工作已成功地将多任务和对抗训练相结合,以在与文本无关的说话人验证任务中更好地使用语音信息。整个系统如图3所示。图3示出了将多任务和对抗性训练相结合的结构,以在与文本无关的说话人验证任务中更好地利用语音知识。主要思想是在模型的浅层集成语音信息,这有利于通用特征学习,并在最终的说话人嵌入层中抑制音素变化。如图3所示,除了原始x-vector框架中的主说话人分支以外,我们提出的体系结构还包括帧级多任务音素分支和段级对抗性音素分支。通过结合这三个分支的监督信号,我们观察到在与文本无关的说话人验证任务上的性能有了显着提高。模型说明受到先前工作的成功的启发,我们想采用类似的策略来学习信道无关的说话人嵌入,而信道意味着实验中的录音设备和环境。使用这种新的体系结构,我们希望在神经网络的浅层上增强针对不同训练发声的信道变化性的学习,然后在后者的嵌入层中对其进行抑制,从而最终获得更好的信道无关的说话人嵌入。模型架构与语音信息不同,信道信息位于段级别,因此,与图3不同,我们将在段级别探索多任务和对抗性学习两个位置。图4示出了在模型的不同位置应用信道级多任务和对抗训练的建议结构。对于第一种类型,现在我们不是在最后一个帧级层的输出上执行多任务/对抗训练,而是在合并层之后拆分分支。第二种类型与图3中的相同,直接在嵌入层上执行。当采用对抗训练时,梯度翻转层(grl,gradientreversallayer)将插入到正常的多任务分支中,以翻转计算出的梯度的符号。损失函数对于具有说话人标签ys和信道标签yc的输入段x,模型优化的总损失由说话人损失ls和信道损失lc1,lc2组成lc1和lc2表示信道损失,其分支分别插入x-vector嵌入和统计层。交叉熵将用于信道分类分支i∈(1,2),l表示信道类别的数目。对于说话人分类模块,即模型的关键组成部分,我们使用最近提出的附加角裕量损失作为我们的主要说话人损失。附加角裕量损失施加了更严格的约束,该约束迫使正确类别的相似度比不正确类别的相似度大裕度m。其中是x-vector体系结构的归一化第二线性层输出。表示权重的归一化第j列。n表示说话人人数。附加角裕量损失还增加了比例参数s,这有助于模型收敛更快。对于所有实验,我们选择m=0.2且s=30。训练策略假设信道信息有助于在模型的浅层进行通用特征学习,但最终的说话人嵌入并不需要该信息,我们研究了两种不同的训练策略以将多任务学习和对抗训练相结合,并获得最后的信道无关说话人嵌入。联合多任务对抗训练在这种策略中,使用多任务学习和对抗训练同时优化了整个体系结构和所有参数,并且使用了三种损失函数进行模型训练。多任务学习将应用于统计数据汇总层,对抗训练将应用于嵌入层。渐进式多任务对抗训练在这种情况下,我们将模型优化分为两个阶段,并且在第一个阶段中首先通过几个训练周期来应用多任务学习。然后,多任务学习分支被丢弃,而对抗训练分支则在第二阶段。实验设置数据集本申请实施例使用了基于唤醒词的数据集。所有段的平均持续时间约为1.0秒。要求每个人在不同的环境中使用特定的设备重复唤醒单词。数据集带有设备标注。但是环境标签在所有设备上都没有很好的标注。我们从2k个不同的说话人中选择1.6m语音作为训练集。为了产生更多的训练数据,在安静环境中录音的话语会使用musan数据集的噪声进行增强,从而最终获得5.2m话语训练集。对于使用信道信息的实验,我们在这里将不同的记录设备和环境视为可用的信道信息。环境代表收集录音的场景,例如安静,办公室和汽车等。此外,我们还将增强噪声视为不同的环境类型。将分别针对设备或环境作为信道信息进行实验。使用设备类型作为信道信息进行数据准备对于将设备类型视为信道可变性的实验,上述所有训练数据都用于训练,总共有5种设备类型。来自94名发言人的其他20543条语音未包含在训练集中,用于注册和测试。对于每个说话人,我们选择4个干净的语音作为注册数据,并将该说话人的其余语音用于生成目标试验。此外,对于每个注册的说话人,其他说话人的所有说话都用于生成非目标测试样例。最后,我们获得了20167目标和636798非目标试验。表1示出了基本x-vector提取器配置使用录音环境类别作为信道信息的数据准备由于环境标签在所有设备上的并不一致,因此我们仅在某些特定设备上对数据集进行此实验。我们所有训练数据中选择由两个设备录音的数据进行实验(以后将它们分别表示为device1(设备1)和device2(设备2)数据集)。device1和device2数据集中的环境类型数目均为6。device1数据集由352个说话人和594583语音组成,而device2数据集由512个说话人和841450语音组成。本申请实施例使用与前面相同的策略来生成测试试验。最后,device1测试集包含35个发言人,8732个目标试验和324888个非目标试验。device2测试集包含29位说话人,5555次目标试验和158788次非目标试验。两台设备上的结果将分别报告。系统配置基本的说话人嵌入提取器是x-vector系统,其参数比原始参数少,表1中提供了更详细的配置。所有体系结构均使用pytorch实现。使用kaldi工具包提取40维fbank特征,并使用基于能量的语音活动检测器删除静音帧。首先对提取的嵌入进行长度标准化,然后使用二协方差plda计算分数。基线系统我们的基准系统是一个正常的x-vector,其结构如表1所示,只有说话人分类损失将用作优化目标。附加角余量损失m的余量将沿着训练迭代从0.0线性增加到0.2。我们使用sgd优化器来优化我们的网络,并将动量和学习率分别设置为0.9和0.0001。所提出的系统信道分类块由三个线性层组成,其中插入了batchnorm层。三个线性层的尺寸为(inputdim)×(inputdim)×(信道类别编号)。当将多任务或对抗性负责人添加到我们的基准网络时,说话人和信道分类任务将从头开始进行联合训练。结果与讨论使用环境标签作为信道信息探索模型不同位置的环境信息首先探索多任务和对抗分支的合理位置。如表2所示,在嵌入层进行对抗训练可以提高sv任务的性能此外,在统计池层进行的多任务训练比对抗训练得到的结果更好,这验证了我们之前的假设,即信道信息可能有助于较浅模型层的通用特征学习。表2示出了使用环境信息在模型的不同位置进行的多任务或对抗训练结果的比较,stamt和sta-adv表示在统计汇总层进行的多任务或对抗训练,而emb-mt和emb-adv表示进行了相关学习在嵌入层。系统数据集(eer(%))使用环境信息进行联合和渐进式多任务对抗训练本申请实施例之前的实验结果表明,在模型的浅层(即统计池层)鼓励环境信息,并在后者的嵌入层抑制环境信息,都可以提高模型性能。然后,我们在本文提出的单一架构中将多任务学习和对抗训练相结合。执行并比较了两种训练策略,结果如表3所示。可以看出,提出的新体系结构可以得到进一步的改进,并且在所有条件下都始终更好。对于这两种训练策略,渐进模式似乎比联合模式更好。与基线相比,最佳系统平均可实现10.77%的相对改进。表3示出了针对所提出的体系结构使用环境信息的两种训练策略的比较,joint表示联合多任务对抗训练模式,progressive表示所建议体系结构的渐进多任务对抗训练模式。表3.针对所提出的体系结构使用环境信息的两种训练策略的比较使用设备标签作为信道信息在本实施例中,我们介绍将设备标签用作信道信息时获得的结果。在本实施例中,将执行与之前的实施例类似的实验,而每种发音的设备标签将用作信道标签,而不是环境标签。表4.使用设备信息的不同系统的比较。系统eer(%)基线4.27emb-mt4.12sta-mt4.09emb-adv4.10sta-adv4.23joint3.93progressive3.87使用设备信息进行多任务训练和对抗训练的结果如表4所示。从表的中间部分可以看出,最好将多任务训练和对抗训练分别插入到统计池和嵌入层,即之前实施例中的结论。此外,与之前实施例中的结果相同,该体系结构集成了多任务学习和对抗训练,可以进一步改进。对于这两种训练策略,渐进模式仍然稍好一些,与基线相比,相对改进达到9.37%。从以上结果中,可以在基于环境和基于设备的信道无关训练中获得一致的观察结果。它证明了我们提出的新框架的有效性,并且可以通过新方法获得更好的信道无关说话人嵌入。在本申请实施例中,我们提出了在模型的不同位置结合多任务和对抗训练的框架,以更好地利用信道信息。将不同的设备或记录环境视为信道标签,进行了两个独立的实验以验证所提出的模型。在两种实验条件下均观察到一致的性能改进。结果表明,在模型的较浅层中增强信道信息有助于通用特征学习,而在高层中抑制此类信息则有助于学习更好的信道无关说话人嵌入。设计了两种训练策略来优化整个模型,并且新框架可以获得更好的性能。渐进式学习模式比联合学习模式稍好。与基准相比,对于环境和设备级别而言,最佳系统在eer方面均实现了约10.0%的相对改进。请参考图5,其示出了本发明一实施例提供的一种提取说话人嵌入特征的神经网络的训练装置的框图,其中,所述神经网络包括多个帧级层、统计池化层和多个段级层。如图5所示,提取说话人嵌入特征的神经网络的训练装置500,包括接收处理模块510、聚合模块520、第一分支模块530、合并模块540、第二分支模块550和训练模块560。其中,接收处理模块510,配置为经由所述多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征;聚合模块520,配置为经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;第一分支模块530,配置为在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;合并模块540,配置为经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;第二分支模块550,配置为在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;以及训练模块560,配置为通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。在一些可选的实施例中,上述装置还包括:在所述第一多层线性层之前插入梯度翻转层以用于对抗训练;和/或在所述第二多层线性层之前插入梯度翻转层以用于对抗训练。应当理解,图5中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块,在此不再赘述。值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如接收处理模块可以描述为经由所述多个帧级层接收并处理输入的音频片段的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如接收模块也可以用处理器实现,在此不再赘述。在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的提取说话人嵌入特征的神经网络的训练方法,所述神经网络包括多个帧级层、统计池化层和多个段级层;作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:经由所述多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征;经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据提取说话人嵌入特征的神经网络的训练装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至提取说话人嵌入特征的神经网络的训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项提取说话人嵌入特征的神经网络的训练方法。图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器610为例。提取说话人嵌入特征的神经网络的训练方法的设备还可以包括:输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例提取说话人嵌入特征的神经网络的训练方法。输入装置630可接收输入的数字或字符信息,以及产生与提取说话人嵌入特征的神经网络的训练装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。作为一种实施方式,上述电子设备应用于提取说话人嵌入特征的神经网络的训练装置中,其中,所述神经网络包括多个帧级层、统计池化层和多个段级层,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:经由所述多个帧级层接收并处理输入的音频片段,其中,所述多个帧级层用于提取帧级频谱特征;经由所述统计池化层将所述帧级频谱特征聚合为段级频谱特征;在所述统计池化层的基础上再拆分出第一多层线性层以用于计算所述段级频谱特征的第一信道损失;经由所述多个段级层将所述段级频谱特征合并成话语级频谱特征,并计算所述话语级频谱特征的说话人损失;在所述多个段级层的基础上再拆分出第二多层线性层以用于计算所述话语级频谱特征的第二信道损失;通过控制所述第一信道损失、所述第二信道损失和所述说话人损失的和值训练所述神经网络。本申请实施例的电子设备以多种形式存在,包括但不限于:(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。(5)其他具有数据交互功能的电子装置。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1