说话者身份验证方法及系统与流程

文档序号：22744219发布日期：2020-10-31 09:31阅读：326来源：国知局

本发明涉及人工智能技术领域，尤其涉及一种说话者身份验证方法及系统。

背景技术：

现有技术中的说话者身份验证方法有基于声纹的验证方法和基于人脸识别的验证方法。这些技术都是使用人的某些生理特征，来达到验证一个人身份的目的。人的某个生理特征在某种情况下可能不具有区分某个人的条件。例如，在比较嘈杂的环境，我们可能听不到某个特定人的声音；在一个人扭脸或在他/她运动的时候人脸特征可能不具备区分一个人的条件。

技术实现要素：

本发明实施例提供一种说话者身份验证方法及系统，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种说话者身份验证方法，包括：

获取所述说话者的音频数据和面部图像数据；

从所述音频数据中提取语音特征嵌入，从所述面部图像数据中提取面部特征嵌入；

根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入，以用于进行说话者身份验证。

第二方面，本发明实施例提供一种说话者身份验证系统，包括：

视听数据获取模块，用于获取所述说话者的音频数据和面部图像数据；

特征提取模块，用于从所述音频数据中提取语音特征嵌入，从所述面部图像数据中提取面部特征嵌入；

身份特征嵌入确定模块，用于根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入，以用于进行说话者身份验证。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项说话者身份验证方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项说话者身份验证方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项说话者身份验证方法。

本发明实施例的有益效果在于：提出了一种使用多模态的信息(来自人脸和声音)来进行人身份验证的一种方案，避免了单一模态下容易受到外部因素影响而无法进行身份验证的问题，提升了进行身份验证的成功率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的说话者身份验证方法的一实施例的流程图；

图2为本发明的说话者身份验证方法的另一实施例的流程图；

图3为本发明的说话者身份验证系统的一实施例的原理框图；

图4为本发明的说话者身份验证系统的另一实施例的原理框图；

图5a为本发明中所使用的简单软注意力融合的示意图；

图5b为本发明中所使用的紧凑型双线性池化融合的示意图；

图5c为本发明中所使用的门式多模态融合的示意图；

图6a为本发明中原始对比损失下正负对之间的距离的分布图；

图6b为本发明中新的对比损失下正负对之间的距离的分布图；

图7为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明提供一种说话者身份验证方法，该方法可以用于终端设备，该终端设备同时具备人脸识别和声纹识别功能，例如，可以是智能手机、平板电脑、智能音箱、车机终端、智能机器人等，本发明对此不作限定。

如图1所示，本发明的实施例提供一种说话者身份验证方法，包括：

s10、获取所述说话者的音频数据和面部图像数据。

示例性地，执行本方法的终端设备为智能手机，可以通过智能手机的麦克风获取说话者的音频数据，同时通过智能手机的摄像头获取说话者的人脸图像。

s20、从所述音频数据中提取语音特征嵌入，从所述面部图像数据中提取面部特征嵌入。

示例性地，语音特征嵌入可以为声纹特征。可以分别使用resnet34和seresnet50来提取声纹和面部特征嵌入。

s30、根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入，以用于进行说话者身份验证。

本发明实施例提出了一种使用多模态的信息(来自人脸和声音)来进行人身份验证的一种方案，避免了单一模态下容易受到外部因素影响而无法进行身份验证的问题，提升了进行身份验证的成功率。

如图2所示，为本发明的说话者身份验证方法的另一实施例的流程图，在该实施例中，所述根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入包括：

s31、将所述语音特征嵌入输入至第一嵌入特征转换层得到预处理语音特征嵌入。

s32、将所述面部特征嵌入输入至第二嵌入特征转换层得到预处理面部特征嵌入。

示例性地，通过转换层ftrans_f和ftrans_v将ef和ev分别转换为和

转换后的和位于共嵌入空间中，这更适合于以后的融合。

s33、对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

通过注意力层，根据所述语音特征嵌入和所述面部特征嵌入确定注意力得分：

根据所述注意力得分确定加权系数：

根据所述加权系数和所述预处理语音特征嵌入以及所述预处理面部特征嵌入确定身份特征嵌入：

其中，ev为语音特征嵌入，ef为面部特征嵌入，为预处理语音特征嵌入，为预处理面部特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

采用紧凑型双线性池化方式对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

根据所述语音特征嵌入和所述面部特征嵌入确定门向量：

z＝σ(fatt([ef，ev]))

采用所述门向量对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合得到身份特征嵌入：

其中，ev为语音特征嵌入，ef为面部特征嵌入，为预处理语音特征嵌入，为预处理面部特征嵌入，⊙表示逐元素乘积。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

如图3所示，本发明的实施例还提供一种说话者身份验证系统300，该系统可以用于终端设备，该终端设备同时具备人脸识别和声纹识别功能，例如，可以是智能手机、平板电脑、智能音箱、车机终端、智能机器人等，本发明对此不作限定。

如图3所述，说话者身份验证系统300包括：

视听数据获取模块310，用于获取所述说话者的音频数据和面部图像数据；

特征提取模块320，用于从所述音频数据中提取语音特征嵌入，从所述面部图像数据中提取面部特征嵌入；

身份特征嵌入确定模块330，用于根据所述语音特征嵌入和所述面部特征嵌入确定身份特征嵌入，以用于进行说话者身份验证。

如图4所示，为本发明的说话者身份验证系统的另一实施例的原理框图，该实施例中身份特征嵌入确定模块包括：

第一嵌入特征转换层331，用于对所述语音特征嵌入进行预处理得到预处理语音特征嵌入；

第二嵌入特征转换层332，用于对所述面部特征嵌入进行预处理得到预处理面部特征嵌入；

融合模块333，用于对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

通过注意力层，根据所述语音特征嵌入和所述面部特征嵌入确定注意力得分：

根据所述注意力得分确定加权系数：

根据所述加权系数和所述预处理语音特征嵌入以及所述预处理面部特征嵌入确定身份特征嵌入：

其中，ev为语音特征嵌入，ef为面部特征嵌入，为预处理语音特征嵌入，为预处理面部特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

采用紧凑型双线性池化方式对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入。

示例性地，所述对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合处理，以得到身份特征嵌入包括：

根据所述语音特征嵌入和所述面部特征嵌入确定门向量：

z＝σ(fatt([ef，ev]))

采用所述门向量对所述预处理语音特征嵌入和预处理面部特征嵌入进行融合得到身份特征嵌入：

其中，ev为语音特征嵌入，ef为面部特征嵌入，为预处理语音特征嵌入，为预处理面部特征嵌入，⊙表示逐元素乘积。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项说话者身份验证方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项说话者身份验证方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行说话者身份验证方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现说话者身份验证方法。

上述本发明实施例的说话者身份验证系统可用于执行本发明实施例的说话者身份验证方法，并相应的达到上述本发明实施例的实现说话者身份验证方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现相关功能模块。

为更加清楚的介绍本发明的技术方案，也为更直接地证明本发明的可实时性以及相对于现有技术的有益性，以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。

摘要

来自不同形式的信息通常会相互补偿。在本发明中，我们使用voxceleb数据集中的视听数据进行人员验证。我们在嵌入特征层面探索了用于视听人员验证系统的不同信息融合策略和损失函数。使用voxceleb1数据集上的公共测试列表评估系统性能。我们在嵌入特征层面上使用视听知识的最佳系统在voxceleb1的三个公共测试列表上实现了0.585％，0.427％和0.735％的eer，这是该数据集上报告得最好的结果。此外，为了模仿一个模态损坏或缺失的更复杂的测试环境，我们基于voxceleb1数据集构建了一个嘈杂评估集。我们在嵌入特征层面使用数据增强策略来帮助我们的视听系统区分嘈杂的嵌入和干净的嵌入。通过这种数据增强策略，所提出的视听人员验证系统在嘈杂的评估集上更加强大。

1、介绍

可以使用多种生物特征来验证一个人的身份，而语音和面部表情是两个典型的特征。面部验证和说话者验证是生物识别领域中的热门研究主题。最近深度学习技术极大地提高了这两项任务的性能。在过去的几年中，研究人员研究了不同的架构和不同的损失函数，从而得出了性能良好的系统，甚至可以将其商业化用于实际的世界应用。

尽管在单模态应用方面取得了成功，但多模态学习已引起了学术界和工业界越来越多的关注。动机有两个方面：

1.来自不同模态的互补信息可以提高系统性能。

2.从多种模态构建的模型往往具备更佳的鲁棒性和容错性，并且可以修复或抑制单一模式中的故障。

在本发明中，跨模态集成是在嵌入级别执行的，而使用功能更强大的段级训练的说话者嵌入。在多模态学习框架中研究并比较了不同的融合策略和损失函数。

此外，为了模仿现实世界的场景，我们构建了一个嘈杂的评估集，其中一种模态已损坏或缺失。为了补偿性能下降，提出了一种新的嵌入特征层面的噪声分布匹配(noisedistributionmatching,ndm)数据增强方法，该方法极大地提高了嘈杂条件下的性能。

所有系统都在标准vox-celeb1数据集上进行了评估，而我们最好的多模态系统达到了分别在三个测试列表(vox-celeb1_o，voxceleb1_e和voxceleb1_h)上取得了0.585％、0.427％和0.735％的eer。据我们所知，这是该数据集上报告得最好的结果。此外，基于ndm的多模态系统显示了在嘈杂的评估集上进行评估时可以选择更多显著的模态信息的能力。

2、方法

2.1、嵌入特征层面的多模态融合

在本节中，我们将介绍三种将面部特征嵌入ef和语音特征嵌入ev融合成身份特征嵌入ep的方法。如图5a至5c所示，首先通过转换层ftrans_f和ftrans_v将ef和ev分别转换为和

转换后的和位于共嵌入空间中，这更适合于以后的融合。

2.1.1、简单的软注意力融合

在本节中，我们首先引入一个简单的软注意力(simplesoftattention，ssa)。如图5a所示，给定面部和语音特征嵌入ef和ev，通过注意力层fatt(·)将注意力得分定义为：

然后通过加权和计算融合嵌入为：

2.1.2、紧凑型双线性池化融合

双线性池化使用外积运算充分探索了两个向量之间的关系，并且不涉及训练参数。但是，由于外积的高维度，通常在实践中是不可行的。现有技术中提出了一种称为多模态紧凑型双线性池化(multi-modalcompactbilinear,mcb)的方法，可以近似估算外部乘积结果并同时减小结果的维数。值得注意的是，mcb中也没有训练参数。如图5b所示，我们直接使用紧凑型双线性池化将和融合到ep。关于紧凑型双线性池化的实现细节可以参见现有技术，本发明对此不作限定。

2.1.3、门式多模态融合

在本节中，我们使用门来控制人脸和语音模态的信息流，我们称其为门多模态融合(gatedmulti-modalfusion,gate)。如图5c所示，给定面部和语音特征嵌入ef和ev，可以计算出门向量z∈r^d：

z＝σ(fatt([ef，ev]))

然后，我们使用门向量z将知融合到ep，⊙表示逐元素乘积：

2.2、损失函数

在本节中，我们将介绍用于优化所提出的多模态融合系统的损失函数。

2.2.1、进取型抽样策略的对比损失

原始对比损失定义为：

其中，d是一对之间的距离，n和m是批次中正负对的数量。y＝1和y＝0分别表示正对和负对，而m是余量。在我们的实验中，我们使用余弦相似度来衡量嵌入对的距离。

原始对比损失中已调整的边距m使损失更多地关注难的负对。但是，没有考虑难的正对。在这里，我们介绍了一种更积极的抽样策略。在训练过程中，神经网络正向传播后，我们仅使用γm个最难的负对和γn个最难的正对(γ∈(0，1])的子集来计算损失，采用新采样策略的对比损失可以被定义为：

其中，dp_low表示所有“最硬的”正数中的最小距离，dn_high表示所有“最硬的”负数中的最大距离。

2.2.2、加法角余量损失

另外，我们还在实验中尝试了流行的角余量损失。对于带有人员身份标签ys的输入，损失定义为：

其中，m是加法余量，s是比例参数，可以帮助模型更快收敛。在我们的实验中，在融合系统中，s设置为32，m设置为0.6。

2.3、用于嘈杂评估的嵌入层增强

2.3.1、嘈杂的评估集构造

来自不同模态的信息并不总是可用或足够显着以执行验证任务。在实际应用中，一种模态经常由于某些不可避免的外部因素(例如，环境光，人员运动或背景噪声)而损坏或缺失。为了解决这种情况，我们基于voxceleb1评估集构建了一个嘈杂的评估集。

对于图像数据，我们使用垂直和水平运动模糊来模仿人在镜头前的运动，并使用高斯模糊来模仿其他噪声。对于音频数据，musan中的三种噪声与原始数据相结合，以生成损坏的音频样本。我们还通过直接将相应的提取嵌入设置为零值来考虑一种模态的完全缺失的情况。算法1中显示了构造此数据集的详细流程。

算法1：嘈杂评估集构造

2.3.2、嵌入层增强

为了构建对损坏的视听数据更健壮的系统，在这项工作中提出了一种附加的嵌入层增强策略。在我们以前的工作中，我们使用诸如生成对抗网络(gan)或变分自编码器(vae)之类的深层生成模型来模拟嘈杂的说话人嵌入的分布。在此，使用简单的基于统计的分布匹配算法。

我们从训练集中随机选择了100,000条记录(1,092,009条记录)，并生成了不同类型的损坏数据。然后，对于每种噪声类型，我们假设噪声嵌入和原始嵌入之间的差异可以用高斯分布来描述。在估计了噪声分布的参数之后，我们对分布中的噪声进行采样并将其直接添加到原始嵌入中，以生成一个有噪声嵌入。我们将这种嵌入层增强方法称为噪声分布匹配(noisedistributionmatching，ndm)。与直接将噪声添加到整个训练集并提取增强的嵌入相比，ndm仅使用训练数据的一小部分并直接增强嵌入，从而节省了时间和磁盘。此外，我们仍然使用零向量来模拟模态丢失的情况。

3、实验设置

3.1、数据集

在我们的实验中，我们同时使用了来自voxceleb1和2数据集的视觉和音频数据。为了进行训练，我们使用了voxceleb2数据集的dev部分，其中包括5,994位演讲者和1,092,009话语。voxceleb1被用作评估集，所有三个正式测试列表voxceleb1-o，voxceleb1-e和voxceleb1-h被用作评估。请注意，来自官方voxceleb1数据集的视觉数据不完整，我们从youtube下载了丢失的视觉数据并将其公开。

3.2、实验设置

3.2.1、单模态系统

对于音频数据，使用kaldi工具包提取40维fbank特征，并使用基于能量的语音活动检测器删除无声帧。然后，我们在fbank功能上使用滑动窗口大小300进行cmn。对于视频数据，我们每秒提取1帧。然后，我们使用mtcnn来检测人脸标志，并使用相似度转换将人脸区域映射到相同形状(3x112x96)。最后，我们将每个图像的像素值归一化为[0，1]并减去0.5以将值范围映射到[-0.5，0.5]。

在训练过程中，来自一个语句的fbank特征被分割成块，块大小从200到400。在测试过程中，我们为每个录音提取一个语音嵌入，然后对一个录音的多个人脸嵌入进行平均，以获得一个人脸表示。

在我们的实验中，50层的se-resnet用于面部系统，34层的resnet用于语音系统。两个系统的嵌入都设置为512维。余量(margin)m＝0.2的aam损失用于优化两个系统。

3.2.2、多模态系统

从单模态系统提取面部和语音特征嵌入，以用于训练集中的所有记录。然后，对所有嵌入进行l2归一化，以构建用于视听多模态系统的新训练集。

对于ssa融合系统，转换层是两个均具有512个单位的全连接层，注意力层是具有两个单元的全连接层。对于紧凑型双线性融合和门控多模型融合，转换层都是具有512个单元的全连接层。门控多模型融合系统中的注意力层是两个全连接层，分别具有32个和512个单元。对于上面所有相邻的全连接层，我们在中间插入另一个batchnorm和relu层。

4、结果与分析

4.1、嵌入层多模态融合的评估

为了融合人脸和声音模态中的信息，在我们的嵌入级融合系统中探索并比较了不同的融合策略和不同的损失函数。结果和分析将在本节中介绍。

单模态系统的结果显示在表1的顶部。我们发现人脸和语音单模态系统基本上是可比的。如表1的第三行所示，这两个单模态系统之间的简单平均分数结果大大超过了两个单模态系统，这表明了音频和视觉模态之间的强大互补作用。

4.1.1、损失函数比较

首先，研究了在可控损失监督下的ssa融合策略。但是，如表1中部所示，在我们的实验中，原始的基于对比损失的系统无法收敛到最佳状态，并且融合系统甚至比单模态系统的性能差很多。为了增加可比损失，采用了第2.2.1节中介绍的具有更积极采样策略的修订版，其结果要好得多(ssa+con-new)。为了更直观地展示新策略的有效性，正负对之间的距离的分布展示在了图6a和图6b中，其中图6a为原始对比损失下正负对之间的距离的分布图，图6a为新的对比损失下正负对之间的距离的分布图。表明新的对比损失可以扩大正负距离之间的差异。此外，除了破坏性损失外，我们还使用基于分类的aam-softmax损失进行多模态系统优化，其性能远胜过破坏性损失。aam-softmax和新的对比损失将主要用于以下实验。

4.1.2、融合策略比较

在本节中比较了第2.1节中介绍的不同融合策略，而aam-softmax损失或新的对比损失提供了监视信号。结果显示在表的中间部分。从结果来看，与单模态系统相比，这三种融合策略均实现了显着改进，并且门控多模态融合体系结构表现最佳。但是，简单分数平均仍然表现最佳，这与[23]中的发现不一致。可能的原因是我们在这项工作中拥有更强大的单模态系统：使用相同的voxceleb2测试列表，我们的面部和语音eer分别达到4.08％和3.43％，而[23]中的相应数字为14.5％和8.03％2.较大的差异也可以归因于不同的实验设置，我们在系统中采用了段级优化，而[23]中的作者使用帧级嵌入提取器进行在线验证。

此外，当我们同时使用aam损失和新的对比损失时，可以获得进一步的改进，并且在voxceleb1e和voxceleb1h路径上的性能超过了评分平均结果。结果显示在表的倒数第二行。1.令人惊讶的是，我们发现使用提出的模型的融合系统是对简单分数平均系统的补充。当我们进一步将gate+aam+con-new融合系统的得分与单模态系统的平均得分进行平均时，可获得最佳的系统性能。据我们所知，这也是在voxceleb1评估数据集上进行人员验证的最佳发布结果。

表1：使用不同融合策略和损失的结果比较。缺点：原始的对比损失。全新：使用更具攻击性的采样策略建议的对比损失。con-orig中的m设置为0.5，con-new中的m设置为0.05。

4.2、损坏和缺失方式的评估

为了在更复杂的真实条件下测试融合系统，其中一种模式已损坏或丢失，使用2.3.1节中所示的嘈杂评估集对结果进行评估，并将结果显示在表中。2.从结果中，我们发现简单的分数平均运算仍可以显着改善性能，并且所提出的采用增强嵌入数据训练的多模态融合系统在这种情况下达到了最佳结果。此外，仅对纯净嵌入进行训练的视听融合系统没有能力很好地将噪声嵌入与纯净嵌入区分开，并且结果略差。请注意，括号中的结果表明，使用增强的嵌入训练的拟议融合系统在干净的评估集上仍然可以很好地执行。

表2：在嘈杂的评估集上的结果(eer％)比较。我们在这里使用gate+amm+con-new融合系统。train_clean：融合系统经过干净的嵌入培训。train_noise：融合系统经过增强的噪声嵌入训练。括号中的结果在干净的评估集中进行了测试。

5、结论

在本文中，我们探索了用于人员验证系统的不同多模式融合策略和损失函数，并且可以在嵌入级别有效地组合视听信息。基于强大的单模态系统，我们的最佳系统在voxceleb1的三个正式试验清单上实现了0.585％，0.427％和0.735％的eer，据我们所知，这是该数据集上公布的最佳结果。此外，我们还介绍了一种嵌入级数据增强方法，该方法可帮助视听多模态人员验证系统在某些模态损坏或丢失时表现良好。

图7是本申请另一实施例提供的执行说话者身份验证方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器710以及存储器720，图7中以一个处理器710为例。

执行说话者身份验证方法的设备还可以包括：输入装置730和输出装置740。

处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的说话者身份验证方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例说话者身份验证方法。

存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据说话者身份验证装置的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器720可选包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至说话者身份验证装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可接收输入的数字或字符信息，以及产生与说话者身份验证装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器710执行时，执行上述任意方法实施例中的说话者身份验证练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钱彦旻;陈正阳;王帅
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：一种爬行器的制作方法
上一篇：一种坑道钻机钻孔深度综合监测系统的制作方法