声纹识别方法、装置、计算机设备和存储介质与流程

文档序号:29050437发布日期:2022-02-25 23:57阅读:184来源:国知局
声纹识别方法、装置、计算机设备和存储介质与流程

1.本技术涉及声纹识别技术领域,特别是涉及一种声纹识别方法、装置、计算机设备和存储介质。


背景技术:

2.随着人工智能技术的发展,声纹识别应用越来越广泛,声纹识别旨在从若干个注册说话人中识别出当前说话人。
3.现有技术中,针对每个注册说话人,在判断当前说话人和该注册说话人是否为同一人时,需要从训练音频集群中提取n条嵌入码,将该n条嵌入码分别输入上述声纹模型中,得到n个分数,求取这n个分数的均值和标准差。使用该均值和标准差对验证分数进行正则化。
4.这种方式,需要额外存储n条嵌入码,便于后续正则化操作,占用了存储资源,同时,由于从训练音频集群中提取的嵌入码与验证音频的差异性,也会导致对验证分数的正则化不准确。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够节省存储资源的声纹识别方法、装置、计算机设备和存储介质。
6.第一方面,本技术提供了一种声纹识别方法。所述方法包括:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
7.在其中一个实施例中,所述获取n个注册说话人各自对应的声纹阈值,包括:针对每个注册说话人,根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分;求取所述至少两个第一得分的均值和方差,得到第一均值和第一方差;根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值。
8.在其中一个实施例中,所述根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分之前,所述方法还包括:将所述注册说话人输入的至少两段音频分别输入神经网络,得到所述至少两段音频对应的至少两个嵌入码;根据所述至少两个嵌入码,获取参考嵌入码,所述神经网络,所述参考嵌入码以及
验证模型构成所述注册说话人对应的声纹模型;相应的,所述根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分,包括:针对所述至少两个嵌入码中每个嵌入码,将所述嵌入码和所述参考嵌入码输入所述验证模型,得到所述嵌入码对应的第一得分。
9.在其中一个实施例中,所述根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值之前,所述方法还包括:针对训练集中m个说话人中的每个说话人,根据所述说话人输入的至少两段音频以及所述说话人对应的声纹模型,获取所述说话人对应的至少两个第二得分;求取所述至少两个第二得分的均值和方差,得到第二均值和第二方差;获取所述说话人对应的最佳声纹阈值,所述第二均值、所述第二方差和所述最佳声纹阈值构成一组待拟合数据,m为正整数;对m组待拟合数据进行拟合,得到所述线性回归方程。
10.在其中一个实施例中,所述获取所述说话人对应的最佳声纹阈值,包括:采用等错误率或者最小检测代价来确定所述说话人对应的最佳声纹阈值。
11.在其中一个实施例中,所述根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人,包括:针对所述n个验证分数中每个验证分数,从所述n个注册说话人各自对应的声纹阈值中获取所述验证分数对应的声纹阈值,将所述验证分数和所述声纹阈值进行比较,得到n个比较结果,所述比较结果为以下结果中的一种,所述以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。
12.根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人。
13.在其中一个实施例中,所述根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人,包括:若所述n个比较结果均为:验证分数小于声纹阈值,则确定所述当前说话人不在所述n个注册说话人中;若所述n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为所述当前说话人;若所述n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将所述至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据所述注册说话人对应的验证分数和声纹阈值,确定归一化差值;将所述说话人集中归一化差值最大的注册说话人确定为所述当前说话人。
14.第二方面,本技术还提供了一种声纹识别装置。所述装置包括:获取模块,用于获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;确定模块,用于根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;识别模块,用于根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈
值,从所述n个注册说话人中识别所述当前说话人。
15.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
16.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
17.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
18.上述声纹识别方法、装置、计算机设备和存储介质,获取n个注册说话人各自对应的声纹阈值以及n个注册说话人各自对应的声纹模型;根据当前说话人输入的音频和n个注册说话人各自对应的声纹模型,确定n个验证分数,根据n个验证分数和n个注册说话人各自对应的声纹阈值,从n个注册说话人中识别所述当前说话人,和现有技术相比,该方法无需额外存储n条嵌入码,节省了存储资源。
附图说明
19.图1为一个实施例中声纹识别方法的流程示意图;图2为一个实施例中s102的流程示意图;图3为一个实施例中s106的流程示意图;图4为一个实施例中声纹识别方法示例图;图5为一个实施例中声纹识别装置的结构框图;图6为一个实施例中计算机设备的内部结构图。
具体实施方式
20.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
21.在一些实施例中,通过如下方式从n个注册说话人中识别出当前说话人,针对每个注册说话人,在判断当前说话人和该注册说话人是否为同一人时,一方面,在接收到当前说话人输入的音频后,计算该音频对应的嵌入码,并将该嵌入码输入注册说话人对应的声纹模型中,得到当前说话人的验证分数。其中,注册说话人对应的声纹模型是基于注册说话人在注册过程中输入的音频得到的。另一方面,从训练音频集群中提取n条嵌入码,将该n条嵌入码分别输入上述声纹模型中,得到n个分数,求取这n个分数的均值和标准差。使用该均值和标准差对上述验证分数进行正则化,得到最终的分数,将最终的分数和预设阈值进行比较,若最终的分数大于或者等于预设阈值,则认为当前说话人和注册说话人为同一人。若最终的分数小于预设阈值,则认为当前说话人和注册说话人不是同一人。上述方式中,需要额外存储n条嵌入码,便于后续正则化操作,占用了存储资源。同时,由于从训练音频集群中提取的嵌入码与验证音频的差异性,也会导致对验证分数的正则化不准确。而且,声纹模型计算验证分数的过程,正则化的过程以及最终的分数和预设阈值的比较过程均在实际验证场景下执行,计算任务过重会导致响应实时率不高,影响用户体验。
22.为此,本技术实施例提出一种声纹识别方法,以上述额外存储n条嵌入码会导致存储资源减少为切入点,获取n个注册说话人各自对应的声纹阈值以及n个注册说话人各自对应的声纹模型,根据当前说话人输入的音频和n个注册说话人各自对应的声纹模型,确定n个验证分数,根据n个验证分数和n个注册说话人各自对应的声纹阈值,从n个注册说话人中识别所述当前说话人。由于整个过程不需要用到n条嵌入码,因此无需额外存储n条嵌入码,节省了存储资源,也避免了上述正则化不准确的问题。而且,获取声纹阈值和获取声纹模型的过程可放在注册阶段,在实际验证场景下,仅包括:声纹模型计算验证分数的过程以及比较验证分数和声纹阈值的过程,计算任务较少,提升了响应实时率。
23.本技术实施例提供的声纹识别方法,以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
24.在一个实施例中,如图1所示,提供了一种声纹识别方法,包括以下步骤:s102、获取n个注册说话人各自对应的声纹阈值以及n个注册说话人各自对应的声纹模型,n为正整数。
25.以智能机器人的语音对话场景为例,为使只有特定用户才能跟机器人对话,可让特定用户进行注册,这样,该特定用户后续跟机器人说话时,机器人可以识别出该特定用户已进行了注册,机器人才进一步做出响应。上述特定用户可称为注册说话人。
26.可选的,可利用训练集中m个说话人的数据,拟合一个线性回归方程,该线性回归方程用于指示均值、方差以及声纹阈值之间的对应关系。注册说话人在注册过程中,可利用注册说话人的音频,计算对应的均值和方差,然后带入上述线性回归方程,便可得到注册说话人对应的声纹阈值。
27.可选的,可通过如下方式获取注册说话人对应的声纹模型:
注册说话人在注册时,输入至少两个音频,可将这至少两个音频分别输入神经网络,得到至少两个音频对应的至少两个嵌入码,然后基于这至少两个嵌入码,求取参考嵌入码,上述神经网络、参考嵌入码以及验证模型便构成了注册说话人对应的声纹模型。
28.可选的,得到至少两个嵌入码后,可对这至少两个嵌入码求取平均,将平均值作为参考嵌入码,需要说明的是,这仅是一种示例,还可以采用现有的其他方法来计算参考嵌入码,本技术实施例对此不作限定。
29.s104、根据当前说话人输入的音频和n个注册说话人各自对应的声纹模型,确定n个验证分数,其中,验证分数用于表征当前说话人和对应注册说话人为同一人的可能性。
30.可选的,在接收到当前说话人输入的音频后,可将该音频分别输入每个注册说话人对应的声纹模型,声纹模型中神经网络计算得到该音频对应的嵌入码,将该嵌入码和注册说话人的参考嵌入码输入验证模型,便可得到对应的验证分数。
31.s106、根据n个验证分数和n个注册说话人各自对应的声纹阈值,从n个注册说话人中识别当前说话人。
32.可选的,针对每个验证分数,可将该验证分数和对应的声纹阈值进行比较,得到n个比较结果,基于n个比较结果从n个注册说话人中确定当前说话人。
33.下面举例说明:假设有3个注册说话人,分别为注册说话人1,注册说话人2,注册说话人3。注册说话人1对应的声纹阈值为阈值1,对应的声纹模型为模型1。注册说话人2对应的声纹阈值为阈值2,对应的声纹模型为模型2。注册说话人3对应的声纹阈值为阈值3,对应的声纹模型为模型3。接收到当前说话人输入的音频后,将该音频分别输入模型1,模型2和模型3。假设,模型1输出的验证分数为分数1,模型2输出的验证分数为分数2,模型3输出的验证分数为分数3。将分数1和阈值1进行比较,将分数2和阈值2进行比较,将分数3和阈值3进行比较,最后基于比较结果,从注册说话人1,注册说话人2,注册说话人3识别出当前说话人。
34.上述声纹识别方法,获取n个注册说话人各自对应的声纹阈值以及n个注册说话人各自对应的声纹模型;根据当前说话人输入的音频和n个注册说话人各自对应的声纹模型,确定n个验证分数,根据n个验证分数和n个注册说话人各自对应的声纹阈值,从n个注册说话人中识别所述当前说话人,和现有技术相比,该方法无需额外存储n条嵌入码,节省了存储资源。也避免了正则化不准确的问题。
35.下面介绍获取n个注册说话人各自对应的声纹阈值的具体实现方式。
36.在一个实施例中,如图2所示,s102包括:s201、针对每个注册说话人,根据注册说话人输入的至少两段音频以及注册说话人对应的声纹模型,获取注册说话人对应的至少两个第一得分;求取至少两个第一得分的均值和方差,得到第一均值和第一方差;根据第一均值、第一方差以及预先拟合得到的线性回归方程,确定注册说话人对应的声纹阈值。
37.可选的,上述实施例介绍了获取注册说话人对应的声纹模型的方法,在获取注册说话人对应的声纹模型的过程中,得到了至少两个音频对应的至少两个嵌入码,针对每个嵌入码,可将该嵌入码和参考嵌入码输入到验证模型中,便可得到该嵌入码对应的第一得分,对至少两个嵌入码均执行如此操作,便可得到至少两个第一得分。
38.下面举例说明:
以注册说话人(j)为例,注册说话人(j)在注册时,需输入至少两段音频,可将这至少两段音频分别输入神经网络,便可得到至少两个嵌入码,基于这两个嵌入码,求取注册说话人(j)的参考嵌入码,上述神经网络、参考嵌入码以及验证模型构成注册说话人(j)的声纹模型(j),针对上述至少两个嵌入码中的每个嵌入码,将该嵌入码和参考嵌入码输入验证模型,便可得到对应的得分,由此便得到至少两个得分,求取至少两个得分的均值和方差,该均值和方差用表示。将该带入提前拟合的线性回归方程,便可确定注册说话人对应的声纹阈值。线性回归方程用于指示均值、方差以及声纹阈值之间的对应关系。
39.可选的,可通过如下方式获取线性回归方程:针对训练集中m个说话人中的每个说话人,根据说话人输入的至少两段音频以及说话人对应的声纹模型,获取说话人对应的至少两个第二得分;求取至少两个第二得分的均值和方差,得到第二均值和第二方差;获取说话人对应的最佳声纹阈值,第二均值、第二方差和最佳声纹阈值构成一组待拟合数据;对m组待拟合数据进行拟合,得到线性回归方程。
40.下面举例说明:以训练集中说话人(i)为例,获取说话人(i)对应的声纹模型的方式和上述注册说话人类似。具体的,接收到说话人(i)输入的至少两段音频后,对于每段音频,将该音频输入神经网络,便可得到对应的嵌入码,得到至少两个嵌入码后,基于至少两个嵌入码,求取说话人(i)的参考嵌入码,上述神经网络、参考嵌入码以及验证模型构成说话人(i)对应的声纹模型。针对至少两个嵌入码中的每个嵌入码,将该嵌入码和参考嵌入码输入验证模型,便可得到对应的得分,由此便得到至少两个得分,求取至少两个得分的均值和方差,该均值和方差用表示。采用等错误率(equal error rate,简称eer)或者最小检测代价(minimum detection cost function,简称mindcf)确定说话人(i)对应的最佳声纹阈值。和构成一组待拟合数据。由于训练集中有m个说话人,采用上述相同的方法,可得到m组待拟合数据,对该m组待拟合数据进行线性拟合,便可得到线性回归方程。
41.上述获取声纹阈值的方法,可在训练阶段,基于数据集中m个说话人中每个说话人的数据,构建m组待拟合数据,对该m组待拟合数据进行线性拟合,得到线性回归方程。在注册阶段,可利用注册说话人的数据,计算均值和方差,并将这时的均值和方差带入上述线性回归方程,便可得到注册说话人对应的声纹阈值。可见,本技术实施例中,每个注册说话人对应的声纹阈值都是不同的,和现有技术中,对于所有注册说话人,均使用固定的声纹阈值进行比较的方式相比,提升了识别准确度。
42.在一个实施例中,如图3所示,s106包括:s301、针对n个验证分数中每个验证分数,从n个注册说话人各自对应的声纹阈值中获取该验证分数对应的声纹阈值,将验证分数和声纹阈值进行比较,得到n个比较结果。
43.其中,比较结果为以下结果中的一种,该以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。验证分数大于等于声纹阈值说明当前说话人和对应的注册
说话人可能为同一人,验证分数小于声纹阈值说明当前说话人和对应的注册说话人不是同一人。
44.下面举例说明:以n个验证分数中验证分数为例,假设验证分数是基于注册说话人(j)对应的声纹模型(j)得到的,查找注册说话人(j)对应的声纹阈值,将验证分数和声纹阈值进行比较,若验证分数大于或者等于声纹阈值,则认为当前说话人和注册说话人(j)可能为同一人,若验证分数小于声纹阈值,则认为当前说话人和注册说话人(j)不是同一人。对n个验证分数每个验证分数均执行上述操作,便可得到n个比较结果。
45.s302、根据n个比较结果,从n个注册说话人中识别当前说话人。
46.具体的,可通过如下方式识别当前说话人:若n个比较结果均为:验证分数小于声纹阈值,则确定当前说话人不在n个注册说话人中;若n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为当前说话人;若n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将该至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据注册说话人对应的验证分数和声纹阈值,确定归一化差值;将说话人集中归一化差值最大的注册说话人确定为当前说话人。
47.可选的,针对说话人集中的每个注册说话人,可利用如下公司计算归一化差值:其中,表示归一化差值,表示验证分数,表示注册说话人对应的声纹阈值。
48.上述声纹识别方法,将每个验证分数和对应的声纹阈值进行比较,得到n个比较结果,基于n个比较结果,最终从n个注册说话人中识别出当前说话人。该方法对于不同的注册说话人,采用不同的声纹阈值进行比较,和现有技术中采用固定阈值进行比较的方式相比,提升了识别准确度。
49.下面结合图4对本技术实施例的方案进行详细说明:构建训练集,训练集包括m个说话人的数据,每个说话人的数据包括该说话人输入的至少两段音频。对每个说话人的数据做如下处理:对于每段音频,将该音频输入神经网络,得到对应的嵌入码,得到至少两个嵌入码后,基于至少两个嵌入码,计算得到参考嵌入码,上述神经网络、参考嵌入码以及验证模型构成该说话人对应的声纹模型。图4中m个说话人使用说话人1、说话人2、
……
、说话人m示意。至少两个嵌入码使用嵌入码1、嵌入码2、嵌入码3示意。将说话人1的参考嵌入码和嵌入码1输入验证模型,可以得到嵌入码1对应的分数,将说话人1的参考嵌入码和嵌入码2输入验证模型,可以得到嵌入码2对应的分数,将说话人1的参考嵌入码和嵌入码3输入验证模型,可以得到嵌入码3对应的分数,求取三个分数的均值和方差。基于说话人1的数据,采用eer或者mindcf确定说话人1的最佳声纹阈值,上述均值、方差以及最佳声纹阈值构成一组待拟合数据,对说话人2,说话人3
……
说话人m做同样的处理,可得到另外m-1组待拟合数据,基于m组待拟合数据,做线性拟合,得到线性回归方程。注册说话人在注册时,输入至少两段音频,该至少两段音频对应的嵌入码使用嵌入码1、
嵌入码2、嵌入码3示意。基于嵌入码1、嵌入码2、嵌入码3,采用和训练集中说话人类似的方法,得到三个分数,求取三个分数的均值和方差,将该均值和方差带入拟合得到的线性回归方程,便可得到注册说话人对应的声纹阈值。对n个注册说话人均采取同样的操作,可得到n个注册说话人各自对应的声纹阈值。在验证阶段,当前说话人输入音频后,在获取当前说话人相对于某个注册说话人的验证分数时,将当前说话人输入音频输入该注册说话人对应的声纹模型中,声纹模型中的神经网络计算该音频的嵌入码,将该嵌入码和注册说话人的参考嵌入码输入声纹模型中的验证模型中,便可得到当前说话人相对于该注册说话人的验证分数。将该验证分数和上述方法确定的声纹阈值进行比较,若验证分数大于或者等于对应的声纹阈值,则认为当前说话人和注册说话人可能为同一人,若验证分数小于声纹阈值,则认为当前说话人和注册说话人不是同一人。由于注册说话人有n个,因此会得到n个比较结果,可对n个比较结果进行统计,若n个比较结果均指示两者不是同一人,则认为n个注册说话人中不存在当前说话人。若仅有一个比较结果指示两者是可能为同一人,则认为当前说话人就是对应的注册说话人,若两个以上比较结果指示两者可能为同一人,则将相关的注册说话人构成说话人集,并针对该说话人集中的每个注册说话人,根据验证分数和声纹阈值计算归一化差值,将归一化差值最大的注册说话人当作当前说话人。
50.需要说明的是:本技术实施例提到每个说话人都有对应的声纹模型,而如上文所描述,声纹模型是由神经网络、参考嵌入码和验证模型构成的,所有的声纹模型中神经网络可以是同一个网络,所有的声纹模型中验证模型也可以是同一个模型,声纹模型之间仅仅是参考嵌入码有差异。
51.本技术实施例提供的声纹识别方法,对于不同的注册说话人,采用不同的声纹阈值进行比较,和现有技术中采用固定阈值进行比较的方式相比,提升了识别准确度。
52.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
53.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的声纹识别方法的声纹识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个声纹识别装置实施例中的具体限定可以参见上文中对于声纹识别方法的限定,在此不再赘述。
54.在一个实施例中,如图5所示,提供了一种声纹识别装置,包括:获取模块501,用于获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;确定模块502,用于根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;识别模块503,用于根据所述n个验证分数和所述n个注册说话人各自对应的声纹
阈值,从所述n个注册说话人中识别所述当前说话人。
55.可选的,获取模块501,具体用于:针对每个注册说话人,根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分;求取所述至少两个第一得分的均值和方差,得到第一均值和第一方差;根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值。
56.可选的,获取模块501,还用于:将所述注册说话人输入的至少两段音频分别输入神经网络,得到所述至少两段音频对应的至少两个嵌入码;根据所述至少两个嵌入码,获取参考嵌入码,所述神经网络,所述参考嵌入码以及验证模型构成所述注册说话人对应的声纹模型;相应的,获取模块501,具体用于:针对所述至少两个嵌入码中每个嵌入码,将所述嵌入码和所述参考嵌入码输入所述验证模型,得到所述嵌入码对应的第一得分。
57.可选的,获取模块501,还用于:针对训练集中m个说话人中的每个说话人,根据所述说话人输入的至少两段音频以及所述说话人对应的声纹模型,获取所述说话人对应的至少两个第二得分;求取所述至少两个第二得分的均值和方差,得到第二均值和第二方差;获取所述说话人对应的最佳声纹阈值,所述第二均值、所述第二方差和所述最佳声纹阈值构成一组待拟合数据,m为正整数;对m组待拟合数据进行拟合,得到所述线性回归方程。
58.可选的,获取模块501,具体用于:采用等错误率或者最小检测代价来确定所述说话人对应的最佳声纹阈值。
59.可选的,识别模块503,具体用于:针对所述n个验证分数中每个验证分数,从所述n个注册说话人各自对应的声纹阈值中获取所述验证分数对应的声纹阈值,将所述验证分数和所述声纹阈值进行比较,得到n个比较结果,所述比较结果为以下结果中的一种,所述以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。
60.根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人。
61.可选的,识别模块503,具体用于:若所述n个比较结果均为:验证分数小于声纹阈值,则确定所述当前说话人不在所述n个注册说话人中;若所述n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为所述当前说话人;若所述n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将所述至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据所述注册说话人对应的验证分数和声纹阈值,确定归一化差值;将所述说话人集中归一化差值最大的注册说话人确定为所述当前说话人。
62.上述声纹识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。
上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
63.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种声纹识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标,还可以是麦克风等语音输入装置。
64.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
65.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
66.在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对每个注册说话人,根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分;求取所述至少两个第一得分的均值和方差,得到第一均值和第一方差;根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值。
67.在一个实施例中,处理器执行计算机程序时还实现以下步骤:将所述注册说话人输入的至少两段音频分别输入神经网络,得到所述至少两段音频对应的至少两个嵌入码;根据所述至少两个嵌入码,获取参考嵌入码,所述神经网络,所述参考嵌入码以及验证模型构成所述注册说话人对应的声纹模型;针对所述至少两个嵌入码中每个嵌入码,将所述嵌入码和所述参考嵌入码输入所述验证模型,得到所述嵌入码对应的第一得分。
68.在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对训练集中m个说话人中的每个说话人,根据所述说话人输入的至少两段音频以及所述说话人对应的声纹模型,获取所述说话人对应的至少两个第二得分;求取所述至少两个第二得分的均值和方差,得到第二均值和第二方差;获取所述说话人对应的最佳声纹阈值,所述第二均值、所述第二方差和所述最佳声纹阈值构成一组待拟合数据,m为正整数;对m组待拟合数据进行拟合,得到所述线性回归方程。
69.在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用等错误率或者最小检测代价来确定所述说话人对应的最佳声纹阈值。
70.在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对所述n个验证分数中每个验证分数,从所述n个注册说话人各自对应的声纹阈值中获取所述验证分数对应的声纹阈值,将所述验证分数和所述声纹阈值进行比较,得到n个比较结果,所述比较结果为以下结果中的一种,所述以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人。
71.在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述n个比较结果均为:验证分数小于声纹阈值,则确定所述当前说话人不在所述n个注册说话人中;若所述n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为所述当前说话人;若所述n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将所述至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据所述注册说话人对应的验证分数和声纹阈值,确定归一化差值;将所述说话人集中归一化差值最大的注册说话人确定为所述当前说话人。
72.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
73.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对每个注册说话人,根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分;求取所述至少两个第一得分的均值和方差,得到第一均值和第一方差;根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值。
74.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述注册说话人输入的至少两段音频分别输入神经网络,得到所述至少两段音频对应的至少两个嵌入码;根据所述至少两个嵌入码,获取参考嵌入码,所述神经网络,所述参考嵌入码以及验证模型构成所述注册说话人对应的声纹模型;针对所述至少两个嵌入码中每个嵌入码,将所述嵌入码和所述参考嵌入码输入所述验证模型,得到所述嵌入码对应的第一得分。
75.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对训练集中m个说话人中的每个说话人,根据所述说话人输入的至少两段音频以及所述说话人对应的声纹模型,获取所述说话人对应的至少两个第二得分;求取所述至少两个第二得分的均值和方差,得到第二均值和第二方差;获取所述说话人对应的最佳声纹阈值,所述第二均值、所述第二方差和所述最佳声纹阈值构成一组待拟合数据,m为正整
数;对m组待拟合数据进行拟合,得到所述线性回归方程。
76.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用等错误率或者最小检测代价来确定所述说话人对应的最佳声纹阈值。
77.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对所述n个验证分数中每个验证分数,从所述n个注册说话人各自对应的声纹阈值中获取所述验证分数对应的声纹阈值,将所述验证分数和所述声纹阈值进行比较,得到n个比较结果,所述比较结果为以下结果中的一种,所述以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人。
78.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述n个比较结果均为:验证分数小于声纹阈值,则确定所述当前说话人不在所述n个注册说话人中;若所述n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为所述当前说话人;若所述n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将所述至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据所述注册说话人对应的验证分数和声纹阈值,确定归一化差值;将所述说话人集中归一化差值最大的注册说话人确定为所述当前说话人。
79.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取n个注册说话人各自对应的声纹阈值以及所述n个注册说话人各自对应的声纹模型,n为正整数;根据当前说话人输入的音频和所述n个注册说话人各自对应的声纹模型,确定n个验证分数,所述验证分数用于表征所述当前说话人和对应注册说话人为同一人的可能性;根据所述n个验证分数和所述n个注册说话人各自对应的声纹阈值,从所述n个注册说话人中识别所述当前说话人。
80.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对每个注册说话人,根据所述注册说话人输入的至少两段音频以及所述注册说话人对应的声纹模型,获取所述注册说话人对应的至少两个第一得分;求取所述至少两个第一得分的均值和方差,得到第一均值和第一方差;根据所述第一均值、所述第一方差以及预先拟合得到的线性回归方程,确定所述注册说话人对应的声纹阈值。
81.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将所述注册说话人输入的至少两段音频分别输入神经网络,得到所述至少两段音频对应的至少两个嵌入码;根据所述至少两个嵌入码,获取参考嵌入码,所述神经网络,所述参考嵌入码以及验证模型构成所述注册说话人对应的声纹模型;针对所述至少两个嵌入码中每个嵌入码,将所述嵌入码和所述参考嵌入码输入所述验证模型,得到所述嵌入码对应的第一得分。
82.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对训练集中m个说话人中的每个说话人,根据所述说话人输入的至少两段音频以及所述说话人对应的声纹模型,获取所述说话人对应的至少两个第二得分;求取所述至少两个第二得分的均值和方差,得到第二均值和第二方差;获取所述说话人对应的最佳声
纹阈值,所述第二均值、所述第二方差和所述最佳声纹阈值构成一组待拟合数据,m为正整数;对m组待拟合数据进行拟合,得到所述线性回归方程。
83.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用等错误率或者最小检测代价来确定所述说话人对应的最佳声纹阈值。
84.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对所述n个验证分数中每个验证分数,从所述n个注册说话人各自对应的声纹阈值中获取所述验证分数对应的声纹阈值,将所述验证分数和所述声纹阈值进行比较,得到n个比较结果,所述比较结果为以下结果中的一种,所述以下结果包括:验证分数大于等于声纹阈值以及验证分数小于声纹阈值。根据所述n个比较结果,从所述n个注册说话人中识别所述当前说话人。
85.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述n个比较结果均为:验证分数小于声纹阈值,则确定所述当前说话人不在所述n个注册说话人中;若所述n个比较结果中存在一个比较结果为:验证分数大于等于声纹阈值,则将对应的注册说话人确定为所述当前说话人;若所述n个比较结果中存在至少两个比较结果为:验证分数大于等于声纹阈值,则将所述至少两个比较结果对应的注册说话人构成说话人集;针对说话人集中的每个注册说话人,根据所述注册说话人对应的验证分数和声纹阈值,确定归一化差值;将所述说话人集中归一化差值最大的注册说话人确定为所述当前说话人。
86.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
87.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
88.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保
护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1