声纹验证的方法、装置、计算机设备以及存储介质与流程

文档序号:16686542发布日期:2019-01-22 18:22阅读:243来源:国知局
声纹验证的方法、装置、计算机设备以及存储介质与流程

本申请涉及到声纹验证领域,特别是涉及到声纹验证的方法、装置、计算机设备以及存储介质。



背景技术:

目前,很多大型金融公司的业务范围涉及保险、银行、投资等多个业务范畴,而每个业务范畴通常都需要同客户进行沟通,且都需要进行反欺诈识别,因此,对客户的身份验证及反欺诈识别也就成为保证业务安全的重要组成部分。在客户身份验证环节中,声纹验证由于其具有的实时性和方便性而被许多公司采用。客户声纹模型的训练和客户身份的验证需要采集客户的语音数据,而语音数据的获得往往来源于金融公司与客户的谈话录音。然而,由于商业洽谈往往涉及机密内容,将语音数据由网络传输到后台再进行语音特征参数的提取不利于数据保密性。



技术实现要素:

本申请的主要目的为提供声纹验证的方法,旨在解决现有声纹验证过程中需将客户端采集的语音数据发送至后台进行声纹特征提取,导致传输中语音数据的保密性较差的技术问题。

本申请提出一种声纹验证的方法,包括:

通过客户端服务器提取待验证身份的语音信号,并提取所述语音信号中各帧语音数据分别对应的mfcc类型声纹特征;

通过所述客户端服务器将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成第一声纹特征;

声纹验证服务器接收所述客户端服务器发送的所述第一声纹特征;

声纹验证服务器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求;

若满足,则判定所述第一声纹特征与所述预存声纹特征相同,否则不相同。

优选地,所述声纹验证服务器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求的步骤,包括:

将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector;

通过余弦距离公式计算第一声纹特征对应的声纹鉴别向量i-vector与预存声纹特征对应的声纹鉴别向量i-vector之间的余弦距离值,其中,x代表预存声纹特征对应的声纹鉴别向量i-vector,y代表第一声纹特征对应的声纹鉴别向量i-vector;

判断所述余弦距离值是否满足预设条件;

若满足,则判定所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值满足预设要求,否则不满足预设要求。

优选地,所述将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector的步骤,包括:

将提取得到的各帧语音数据分别对应的声纹特征向量分别输入到gmm-ubm模型,得到表征各帧语音数据在各高斯分量上的概率分布的高斯超向量;

将各所述高斯超向量利用公式mr=μ+tωr,计算得到各帧语音数据分别对应的低维度的声纹鉴别向量i-vector,其中mr为各帧语音数据的高斯超向量,μ为所述gmm-ubm模型的均值超向量,t为各帧语音数据的低维度的声纹鉴别向量i-vector,ωr为映射到高维度的高斯空间的转换矩阵。

优选地,所述判断所述余弦距离值是否满足预设条件的步骤,包括:

分别获取预存的多个人的声纹特征数据中各自对应的预存声纹特征与所述第一声纹特征之间的第一余弦距离值,其中,多个人的声纹特征数据中包括目标人的预存声纹特征;

将各所述第一余弦距离值按照从小到大的顺序进行排序;

判断排序在前的预设数量的第一余弦距离值中,是否包括所述目标人的预存声纹特征对应的第一余弦距离值;

若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

优选地,所述判断所述余弦距离值是否满足预设条件的步骤,包括:

获取目标人的预存声纹特征与所述第一声纹特征之间的第二余弦距离值;

判断所述第二余弦距离值是否小于或等于预设阈值;

若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

本申请还提供了一种声纹验证系统,包括客户端、客户端服务器和声纹验证服务器;

所述客户端采集待验证身份的语音信号,并将所述语音信号发送到所述客户端服务器;

所述客户端服务器接收所述语音信号,并对所述语音信号进行声纹特征提取得到第一声纹特征,将第一声纹特征传输至声纹验证服务器;

所述声纹验证服务器接收所述第一声纹特征,并将所述第一声纹特征与预存声纹特征进行比较分析,以判断所述第一声纹特征与所述预存声纹特征是否相同,并将判断结果反馈至所述客户端服务器;

所述客户端服务器根据所述判断结果控制所述客户端进行反馈响应。

优选地,所述语音信号的连续模拟信号通过客户端按照指定采样周期进行采样,以形成离散模拟信号,并通过指定编码规则量化为数字信号,所述客户端服务器接收所述语音信号,并对所述语音信号进行声纹特征提取得到第一声纹特征的过程,包括:

所述客户端服务器将所述数字信号进行预加重后,对预加重的数字信号进行分帧处理,得到各帧语音数据;

根据将所述各帧语音数据从线性频谱域映射到梅尔频谱域,其中,fmel表示梅尔频谱值,f表示线性频谱值;

将转化为梅尔频谱域的各帧语音数据输入到梅尔三角滤波器组,计算每个频段的梅尔三角滤波器输出的对数能量,得到各帧语音数据分别对应的对数能量序列;

将各所述对数能量序列进行离散余弦变换,得到各帧语音数据分别对应的mfcc类型声纹特征;

将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成所述第一声纹特征。

优选地,所述判断结果包括所述第一声纹特征与所述预存声纹特征不相同,所述客户端服务器根据所述判断结果控制所述客户端进行反馈响应的过程,包括:

客户端服务器生成身份验证不成功的反馈信息并发送至所述客户端;

判断预设时间内根据所述第一声纹特征生成身份验证不成功的反馈信息的次数,是否超过预设次数。

若超过预设次数,则控制所述客户端处于禁用状态,并发出警报。

本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请将声纹特征向量提取的功能前置到客户端服务器上完成,客户端通过录音采集语音信号后直接在本地的客户端服务器提取语音信号的声纹特征向量,然后再将声纹特征向量传输至第三方技术支持的验证服务器上进行声纹验证,声纹验证模型的训练和说话人辨认过程,由于声纹特征向量无法再反推还原为语音信号的原始数据,有利于对客户录音的语音信号进行数据保密,提高数据安全性,使客户身份认证流程的安全性得到了提高。本申请通过提取声纹特征向量后的数据传输至服务器进行声纹验证,声纹特征向量数据比原始语音信号数据更为轻便,大大增加了传输效率。本申请基于gmm-ubm实现将各所述声纹特征向量分别映射为低维度的声纹鉴别向量i-vector,降低计算成本,降低声纹验证的使用成本。在验证过程中通过与多人的预存数据进行比较分析,降低声纹验证的等错率,降低声纹验证的模型误差带来的影响。

附图说明

图1本申请一实施例的声纹验证的方法流程示意图;

图2本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请一实施例的声纹验证的方法,通过客户端采集信息,通过服务器进行声纹验证,方法包括:

s1:通过客户端服务器提取待验证身份的语音信号,并提取所述语音信号中各帧语音数据分别对应的mfcc类型声纹特征。

本实施例的mfcc(melfrequencycepstrumcoefficient,梅尔频率倒谱系数)类型声纹特征具有非线性特征,使客户的语音信号在各频段上的分析结果更贴近人体发出的真实语音的特征,提高声纹验证的效果。

s2:通过所述客户端服务器将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成第一声纹特征。

本实施例根据提取的mfcc类型声纹特征构建各帧语音数据分别对应的声纹特征向量,然后通过语音信号的各帧语音数据的排序,将分别对应的mfcc类型声纹特征组合在一起,得到客户的语音信号对应的第一声纹特征,上述构建过程依然在客户端服务器完成,以增强数据传输过程中的数据保密性。

s3:声纹验证服务器接收所述客户端服务器发送的所述第一声纹特征。

本实施例将第一声纹特征的提取工作前置到客户端服务器完成,以便客户端服务器接收录音采集的客户的语音信号后,直接在客户端服务器提取语音信号对应的第一声纹特征,然后再传输至第三方技术支持的声纹验证服务器进行声纹验证。由于第一声纹特征无法再通过反推还原为原始的语音信号,有利于对客户录音的语音信号进行数据保密,提高数据安全性,使客户身份认证流程的安全性得到了提高,同时,第一声纹特征比语音信号数据量更小,大大增加了传输效率。通过客户端服务器对采集的语音信号提取声纹特征,将提取后的声纹特征传输至声纹验证服务器进行声纹验证,使声纹特征提取的客户端服务器和声纹验证服务器进行分离。

s4:声纹验证服务器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求。

本实施例的预设要求包括特征距离值达到指定的预设阈值范围等,可根据具体的应用场景进行自定义设定,以更广泛地满足个性化使用需求。

s5:若满足,则判定所述第一声纹特征与所述预存声纹特征相同,否则不相同。

本实施例将判定所述第一声纹特征与所述预存声纹特征相同,则通过服务器向客户端反馈验证通过的结果到客户端,否则,反馈验证失败的结果到客户端,以便客户端根据反馈结果进行进一步的应用操作。举例地,验证通过后控制智能门打开等。再举例地,验证失败指定次数后控制安全系统进行锁屏,以防犯罪分子进一步破坏电子银行系统。

进一步地,本实施例的步骤s4,包括:

s41:将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector。

本实施例基于gmm-ubm(gaussianmixturemodel-universalbackgroundmodel,高斯混合模型-背景模型)实现将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector。本实施例的gmm-ubm的训练过程如下:b1:获取预设数量(例如,10万个)的语音数据样本,每个语音数据样本对应一个声纹鉴别向量,每个语音样本可以采集自不同的人在不同环境中的语音,这样的语音数据样本用来训练能够表征一般语音特性的通用背景模型(gmm-ubm);b2、分别对各个语音数据样本进行处理以提取出各个语音数据样本对应的预设类型声纹特征,并基于各个语音数据样本对应的预设类型声纹特征构建各个语音数据样本对应的声纹特征向量;b3、将构建出的所有预设类型声纹特征向量分为第一百分比的训练集和第二百分比的验证集,所述第一百分比和第二百分比之后小于或等于100%;b4、利用训练集中的声纹特征向量对所述第二模型进行训练,并在训练完成之后利用验证集对训练的所述第二模型的准确率进行验证;b5、若准确率大于预设准确率(例如,98.5%),则模型训练结束,否则,增加语音数据样本的数量,并基于增加后的语音数据样本重新执行上述步骤b2、b3、b4、b5。

本实施例的声纹鉴别向量采用声纹鉴别向量i-vector表达,声纹鉴别向量i-vector是一个向量,相对于高斯空间的维度来讲,声纹鉴别向量i-vector维度更低,便于降低计算成本。

s42:通过余弦距离公式计算第一声纹特征对应的声纹鉴别向量i-vector与预存声纹特征对应的声纹鉴别向量i-vector之间的距离值,其中,x代表预存声纹特征对应的声纹鉴别向量i-vector,y代表第一声纹特征对应的声纹鉴别向量i-vector。

s43:判断所述余弦距离值是否满足预设条件。

本实施例的预设条件包括余弦距离值在指定的阈值范围内等,可根据需要设定。本实施例通过将预存的多个人的声纹特征数据中各自对应的预存声纹特征与所述第一声纹特征分别计算的第一余弦距离值进行从小到大排序,判断预设排序在前的几个第一余弦距离值中是否包括目标人的预存声纹特征对应的第一余弦距离值,若包括则判定余弦距离值满足预设条件。本申请另一实施例通过判断目标人的预存声纹特征与所述第一声纹特征之间的第二余弦距离值是否小于或等于预设阈值,若小于或等于,则判定余弦距离值满足预设条件。

s44:若所述余弦距离值满足预设条件,则判定所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值满足预设要求,否则不满足预设要求。

进一步地,本实施例的步骤s41,包括:

s410:将提取得到的各帧语音数据分别对应的声纹特征向量分别输入到gmm-ubm模型,得到表征各帧语音数据在各高斯分量上的概率分布的高斯超向量。

s411:将各所述高斯超向量利用公式mr=μ+tωr,计算得到各帧语音数据分别对应的低维度的声纹鉴别向量i-vector,其中mr为各帧语音数据的高斯超向量,μ为所述gmm-ubm模型的均值超向量,t为各帧语音数据的低维度的声纹鉴别向量i-vector,ωr为映射到高维度的高斯空间的转换矩阵。

本实施例的t训练采用em算法。em算法,指的是最大期望算法(expectationmaximizationalgorithm,又译期望最大化算法),是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。最大期望算法经过两个步骤交替进行计算:1)计算期望(e),利用概率模型参数的现有估计值,计算隐藏变量的期望;2)最大化(m),利用e步上求得的隐藏变量的期望,对参数模型进行最大似然估计。上步找到的参数估计值被用于下步计算中,不断交替进行。

进一步地,本实施例的步骤s43,包括:

s430:分别获取预存的多个人的声纹特征数据中各自对应的预存声纹特征与所述第一声纹特征之间的第一余弦距离值,其中,多个人的声纹特征数据中包括目标人的预存声纹特征。

本实施例通过将预存的包括目标人的多人的声纹特征数据,同时用于判断当前采集的语音信号的声纹特征是否与目标人的声纹特征相同,以提高判断准确性。本实施例通过余弦距离公式表示各所述预存声纹特征与所述第一声纹特征之间的第一余弦距离值,其中,x代表各预存声纹鉴别向量,y代表第一声纹特征的声纹鉴别向量i-vector,余弦距离值越小,表明两声纹特征更接近或相同。本实施例的“第一”,仅用作区别,不用于限定,其他处的作用相同,不赘述。

s431:将各所述第一余弦距离值按照从小到大的顺序进行排序。

本实施例通过将各所述预存声纹特征与所述第一声纹特征之间的第一余弦距离值进行从小到大排序,以便更准确地分析第一声纹特征与各预存声纹特征的相似度分布状态,以便更准确地获得对第一声纹特征的验证。

s432:判断排序在前的预设数量的第一余弦距离值中,是否包括所述目标人的预存声纹特征对应的第一余弦距离值。

本实施例通过排序在前的预设数量的第一余弦距离值中包括所述目标人的预存声纹特征对应的第一余弦距离值,则判定第一声纹特征与预存的目标人的声纹特征相同,以减小模型误差带来的识别等错率,上述等错率为“应验证通过时发生的验证未通过的频率,与应验证未通过时发生的验证通过的频率相等”。本实施例的预设数量的第一余弦距离值包括1个、2个或3个等,可根据使用需求进行自设定。

s433:若是,则判定余弦距离值满足预设条件,否则不满足预设条件。

进一步地,本申请另一实施例的步骤s43,包括:

s434:获取目标人的预存声纹特征与所述第一声纹特征之间的第二余弦距离值。

本实施例通过只针对性地比较一个第二余弦距离值,减小比较计算量,提高验证速率。

s435:判断所述第二余弦距离值是否小于或等于预设阈值。

本实施例通过设定第一声纹特征与目标用户的预存声纹特征的距离阈值,实现有效的声纹验证。举例地,预设阈值为0.6。

s436:若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

本实施例计算第一声纹特征与目标用户的预存声纹特征的余弦距离小于或等于预设阈值,则判定余弦距离值满足预设条件,确定第一声纹特征与目标用户的预存声纹特征相同,则验证通过;若计算第一声纹特征与目标用户的预存声纹特征的余弦距离大于预设阈值,则判定所述距离值不满足预设条件,确定第一声纹特征与目标用户的预存声纹特征不相同,则验证失败。

本申请还提供了一种声纹验证系统,包括客户端、客户端服务器和声纹验证服务器;

所述客户端采集待验证身份的语音信号,并将所述语音信号发送到所述客户端服务器;

所述客户端服务器接收所述语音信号,并对所述语音信号进行声纹特征提取得到第一声纹特征,将第一声纹特征传输至声纹验证服务器;

所述声纹验证服务器接收所述第一声纹特征,并将所述第一声纹特征与预存声纹特征进行比较分析,以判断所述第一声纹特征与所述预存声纹特征是否相同,并将判断结果反馈至所述客户端服务器;

所述客户端服务器根据所述判断结果控制所述客户端进行反馈响应。

进一步地,本实施例的所述语音信号的连续模拟信号通过客户端按照指定采样周期进行采样,以形成离散模拟信号,并指定编码规则量化为数字信号;所述客户端服务器接收所述语音信号,并对所述语音信号进行声纹特征提取得到第一声纹特征的过程如下:

s101,所述客户端服务器将所述数字信号进行预加重后,对预加重的数字信号进行分帧处理,得到各帧语音数据;s102,根据将各帧语音数据从线性频谱域映射到梅尔频谱域,其中,fmel表示梅尔频谱值,f表示线性频谱值;s103,将转化为梅尔频谱域的各帧语音数据输入到一组梅尔三角滤波器组,计算每个频段的梅尔三角滤波器输出的对数能量,得到各帧语音数据分别对应的对数能量序列;s104,将各所述对数能量序列进行离散余弦变换,得到各帧语音数据分别对应的mfcc类型声纹特征;将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成所述第一声纹特征。

上述预加重,由于人体的生理特性,语音信号的高频成分往往被压抑,预加重的作用是补偿高频成分;上述分帧处理中,由于语音信号的“瞬时平稳性”,在进行频谱分析时对一段话音信号进行分帧处理(一般为10至30毫秒一帧),然后以帧为单位进行特征提取;上述分帧处理后进行了加窗处理,作用是减少帧起始和结束地方信号的不连续性问题,本实施例采用汉明窗进行加窗处理。

本实施例将声纹特征向量提取的功能前置到客户端服务器上完成,客户端通过录音采集语音信号后直接在本地的客户端服务器提取语音信号的声纹特征向量,然后再将声纹特征向量传输至第三方技术支持的验证服务器上进行声纹验证,声纹验证模型的训练和说话人辨认过程,由于声纹特征向量无法再反推还原为语音信号的原始数据,有利于对客户录音的语音信号进行数据保密,提高数据安全性,使客户身份认证流程的安全性得到了提高。本实施例通过提取声纹特征向量后的数据传输至服务器进行声纹验证,声纹特征向量数据比原始语音信号数据更为轻便,大大增加了传输效率。本实施例基于gmm-ubm实现将各所述声纹特征向量分别映射为低维度的声纹鉴别向量i-vector,降低计算成本,降低声纹验证的使用成本。在验证过程中通过与多人的预存数据进行比较分析,降低声纹验证的等错率,降低声纹验证的模型误差带来的影响。

进一步地,所述判断结果包括所述第一声纹特征与所述预存声纹特征不相同,所述客户端服务器根据所述判断结果控制所述客户端进行反馈响应的过程,包括:

客户端服务器生成身份验证不成功的反馈信息并发送至所述客户端;

判断预设时间内根据所述第一声纹特征生成身份验证不成功的反馈信息的次数,是否超过预设次数。

若超过预设次数,则控制所述客户端处于禁用状态,并发出警报。

本声纹验证系统包括警报和安全管控装置,以增强该声纹验证系统在实际应用过程的功能完备性,提高管理安全和信息安全。

参照图2,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储声纹验证的过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现声纹验证的方法。

上述处理器执行上述声纹验证的方法,包括:通过客户端服务器提取待验证身份的语音信号,并提取所述语音信号中各帧语音数据分别对应的mfcc类型声纹特征;通过所述客户端服务器将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成第一声纹特征;声纹验证服务器接收所述客户端服务器发送的所述第一声纹特征;声纹验证服务器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求;若满足,则判定所述第一声纹特征与所述预存声纹特征相同,否则不相同。

上述计算机设备,将声纹特征向量提取的功能前置到客户端服务器上完成,客户端通过录音采集语音信号后直接在本地的客户端服务器提取语音信号的声纹特征向量,然后再将声纹特征向量传输至第三方技术支持的验证服务器上进行声纹验证,声纹验证模型的训练和说话人辨认过程,由于声纹特征向量无法再反推还原为语音信号的原始数据,有利于对客户录音的语音信号进行数据保密,提高数据安全性,使客户身份认证流程的安全性得到了提高。通过提取声纹特征向量后的数据传输至服务器进行声纹验证,声纹特征向量数据比原始语音信号数据更为轻便,大大增加了传输效率。基于gmm-ubm实现将各所述声纹特征向量分别映射为低维度的声纹鉴别向量i-vector,降低计算成本,降低声纹验证的使用成本。在验证过程中通过与多人的预存数据进行比较分析,降低声纹验证的等错率,降低声纹验证的模型误差带来的影响。

在一个实施例中,上述处理器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求的步骤,包括:将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector;通过余弦距离公式计算第一声纹特征对应的声纹鉴别向量i-vector与预存声纹特征对应的声纹鉴别向量i-vector之间的余弦距离值cos(x,y),其中,x代表预存声纹特征对应的声纹鉴别向量i-vector,y代表第一声纹特征对应的声纹鉴别向量i-vector;判断所述余弦距离值是否满足预设条件;若满足,则判定所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值满足预设要求,否则不满足预设要求。

在一个实施例中,上述处理器将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector的步骤,包括:

将提取得到的各帧语音数据分别对应的声纹特征向量分别输入到gmm-ubm模型,得到表征各帧语音数据在各高斯分量上的概率分布的高斯超向量;将各所述高斯超向量利用公式mr=μ+tωr,计算得到各帧语音数据分别对应的低维度的声纹鉴别向量i-vector,其中mr为各帧语音数据的高斯超向量,μ为所述gmm-ubm模型的均值超向量,t为各帧语音数据的低维度的声纹鉴别向量i-vector,ωr为映射到高维度的高斯空间的转换矩阵。

在一个实施例中,上述处理器判断所述余弦距离值是否满足预设条件的步骤,包括:分别获取预存的多个人的声纹特征数据中各自对应的预存声纹特征与所述第一声纹特征之间的第一余弦距离值,其中,多个人的声纹特征数据中包括目标人的预存声纹特征;将各所述第一余弦距离值按照从小到大的顺序进行排序;判断排序在前的预设数量的第一余弦距离值中,是否包括所述目标人的预存声纹特征对应的第一余弦距离值;若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

在一个实施例中,上述处理器判断所述余弦距离值是否满足预设条件的步骤,包括:获取目标人的预存声纹特征与所述第一声纹特征之间的第二余弦距离值;判断所述第二余弦距离值是否小于或等于预设阈值;若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现声纹验证的方法,包括:通过客户端服务器提取客户端采集的第一声纹特征,并提取所述语音信号中各帧语音数据分别对应的mfcc类型声纹特征;通过所述客户端服务器将所述mfcc类型声纹特征构建成各帧语音数据分别对应的声纹特征向量,以形成第一声纹特征;远程接收所述客户端服务器发送的所述第一声纹特征;判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求;若满足,则判定所述第一声纹特征与所述预存声纹特征相同,否则不相同。

上述计算机可读存储介质,将声纹特征向量提取的功能前置到客户端服务器上完成,客户端通过录音采集语音信号后直接在本地的客户端服务器提取语音信号的声纹特征向量,然后再将声纹特征向量传输至第三方技术支持的验证服务器上进行声纹验证,声纹验证模型的训练和说话人辨认过程,由于声纹特征向量无法再反推还原为语音信号的原始数据,有利于对客户录音的语音信号进行数据保密,提高数据安全性,使客户身份认证流程的安全性得到了提高。通过提取声纹特征向量后的数据传输至服务器进行声纹验证,声纹特征向量数据比原始语音信号数据更为轻便,大大增加了传输效率。基于gmm-ubm实现将各所述声纹特征向量分别映射为低维度的声纹鉴别向量i-vector,降低计算成本,降低声纹验证的使用成本。在验证过程中通过与多人的预存数据进行比较分析,降低声纹验证的等错率,降低声纹验证的模型误差带来的影响。

在一个实施例中,上述处理器判断所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值是否满足预设要求的步骤,包括:将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector;通过余弦距离公式计算第一声纹特征对应的声纹鉴别向量i-vector与预存声纹特征对应的声纹鉴别向量i-vector之间的余弦距离值,其中,x代表预存声纹特征对应的声纹鉴别向量i-vector,y代表第一声纹特征对应的声纹鉴别向量i-vector;判断所述余弦距离值是否满足预设条件;若满足,则判定所述第一声纹特征与预存声纹特征分别对应的声纹鉴别向量i-vector之间的特征距离值满足预设要求,否则不满足预设要求。

在一个实施例中,上述处理器将各帧语音数据分别对应的声纹特征向量分别映射为低维度的声纹鉴别向量i-vector的步骤,包括:

将提取得到的各帧语音数据分别对应的声纹特征向量分别输入到gmm-ubm模型,得到表征各帧语音数据在各高斯分量上的概率分布的高斯超向量;将各所述高斯超向量利用公式mr=μ+tωr,计算得到各帧语音数据分别对应的低维度的声纹鉴别向量i-vector,其中mr为各帧语音数据的高斯超向量,μ为所述gmm-ubm模型的均值超向量,t为各帧语音数据的低维度的声纹鉴别向量i-vector,ωr为映射到高维度的高斯空间的转换矩阵。

在一个实施例中,上述处理器判断所述余弦距离值是否满足预设条件的步骤,包括:分别获取预存的多个人的声纹特征数据中各自对应的预存声纹特征与所述第一声纹特征之间的第一余弦距离值,其中,多个人的声纹特征数据中包括目标人的预存声纹特征;将各所述第一余弦距离值按照从小到大的顺序进行排序;判断排序在前的预设数量的第一余弦距离值中,是否包括所述目标人的预存声纹特征对应的第一余弦距离值;若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

在一个实施例中,上述处理器判断所述余弦距离值是否满足预设条件的步骤,包括:获取目标人的预存声纹特征与所述第一声纹特征之间的第二余弦距离值;判断所述第二余弦距离值是否小于或等于预设阈值;若是,则判定所述余弦距离值满足预设条件,否则不满足预设条件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1