一种声纹识别方法及装置与流程

文档序号:14097533阅读:209来源:国知局

本发明涉及声纹识别领域,尤其涉及一种声纹识别方法及装置。



背景技术:

声纹识别系统是根据人声的特质来自动识别说话人身份的系统。声纹识别技术属于生物验证技术的一种,采用语音对说话人身份进行验证。这种技术具有较好的便捷性、稳定性、可测量性和安全性等特点。作为一种非接触式的采集、识别技术,声纹的获取成本较低、获取方便、使用简单,在银行、社保、公安、智能家居、移动支付等领域都有巨大应用前景。

1945年,贝尔实验室的研究人员通过观察语谱图的匹配情况,提出了“声纹”的概念,意指不同人的声音具有个体差异性,并基于语谱图匹配的方法进行声纹识别实验;随后几十年间,在模板匹配和统计方差分析基础上,研究人员的工作主要集中在各种识别参数的提取、选择和实验上,致力于从声学角度对反应语音特征的物理参数的提取。1980年后,声纹识别技术的研究重点开始转向采用统计学的方法对声纹进行建模,其中,最具代表性的有基于高斯混合模型-通用背景模型(gaussianmixturemodel-universalbackgroundmodel,gmm-ubm)的声纹识别方法,该方法只需要少量语音数据就能完成特定说话人模型训练,但在多信道测试条件下此方法性能严重下降,从而制约声纹识别技术的应用。针对信道失配问题,kenny提出联合因子分析(jointfactoranalysis,jfa)技术,虽然在信道失配条件下相对于gmm-ubm方法,jfa取得了较好的效果,但在各种信道下的训练数据不均衡时,jfa技术存在明显不足;2011年,dehak提出身份矢量(i-vector)技术,基于i-vector技术的声纹识别系统能较好的反映说话人语音特性,也逐渐成为声纹识别的主流技术,但是,由于i-vector技术中采用的gmm-ubm是一种无监督学习的建模方法,一定程度上制约了基于i-vector声纹识别系统的性能。

在实际应用中,传统的声纹识别系统面临多通道音频采集过程繁琐、系统识别的准确率和鲁棒性较低等问题,极大地影响声纹识别系统的可用性。



技术实现要素:

本发明实施例提供了一种声纹识别方法及装置,能够提高声纹识别系统的音频采集效率、识别准确率和鲁棒性。

本发明实施例提供了一种声纹识别方法,包括:

s1:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;

s2:通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;

s3:将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

优选地,步骤s1具体包括:

通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧。

优选地,步骤s3具体包括:

s31:通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;

s32:对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

优选地,步骤s2之前还包括:

t1:计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;

t2:通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;

t3:对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;

t4:通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;

t5:获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;

步骤s2具体为:通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量。

优选地,步骤s2具体包括:

s21:将语音特征向量输入深度神经网络进行计算得到后验概率;

s22:根据后验概率计算零阶统计量、一阶统计量和二阶统计量;

s23:根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;

s24:根据全局差异矩阵通过预置公式计算待测试的身份矢量;

其中,预置公式为:

ms=mu+tωs

式中,mu为深度神经网络的高斯均值超矢量,t为全局差异矩阵,ωs为待测试的身份矢量。

优选地,本发明还提供了一种声纹识别装置,包括:

分离单元,用于获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;

提取单元,用于通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;

比对单元,用于将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

优选地,分离单元还用于通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧。

优选地,比对单元包括:

比对子单元,用于通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;

比较子单元,用于对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

优选地,本发明实施例提供的一种声纹识别装置还包括:处理单元;

处理单元具体包括:

滤除子单元,用于计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;

增强子单元,用于通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;

特征提取子单元,用于对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;

降噪子单元,用于通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;

拼接子单元,用于获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;

提取单元还用于通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量。

优选地,提取单元具体包括:

第一计算子单元,用于将语音特征向量输入深度神经网络进行计算得到后验概率;

第二计算子单元,用于根据后验概率计算零阶统计量、一阶统计量和二阶统计量;

第三计算子单元,用于根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;

第四计算子单元,用于根据全局差异矩阵通过预置公式计算待测试的身份矢量;

其中,预置公式为:

ms=mu+tωs

式中,mu为深度神经网络的高斯均值超矢量,t为全局差异矩阵,ωs为待测试的身份矢量。

从以上技术方案可以看出,本发明实施例具有以下优点:

本发明实施例提供了一种声纹识别方法及装置,其中,该声纹识别方法包括:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。相对于传统通过高斯混合模型对人声语音信号进行身份矢量的提取做法,通过神经网络能够提取出更准确的说话人的身份矢量,极大地提高了系统识别准确率和鲁棒性,也保证了声纹提取和验证的速度,能适应多种不同场景与应用的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种声纹识别方法的一个实施例的流程示意图;

图2为本发明实施例提供的一种声纹识别方法的另一个实施例的流程示意图;

图3为本发明实施例提供的一种声纹识别装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种声纹识别方法及装置,能够提高声纹识别系统的音频采集效率、识别准确率和鲁棒性。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例提供的一种声纹识别方法的一个实施例,包括:

101、获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;

需要说明的是,获取到一个语音信号后,首先将完整的语音信号分为一定时长的语音帧,例如每个语音帧时长可以为10ms,完整的语音信号为1m。获取到当前需要处理的当前语音帧,对当前语音帧进行分离得到当前人声语音帧,可以理解的是,人声语音帧为语音帧中有效的人声语音部分。

102、通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;

得到当前人声语音帧后,通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量。

103、将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

得到待测试的身份矢量后,将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

以上为一种声纹识别方法的一个实施例,为进行更具体的说明,下面提供一种声纹识别方法的另一个实施例,请参阅图2,本发明提供的一种声纹识别方法的另一个实施例,包括:

201、通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧;

获取到一个语音信号后,首先将完整的语音信号分为一定时长的语音帧,例如每个语音帧时长可以为10ms,完整的语音信号为1s。获取到当前需要处理的当前语音帧,对当前语音帧进行分离得到当前人声语音帧,可以理解的是,人声语音帧为语音帧中有效的人声语音部分。

在本实施例中,包括一个用于音频采集的、可模拟多通道的麦克风装置。

202、计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;

为保证声纹注册的质量,以及验证的准确度,对人声语音帧进行录音质量检查,质量检测的过程包括:1)计算有效语音时长,滤出时长过短的语音;2)计算噪音部分的能量,进而计算出信噪比,滤除信噪比过低的语音;3)计算语音信号能量,滤除音量非常小的语音,通过质量检查后,得到滤除后的当前人声语音帧。

203、通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;

为保证在声音信号处理过程中尽可能地保留声纹信息,本实施例选择快速线性语音增强算法,在抑制噪声的同时增强人声部分的能量,同时保证了人声部分时长不受影响,即通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧。

204、对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;

得到增强后的当前人声语音帧后,在广泛应用于语音识别的mfcc(梅尔频率倒谱系数)特征的基础上,对其提取更高维数的mfcc特征,即当前语音特征,该特征能更精细地反映说话人特性。

205、通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;

利用预先离线训练好的深度降噪自动编码器(deepdenoisingautoencoder,deepdae)对带噪声的mfcc特征进行降噪,专用的深度神经网络算法可以自动从大量语音数据中学习如何区分无用噪声和有用人声,并将噪声从人声中分离,还原清晰的语音。

206、获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;

需要说明的是,步骤201中将完整的语音信号分成多个语音帧,每个语音帧均需进行语音特征的提取,可以理解的是,多个语音帧在时序上是具备一定顺序的,例如将一段时长为10s的语音分成10个语音帧,每个语音帧的时长为1s,第一语音帧为整个语音第一秒的语音,第二语音帧为整个语音第二秒的语音…以此类推。因此,在本实施例中,得到当前语音特征后,通过在与当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量,例如当前语音特征为第5个语音帧的语音特征,则取第3个语音帧、第4个语音帧、第6个语音帧和第7个语音帧的语音特征进行拼接得到语音特征向量,若当前语音特征为最后一个语音帧的语音特征,则其后两个语音特征默认为零语音特征(即静音)。

207、通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量;

在本实施例中,步骤207在传统的身份矢量提取过程中,通过背景模型ubm为深度神经网络的方式进行提取,具体包括:

2071、将语音特征向量输入深度神经网络进行计算得到后验概率;

2072、根据后验概率计算零阶统计量、一阶统计量和二阶统计量;

在i-vector系统总体变化子空间t的估计过程中,由于高斯混合模型均值超矢量是通过计算声学特征相对于通用背景模型ubm均值超矢量的零阶、一阶和二阶统计量得到的。为了估计各阶段统计量,需要首先利用一些训练数据通过期望最大化(expectationmaximun,em)算法得到通用背景模型ubm,该模型提供了一个统一的参考坐标空间,并且可以在一定程度上解决由于说话人训练数据较少导致的小样本问题。而特定说话人的高斯混合模型则可以通过训练数据在该ubm上面进行最大厚颜概率(maximumaposterior,map)自适应得到。各阶统计量的估计过程如下所示,假设说话人s的声学特征表示为xs,t,则其相对于ubm均值超矢量m的零阶统计量nc,s,一阶统计量fc,s以及二阶统计量sc,s,如下列公式所示:

其中,mc代表神经网络计算得到的ubm均值超矢量m中的第c个高斯均值分量,t表示时间帧索引。γc,s,t表示ubm第c个高斯分量的后验概率。diag{}表示取对角运算。假设单高斯模型的维数为f,则将所有c个高斯模型的均值矢量拼接成的高斯均值超矢量维数为fc。

2073、根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;

子空间t的估计可以采用如下的期望最大化(expectationmaximum,em)算法得到,首先随机初始化子空间矩阵t,然后固定t,在最大似然准则下估计隐变量ω的一阶和二阶统计量,估计过程如下公式所示。其中超矢量fs是由fc,s矢量拼接成fc×1维的矢量。ns是由nc,s作为主对角元拼接成的fc×fc维的矩阵。

ls=i+tt-1nst

式中ls是临时变量,∑是ubm的协方差矩阵。

接着更新t矩阵和协方差矩阵∑。t矩阵的更新过程可以利用下示公式实现。

对ubm协方差矩阵∑的更新过程如下公式所示。

式中ss是由sc,s进行矩阵对角拼接成的fc×fc维的矩阵,n=∑ns为所有说话人的零阶统计量之和。

对于上述步骤反复进行迭代6~8次后,可近似认为t矩阵和协方差矩阵∑收敛。

2074、根据全局差异矩阵通过预置公式计算待测试的身份矢量;

其中,预置公式为:

ms=mu+tωs

式中,mu为深度神经网络的高斯均值超矢量,t为全局差异矩阵,ωs为待测试的身份矢量。

208、通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;

209、对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

为了尽可能减少环境声音对208中得到的匹配分数造成的影响,本系统通过大量真实环境下的实验,对208中得到的匹配分数做出相应的偏移补偿,比较最终分数与预置阈值,得到声纹识别结果,作出决策。

请参阅图3,本发明实施例提供的一种声纹识别装置的一个实施例,包括:

分离单元301,用于获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;

提取单元303,用于通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;

比对单元304,用于将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

在本实施例中,分离单元301还用于通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧。

在本实施例中,比对单元304包括:

比对子单元3041,用于通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;

比较子单元3042,用于对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。

在本实施例中,本发明实施例提供的一种声纹识别装置还包括:处理单元302;

处理单元302具体包括:

滤除子单元3021,用于计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;

增强子单元3022,用于通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;

特征提取子单元3023,用于对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;

降噪子单元3024,用于通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;

拼接子单元3025,用于获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;

提取单元303还用于通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量。

在本实施例中,提取单元303具体包括:

第一计算子单元3031,用于将语音特征向量输入深度神经网络进行计算得到后验概率;

第二计算子单元3032,用于根据后验概率计算零阶统计量、一阶统计量和二阶统计量;

第三计算子单元3033,用于根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;

第四计算子单元3034,用于根据全局差异矩阵通过预置公式计算待测试的身份矢量;

其中,预置公式为:

ms=mu+tωs

式中,mu为深度神经网络的高斯均值超矢量,t为全局差异矩阵,ωs为待测试的身份矢量。

本发明实施例使用用于语音识别的深度神经网络(dnn),将级联后的短时语音帧看做三音素模型(tri-phone)输入到之前训练好的dnn网络中,按照后验概率将短时语音帧进行分类。每一帧和对应的后验概率可以被用于训练一个新的ubm,这样可以通过监督学习的方式训练ubm,取代了传统ubm训练中的无监督的em算法。

声纹识别技术作为一种远程非接触式的身份验证技术,结合跨媒体交互通信与应用服务平台,在在银行、社保、公安、智能家居、移动支付等领域都有巨大应用前景。本发明采用基于深度学习的声纹识别算法,与其他传统声纹识别算法相比,具有准确率高、噪声鲁棒和信道鲁棒、适应各种文本等优点,支持跨平台、跨信道部署;同时,针对多通道声纹采集问题,提出可以模拟多通道的声纹采集装置,能极大简化声纹采集流程,提升声纹采集工作效率。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1