声纹识别方法和电子设备与流程

文档序号:18271024发布日期:2019-07-27 09:40阅读:220来源:国知局
声纹识别方法和电子设备与流程

本发明涉及电子设备的领域,更具体地,涉及声纹识别方法和电子设备。



背景技术:

目前,为了电子设备的安全起见,通常用户会通过多种方式来锁定电子设备。为了解锁电子设备,用户通常需要手动输入密码。然而,这样的手动输入密码进行解锁的方式是麻烦的,并且在很多时候用户可能不方便手动输入密码。

因此,目前已经出现各种各样的解锁方式,例如指纹解锁、声纹解锁等等。

在使用声纹解锁时,由于语音是一种很随机的过程,音调、节奏和情绪等对发音影响很大,因此导致声纹解锁准确率非常低,这导致用户的使用体验较差。

为此,期望提供一种声纹识别方法和电子设备,其能够有效地提高声纹解锁的成功率,从而提高用户的使用体验。



技术实现要素:

根据本发明实施例,提供了一种声纹识别方法,应用于包括声纹识别模块的电子设备中,所述方法包括:

获取用户的第一语音输入信号,通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果;

基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果;

当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,获取用户的第二语音输入信号,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果;

基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果;

当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号;以及

通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果;

基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

优选地,所述通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果,基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量具有第一维数;

获取识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第一梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第一累积距离;

当所述第一累积距离小于预定值时,判断所述第一语音输入信号满足所述声纹识别模块中设置的所述预定条件。

优选地,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,并且确定所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件进一步包括:

提取所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第二梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第二累积距离;

当所述第二累积距离小于预定值时,确定所述第二语音输入信号满足所述声纹识别模块中设置的预定条件。

优选地,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

计算所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,所述第三梅尔频率倒谱系数特征值矢量具有第一维数。

优选地,通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,并且确定所述第三语音输入信号是否满足所述声纹识别模块中设置的预定条件进一步包括:

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第三梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第三累积距离;

当所述第三累积距离小于预定值时,确定所述第三语音输入信号满足所述声纹识别模块中设置的预定条件。

优选地,所述声纹识别方法还包括:

执行动态时间规整计算之前,将所述识别模板的特征值矢量和所述第一、第二和/或第三语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变。

优选地,所述声纹识别方法还包括:

当第一判断结果表明所述第一语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第二判断结果表明所述第二语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第三判断结果表明所述第三语音输入信号满足所述声纹识别模块中设置的预定条件时,输出一触发信号以触发所述电子设备执行预定操作。

根据本发明另一实施例,提供了一种电子设备,包括:

语音获取模块,用于获取用户的语音输入信号;

声纹识别模块,用于对所述第一输入信号执行声纹识别处理,获得第一处理结果;

处理模块,用于基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果;

其中,当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,通过所述语音获取模块获取用户的第二语音输入信号,并且通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果;

所述处理模块基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果;

当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,通过所述处理模块合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号;以及

通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果;

所述处理模块基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

优选地,所述处理模块进一步用于:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量具有第一维数;

获取识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第一梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第一累积距离;

当所述第一累积距离小于预定值时,判断所述第一语音输入信号满足所述声纹识别模块中设置的所述预定条件。

优选地,所述处理模块进一步用于:

提取所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第二梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第二累积距离;

当所述第二累积距离小于预定值时,确定所述第二语音输入信号满足所述声纹识别模块中设置的预定条件。

优选地,所述处理模块进一步用于:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

计算所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,所述第三梅尔频率倒谱系数特征值矢量具有第一维数。

优选地,所述处理模块进一步用于:

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第三梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第三累积距离;

当所述第三累积距离小于预定值时,确定所述第三语音输入信号满足所述声纹识别模块中设置的预定条件。

优选地,所述处理模块进一步用于:

执行动态时间规整计算之前,将所述识别模板的特征值矢量和所述第一、第二和/或第三语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变。

优选地,所述处理模块进一步用于:

当第一判断结果表明所述第一语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第二判断结果表明所述第二语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第三判断结果表明所述第三语音输入信号满足所述声纹识别模块中设置的预定条件时,输出一触发信号以触发所述电子设备执行预定操作。

因此,根据本发明实施例的声纹识别方法和电子设备,能够有效地提高声纹解锁的成功率,从而提高用户的使用体验。

附图说明

图1是图示根据本发明实施例的声纹识别方法的原理的说明图;

图2是图示DTW路径匹配算法的原理的说明图;

图3是图示根据本发明第一实施例的声纹识别方法的流程图;

图4是图示根据本发明第二实施例的声纹识别方法的流程图;以及

图5是图示根据本发明第三实施例的电子设备的功能配置框图。

具体实施方式

在描述根据本发明实施例的声纹识别方法和电子设备之前,首先简单地描述根据本发明实施例的声纹识别方法的原理。

根据本发明实施例的声纹识别方法的原理与聚类理论相似。在本发明实施例的声纹识别方法中使用的识别模板类似于聚类中心。如图1所示,以该中心为圆心O,半径R相当于声纹识别的阈值。用户每次说话的特征值与该模板的距离相当于平面上某点到该中心的距离。这些点分布在一个更大的半径为r的圆内。

如图1所示,假设A、B为两次解锁不成功的声音,从图中可以看出,该A和B两点位于半径为R的圆外,并且位于半径为r的圆内。需要注意的是,该A和B两点可以是分布在半径为R的圆外的任意两点,并且该A和B的位置可以是随机分布的。

此外,当语音A和语音B两者都不能解锁时,将两个语音合并处理以生成合并后的语音C。如图1所示,作为A和B的中间点的合并后的语音C距离原点O的距离OC小于半径R,因此能够成功进行声纹解锁。当然,因为该A和B的位置可以是随机分布的,所以也存在语音C落入半径为R的圆外的概率。总的来说,概率计算的结果指示语音C落入半径为R的圆内的概率大大增加。

因此,根据本发明实施例的声纹识别方法通过将两次未成功解锁的声音进行合成,然后利用合成的声音来进行解锁,从而大大地提高了解锁成功率。

下面,将参考图2描述在根据本发明实施例的声纹识别方法中使用的模板匹配方法的原理。

模板匹配方法利用动态时间归整(Dynamic Time Warping,DTW)算法以对准训练和测试特征序列。该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题。

具体地,无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。已存入模板库的各个词条称为参考模板。一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量(如MFCC,LPC系数)、相同的帧长、相同的窗函数和相同的帧移。

假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。

若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与{R(1),R(2),……,R(M)}之间的距离。但是这样的计算没有考虑到语音中各个段在不同情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因此更多的是采用动态规划(DP)的方法。

若把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。

为了描述这条路径,假设路径通过的所有格点依次为(i1,i1),……,(in,im),……,(iN,iM),其中(i1,i1)=(1,1),(iN,iM)=(N,M)。路径可以用函数im=&Oslash;(in)描述,其中in=i,i=1,2,……,N,&Oslash;(1)=1,&Oslash;(N)=M。为了使路径不至于过倾斜,可以约束斜率在0.5~2的范围内,如果路径已经通过了格点(in,im),那么下一个通过的格点(it,ik)只可能是下列三种情况之一:

(it,ik)=(in+1,im)

(it,ik)=(in+1,im+1)

(it,ik)=(in,im+1)

用r表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件r时,求最佳路径函数im=&Oslash;(in),使得沿路径的积累距离达到最小值,即:

搜索该路径的方法如下:搜索从(1,1)点出发,可以展开若干条满足η的路径,假设可计算每条路径达到(in,im)点时的总的积累距离,具有最小累积距离者即为最佳路径。易于证明,限定范围的任一格点(in,im)只可能有一条搜索路径通过。对于(in,im),其可达到该格点的前一个格点只可能是(in-1,im)、(in,im-1)和(in-1,im-1),那么(in,im)一定选择这3个距离之路径延伸而通过(in,im),这时此路径的积累距离为:

D[(in,im)]=d[T(in),R(im)]+min{D(in-1,im),D(in-1,im-1),D(in,im-1)}

这样可以从(n,m)=(1,1)出发搜索(in,im),对每一个(in,im)都存储相应的距离,这个距离是当前格点的匹配距离与前一个累计距离最小的格点(按照设定的斜率在三个格点中进行比较)。搜索到(in,im)时,只保留一条最佳路径。如果有必要的话,通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。

DTW算法可以直接按上面描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。

如图2所示,从(l,1)点出发(令D(1,1)=0)搜索,反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。

<第一实施例>

下面将参考图3详细描述根据本发明第一实施例的声纹识别方法。根据本发明实施例的声纹识别方法应用于包括声纹识别模块的电子设备中。这样的电子设备可以是任何电子设备,只要其具有声纹识别模块。这样的电子设备的例子例如包括智能手机、平板电脑、笔记本电脑等等。

如图3所示,所述方法300包括:

步骤S301:获取用户的第一语音输入信号,通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果;

步骤S302:基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果;

步骤S303:当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,获取用户的第二语音输入信号,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果;

步骤S304:基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果;

步骤S305:当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号;以及

步骤S306:通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果;

步骤S307:基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

具体地,在步骤S301中,例如可以通过电子设备的语音输入信号获取模块(如麦克风)获取用户的第一语音输入信号。然后,通过电子设备的所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果。

然后,在步骤S302中,可以基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果。

更具体地,所述通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果,基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数(MFCC)特征值矢量,所述第一梅尔频率倒谱系数特征值矢量具有第一维数;

获取识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第一梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第一累积距离;

当所述第一累积距离小于预定值时,判断所述第一语音输入信号满足所述声纹识别模块中设置的所述预定条件。

如上面描述的,参考模板和待识别的第一语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第一语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第一语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第一语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S301和S302中,对用户的第一语音输入信号进行第一次声纹解锁处理,并且判断第一语音输入信号是否能够成功解锁该电子设备。

如果用户的第一语音输入信号不能解锁电子设备,则需要进行第二次解锁处理。

然后,在步骤S303中,当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,获取用户的第二语音输入信号,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果。与步骤S301类似,例如可以通过电子设备的语音输入信号获取模块(如麦克风)获取用户的第二语音输入信号。然后,通过电子设备的所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果。

然后,在步骤S304中,基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果。

更具体地,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,并且确定所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件进一步包括:

提取所述第二语音输入信号的第二梅尔频率倒谱系数(MFCC)特征值矢量,所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第二梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第二累积距离;

当所述第二累积距离小于预定值时,确定所述第二语音输入信号满足所述声纹识别模块中设置的预定条件。

与上面类似,参考模板和待识别的第二语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第二语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第二语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第二语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S303和S304中,对用户的第二语音输入信号进行第二次声纹解锁处理,并且判断第二语音输入信号是否能够成功解锁该电子设备。

如果用户的第二语音输入信号不能解锁电子设备,则需要进行第三次解锁处理。

然后,在步骤S305中,当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号。

更具体地,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

计算所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,所述第三梅尔频率倒谱系数特征值矢量具有第一维数。

也就是说,在步骤S305中,通过计算第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和第二语音输入信号的第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,生成第三语音输入信号,即,合成的语音输入信号。所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数,并且所述第三梅尔频率倒谱系数特征值矢量具有与相同的第一维数。

然后,在步骤S306中,通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果。

最后,在步骤S307中,基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

更具体地,通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,并且确定所述第三语音输入信号是否满足所述声纹识别模块中设置的预定条件进一步包括:

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第三梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第三累积距离;

当所述第三累积距离小于预定值时,确定所述第三语音输入信号满足所述声纹识别模块中设置的预定条件。

与上面类似,参考模板和待识别的第三语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第三语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第三语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第三语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S305和S306中,对用户的第三语音输入信号进行第三次声纹解锁处理,并且判断第三语音输入信号是否能够成功解锁该电子设备。

实验获得的数据表明,通常每次声纹解锁的成功率约为20%。通过本实施例的声纹解锁方法,在两次解锁处理后的成功率可达40%。

根据上面描述的本发明的原理,合并之后得到的合成声音进行解锁的成功率可达50%。因此,根据本实施例的声纹解锁方法最终解锁的成功率可达到90%。

根据本发明实施例的声纹识别方法中,当第一判断结果表明所述第一语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第二判断结果表明所述第二语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第三判断结果表明所述第三语音输入信号满足所述声纹识别模块中设置的预定条件时,可以输出一触发信号以触发所述电子设备执行预定操作。

也就是说,在三次声纹解锁处理的任一次成功解锁电子设备后,可以输出一触发信号来触发所述电子设备执行预定操作。此时,电子设备可以进行预定的操作。

因此,根据本发明实施例的声纹识别方法,能够有效地提高声纹解锁的成功率,从而提高用户的使用体验。

<第二实施例>

优选地,所述声纹识别方法还包括:

下面将参考图4详细描述根据本发明第二实施例的声纹识别方法。根据本发明实施例的声纹识别方法应用于包括声纹识别模块的电子设备中。这样的电子设备可以是任何电子设备,只要其具有声纹识别模块。这样的电子设备的例子例如包括智能手机、平板电脑、笔记本电脑等等。

如图4所示,所述方法400包括:

步骤S401:获取用户的第一语音输入信号,将识别模板的特征值矢量和所述第一语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变,通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果;

步骤S402:基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果;

步骤S403:当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,获取用户的第二语音输入信号,将识别模板的特征值矢量和所述第二语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果;

步骤S404:基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果;

步骤S405:当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号;以及

步骤S406:将识别模板的特征值矢量和所述第三语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变,通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果;

步骤S407:基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

具体地,在步骤S401中,例如可以通过电子设备的语音输入信号获取模块(如麦克风)获取用户的第一语音输入信号。然后,将识别模板的特征值矢量和所述第一语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减(CMS)消除通道畸变。最后,通过电子设备的所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果。

然后,在步骤S402中,可以基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果。

更具体地,所述通过所述声纹识别模块对所述第一输入信号执行声纹识别处理,获得第一处理结果,基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数(MFCC)特征值矢量,所述第一梅尔频率倒谱系数特征值矢量具有第一维数;

获取识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第一梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第一累积距离;

当所述第一累积距离小于预定值时,判断所述第一语音输入信号满足所述声纹识别模块中设置的所述预定条件。

如上面描述的,参考模板和待识别的第一语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第一语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第一语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第一语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S401和S402中,对用户的第一语音输入信号进行第一次声纹解锁处理,并且判断第一语音输入信号是否能够成功解锁该电子设备。

如果用户的第一语音输入信号不能解锁电子设备,则需要进行第二次解锁处理。

然后,在步骤S403中,当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,获取用户的第二语音输入信号,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果。与步骤S401类似,例如可以通过电子设备的语音输入信号获取模块(如麦克风)获取用户的第二语音输入信号。然后,将识别模板的特征值矢量和所述第一语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变。最后,通过电子设备的所述声纹识别模块对所述第二输入信号执行声纹识别处理,获得第二处理结果。

然后,在步骤S404中,基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件,获得第二判断结果。

更具体地,通过所述声纹识别模块对所述第二输入信号执行声纹识别处理,并且确定所述第二语音输入信号是否满足所述声纹识别模块中设置的所述预定条件进一步包括:

提取所述第二语音输入信号的第二梅尔频率倒谱系数(MFCC)特征值矢量,所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第二梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第二累积距离;

当所述第二累积距离小于预定值时,确定所述第二语音输入信号满足所述声纹识别模块中设置的预定条件。

与上面类似,参考模板和待识别的第二语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第二语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第二语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第二语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S403和S404中,对用户的第二语音输入信号进行第二次声纹解锁处理,并且判断第二语音输入信号是否能够成功解锁该电子设备。

如果用户的第二语音输入信号不能解锁电子设备,则需要进行第三次解锁处理。

然后,在步骤S405中,当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块中设置的所述预定条件时,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号。

更具体地,合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号进一步包括:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

计算所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,所述第三梅尔频率倒谱系数特征值矢量具有第一维数。

也就是说,在步骤S405中,通过计算第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和第二语音输入信号的第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,生成第三语音输入信号,即,合成的语音输入信号。所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数,并且所述第三梅尔频率倒谱系数特征值矢量具有与相同的第一维数。

然后,在步骤S406中,将识别模板的特征值矢量和所述第一语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变。通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,获得第三处理结果。

最后,在步骤S407中,基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块中设置的所述预定条件。

更具体地,通过所述声纹识别模块对所述第三语音输入信号执行声纹识别处理,并且确定所述第三语音输入信号是否满足所述声纹识别模块中设置的预定条件进一步包括:

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第三梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第三累积距离;

当所述第三累积距离小于预定值时,确定所述第三语音输入信号满足所述声纹识别模块中设置的预定条件。

与上面类似,参考模板和待识别的第三语音输入信号的特征值通常包括多维矢量。根据上面描述的DTW算法,可以计算出最佳匹配路径所对应的匹配距离。当第三语音输入信号的特征值与参考模板的距离落入声纹识别的阈值范围内时,可以确定该第三语音输入信号能够成功地进行声纹解锁,即,满足声纹识别模块中设置的预定条件。否则,可以确定该第三语音输入信号不能够成功地进行声纹解锁,即,不满足声纹识别模块中设置的预定条件。

也就是说,在步骤S405和S406中,对用户的第三语音输入信号进行第三次声纹解锁处理,并且判断第三语音输入信号是否能够成功解锁该电子设备。

实验获得的数据表明,通常每次声纹解锁的成功率约为20%。通过本实施例的声纹解锁方法,在两次解锁处理后的成功率可达40%。

根据上面描述的本发明的原理,合并之后得到的合成声音进行解锁的成功率可达50%。因此,根据本实施例的声纹解锁方法最终解锁的成功率可达到90%。

根据本发明实施例的声纹识别方法中,当第一判断结果表明所述第一语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第二判断结果表明所述第二语音输入信号满足所述声纹识别模块中设置的预定条件时,或当第三判断结果表明所述第三语音输入信号满足所述声纹识别模块中设置的预定条件时,可以输出一触发信号以触发所述电子设备执行预定操作。

也就是说,在三次声纹解锁处理的任一次成功解锁电子设备后,可以输出一触发信号来触发所述电子设备执行预定操作。此时,电子设备可以进行预定的操作。

根据本发明第二实施例的声纹识别方法与根据本发明第一实施例的声纹识别方法的不同在于,在执行DTW处理之前,首先将识别模板和待识别语音的特征值分别通过倒谱平均减CMS消除通道畸变。

该处理抑制了传输设备不同带来的信道畸变对语音识别的影响,可以有效地减小语音输入信道对特征参数的影响,进一步增加声纹解锁成功率。然后再将处理后的数据用DTW进行模板匹配。

因此,根据本发明实施例的声纹识别方法,能够有效地提高声纹解锁的成功率,从而提高用户的使用体验。

<第三实施例>

下面,将参考图5描述根据本发明第三实施例的电子设备。

这样的电子设备可以是任何电子设备,只要其具有声纹识别模块。这样的电子设备的例子例如包括智能手机、平板电脑、笔记本电脑等等。

如图5所示,电子设备500包括:

语音获取模块501,用于获取用户的语音输入信号;该语音获取模块501例如可以包括麦克风等。

声纹识别模块502,用于对所述第一输入信号执行声纹识别处理,获得第一处理结果;

处理模块503,用于基于所述第一处理结果,判断所述第一语音输入信号是否满足所述声纹识别模块中设置的预定条件,获得第一判断结果,

当所述第一判断结果表明所述第一语音输入信号不满足所述声纹识别模块中设置的预定条件时,通过所述语音获取模块501获取用户的第二语音输入信号,并且通过所述声纹识别模块502对所述第二输入信号执行声纹识别处理,获得第二处理结果;

所述处理模块503基于所述第二处理结果,判断所述第二语音输入信号是否满足所述声纹识别模块502中设置的所述预定条件,获得第二判断结果;

当所述第二判断结果表明所述第二语音输入信号不满足所述声纹识别模块502中设置的所述预定条件时,通过所述处理模块503合并所述第一语音输入信号和所述第二语音输入信号以生成第三语音输入信号;以及

通过所述声纹识别模块502对所述第三语音输入信号执行声纹识别处理,获得第三处理结果;

所述处理模块503基于所述第三处理结果,判断所述第三语音输入信号是否满足所述声纹识别模块502中设置的所述预定条件。

优选地,所述处理模块503进一步用于:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量具有第一维数;

获取识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第一梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第一累积距离;

当所述第一累积距离小于预定值时,判断所述第一语音输入信号满足所述声纹识别模块502中设置的所述预定条件。

优选地,所述处理模块503进一步用于:

提取所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第二梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第二累积距离;

当所述第二累积距离小于预定值时,确定所述第二语音输入信号满足所述声纹识别模块502中设置的预定条件。

优选地,所述处理模块503进一步用于:

提取所述第一语音输入信号的第一梅尔频率倒谱系数特征值矢量和所述第二语音输入信号的第二梅尔频率倒谱系数特征值矢量,所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量具有第一维数;

计算所述第一梅尔频率倒谱系数特征值矢量和所述第二梅尔频率倒谱系数特征值矢量的平均值,作为第三语音输入信号的第三梅尔频率倒谱系数特征值矢量,所述第三梅尔频率倒谱系数特征值矢量具有第一维数。

优选地,所述处理模块503进一步用于:

获取所述识别模板的梅尔频率倒谱系数特征值矢量,所述识别模板的梅尔频率倒谱系数特征值矢量具有第二维数;

根据所述第三梅尔频率倒谱系数特征值矢量和所述识别模板的梅尔频率倒谱系数特征值矢量执行动态时间规整计算以获得第三累积距离;

当所述第三累积距离小于预定值时,确定所述第三语音输入信号满足所述声纹识别模块502中设置的预定条件。

优选地,所述处理模块503进一步用于:

执行动态时间规整计算之前,将所述识别模板的特征值矢量和所述第一、第二和/或第三语音输入信号的梅尔频率倒谱系数特征值矢量通过倒谱均值减消除通道畸变。

优选地,所述处理模块503进一步用于:

当第一判断结果表明所述第一语音输入信号满足所述声纹识别模块502中设置的预定条件时,或当第二判断结果表明所述第二语音输入信号满足所述声纹识别模块502中设置的预定条件时,或当第三判断结果表明所述第三语音输入信号满足所述声纹识别模块502中设置的预定条件时,输出一触发信号以触发所述电子设备执行预定操作。

因此,根据本发明实施例的电子设备,能够有效地提高声纹解锁的成功率,从而提高用户的使用体验。

需要注意的是,在图示根据各个实施例的电子设备时仅仅示出了其功能单元,并没有具体描述各个功能单元的连接关系,本领域技术人员可以理解的是,各个功能单元可以通过总线、内部连接线等等适当地连接,这样的连接对于本领域技术人员来说是熟知的。

需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后,还需要说明的是,上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理,而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1