一种声纹特征的融合方法及装置与流程

文档序号:17747570发布日期:2019-05-24 20:44阅读:321来源:国知局
一种声纹特征的融合方法及装置与流程

本公开涉及语音识别领域,尤其涉及一种声纹特征的融合方法及装置。



背景技术:

目前随着信息技术的普及,自动语音识别技术越来越发挥着重要的作用,其应用前景也更加广阔。语音信号中主要包含三个方面的信息:是谁说的、说的语言是什么以及说的内容是什么,其中涉及到的自动语音识别技术分别为:说话人识别、语种识别和语义识别。说话人识别技术,又叫做声纹识别,主要研究的是根据输入的语音信号对说话人的身份进行认证的技术。说话人识别同其他识别技术一样,通过一定的特征,对输入的说话人音频进行识别,从而达到对于输入语音身份的确认。声纹识别因其不涉及用户隐私问题,往往用户接受程度较高。另一方面声纹的获取可以说是最方便的,只需要手机就可以采集用户声纹特征信息,完成身份认证。在声纹识别系统中,通常需要提取能够表达目标说话人身份的声纹特征。

声纹特征的融合方法,目的是通过将多种声纹特征融合在一起来提升说话人认证(sv,speakerverification)的性能。现有的声纹特征的融合技术包扩两种方法:一种方法是利用不同的声纹模型提取出不同的声纹特征,直接求平均值得到最后的声纹特征;一种方法是利用不同声纹特征的相似度得分进行均值计算,将不同声纹特征融合在一起。但上述利用计算特征或相似度得分的均值的简单方式来实现声纹特征融合的方法,没有充分考虑特征间的互补性以及融合特征的区分性。



技术实现要素:

(一)要解决的技术问题

本公开提供了一种声纹特征的融合方法及装置,以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面,提供了一种声纹特征的融合方法,包括:

提取语音频谱特征,将所述语音频谱特征作为输入,采用通用背景模型及全局差异空间矩阵提取出i-vector声纹特征;采用深度神经网络,提取x-vector声纹特征及d-vector声纹特征;

采用所述i-vector声纹特征、所述x-vector声纹特征及所述d-vector声纹特征作为样本,基于线性判别分析完成所述声纹特征的融合。

在一些实施例中,基于线性判别分析完成所述声纹特征融合包括:

计算类内散度矩阵sw:

其中,n是类标签的个数,x(k)表示子集di中的样本,μi表示子集di的均值;然后计算类间散度矩阵sb:

其中n是类标签的个数,p(i)是第i类样本的先验概率,μi表示子集di的均值,μ表示所有样本的均值;

计算矩阵sw-1sb的特征值;

找出矩阵sw-1sb最大的k个特征值和其对应的k个特征向量(w1,w2,...,wk);

将原始样本投影到以(w1,w2,...,wk)为基向量生成的低维空间中。

在一些实施例中,所述采用深度神经网络,提取x-vector声纹特征及d-vector声纹特征包括:

在深度神经网络中加入池化层,在池化层求平均值后,继续向前传播,在抽取后续中间层的激活值作为x-vector声纹特征;

从深度神经网络的最后一个隐层中抽取出激活值,然后经过累加求均值得到d-vector特征。

在一些实施例中,所述提取语音频谱特征的步骤包括:

对获取目标说话人的语音采样,利用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据;

从所述实际语音数据中,提取梅尔频率倒谱系数特征。

在一些实施例中,所述采用线性判别分析完成所述声纹特征的融合之后还包括:

基于概率线性判别分析完成信道补偿,并得到信道补偿后的声纹特征。

在一些实施例中,所述利用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据之前还包括:

通过音频输入模块,得到目标说话人的语音采样;

所述基于概率线性判别分析完成信道补偿,并得到信道补偿后的声纹特征之后还包括:

对信道补偿后的声纹特征进行输出。

根据本公开的另一个方面,提供了一种声纹特征的融合装置,包括:

ubm模型及t矩阵模块,用于将语音频谱特征作为输入,采用通用背景模型及全局差异空间矩阵提取出i-vector声纹特征;

dnn模块,用于将语音频谱特征作为输入,采用加入池化层的dnn网络,在池化层求平均值后,继续向前传播,抽取后续中间层的激活值作为x-vector特征;并于最后一个隐层中抽取出激活值,经过加权得到新的d-vector特征;

线性判别分析模块,连接到所述ubm模型及t矩阵模块及dnn模块,采用线性判别分析完成多种所述声纹特征的融合。

在一些实施例中,所述的融合装置,还包括:

语音端点检测模块,用于对获取的目标说话人的语音采样数据进行处理,采用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据;

语音频谱特征提取模块,连接到所述语音端点检测模块、ubm模型及t矩阵模块及dnn模块,用于从所述实际语音数据中,提取梅尔频率倒谱系数特征作为所述目标说话人的语音频谱特征。

在一些实施例中,所述的融合装置,还包括:

信道补偿模块,连接到所述dnn模块,用于采用plda算法进行声纹识别的信道补偿。

在一些实施例中,所述的融合装置,还包括:

音频输入模块,用于对目标说话人的声音进行采样;

声纹特征输出模块,连接到所述信道补偿模块,用于将提取的声纹特征进行输出。

(三)有益效果

从上述技术方案可以看出,本公开声纹特征的融合方法及装置至少具有以下有益效果其中之一:

(1)通过引入了基于线性判别分析的方式来融合多种声纹特征,提升了多种声纹特征的互补性及融合特征的区分性,能够保证在声纹认证的情况下,提高目标说话人的通过率,降低非目标说话人的误识率,提升个性化的用户体验;

(2)采用plda算法进行声纹识别的信道补偿,能够更好地提取声纹特征。

附图说明

图1为本公开实施例声纹特征的融合方法的流程图。

图2为本公开实施例声纹特征的融合装置的结构示意图。

具体实施方式

本公开提供了一种声纹特征的融合方法,解决了现有利用计算声纹特征或相似度得分的均值进行声纹特征融合的方式来过于简单,得到的新特征对于说话人的区分性不够的问题。

为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以由许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中,提供了一种声纹特征的融合方法,在提取i-vector特征、x-vector特征及d-vector特征的基础上引入了线性判别分析(lda,lineardiscriminantanalysis)来融合这三种声纹特征。线性判别分析能够改善声纹认证的效果,一方面,lda是监督学习,在分类和降维过程中利用了类别的先验知识,因此可以提高分类的准确性;另一方面,lda具有类间离散度大及类内离散度小的特性,能够有效提高多种声纹特征的互补性及融合特征的区分性。

图1为本公开实施例声纹特征的融合方法的流程图。如图1所示,本公开声纹特征的融合方法包括:

s1,对于获取的目标说话人的语音采样,利用语音端点检测算法(vad,voiceactivitydetection),截取出所述目标说话人的语音采样中的实际语音数据;

具体地,语音采样时通过音频输入模块,得到目标说话人的语音采样。其中,所述输入音频模块可以为麦克风等语音收集装置。

在获取目标说话人的语音数据后,采用vad算法进行语音边界检测,从语音数据中识别和消除长时间的静音期,获取采样语音数据中的实际语音数据。

s2,从所述实际语音数据中,提取梅尔频率倒谱系数(mfcc,mel-frequencycepstralcoefficients)特征;

其中,mfcc特征是在mel标度频率域提取出来的倒谱参数,mel标度描述了人耳频率的非线性特性,本实施例采用mfcc特征对目标语音数据进行语音频谱特征提取。所述mfcc特征包括18维的基本倒谱特征和对基本倒谱特征进行特征补偿后的18维特征,所述特征补偿包括高阶差分、倒谱均值减、倒谱方差规整、相关频谱(relativespectral,rasta)滤波,所述mfcc特征的维数为36维。

s3,将提取的梅尔频率倒谱系数特征作为输入,通过通用背景模型(ubm,universalbackgroundmodel)及全局差异空间矩阵(t矩阵)提取出i-vector特征;

s4,将提取的梅尔频率倒谱系数特征输入深度神经网络,提取x-vector特征及d-vector特征。

具体地,所述步骤s4包括:

子步骤s401,在深度神经网络(dnn,deepneuralnetworks)中加入池化层(pooling),在池化层求平均值后,继续向前传播,在抽取后续中间层的激活值作为x-vector特征;

子步骤s402,从深度神经网络(dnn)的最后一个隐层中抽取出激活值,然后经过累加求均值得到d-vector特征。

s5,采用所述步骤s3中提取的i-vector特征、所述步骤s4提取的x-vector特征及d-vector特征作为样本,基于线性判别分析(lda)完成多种声纹特征的融合。

其中,基于线性判别分析(lda)完成多种声纹特征融合的具体过程包括:

首先计算类内散度矩阵sw,公式如下:

其中,n是类标签的个数,x(k)表示子集di中的样本,μi表示子集di的均值;然后计算类间散度矩阵sb,公式如下:

其中n是类标签的个数,p(i)是第i类样本的先验概率,μi表示子集di的均值,μ表示所有样本的均值;接下来,计算矩阵sw-1sb的特征值;再找出矩阵sw-1sb最大的k个特征值和其对应的k个特征向量(w1,w2,...,wk);最后将原始样本投影到以(w1,w2,...,wk)为基向量生成的低维空间中。

s6,基于概率线性判别分析(plda,probabilisticlineardiscriminantanalysis)完成信道补偿,并得到声纹特征。

所述plda是一种采用概率形式的lda算法,该算法基于声纹特征,所述声纹特征除说话人信息之外还包括了信道信息,因此采用plda算法进行声纹识别的信道补偿后,能够更好地提取声纹特征。

进一步地,所述步骤s1利用语音端点检测算法,截取出所述目标说话人的语音采样中的实际语音数据之前,还包括以下步骤:

s0,通过音频输入模块,得到目标说话人的语音采样。

进一步地,所述步骤s6基于概率线性判别分析完成信道补偿,并得到声纹特征之后还包括以下步骤:

s7,对信道补偿后的融合声纹特征进行输出。

本公开声纹特征的融合方法在声纹特征的融合阶段,通过线性判别分析的方式来融合多种声纹特征,达到了提升多种声纹特征的互补性及融合特征的区分性的目的,保证了说话人认证的性能。

在本公开的又一个实施例中,提供了一种声纹特征的融合装置。图2为本公开实施例声纹特征的融合装置的结构示意图。如图2所示,本公开声纹特征的融合装置包括:

语音端点检测模块,用于对获取的目标说话人的语音采样数据进行处理,采用语音端点检测算法(vad,voiceactivitydetection),截取出所述目标说话人的语音采样中的实际语音数据。

语音频谱特征提取模块,连接到所述语音端点检测模块,用于从所述实际语音数据中,提取梅尔频率倒谱系数(mfcc)特征。

ubm模型及t矩阵模块,连接到所述语音频谱特征提取模块。将提取的梅尔频率倒谱系数特征作为输入,通过通用背景模型(ubm)及全局差异空间矩阵(t矩阵)提取出i-vector特征。

dnn模块,连接到所述语音频谱特征提取模块。一般地,所述dnn网络包括输入层、多个隐层及输出层。所述dnn模块将语音频谱特征提取模块得到的mfcc特征作为输入,在dnn网络中加入池化层(pooling),在池化层求平均值后,继续向前传播,在抽取后续中间层的激活值作为x-vector特征;并于最后一个隐层中抽取出激活值,经过加权得到新的d-vector特征。

线性判别分析模块,连接到所述ubm模型及t矩阵模块及dnn模块。基于所述ubm模型及t矩阵模块提取的i-vector特征、所述dnn模块提取的x-vector特征及d-vector特征,采用线性判别分析(lda)完成多种声纹特征的融合。

信道补偿模块,连接到所述dnn模块,用于采用plda算法进行声纹识别的信道补偿。

进一步地,本实施例声纹特征的融合装置还包括:

音频输入模块,用于对目标说话人的声音进行采样。具体地,所述输入音频模块可以为麦克风等语音收集装置。

声纹特征输出模块,连接到所述信道补偿模块,用于将信道补偿后的声纹特征进行输出。

本实施例声纹特征的融合装置通过引入了基于线性判别分析的方式来融合多种声纹特征,提升了多种声纹特征的互补性及融合特征的区分性,能够保证在声纹认证的情况下,提高目标说话人的通过率,降低非目标说话人的误识率,提升个性化的用户体验。

至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。

此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1