声纹识别方法和装置制造方法

文档序号:2828155阅读:165来源:国知局
声纹识别方法和装置制造方法
【专利摘要】本发明公开了一种声纹识别方法和装置。其中,该方法包括:提取待识别声纹中的第一声纹特征,其中,第一声纹特征中至少包括待识别声纹的小波特征;至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度;判断识别度是否大于预定阈值;若判断出识别度大于预定阈值,则识别出待识别声纹为目标声纹。本发明解决了由于采用现有的声纹识别方法所导致的识别不准确的技术问题。
【专利说明】声纹识别方法和装置

【技术领域】
[0001]本发明涉及计算机领域,具体而言,涉及一种声纹识别方法和装置。

【背景技术】
[0002]如今,为了增强对重要信息的安全管理,越来越多的人开始对重要信息使用加密鉴权处理,比如:指纹识别、面部识别、声纹识别。其中,声纹识别(VoiaprintRecognit1n, VPR),也称为说话人识别(Speaker Recognit1n),包括两类,分别是说话人辨认(Speaker Identificat1n)和说话人确认(Speaker Verificat1n)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。
[0003]目前常用的声纹识别方式中最广泛使用的特征是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、线性预测倒谱系数(Linear Predict1nCepstrum Coefficients,LPCC)及其时差特征。然而,采用上述特征识别声纹的方式上述还不够完善,比如同一个人的声音易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对声纹识别产生不同的影响;比如环境噪音对声纹识别产生干扰;又比如多个说话人混合说话时每个人的声纹特征不易提取…综上,现有的声纹识别方式所得到的识别结果因容易受到各种因素干扰而造成识别不准确的问题。进一步,对于与文本无关的声纹识别,由于所采集的声纹多样并不唯一确定,进而导致所要建立的识别模型较复杂,且建立周期较长,从而导致声纹识别的稳定性和识别准确度也较差。
[0004]针对现有技术中的问题,目前尚未提出有效的解决方案。


【发明内容】

[0005]本发明实施例提供了一种声纹识别方法和装置,以至少解决由于采用现有的声纹识别方法所导致的识别不准确的技术问题。
[0006]根据本发明实施例的一个方面,提供了一种声纹识别方法,包括:提取待识别声纹中的第一声纹特征,其中,上述第一声纹特征中至少包括上述待识别声纹的小波特征;至少根据上述第一声纹特征与声纹识别模型中的第二声纹特征计算上述待识别声纹的识别度;判断上述识别度是否大于预定阈值;若判断出上述识别度大于上述预定阈值,则识别出上述待识别声纹为目标声纹。
[0007]可选地,在上述提取待识别声纹中的第一声纹特征之前,还包括:采集上述待识别声纹;至少根据上述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与上述第一声纹特征向量对应的声纹特征向量参数,以构造出与上述待识别声纹相适应的上述声纹识别模型中的上述第二声纹特征中的第二声纹特征向量。
[0008]可选地,上述第一声纹特征中包括多个上述第一声纹特征向量,上述第二声纹特征中包括多个上述第二声纹特征向量,其中,上述至少根据上述第一声纹特征与声纹识别模型中的第二声纹特征计算上述待识别声纹的识别度包括:计算上述第一声纹特征中的每个上述第一声纹特征向量与上述第二声纹特征中每个与上述第一声纹特征向量相对应的上述第二声纹特征向量的向量距离;根据计算得到的多个上述向量距离计算上述第一声纹特征与上述第二声纹特征的目标距离;至少利用上述第一声纹特征与上述第二声纹特征的上述目标距离计算上述待识别声纹的识别度。
[0009]可选地,在采集上述待识别声纹之前,还包括:采集多个声纹并提取上述多个声纹中每个声纹的第三声纹特征,以构建多个与上述声纹相对应的背景声纹模型,其中,上述第三声纹特征中包括多个第三声纹特征向量;根据上述背景声纹模型建立上述声纹通用模型。
[0010]可选地,上述至少利用上述第一声纹特征与上述第二声纹特征的距离计算上述待识别声纹的识别度包括:计算上述第一声纹特征分别与多个上述背景声纹模型对应的每个上述声纹的上述第三声纹特征的背景距离;根据多个上述背景距离计算距离平均值及距离标准差;计算上述第一声纹特征与上述第二声纹特征的上述目标距离与上述距离平均值的差值;计算上述差值与上述距离标准差的比值,将上述比值作为上述待识别声纹的上述识别度。
[0011]可选地,上述小波特征包括实小波特征和/或复小波特征,其中,上述提取待识别声纹中的第一声纹特征包括:检测上述待识别声纹中的浊音区间;在每个上述浊音区间中检测基音区间,并在每个上述基音区间中提取上述声纹特征的上述实小波特征和/或上述复小波特征。
[0012]可选地,上述在每个上述基音区间中提取上述声纹特征的上述实小波特征和/或上述复小波特征包括:在每个上述基音区间中提取预定的特征向量,并根据小波滤波器将多个上述基音区间中的上述特征向量划分为预定长度的样本向量,并将上述预定长度的样本向量归一化;对归一化后的上述预定长度的样本向量执行以下至少一种小波变换:对归一化后的上述预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在上述第一预定频带中选择满足第一预定条件的频带进行采样,以得到上述第一声纹特征中的上述实小波特征;对归一化后的上述预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在上述第二预定频带中选择满足第二预定条件的频带进行采样,以得到上述第一声纹特征中的上述复小波特征。
[0013]可选地,在检测上述待识别声纹中的浊音区间之后,上述提取待识别声纹中的第一声纹特征还包括:提取上述待识别声纹中每一帧的梅尔倒谱系数,以得到上述第一声纹特征中的上述梅尔倒谱系数特征;根据上述梅尔倒谱系数计算上述待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到上述第一声纹特征中的上述差分梅尔倒谱系数特征。
[0014]根据本发明实施例的另一方面,还提供了一种声纹识别装置,包括:提取单元,用于提取待识别声纹中的第一声纹特征,其中,上述第一声纹特征中至少包括上述待识别声纹的小波特征;计算单元,用于至少根据上述第一声纹特征与声纹识别模型中的第二声纹特征计算上述待识别声纹的识别度;判断单元,用于判断上述识别度是否大于预定阈值;识别单元,用于在判断出上述识别度大于上述预定阈值时,识别出上述待识别声纹为目标声纹。
[0015]可选地,上述装置还包括:采集单元,用于在上述提取待识别声纹中的第一声纹特征之前,采集上述待识别声纹;调整单元,用于至少根据上述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与上述第一声纹特征向量对应的声纹特征向量参数,以构造出与上述待识别声纹相适应的上述声纹识别模型中的上述第二声纹特征中的第二声纹特征向量。
[0016]可选地,上述第一声纹特征中包括多个上述第一声纹特征向量,上述第二声纹特征中包括多个上述第二声纹特征向量,上述计算单元包括:第一计算模块,用于计算上述第一声纹特征中的每个上述第一声纹特征向量与上述第二声纹特征中每个与上述第一声纹特征向量相对应的上述第二声纹特征向量的向量距离;第二计算模块,用于根据计算得到的多个上述向量距离计算上述第一声纹特征与上述第二声纹特征的目标距离;第三计算模块,用于至少利用上述第一声纹特征与上述第二声纹特征的上述目标距离计算上述待识别声纹的识别度。
[0017]可选地,上述装置还包括:采集单元,用于采集多个声纹并提取上述多个声纹中每个声纹的第三声纹特征,以构建多个与上述声纹相对应的背景声纹模型,其中,上述第三声纹特征中包括多个第三声纹特征向量;建立单元,用于根据上述背景声纹模型建立上述声纹通用模型。
[0018]可选地,上述第三计算模块包括:第一计算子模块,用于计算上述第一声纹特征分别与多个上述背景声纹模型对应的每个上述声纹的上述第三声纹特征的背景距离;第二计算子模块,用于根据多个上述背景距离计算距离平均值及距离标准差;第三计算子模块,用于计算上述第一声纹特征与上述第二声纹特征的上述目标距离与上述距离平均值的差值;第四计算子模块,用于计算上述差值与上述距离标准差的比值,将上述比值作为上述待识别声纹的上述识别度。
[0019]可选地,上述小波特征包括实小波特征和/或复小波特征,上述提取单元包括:检测模块,用于检测上述待识别声纹中的浊音区间;第一提取模块,用于在每个上述浊音区间中检测基音区间,并在每个上述基音区间中提取上述声纹特征的上述实小波特征和/或上述复小波特征。
[0020]可选地,上述第一提取模块包括:第一提取子模块,用于在每个上述基音区间中提取预定的特征向量,并根据小波滤波器将多个上述基音区间中的上述特征向量划分为预定长度的样本向量,并将上述预定长度的样本向量归一化;变换子模块,用于对归一化后的上述预定长度的样本向量执行以下至少一种小波变换:对归一化后的上述预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在上述第一预定频带中选择满足第一预定条件的频带进行采样,以得到上述第一声纹特征中的上述实小波特征;对归一化后的上述预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在上述第二预定频带中选择满足第二预定条件的频带进行采样,以得到上述第一声纹特征中的上述复小波特征。
[0021]可选地,上述提取单元还包括:第二提取模块,用于在检测上述待识别声纹中的浊音区间之后,提取上述待识别声纹中每一帧的梅尔倒谱系数,以得到上述第一声纹特征中的上述梅尔倒谱系数特征;第三计算模块,用于根据上述梅尔倒谱系数计算上述待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到上述第一声纹特征中的上述差分梅尔倒谱系数特征。
[0022]在本发明实施例中,在提取待识别声纹中第一声纹特征后,至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度,在判断出识别度大于预定阈值时,识别出上述第一声纹特征为目标声纹,其中,上述第一声纹特征中包括小波特征,也就是说,在原有特征的基础上结合声纹的小波特征,从而提高声纹识别系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步,通过直接与声纹识别模型进行比较,减小了模型建立的复杂度和建立周期,从而提高了声纹识别的稳定性和识别效率。

【专利附图】

【附图说明】
[0023]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0024]图1是根据本发明实施例的一种可选的声纹识别方法的流程图;
[0025]图2是根据本发明实施例的一种可选的声纹识别方法中UBM模型建立的流程图;
[0026]图3是根据本发明实施例的一种可选的声纹识别方法中提取特征的流程图;以及
[0027]图4是根据本发明实施例的一种可选的声纹识别装置的示意图。

【具体实施方式】
[0028]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0029]为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0030]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]实施例1
[0032]根据本发明实施例,提供了一种声纹识别方法,如图1所示,该方法包括:
[0033]S102,提取待识别声纹中的第一声纹特征,其中,第一声纹特征中至少包括待识别声纹的小波特征;
[0034]S104,至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度;
[0035]S106,判断识别度是否大于预定阈值;
[0036]S108,若判断出识别度大于预定阈值,则识别出待识别声纹为目标声纹。
[0037]可选地,在本实施例中,上述声纹识别方法可以但不限于应用于利用声纹进行身份辨认及身份鉴证的过程中,例如,在银行交易时对交易对象预先注册了声纹识别模型,当需要对交易对象进行身份验证时,则采用上述声纹识别方法,在判断出交易对象的声纹的识别度满足预定阈值时,可识别出为同一声纹后再进行交易,从而保证交易的安全性。上述举例只是一种示例,本实施例对此不做任何限定。
[0038]可选地,在本实施例中,上述待识别声纹中的第一声纹特征可以包括但不限于:多个第一声纹特征向量,上述第二声纹特征可以包括但不限于:多个第二声纹特征向量。可选地,在本实施例中,上述第一声纹特征可以包括但不限于:4个实小波特征、4个双树复小波特征、梅尔倒谱系数特征、差分梅尔倒谱系数特征。其中,上述小波特征中包括以下至少之一:实小波、复小波。
[0039]可选地,在本实施例中,上述声纹识别模型可以但不限于:根据待识别声纹中声纹特征的多个声纹特征向量对声纹通用模型进行调整后,得到与待识别声纹相适应的用于识别上述待识别声纹的模型。其中,上述通用模型可以但不限于:采集多人的声纹并从每个人的声纹中提取声纹特征,根据声纹特征分别建立与每个人的声纹相对应的背景声纹模型,再对上述多个背景声纹模型中的第三声纹特征进行聚类,进而建立声纹通用模型。例如,通用背景模型(Un iversa I Background Mode 1,UBM)。
[0040]例如,图2所示为根据多个说话人建立UBM模型的流程图,其中,一个声纹特征中包括10个声纹特征向量(即10类特征)。具体而言,如步骤S202,采集多人的声纹并从每个人的声纹中提取10类特征,然后对每类特征进行聚类(例如,包括32个中心),如步骤S204,则步骤S206,得到包含32码字的10个码本(即10个声纹特征向量对应的声纹特征参数)的UBM模型。进一步,每个说话人还可根据自身的声纹特征建立背景声纹模型。
[0041]通过本申请提供的实施例,在提取待识别声纹中第一声纹特征后,至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度,在判断出识别度大于预定阈值时,识别出上述第一声纹特征为目标声纹,其中,上述第一声纹特征中包括小波特征,也就是说,在原有特征的基础上结合声纹的小波特征,从而提高声纹识别系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步,通过直接与声纹识别模型进行比较,减小了模型建立的复杂度和建立周期,从而提高了声纹识别的稳定性和识别效率。
[0042]作为一种可选的方案,在提取待识别声纹中的第一声纹特征之前,还包括:
[0043]SI,采集待识别声纹;
[0044]S2,至少根据第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与第一声纹特征向量对应的声纹特征向量参数,以构造出与待识别声纹相适应的声纹识别模型中的第二声纹特征中的第二声纹特征向量。
[0045]可选地,在本实施例中,上述采集待识别声纹的方式可以包括但不限于:利用麦克风采集时长为5秒的待识别人声,其中,采用的音频的格式是采样率16KHz、量化深度16位,单声。
[0046]可选地,在本实施例中,上述第一声纹特征中可以包括但不限于多个第一声纹特征向量,上述第二声纹特征中可以包括但不限于多个第二声纹特征向量。例如,每个声纹特征包括10个VQ码本,也就是说,每个第一声纹特征向量对应一个VQ码本,其中,每个VQ码本对应一组特征集。
[0047]可选地,在本实施例中,根据第一声纹中的多个第一声纹特征向量调整声纹通用模型,以得到与待识别声纹相适应的声纹识别模型,从而便于利用上述声纹识别模型实现对之后采集的声纹进行识别。
[0048]通过本申请提供的实施例,在提取待识别声纹中的第一声纹特征之前,通过调整通用模型以得到与待识别声纹相适应的声纹识别模型,实现对待识别声纹的预先注册,从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别,减小了模型建立的复杂度和建立周期,进而提高了声纹识别的可靠性及效率。
[0049]作为一种可选的方案,第一声纹特征中包括多个第一声纹特征向量,第二声纹特征中包括多个第二声纹特征向量,其中,至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度包括:
[0050]SI,计算第一声纹特征中的每个第一声纹特征向量与第二声纹特征中每个与第一声纹特征向量相对应的第二声纹特征向量的向量相似度;
[0051]S2根据计算得到的多个向量相似度计算第一声纹特征与第二声纹特征的目标距离;
[0052]S3,至少利用第一声纹特征与第二声纹特征的目标距离计算待识别声纹的识别度。
[0053]可选地,在本实施例中,上述计算第一声纹特征中的第一声纹特征向量与第二声纹特征中的第二声纹特征向量的向量相似度包括:计算第一声纹特征向量与第二声纹特征向量之间的距离。
[0054]具体结合以下示例进行说明,例如,待识别声纹的第一声纹特征中的第一声纹特征向量与声纹识别模型的第二声纹特征中的第二声纹特征向量之间的向量距离为a,对多个向量距离进行归一化处理,并加权求和得到第一声纹特征与第二声纹特征的目标距离S。至少根据上述到第一声纹特征与第二声纹特征的目标距离S计算第一声纹特征的识别度。其中,上述权重可以但不限于根据不同特征向量的重要程度预先设置,本实施例中不限于此。
[0055]通过本申请提供的实施例,通过计算第一声纹特征与第二声纹特征中多个声纹特征向量的向量距离,对多个向量距离进行加权求和后准确计算出第一声纹特征与第二声纹特征的目标距离,进而保证了声纹识别度的准确性。
[0056]作为一种可选的方案,在采集待识别声纹之前,还包括:
[0057]SI,采集多个声纹并提取多个声纹中每个声纹的第三声纹特征,以构建多个与声纹相对应的背景声纹模型,其中,第三声纹特征中包括多个第三声纹特征向量;
[0058]S2,根据背景声纹模型建立声纹通用模型。
[0059]通过本申请提供的实施例,通过采集多个说话人的声纹以建立多个背景声纹模型,以实现根据背景声纹模型建立包含多人声纹特征的声纹通用模型,从而便于预先建立用于声纹识别的声纹识别模型,进而达到了缩短模型建立周期,提高了声纹识别的识别效率的效果。
[0060]作为一种可选的方案,至少利用第一声纹特征与第二声纹特征的距离计算待识别声纹的识别度包括:
[0061]SI,计算第一声纹特征分别与多个背景声纹模型对应的每个声纹的第三声纹特征的背景距离;
[0062]S2,根据多个背景距离计算距离平均值及距离标准差;
[0063]S3,计算第一声纹特征与第二声纹特征的目标距离与距离平均值的差值;
[0064]S4,计算差值与距离标准差的比值,将比值作为待识别声纹的识别度。
[0065]可选地,假设待识别声纹的第一声纹特征与第二声纹特征的目标距离用S标识,共采集i个声纹建立i个背景声纹模型,其中,第一声纹特征与i个声纹对应的i个第三声纹特征的背景距离分别是Di,D2,D3,…Di,进一步,通过计算得到上述多个背景距离的距离平均值为U,距离标准差为O。则通过以下公式计算待识别声纹的识别度:
[0066]s,= (S-U)/ ο (I)
[0067]进一步,判断上述识别声纹的识别度S,与预定阈值的大小关系,若判断出大于预定阈值,则认为待识别声纹为目标声纹。
[0068]需要说明的是,由于采集待识别声纹与建立声纹识别模型的硬件环境与条件可能发生变化,例如,麦克型号变化,则可能导致待识别声纹的第一声纹特征与声纹识别模型的第二声纹特征之间产生较大变化,进而影响对待识别声纹的判断,因而,进一步结合背景声纹模型中的声纹特征计算待识别声纹的识别度,进一步保证了待识别声纹的识别度的准确性。
[0069]具体结合以下示例说明,如果采用与建立背景声纹模型相同的声卡、麦克风进行录音,此时录音后提取的待识别声纹的声纹特征与声纹识别模型的距离较近,与背景声纹模型的距离也较近,而如果采用与建立背景声纹模型不同的声卡、麦克风进行录音,录音后提取特征的待识别声纹与声纹识别模型的距离则较远,与背景声纹模型的距离也较远,然而,虽然距离都较远,但是与声纹识别模型的距离相比较来说待识别声纹与背景声纹模型的距离还是更接近。
[0070]通过本申请提供的实施例,通过结合预先注册的声纹识别模型与背景声纹模型计算待识别声纹的识别度,从而克服了由于采集待识别声纹的环境与条件发生变化所导致的待识别声纹的识别度计算不准确的问题。
[0071]作为一种可选的方案,小波特征包括实小波特征和/或复小波特征,其中,提取待识别声纹中的第一声纹特征包括:
[0072]SI,检测待识别声纹中的浊音区间;
[0073]S2,在每个浊音区间中检测基音区间,并在每个基音区间中提取声纹特征的实小波特征和/或复小波特征。
[0074]可选地,在本实施例中,上述在每个基音区间中提取声纹特征的实小波特征和/或复小波特征包括:
[0075]S22,在每个基音区间中提取预定的特征向量,并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量,并将预定长度的样本向量归一化;
[0076]S24,对归一化后的预定长度的样本向量执行以下至少一种小波变换:
[0077]I)对归一化后的预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在第一预定频带中选择满足第一预定条件的频带进行采样,以得到第一声纹特征中的实小波特征;
[0078]2)对归一化后的预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在第二预定频带中选择满足第二预定条件的频带进行采样,以得到第一声纹特征中的复小波特征。
[0079]可选地,在本实施例中,上述样本向量可以但不限于根据所采用的小波滤波器的长度决定。
[0080]可选地,在本实施例中,在检测待识别声纹中的浊音区间之后,上述提取待识别声纹中的第一声纹特征还包括:
[0081]S3,提取待识别声纹中每一帧的梅尔倒谱系数,以得到第一声纹特征中的梅尔倒谱系数特征;
[0082]S4,根据梅尔倒谱系数计算待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到第一声纹特征中的差分梅尔倒谱系数特征。
[0083]例如,如图3中S302-S306所示,对待识别声纹进行浊音区间检测,然后进行预加重处理,其中,预加重处理是一种高通滤波器。具体的公式如下:
[0084]y(n) = x(n)-0.9375*x(n_l) (2)
[0085]对预加重处理后的声纹进行特征提取,如图3中S308-S318所示,进行3阶实小波变换、3阶双数复小波变换、提取梅尔倒谱系数,根据梅尔倒谱系数计算差分梅尔倒谱系数,进而得到10组20维的声纹特征向量,其中,上述步骤S308与S310可以同时进行,步骤标号不对本实施例进行限定。
[0086]通过本申请提供的实施例,通过提取声纹特征中的小波特征,实现在原有特征的基础上结合小波特征构成新特征,由于小波特征反映原有特征不能使用的语音特征,从而实现提高了声纹识别系统的精确性和稳定性。
[0087]具体结合以下示例进行描述,假设上述声纹识别应用于银行身份鉴证过程中,银行B预先获取预定数量说话人声纹建立背景声纹模型,进而再根据这些背景声纹模型建立声纹通用模型,用户A在银行B保存了较为重要的资料,希望通过声纹识别方式鉴权保护,则可以对用户A的声纹提取声纹特征建立声纹识别模型。进一步,用户A之后需要在银行C读取资料时,为了避免由于声音采集的硬件设备发生变化所造成的识别误差,则可采用本实施例中提供的声纹识别方法,通过提取用户A的声纹特征,根据用户A预先注册的声纹识别模型及背景声纹模型来计算用户A的声纹识别度,从而保证用户A的身份鉴证的正确性,及所保存的物品的安全性。
[0088]具体地,以声纹识别模型中的声纹特征中包括10个声纹特征向量为例。
[0089]例如,从数十个说话人的语音数据中提取的特征分别构建背景声纹模型,其中,背景声纹模型中包括10个VQ码本,每个VQ码本中10个特征,如美尔倒谱、差分美尔倒谱和4个实小波特征、4个复小波特征,每个特征为20维向量。进一步根据背景声纹模型建立UBM模型。进一步,对待识别声纹进行注册,采集待识别声纹并从中提取特征,通过UBM模型的VQ码本适应每个特征组,进而构造出声纹识别模型中的VQ码本(即第二声纹特征中的第二声纹特征向量)。
[0090]进一步,提取每个码本中的梅尔倒谱系数、差分梅尔倒谱系数和8个小波特征(4个实小波和4个复合小波)。
[0091]具体而言,在输入信号{s(i):1 = 0,...,N-l}中检测浊音区间;使用能量,如低、高频带的能量比,过零率来检测浊音区间。再对输入信号进行预加重处理。
[0092]sr (i) = s(i)-0.9375*s(1-l),i = 1,...,N-1 ;
[0093]然后对预加重处理后的声纹执行以下操作:
[0094]SI,计算每帧的美尔倒谱系数,每帧有360个样本,帧间隔为180个样本。
[0095]计算出来的美尔倒谱向量的维度是20。
[0096](MFCCi, i = 0,..., Nm-1j ;
[0097](MFCCi= {MFCC j (k)} ;k = 0,...,19};
[0098]S2,对于每帧,计算美尔倒谱向量的差分构成差分美尔倒谱向量。
[0099]DMFCCi = MFCC ^-MFCCh ;
[0100]S3,在每个浊音区间都要检测基音区间,对获得的每个基音区间,计算基音同步的实小波和复小波特征。
[0101]其中,在输入语音信号{s(i):1 =0,...,N-1}中检测到的基音区间和最大峰值。其中N是语音区间的长度,Np是基音区间的数量,每个基音区间的起始位置和长度如下:
[0102]{Pit_st (i):1 = 0,...,Np-1};
[0103]{Pit_ln (i):1 = 0,...,Np-1};
[0104]进一步,实小波的计算方式如下:
[0105]对每个基音区间提取4个20维的特征向量,对于每个基音区间,裁剪出包含那个区间和其之前和之后的两组一定数量的样本的区间,得到如下向量:
[0106]{s (Pit_st (i) -11),...,s (Pit_st (i) + (Pit_ln (i) +IJ , i = 0,..., Np-1 ;
[0107]然后,将该向量归一化使其范数为I。
[0108]对于上述向量,进行一个三阶段实小波(例如Daubechies小波)包变换得到八个系数序列:
[0109](Rffi0I,! = 1,...,8 ;
[0110](Rffi0I = (RWiciQOhk = 1,...,Μ;
[0111]每个对应一个特定的频带,每个系数序列长度相同,且长度相当于1/8的基音区间长度。
[0112]在上述得到的8个序列中,对应于低频带的4个序列进行重采样,产生4个20维的向量:
[0113]师,i= 1,...,4 ;
[0114]Rffi= {Rff i(k)}k = I,...,20 ;
[0115]进一步,复小波的计算方式如下:
[0116]对每个基音区间提取4个20维特征向量,对于每个基音区间,裁剪除包含那个区间和其之前和之后的两组一定数量的样本的区间,得到的向量归一化使其范数为I。
[0117]对于上述区间,做一个三阶段的双树复小波包变换(DT-CWPT),以得到对应于8个频带的系数,每个频带有实部系数和虚部系数,其中,每个系数序列长度相同,且长度相当于1/8的基音区间长度。对于每个频带,由实部和虚部序列得到一个绝对值序列。
[0118]在上述得到的8个序列中,对应于低频带的4个序列进行重采样,产生4个20维的向量:
[0119]师,i= 1,...,4 ;
[0120]Cffi= {Cff(k) Jk = I,...,20 ;
[0121]S4,根据上述提取出的10组特征集,采用测试标准方法进行归一化计算,已得到待识别声纹与声纹识别模型的相似度,当判断出相似度大于预定阈值时,则可识别出为同一声纹,即待识别的说话人与所建立的声纹识别模型中的是同一人。
[0122]实施例2
[0123]根据本发明实施例,还提供了一种用于实施上述声纹识别方法的声纹识别装置,如图4所示,该装置包括:
[0124]I)提取单元402,用于提取待识别声纹中的第一声纹特征,其中,第一声纹特征中至少包括待识别声纹的小波特征;
[0125]2)计算单元404,用于至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度;
[0126]3)判断单元406,用于判断识别度是否大于预定阈值;
[0127]4)识别单元408,用于在判断出识别度大于预定阈值时,识别出待识别声纹为目标声纹。
[0128]可选地,在本实施例中,上述声纹识别装置可以但不限于应用于利用声纹进行身份辨认及身份鉴证的过程中,例如,在银行交易时对交易对象预先注册了声纹识别模型,当需要对交易对象进行身份验证时,则采用上述声纹识别方法,在判断出交易对象的声纹的识别度满足预定阈值时,可识别出为同一声纹后再进行交易,从而保证交易的安全性。上述举例只是一种示例,本实施例对此不做任何限定。
[0129]可选地,在本实施例中,上述待识别声纹中的第一声纹特征可以包括但不限于:多个第一声纹特征向量,上述第二声纹特征可以包括但不限于:多个第二声纹特征向量。可选地,在本实施例中,上述第一声纹特征可以包括但不限于:4个实小波特征、4个双树复小波特征、梅尔倒谱系数特征、差分梅尔倒谱系数特征。其中,上述小波特征中包括以下至少之一:实小波、复小波。
[0130]可选地,在本实施例中,上述声纹识别模型可以但不限于:根据待识别声纹中声纹特征的多个声纹特征向量对声纹通用模型进行调整后,得到与待识别声纹相适应的用于识别上述待识别声纹的模型。其中,上述通用模型可以但不限于:采集多人的声纹并从每个人的声纹中提取声纹特征,根据声纹特征分别建立与每个人的声纹相对应的背景声纹模型,再对上述多个背景声纹模型中的第三声纹特征进行聚类,进而建立声纹通用模型。例如,通用背景模型(Universal Background Model,UBM)。
[0131]例如,图2所示为根据多个说话人建立UBM模型的流程图,其中,一个声纹特征中包括10个声纹特征向量(即10类特征)。具体而言,如步骤S202,采集多人的声纹并从每个人的声纹中提取10类特征,然后对每类特征进行聚类(例如,包括32个中心),如步骤S204,则步骤S206,得到包含32码字的10个码本(即10个声纹特征向量对应的声纹特征参数)的UBM模型。进一步,每个说话人还可根据自身的声纹特征建立背景声纹模型。
[0132]通过本申请提供的实施例,在提取待识别声纹中第一声纹特征后,至少根据第一声纹特征与声纹识别模型中的第二声纹特征计算待识别声纹的识别度,在判断出识别度大于预定阈值时,识别出上述第一声纹特征为目标声纹,其中,上述第一声纹特征中包括小波特征,也就是说,在原有特征的基础上结合声纹的小波特征,从而提高声纹识别系统的精确性和稳定性。进而克服了现有的声纹识别方式的识别结果因容易受各种因素干扰而造成识别不准确的问题。进一步,通过直接与声纹识别模型进行比较,减小了模型建立的复杂度和建立周期,从而提高了声纹识别的稳定性和识别效率。
[0133]作为一种可选的方案,上述装置还包括:
[0134]I)采集单元,用于在提取待识别声纹中的第一声纹特征之前,采集待识别声纹;
[0135]2)调整单元,用于至少根据第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与第一声纹特征向量对应的声纹特征向量参数,以构造出与待识别声纹相适应的声纹识别模型中的第二声纹特征中的第二声纹特征向量。
[0136]可选地,在本实施例中,上述采集待识别声纹的方式可以包括但不限于:利用麦克风采集时长为5秒的待识别人声,其中,采用的音频的格式是采样率16KHz、量化深度16位,单声。
[0137]可选地,在本实施例中,上述第一声纹特征中可以包括但不限于多个第一声纹特征向量,上述第二声纹特征中可以包括但不限于多个第二声纹特征向量。例如,每个声纹特征包括10个VQ码本,也就是说,每个第一声纹特征向量对应一个VQ码本,其中,每个VQ码本对应一组特征集。
[0138]可选地,在本实施例中,根据第一声纹中的多个第一声纹特征向量调整声纹通用模型,以得到与待识别声纹相适应的声纹识别模型,从而便于利用上述声纹识别模型实现对之后采集的声纹进行识别。
[0139]通过本申请提供的实施例,在提取待识别声纹中的第一声纹特征之前,通过调整通用模型以得到与待识别声纹相适应的声纹识别模型,实现对待识别声纹的预先注册,从而使得在声纹识别时可以根据预先注册的声纹识别模型直接进行准确识别,减小了模型建立的复杂度和建立周期,进而提高了声纹识别的可靠性及效率。
[0140]作为一种可选的方案,第一声纹特征中包括多个第一声纹特征向量,第二声纹特征中包括多个第二声纹特征向量,计算单元404包括:
[0141]I)第一计算模块,用于计算第一声纹特征中的每个第一声纹特征向量与第二声纹特征中每个与第一声纹特征向量相对应的第二声纹特征向量的向量距离;
[0142]2)第二计算模块,用于根据计算得到的多个向量距离计算第一声纹特征与第二声纹特征的目标距离;
[0143]3)第三计算模块,用于至少利用第一声纹特征与第二声纹特征的目标距离计算待识别声纹的识别度。
[0144]可选地,在本实施例中,上述计算第一声纹特征中的第一声纹特征向量与第二声纹特征中的第二声纹特征向量的向量相似度包括:计算第一声纹特征向量与第二声纹特征向量之间的距离。
[0145]具体结合以下示例进行说明,例如,待识别声纹的第一声纹特征中的第一声纹特征向量与声纹识别模型的第二声纹特征中的第二声纹特征向量之间的向量距离为a,对多个向量距离进行归一化处理,并加权求和得到第一声纹特征与第二声纹特征的目标距离S。至少根据上述到第一声纹特征与第二声纹特征的目标距离S计算第一声纹特征的识别度。其中,上述权重可以但不限于根据不同特征向量的重要程度预先设置,本实施例中不限于此。
[0146]通过本申请提供的实施例,通过计算第一声纹特征与第二声纹特征中多个声纹特征向量的向量距离,对多个向量距离进行加权求和后准确计算出第一声纹特征与第二声纹特征的目标距离,进而保证了声纹识别度的准确性。
[0147]作为一种可选的方案,上述装置还包括:
[0148]I)采集单元,用于采集多个声纹并提取多个声纹中每个声纹的第三声纹特征,以构建多个与声纹相对应的背景声纹模型,其中,第三声纹特征中包括多个第三声纹特征向量;
[0149]2)建立单元,用于根据背景声纹模型建立声纹通用模型。
[0150]通过本申请提供的实施例,通过采集多个说话人的声纹以建立多个背景声纹模型,以实现根据背景声纹模型建立包含多人声纹特征的声纹通用模型,从而便于预先建立用于声纹识别的声纹识别模型,进而达到了缩短模型建立周期,提高了声纹识别的识别效率的效果。
[0151]作为一种可选的方案,第三计算模块包括:
[0152]I)第一计算子模块,用于计算第一声纹特征分别与多个背景声纹模型对应的每个声纹的第三声纹特征的背景距离;
[0153]2)第二计算子模块,用于根据多个背景距离计算距离平均值及距离标准差;
[0154]3)第三计算子模块,用于计算第一声纹特征与第二声纹特征的目标距离与距离平均值的差值;
[0155]4)第四计算子模块,用于计算差值与距离标准差的比值,将比值作为待识别声纹的识别度。
[0156]可选地,假设待识别声纹的第一声纹特征与第二声纹特征的目标距离用S标识,共采集i个声纹建立i个背景声纹模型,其中,第一声纹特征与i个声纹对应的i个第三声纹特征的背景距离分别是Di,D2,D3,…Di,进一步,通过计算得到上述多个背景距离的距离平均值为U,距离标准差为O。则通过以下公式计算待识别声纹的识别度:
[0157]s,= (S-U)/ ο (3)
[0158]进一步,判断上述识别声纹的识别度S,与预定阈值的大小关系,若判断出大于预定阈值,则认为待识别声纹为目标声纹。
[0159]需要说明的是,由于采集待识别声纹与建立声纹识别模型的硬件环境与条件可能发生变化,例如,麦克型号变化,则可能导致待识别声纹的第一声纹特征与声纹识别模型的第二声纹特征之间产生较大变化,进而影响对待识别声纹的判断,因而,进一步结合背景声纹模型中的声纹特征计算待识别声纹的识别度,进一步保证了待识别声纹的识别度的准确性。
[0160]具体结合以下示例说明,如果采用与建立背景声纹模型相同的声卡、麦克风进行录音,此时录音后提取的待识别声纹的声纹特征与声纹识别模型的距离较近,与背景声纹模型的距离也较近,而如果采用与建立背景声纹模型不同的声卡、麦克风进行录音,录音后提取特征的待识别声纹与声纹识别模型的距离则较远,与背景声纹模型的距离也较远,然而,虽然距离都较远,但是与声纹识别模型的距离相比较来说待识别声纹与背景声纹模型的距离还是更接近。
[0161]通过本申请提供的实施例,通过结合预先注册的声纹识别模型与背景声纹模型计算待识别声纹的识别度,从而克服了由于采集待识别声纹的环境与条件发生变化所导致的待识别声纹的识别度计算不准确的问题。
[0162]作为一种可选的方案,小波特征包括实小波特征和/或复小波特征,提取单元402包括:
[0163]I)检测模块,用于检测待识别声纹中的浊音区间;
[0164]2)第一提取模块,用于在每个浊音区间中检测基音区间,并在每个基音区间中提取声纹特征的实小波特征和/或复小波特征。
[0165]可选地,在本实施例中,上述第一提取模块包括:
[0166]I)第一提取子模块,用于在每个基音区间中提取预定的特征向量,并根据小波滤波器将多个基音区间中的特征向量划分为预定长度的样本向量,并将预定长度的样本向量归一化;
[0167]2)变换子模块,用于对归一化后的预定长度的样本向量执行以下至少一种小波变换:对归一化后的预定长度的样本向量执行以下至少一种小波变换:
[0168](I)对归一化后的预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在第一预定频带中选择满足第一预定条件的频带进行采样,以得到第一声纹特征中的实小波特征;
[0169](2)对归一化后的预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在第二预定频带中选择满足第二预定条件的频带进行采样,以得到第一声纹特征中的复小波特征。
[0170]可选地,在本实施例中,上述样本向量可以但不限于根据所采用的小波滤波器的长度决定。
[0171]作为一种可选的方案,提取单元402还包括:
[0172]I)第二提取模块,用于在检测待识别声纹中的浊音区间之后,提取待识别声纹中每一帧的梅尔倒谱系数,以得到第一声纹特征中的梅尔倒谱系数特征;
[0173]2)第三计算模块,用于根据梅尔倒谱系数计算待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到第一声纹特征中的差分梅尔倒谱系数特征。
[0174]可选地,在本实施例中,上述样本向量可以但不限于根据所采用的小波滤波器的长度决定。
[0175]可选地,在本实施例中,在检测待识别声纹中的浊音区间之后,上述提取待识别声纹中的第一声纹特征还包括:
[0176]S3,提取待识别声纹中每一帧的梅尔倒谱系数,以得到第一声纹特征中的梅尔倒谱系数特征;
[0177]S4,根据梅尔倒谱系数计算待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到第一声纹特征中的差分梅尔倒谱系数特征。
[0178]例如,如图3中S302-S306所示,对待识别声纹进行浊音区间检测,然后进行预加重处理,其中,预加重处理是一种高通滤波器。具体的公式如下:
[0179]y(n) = x(n)-0.9375*x(n_l) (4)
[0180]对预加重处理后的声纹进行特征提取,如图3中S308-S318所示,进行3阶实小波变换、3阶双数复小波变换、提取梅尔倒谱系数,根据梅尔倒谱系数计算差分梅尔倒谱系数,进而得到10组20维的声纹特征向量,其中,上述步骤S308与S310可以同时进行,步骤标号不对本实施例进行限定。
[0181]通过本申请提供的实施例,通过提取声纹特征中的小波特征,实现在原有特征的基础上结合小波特征构成新特征,由于小波特征反映原有特征不能使用的语音特征,从而实现提高了声纹识别系统的精确性和稳定性。
[0182]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0183]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0184]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0185]在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0186]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0187]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0188]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种声纹识别方法,其特征在于,包括: 提取待识别声纹中的第一声纹特征,其中,所述第一声纹特征中至少包括所述待识别声纹的小波特征; 至少根据所述第一声纹特征与声纹识别模型中的第二声纹特征计算所述待识别声纹的识别度; 判断所述识别度是否大于预定阈值; 若判断出所述识别度大于所述预定阈值,则识别出所述待识别声纹为目标声纹。
2.根据权利要求1所述的声纹识别方法,其特征在于,在所述提取待识别声纹中的第一声纹特征之前,还包括: 采集所述待识别声纹; 至少根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
3.根据权利要求2所述的声纹识别方法,其特征在于,所述第一声纹特征中包括多个所述第一声纹特征向量,所述第二声纹特征中包括多个所述第二声纹特征向量,其中,所述至少根据所述第一声纹特征与声纹识别模型中的第二声纹特征计算所述待识别声纹的识别度包括: 计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离; 根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离; 至少利用所述第一声纹特征与所述第二声纹特征的所述目标距离计算所述待识别声纹的识别度。
4.根据权利要求3所述的声纹识别方法,其特征在于,在采集所述待识别声纹之前,还包括: 采集多个声纹并提取所述多个声纹中每个声纹的第三声纹特征,以构建多个与所述声纹相对应的背景声纹模型,其中,所述第三声纹特征中包括多个第三声纹特征向量; 根据所述背景声纹模型建立所述声纹通用模型。
5.根据权利要求4所述的声纹识别方法,其特征在于,所述至少利用所述第一声纹特征与所述第二声纹特征的距离计算所述待识别声纹的识别度包括: 计算所述第一声纹特征分别与多个所述背景声纹模型对应的每个所述声纹的所述第三声纹特征的背景距离; 根据多个所述背景距离计算距离平均值及距离标准差; 计算所述第一声纹特征与所述第二声纹特征的所述目标距离与所述距离平均值的差值; 计算所述差值与所述距离标准差的比值,将所述比值作为所述待识别声纹的所述识别度。
6.根据权利要求1所述的声纹识别方法,其特征在于,所述小波特征包括实小波特征和/或复小波特征,其中,所述提取待识别声纹中的第一声纹特征包括: 检测所述待识别声纹中的浊音区间; 在每个所述浊音区间中检测基音区间,并在每个所述基音区间中提取所述声纹特征的所述实小波特征和/或所述复小波特征。
7.根据权利要求6所述的声纹识别方法,其特征在于,所述在每个所述基音区间中提取所述声纹特征的所述实小波特征和/或所述复小波特征包括: 在每个所述基音区间中提取预定的特征向量,并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量,并将所述预定长度的样本向量归一化; 对归一化后的所述预定长度的样本向量执行以下至少一种小波变换: 对归一化后的所述预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在所述第一预定频带中选择满足第一预定条件的频带进行采样,以得到所述第一声纹特征中的所述实小波特征; 对归一化后的所述预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在所述第二预定频带中选择满足第二预定条件的频带进行采样,以得到所述第一声纹特征中的所述复小波特征。
8.根据权利要求7所述的声纹识别方法,其特征在于,在检测所述待识别声纹中的浊音区间之后,所述提取待识别声纹中的第一声纹特征还包括: 提取所述待识别声纹中每一帧的梅尔倒谱系数,以得到所述第一声纹特征中的所述梅尔倒谱系数特征; 根据所述梅尔倒谱系数计算所述待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到所述第一声纹特征中的所述差分梅尔倒谱系数特征。
9.一种声纹识别装置,其特征在于,包括: 提取单元,用于提取待识别声纹中的第一声纹特征,其中,所述第一声纹特征中至少包括所述待识别声纹的小波特征; 计算单元,用于至少根据所述第一声纹特征与声纹识别模型中的第二声纹特征计算所述待识别声纹的识别度; 判断单元,用于判断所述识别度是否大于预定阈值; 识别单元,用于在判断出所述识别度大于所述预定阈值时,识别出所述待识别声纹为目标声纹。
10.根据权利要求9所述的声纹识别装置,其特征在于,还包括: 采集单元,用于在所述提取待识别声纹中的第一声纹特征之前,采集所述待识别声纹; 调整单元,用于至少根据所述第一声纹特征中的第一声纹特征向量调整预先建立的声纹通用模型中与所述第一声纹特征向量对应的声纹特征向量参数,以构造出与所述待识别声纹相适应的所述声纹识别模型中的所述第二声纹特征中的第二声纹特征向量。
11.根据权利要求10所述的声纹识别装置,其特征在于,所述第一声纹特征中包括多个所述第一声纹特征向量,所述第二声纹特征中包括多个所述第二声纹特征向量,所述计算单元包括: 第一计算模块,用于计算所述第一声纹特征中的每个所述第一声纹特征向量与所述第二声纹特征中每个与所述第一声纹特征向量相对应的所述第二声纹特征向量的向量距离; 第二计算模块,用于根据计算得到的多个所述向量距离计算所述第一声纹特征与所述第二声纹特征的目标距离; 第三计算模块,用于至少利用所述第一声纹特征与所述第二声纹特征的所述目标距离计算所述待识别声纹的识别度。
12.根据权利要求11所述的声纹识别装置,其特征在于,还包括: 采集单元,用于采集多个声纹并提取所述多个声纹中每个声纹的第三声纹特征,以构建多个与所述声纹相对应的背景声纹模型,其中,所述第三声纹特征中包括多个第三声纹特征向量; 建立单元,用于根据所述背景声纹模型建立所述声纹通用模型。
13.根据权利要求12所述的声纹识别装置,其特征在于,所述第三计算模块包括: 第一计算子模块,用于计算所述第一声纹特征分别与多个所述背景声纹模型对应的每个所述声纹的所述第三声纹特征的背景距离; 第二计算子模块,用于根据多个所述背景距离计算距离平均值及距离标准差; 第三计算子模块,用于计算所述第一声纹特征与所述第二声纹特征的所述目标距离与所述距离平均值的差值; 第四计算子模块,用于计算所述差值与所述距离标准差的比值,将所述比值作为所述待识别声纹的所述识别度。
14.根据权利要求9所述的声纹识别装置,其特征在于,所述小波特征包括实小波特征和/或复小波特征,所述提取单元包括: 检测模块,用于检测所述待识别声纹中的浊音区间; 第一提取模块,用于在每个所述浊音区间中检测基音区间,并在每个所述基音区间中提取所述声纹特征的所述实小波特征和/或所述复小波特征。
15.根据权利要求14所述的声纹识别装置,其特征在于,所述第一提取模块包括: 第一提取子模块,用于在每个所述基音区间中提取预定的特征向量,并根据小波滤波器将多个所述基音区间中的所述特征向量划分为预定长度的样本向量,并将所述预定长度的样本向量归一化;变换子模块,用于对归一化后的所述预定长度的样本向量执行以下至少一种小波变换: 对归一化后的所述预定长度的样本向量进行实小波变换,以得到第一预定频带的实部系数,并在所述第一预定频带中选择满足第一预定条件的频带进行采样,以得到所述第一声纹特征中的所述实小波特征; 对归一化后的所述预定长度的样本向量进行双树复小波变换,以得到第二预定频带的实部系数和虚部系数,并在所述第二预定频带中选择满足第二预定条件的频带进行采样,以得到所述第一声纹特征中的所述复小波特征。
16.根据权利要求15所述的声纹识别装置,其特征在于,所述提取单元还包括: 第二提取模块,用于在检测所述待识别声纹中的浊音区间之后,提取所述待识别声纹中每一帧的梅尔倒谱系数,以得到所述第一声纹特征中的所述梅尔倒谱系数特征; 第三计算模块,用于根据所述梅尔倒谱系数计算所述待识别声纹中每一帧的差分梅尔倒谱系数特征,以得到所述第一声纹特征中的所述差分梅尔倒谱系数特征。
【文档编号】G10L15/02GK104485102SQ201410815733
【公开日】2015年4月1日 申请日期:2014年12月23日 优先权日:2014年12月23日
【发明者】李光日 申请人:智慧眼(湖南)科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1