声纹密码认证方法及系统的制作方法

文档序号:10665990阅读:634来源:国知局
声纹密码认证方法及系统的制作方法
【专利摘要】本发明公开了一种声纹密码认证方法及系统,该方法包括:接收登录用户的语音数据,并将所述语音数据作为测试语音数据;提取所述测试语音数据的特征,得到测试语音特征;利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差,得到第一特征域偏差;根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特征;利用所述第一修正测试语音特征进行声纹认证。本发明可以提升声纹认证的准确度。
【专利说明】
声纹密码认证方法及系统
技术领域
[0001] 本发明涉及声纹认证技术领域,具体涉及一种声纹密码认证方法及系统。
【背景技术】
[0002] 声纹密码认证即根据用户输入的语音信号中所反映的说话人生理特征和行为特 征的声纹信息自动识别认证说话人身份的技术。相比于其它生物认证,声纹密码认证具有 更简便、准确、经济及良好扩展性等优势,已被广泛应用于安全验证控制等领域,如在门禁 系统、开机密码、银行支付密码、手机支付等应用场景都发挥着有效作用。然而,认证系统在 实际应用中会存在各种跨场景问题,如输入密码设备的更换,注册密码及登录时存在的时 间漂移,地点环境的变化(如室内、室外)等,在这些情况下,短短几个字的声纹密码会受到 各种信道因素的干扰,导致声纹密码认证效果不理想。因此提高声纹密码系统在不同应用 场景下的稳定性对提高声纹密码系统的实用价值有重要意义。
[0003] 为此,现有技术中采用对提取的声纹特征进行特征补偿的方法来减少不同环境因 素的影响,并根据补偿后的声纹特征对说话人进行身份认证。现有的声纹密码认证系统在 特征补偿上主要使用因子分析的方法,来降低不同信道对认证结果的影响。而所述方法需 要利用注册说话人大量跨场景数据训练信道因子载荷矩阵;如果训练数据不足,则会对声 纹密码系统的认证性能带来较大的损失,然而大量数据的获取对于声纹密码系统往往比较 困难。此外,预训练的信道因子载荷矩阵只能表示训练时的状态,而无法解决用户登录的时 间漂移问题。

【发明内容】

[0004] 本发明实施例提供一种声纹密码认证方法及系统,以提升声纹认证的准确度。
[0005] 为此,本发明实施例提供如下技术方案:
[0006] 一种声纹密码认证方法,包括:
[0007] 接收登录用户的语音数据,并将所述语音数据作为测试语音数据;
[0008] 提取所述测试语音数据的特征,得到测试语音特征;
[0009] 利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征 域偏差,得到第一特征域偏差;
[0010] 根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音 特征;
[0011] 利用所述第一修正测试语音特征进行声纹认证。
[0012] 优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册 语音的特征域偏差包括:
[0013] 针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差 量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似 然度;
[0014] 在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏 差量作为当前测试语音特征的最优偏差量;
[0015] 根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0016] 优选地,在每次迭代过程中计算所述特征的偏差量包括:
[0017] 计算所述特征相对于所述注册说话人模型的后验概率;
[0018] 根据所述注册说话人模型参数,计算所述特征的参数距离;
[0019] 根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。
[0020] 优选地,所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包 括:
[0021] 以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算 所述特征的偏差量;或者
[0022] 根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏 差量。
[0023] 优选地,所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册 语音的特征域偏差包括:
[0024] 对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分 量;
[0025] 针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并 根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说 话人模型的似然度;
[0026] 在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差 量作为所述特征相对于所述聚类的最优偏差量;
[0027] 根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0028] 优选地,在每次迭代过程中计算所述特征相对于各聚类的偏差量包括:
[0029] 计算所述特征相对于所述注册说话人模型的后验概率;
[0030] 根据所述注册说话人模型参数,计算所述特征的参数距离;
[0031] 根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。
[0032] 优选地,所述利用第一修正测试语音特征进行声纹认证包括:
[0033] 计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似 然度;
[0034] 计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然 度;
[0035] 计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分;
[0036] 如果所述第一判决得分大于第一阈值,则确定用户认证通过。
[0037] 优选地,所述方法还包括:
[0038] 利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域 偏差,得到第二特征域偏差;
[0039] 根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音 特征;
[0040] 所述利用所述第一修正测试语音特征进行声纹认证包括:
[0041] 计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似 然度;
[0042] 计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然 度;
[0043] 计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分;
[0044] 如果所述第二判决得分大于第二阈值,则确定用户认证通过。
[0045] 一种声纹密码认证系统,包括:
[0046] 接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数 据;
[0047] 特征提取模块,用于提取所述测试语音数据的特征,得到测试语音特征;
[0048] 第一估计模块,用于利用所述测试语音特征及注册说话人模型估计测试语音相对 于注册语音的特征域偏差,得到第一特征域偏差;
[0049] 第一修正模块,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得 到第一修正测试语音特征;
[0050] 认证模块,用于利用所述第一修正测试语音特征进行声纹认证。
[0051] 优选地,所述第一估计模块包括:
[0052] 迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差 量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述 注册说话人模型的似然度;
[0053] 检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
[0054] 特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所 述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差 量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0055] 优选地,所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话 人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征 的偏差量。
[0056] 优选地,所述迭代处理单元,以帧为单位,根据当前帧数据对应的所述特征的后验 概率及所述参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后 验概率及所述参数距离,计算所述特征的偏差量。
[0057] 优选地,所述第一估计模块包括:
[0058] 聚类单元,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类 包含的高斯分量;
[0059] 迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征相对于 各聚类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语 音特征与所述注册说话人模型的似然度;
[0060] 检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定;
[0061] 特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所 述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优 偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0062] 优选地,所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话 人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征 的偏差量。
[0063] 优选地,所述认证模块包括:
[0064] 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人 模型的似然度,得到说话人似然度;
[0065] 第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型 的似然度,得到第一背景似然度;
[0066] 判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值, 得到第一判决得分;
[0067] 判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。
[0068] 优选地,所述系统还包括:
[0069] 第二估计模块,用于利用所述测试语音特征及通用背景模型估计测试语音相对于 注册语音的特征域偏差,得到第二特征域偏差;
[0070] 第二修正模块,用于根据所述第二特征域偏差对所述测试语音特征进行修正,得 到第二修正测试语音特征;
[0071] 所述认证模块包括:
[0072] 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人 模型的似然度,得到说话人似然度;
[0073] 第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型 的似然度,得到第二背景似然度;
[0074] 判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值, 得到第二判决得分;
[0075] 判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
[0076] 本发明实施例提供的声纹密码认证方法及系统,利用登录用户的测试语音及注册 说话人模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语 音和测试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测 试语音特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可 以在没有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用 所述偏差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配 的问题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度。
[0077] 进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,从而降低了测 试语音特征与通用背景模型之间的差异,进一步提升了声纹认证的准确度。
【附图说明】
[0078] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一 些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0079] 图1是本发明实施例声纹密码认证方法的一种流程图;
[0080] 图2是本发明实施例声纹密码认证方法的另一种流程图;
[0081] 图3是本发明实施例声纹密码认证系统的一种结构示意图;
[0082] 图4是本发明实施例中第一估计模块的一种结构示意图;
[0083] 图5是本发明实施例中第一估计模块的另一种结构示意图;
[0084] 图6是本发明实施例声纹密码认证系统的另一种结构示意图。
【具体实施方式】
[0085] 为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施 方式对本发明实施例作进一步的详细说明。
[0086] 如图1所示,是本发明实施例声纹密码认证方法的一种流程图,包括以下步骤:
[0087] 步骤101,接收登录用户的语音数据,并将所述语音数据作为测试语音数据。
[0088] 步骤102,提取所述测试语音数据的特征,得到测试语音特征。
[0089] 在本发明实施例中,测试语音特征和注册语音特征可以使用39维的 MFCC(Mel_scale Frequency Cepstral Coefficients,Mel 频率倒谱系数)作为频谱特征, 为了便于描述,后面将测试语音特征用Y = {yi,y2,...,yT}表示,其中T表示测试语音数据 的帧数,将注册语音特征用X = {Χι,χ2,...,χΝ}表示,其中N表示注册语音数据的帧数。
[0090] 步骤103,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语 音的特征域偏差,得到第一特征域偏差。
[0091] 在实际应用中,所述第一特征域偏差的估计可以采用多种方法实现,比如:局部偏 差估计方法、全局偏差估计方法、高斯聚类偏差估计方法。下面对这三种偏差估计方法分别 进行详细说明。
[0092] 1.局部偏差估计方法
[0093] 局部偏差估计时,利用测试语音的每一帧数据及注册说话人模型进行偏差估计, 具体偏差估计过程如下:
[0094] 步1)利用初始偏差估计值对当前帧测试语音特征进行局部偏差估计,具体计算 方法如下式:
[0095]
[0096] 其中,γ (yt,y」bt)表示在给定第t帧初始偏差bt条件下,测试语音特征5^对于 注册说话人模型的第c个高斯分量的后验概率,y tid表示第t帧第d维的测试语音特征,μ μ 和σ d分别表示第C个高斯分量第d维的均值和标准差,C表示描述注册说话人模型的高 斯总数,-爲^/^,为测试语音第t帧数据第d维特征的参数距离;
[0097] 步2)利用上面得到的偏差量对当前帧测试语音特征进行补偿,得到当前帧补偿 后的测试语音特征;
[0098] 步3)计算当前帧补偿后的测试语音特征相对于注册说话人模型的似然度;
[0099] 步4)将当前帧估计得到的偏差量作为初始偏差值,迭代执行步2)至步4),直到达 到预先设定的迭代次数或者所述似然度达到稳定;
[0100] 步5)将迭代过程中最大似然度对应的偏差量作为当前帧估计得到的最优偏差 量;
[0101] 步6)根据各帧测试语音特征的最优偏差量确定测试语音相对于注册语音的特征 域偏差。
[0102] 2.全局偏差估计方法
[0103] 全局偏差估计方法中,利用所有帧测试语音特征及注册说话人模型进行偏差估 计,具体估计过程如下所述:
[0104] 步1)利用初始偏差估计值进行全局偏差估计,具体计算方法如下式:
[0105]
[0106] 其中,T表示测试语音的总帧数;
[0107] 步2)利用上面估计到的偏差量对所有帧测试语音特征进行补偿,得到补偿后的 测试语音特征;
[0108] 步3)计算补偿后的测试语音特征相对于注册说话人模型的似然度;
[0109] 步4)将估计得到的偏差量作为初始偏差值,迭代执行步1)至步4),直到达到预先 设定的迭代次数或者所述似然度达到稳定;
[0110] 步5)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量;
[0111] 步6)根据所述最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0112] 3.高斯聚类偏差估计方法
[0113] 高斯聚类偏差估计方法需要先对描述注册说话人模型的高斯分量进行聚类,利用 聚类后每类的高斯分量及每类对应的测试语音特征进行偏差估计;具体如下所述:
[0114] 步1)对描述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分 量;
[0115] 步2)利用初始偏差估计值进行高斯聚类偏差估计,具体计算方法如下式:
[0116]
[0117] 其中,Nk表示第k个高斯聚类中包含的高斯分量总数;
[0118] 步3)利用上面得到的测试语音特征偏差量对测试语音特征进行补偿,具体补偿 时需要首先找到与当前高斯聚类所对应的测试语音特征,然后利用当前高斯聚类估计出的 偏差量对所述测试语音特征进行补偿,从而得到补偿后的测试语音特征;
[0119] 步4)计算补偿后的测试语音特征相对于注册说话人模型的似然度;
[0120] 步5)将估计得到的偏差量作为初始偏差值,迭代执行步2)至步5),直到达到预先 设定的迭代次数或者所述似然度达到稳定;
[0121] 步6)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量;
[0122] 步7)根据各聚类对应的测试语音特征的最优偏差量确定测试语音相对于注册语 音的特征域偏差。
[0123] 相应地,在后续利用上述不同方法得到的第一特征域偏差对测试语音特征进行修 正时,也有所不同,具体将在后面详细说明。
[0124] 步骤104,根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正 测试语音特征。
[0125] 假设注册语音特征X = {χ^ χ2, · · ·,χΝ}和测试语音特征Y = h,y2, · · ·,yT}属于 同一发音人朗读相同文本的语音,则由于信道因素的影响,两者的特征矢量之间存在一定 的偏差,注册语音特征和测试语音特征两两之间长度可以完全对齐或者采用DTW(Dynamic Time Warping,动态时间规整)方法强制对齐,则存在以下对应关系:
[0126] xt=yt-bt
[0127] 其中xt表示第t帧注册语音特征,y t表示第t帧测试语音特征,b t表示第t帧测 试语音特征相对于注册语音特征的偏差值。
[0128] 根据上述不同的偏差估计方法进行偏差估计,得到相应的偏差,利用得到的偏差 值对测试语音特征进行修正,具体如下:
[0129] 1)利用局部偏差估计方法得到的偏差进行修正,如下式:
[0130] yr t,d=yt,d-b, t,d
[0131] 其中,太t,d表示修正后的第t帧第d维测试语音特征,y t,d表示修正前的第t帧 第d维测试语音特征,b ' t,d表示第t帧第d维测试语音特征相对于注册语音特征的偏差 (即第一特征域偏差)。
[0132] 2)利用全局偏差估计方法得到的偏差进行修正,如下式:
[0133] yr t,d=yt,d-b, d
[0134] 其中,b' d表示第d维测试语音特征相对于注册语音特征的偏差(即第一特征域 偏差)。
[0135] 3)利用高斯聚类偏差估计方法得到的偏差进行修正,如下式:
[0136] y' td=ytd-b' M
[0137] 其中,y' tid表示修正后的与第k个高斯聚类对应的第t帧第d维的测试语音特 征,ytid表示修正前的与第k个高斯聚类对应的第t帧第d维的测试语音特征,b' kid表示 与第k个高斯聚类对应的第t帧第d维测试语音特征相对于注册语音特征的偏差(即第一 特征域偏差)。
[0138] 步骤105,利用所述第一修正测试语音特征进行声纹认证。
[0139] 用太t表示第一修正测试语音特征,声纹认证过程如下:
[0140] 1)计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人 似然度P (太t |mspk),其中mspk表示注册说话人模型的均值;
[0141] 2)计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然 度P(y' t|mubJ,其中mubni表示通用背景模型的均值;
[0142] 3)计算说话人似然度与第一背景似然度的比值,得到第一判决得分scorel,即:
[0143]
[0144] 4)将第一判决得分scorel与预先设定的第一阈值进行比较,如果第一判决得分 scorel大于第一阈值,则确定用户认证通过。
[0145] 所述第一阈值可以根据大量数据训练得出或根据经验设定。
[0146] 可见,本发明实施例提供的声纹密码认证方法,利用登录用户的测试语音及注册 说话人模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语 音和测试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测 试语音特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可 以在没有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用 所述偏差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配 的问题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度
[0147] 进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,以降低测试语 音特征与通用背景模型之间的差异,进一步提升声纹认证的准确度。
[0148] 如图2所示,是本发明实施例声纹密码认证方法的另一种流程图,包括以下步骤:
[0149] 步骤201,接收登录用户的语音数据,并将所述语音数据作为测试语音数据。
[0150] 步骤202,提取所述测试语音数据的特征,得到测试语音特征。
[0151] 步骤203,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语 音的特征域偏差,得到第一特征域偏差。
[0152] 步骤204,利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音 的特征域偏差,得到第二特征域偏差。
[0153] 在计算所述第二特征域偏差时,同样可以利用前面提到的三种不同偏差估计方 法,只需将其中的注册说话人模型用通用背景模型替代即可,具体过程不再赘述。
[0154] 步骤205,分别根据所述第一特征域偏差和所述第二特征域偏差对所述测试语音 特征进行修正,得到第一修正测试语音特征及第二修正测试语音特征。
[0155] 步骤206,根据所述第一修正测试语音特征及第二修正测试语音特征进行声纹认 证。
[0156] 用yt'表示第一修正测试语音特征,用yt"表示第二修正测试语音特征,声纹认证 过程如下:
[0157] 1)分别计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说 话人似然度P(y t' |mspk),以及所述第二修正测试语音特征与通用背景模型的似然度,得到 第二背景似然度P(yt" |mubJ ;
[0158] 2)计算说话人似然度P(yt' |mspk)与第二背景似然度P(yt" |mubJ的比值,得到第 二判决得分score2, BP :
[0159]
[0160] 3)将第二判决得分SC〇re2与预先设定的第一阈值进行比较,如果第二判决得分 score2大于第二阈值,则确定用户认证通过。
[0161] 所述第二阈值可以根据大量数据训练得出或根据经验设定。而且,所述第二阈值 与前面提到的第一阈值可以相同,也可以不同。
[0162] 相应地,本发明实施例还提供了一种声纹密码认证系统,如图3所示,是该系统的 一种结构不意图。
[0163] 在该实施例中,所述系统包括:
[0164] 接收模块301,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数 据;
[0165] 特征提取模块302,用于提取所述测试语音数据的特征,得到测试语音特征;
[0166] 第一估计模块303,用于利用所述测试语音特征及注册说话人模型估计测试语音 相对于注册语音的特征域偏差,得到第一特征域偏差;
[0167] 第一修正模块304,用于根据所述第一特征域偏差对所述测试语音特征进行修正, 得到第一修正测试语音特征;
[0168] 认证模块305,用于利用所述第一修正测试语音特征进行声纹认证。
[0169] 上述认证模块305可以包括以下各单元:
[0170] 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人 模型的似然度,得到说话人似然度;
[0171] 第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型 的似然度,得到第一背景似然度;
[0172] 判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值, 得到第一判决得分;
[0173] 判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。
[0174] 在实际应用中,第一估计模块303在进行第一特征域偏差的估计时可以采用多种 方式实现,比如:局部偏差估计方法、全局偏差估计方法、高斯聚类偏差估计方法,其中:
[0175] 局部偏差估计是指利用测试语音的每一帧数据及注册说话人模型进行偏差估 计;
[0176] 全局偏差估计是指利用所有帧测试语音特征及注册说话人模型进行偏差估计;
[0177] 高斯聚类偏差估计是指先对描述注册说话人模型的高斯分量进行聚类,利用聚类 后每类的高斯分量及每类对应的测试语音特征进行偏差估计。
[0178] 相应地,针对局部偏差估计和全局偏差估计,第一估计模块303可采用如图4所示 的结构。
[0179] 在该实施例中,第一估计模块303包括:
[0180] 迭代处理单元311,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏 差量,根据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所 述注册说话人模型的似然度。具体地,迭代理处理单元311在每次迭代过程中根据所述特 征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参 数距离,计算所述特征的偏差量。
[0181] 检测单元312,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳 定;
[0182] 特征域偏差输出单元313,用于在所述检测单元312检测到迭代次数达到设定次 数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最 优偏差量,并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏 差。
[0183] 上述迭代处理单元311在每次迭代过程中可以根据所述特征相对于所述注册说 话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特 征的偏差量。而且,可以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数 距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所述参 数距离,计算所述特征的偏差量。具体计算过程可参见前面本发明方法实施例中的描述,在 此不再赘述。
[0184] 相应地,针对高斯聚类偏差估计,第一估计模块303可采用如图5所示的结构。
[0185] 与图4不同的是,在该实施例中,还包括:聚类单元320,用于对描述所述注册说话 人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量。而且,在该实施例中,迭代处 理单元321用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差 量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述 注册说话人模型的似然度。同样,检测单元312用于检测迭代次数是否达到设定次数或者 所述似然度是否达到稳定;特征域偏差输出单元313用于在所述检测单元312检测到迭代 次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量作为所述特 征相对于所述聚类的最优偏差量,并根据所述特征的最优偏差量确定测试语音相对于注册 语音的特征域偏差。
[0186] 在该实施例中,迭代处理单元321同样可以在每次迭代过程中根据所述特征相对 于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距 离,计算所述特征的偏差量。
[0187] 如图6所示,是本发明实施例声纹密码认证系统的另一种结构示意图。
[0188] 与图3所示实施例的区别在于,在该实施例中,所述系统还包括:
[0189] 第二估计模块403,用于利用所述测试语音特征及通用背景模型估计测试语音相 对于注册语音的特征域偏差,得到第二特征域偏差;
[0190] 第二修正模块404,用于根据所述第二特征域偏差对所述测试语音特征进行修正, 得到第二修正测试语音特征;
[0191] 相应地,在该实施例中,认证模块405可以包括以下各单元:
[0192] 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人 模型的似然度,得到说话人似然度;
[0193] 第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型 的似然度,得到第二背景似然度;
[0194] 判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值, 得到第二判决得分;
[0195] 判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
[0196] 上述第二估计模块403在计算所述第二特征域偏差时,同样可以利用前面提到的 三种不同偏差估计方法,只需将其中的注册说话人模型用通用背景模型替代即可,具体过 程不再赘述。
[0197] 本发明实施例提供的声纹密码认证系统,利用登录用户的测试语音及注册说话人 模型估计测试语音相对于注册语音的特征域偏差,利用所述特征域偏差描述注册语音和测 试语音之间的信道偏差,并利用该偏差对测试语音特征进行修正,得到修正后的测试语音 特征,然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没 有较多的跨场景训练数据情况下,估计测试语音与注册语音之间的信道偏差,利用所述偏 差对登录用户登录时的测试语音进行修正,解决了注册语音和测试语音信道不匹配的问 题,及用户登录时间飘移问题,从而有效提升了声纹认证的准确度。
[0198] 进一步地,本发明方案还提出了利用通用背景模型进行偏差估计,从而降低了测 试语音特征与通用背景模型之间的差异,进一步提升了声纹认证的准确度。
[0199] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例 的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明 的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是 物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要 选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出 创造性劳动的情况下,即可以理解并实施。
[0200] 以上对本发明实施例进行了详细介绍,本文中应用了【具体实施方式】对本发明进行 了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的 一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种声纹密码认证方法,其特征在于,包括: 接收登录用户的语音数据,并将所述语音数据作为测试语音数据; 提取所述测试语音数据的特征,得到测试语音特征; 利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏 差,得到第一特征域偏差; 根据所述第一特征域偏差对所述测试语音特征进行修正,得到第一修正测试语音特 征; 利用所述第一修正测试语音特征进行声纹认证。2. 根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特征及注册说话 人模型估计测试语音相对于注册语音的特征域偏差包括: 针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,并根据所述偏差量对 所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人模型的似然 度; 在迭代次数达到设定次数或者所述似然度达到稳定后,获取最大似然度对应的偏差量 作为当前测试语音特征的最优偏差量; 根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。3. 根据权利要求2所述的方法,其特征在于,在每次迭代过程中计算所述特征的偏差 量包括: 计算所述特征相对于所述注册说话人模型的后验概率; 根据所述注册说话人模型参数,计算所述特征的参数距离; 根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。4. 根据权利要求3述的方法,其特征在于,所述根据所述后验概率及所述特征的参数 距离计算所述特征的偏差量包括: 以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述参数距离,计算所述 特征的偏差量;或者 根据所有帧数据对应的所述特征的后验概率及所述参数距离,计算所述特征的偏差 量。5. 根据权利要求1所述的方法,其特征在于,所述利用所述测试语音特征及注册说话 人模型估计测试语音相对于注册语音的特征域偏差包括: 对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含的高斯分量; 针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚类的偏差量,并根据 所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特征与所述注册说话人 模型的似然度; 在迭代次数达到设定次数或所述似然度达到稳定后,获取最大似然度对应的偏差量作 为所述特征相对于所述聚类的最优偏差量; 根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。6. 根据权利要求5所述的方法,其特征在于,在每次迭代过程中计算所述特征相对于 各聚类的偏差量包括: 计算所述特征相对于所述注册说话人模型的后验概率; 根据所述注册说话人模型参数,计算所述特征的参数距离; 根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。7. 根据权利要求1至6任一项所述的方法,其特征在于,所述利用第一修正测试语音特 征进行声纹认证包括: 计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然 度; 计算所述第一修正测试语音特征与通用背景模型的似然度,得到第一背景似然度; 计算所述说话人似然度与所述第一背景似然度的比值,得到第一判决得分; 如果所述第一判决得分大于第一阈值,则确定用户认证通过。8. 根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括: 利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差, 得到第二特征域偏差; 根据所述第二特征域偏差对所述测试语音特征进行修正,得到第二修正测试语音特 征; 所述利用所述第一修正测试语音特征进行声纹认证包括: 计算所述第一修正测试语音特征与所述注册说话人模型的似然度,得到说话人似然 度; 计算所述第二修正测试语音特征与通用背景模型的似然度,得到第二背景似然度; 计算所述说话人似然度与所述第二背景似然度的比值,得到第二判决得分; 如果所述第二判决得分大于第二阈值,则确定用户认证通过。9. 一种声纹密码认证系统,其特征在于,包括: 接收模块,用于接收登录用户的语音数据,并将所述语音数据作为测试语音数据; 特征提取模块,用于提取所述测试语音数据的特征,得到测试语音特征; 第一估计模块,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注 册语音的特征域偏差,得到第一特征域偏差; 第一修正模块,用于根据所述第一特征域偏差对所述测试语音特征进行修正,得到第 一修正测试语音特征; 认证模块,用于利用所述第一修正测试语音特征进行声纹认证。10. 根据权利要求9所述的系统,其特征在于,所述第一估计模块包括: 迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征的偏差量,根 据所述偏差量对所述测试语音特征进行补偿,并计算补偿后的测试语音特征与所述注册说 话人模型的似然度; 检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定; 特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似 然度达到稳定后,获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量,并 根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。11. 根据权利要求10所述的系统,其特征在于, 所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后 验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。12. 根据权利要求11所述的系统,其特征在于, 所述迭代处理单元,以帧为单位,根据当前帧数据对应的所述特征的后验概率及所述 参数距离,计算所述特征的偏差量;或者根据所有帧数据对应的所述特征的后验概率及所 述参数距离,计算所述特征的偏差量。13. 根据权利要求9所述的系统,其特征在于,所述第一估计模块包括: 聚类单元,用于对描述所述注册说话人模型的高斯分量进行聚类,得到每个聚类包含 的高斯分量; 迭代处理单元,用于针对所述测试语音特征,采用迭代方式计算所述特征相对于各聚 类的偏差量,并根据所述偏差量对所述测试语音特征进行补偿,计算补偿后的测试语音特 征与所述注册说话人模型的似然度; 检测单元,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定; 特征域偏差输出单元,用于在所述检测单元检测到迭代次数达到设定次数或者所述似 然度达到稳定后,获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差 量,并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。14. 根据权利要求13所述的系统,其特征在于, 所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后 验概率、以及所述特征与所述注册说话人模型参数的参数距离,计算所述特征的偏差量。15. 根据权利要求9至14任一项所述的系统,其特征在于,所述认证模块包括: 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型 的似然度,得到说话人似然度; 第一背景似然度计算单元,用于计算所述第一修正测试语音特征与通用背景模型的似 然度,得到第一背景似然度; 判决得分计算单元,用于计算所述说话人似然度与所述第一背景似然度的比值,得到 第一判决得分; 判决单元,用于在所述第一判决得分大于第一阈值时,确定用户认证通过。16. 根据权利要求9至14任一项所述的系统,其特征在于,所述系统还包括: 第二估计模块,用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册 语音的特征域偏差,得到第二特征域偏差; 第二修正模块,用于根据所述第二特征域偏差对所述测试语音特征进行修正,得到第 二修正测试语音特征; 所述认证模块包括: 说话人似然度计算单元,用于计算所述第一修正测试语音特征与所述注册说话人模型 的似然度,得到说话人似然度; 第二背景似然度计算单元,用于计算所述第二修正测试语音特征与通用背景模型的似 然度,得到第二背景似然度; 判决得分计算单元,用于计算所述说话人似然度与所述第二背景似然度的比值,得到 第二判决得分; 判决单元,用于在所述第二判决得分大于第二阈值时,确定用户认证通过。
【文档编号】G10L17/04GK106033670SQ201510121720
【公开日】2016年10月19日
【申请日】2015年3月19日
【发明人】殷兵, 方昕, 魏思, 胡国平, 王影, 胡郁, 刘庆峰
【申请人】科大讯飞股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1