声纹密码认证方法及系统的制作方法

文档序号：10665990阅读：634来源：国知局

声纹密码认证方法及系统的制作方法
【专利摘要】本发明公开了一种声纹密码认证方法及系统，该方法包括：接收登录用户的语音数据，并将所述语音数据作为测试语音数据；提取所述测试语音数据的特征，得到测试语音特征；利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；利用所述第一修正测试语音特征进行声纹认证。本发明可以提升声纹认证的准确度。
【专利说明】
声纹密码认证方法及系统
技术领域
[0001] 本发明涉及声纹认证技术领域，具体涉及一种声纹密码认证方法及系统。
【背景技术】
[0002] 声纹密码认证即根据用户输入的语音信号中所反映的说话人生理特征和行为特征的声纹信息自动识别认证说话人身份的技术。相比于其它生物认证，声纹密码认证具有更简便、准确、经济及良好扩展性等优势，已被广泛应用于安全验证控制等领域，如在门禁系统、开机密码、银行支付密码、手机支付等应用场景都发挥着有效作用。然而，认证系统在实际应用中会存在各种跨场景问题，如输入密码设备的更换，注册密码及登录时存在的时间漂移，地点环境的变化（如室内、室外）等，在这些情况下，短短几个字的声纹密码会受到各种信道因素的干扰，导致声纹密码认证效果不理想。因此提高声纹密码系统在不同应用场景下的稳定性对提高声纹密码系统的实用价值有重要意义。
[0003] 为此，现有技术中采用对提取的声纹特征进行特征补偿的方法来减少不同环境因素的影响，并根据补偿后的声纹特征对说话人进行身份认证。现有的声纹密码认证系统在特征补偿上主要使用因子分析的方法，来降低不同信道对认证结果的影响。而所述方法需要利用注册说话人大量跨场景数据训练信道因子载荷矩阵；如果训练数据不足，则会对声纹密码系统的认证性能带来较大的损失，然而大量数据的获取对于声纹密码系统往往比较困难。此外，预训练的信道因子载荷矩阵只能表示训练时的状态，而无法解决用户登录的时间漂移问题。

【发明内容】

[0004] 本发明实施例提供一种声纹密码认证方法及系统，以提升声纹认证的准确度。
[0005] 为此，本发明实施例提供如下技术方案：
[0006] 一种声纹密码认证方法，包括：
[0007] 接收登录用户的语音数据，并将所述语音数据作为测试语音数据；
[0008] 提取所述测试语音数据的特征，得到测试语音特征；
[0009] 利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；
[0010] 根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；
[0011] 利用所述第一修正测试语音特征进行声纹认证。
[0012] 优选地，所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括：
[0013] 针对所述测试语音特征，采用迭代方式计算所述特征的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；
[0014] 在迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量；
[0015] 根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0016] 优选地，在每次迭代过程中计算所述特征的偏差量包括：
[0017] 计算所述特征相对于所述注册说话人模型的后验概率；
[0018] 根据所述注册说话人模型参数，计算所述特征的参数距离；
[0019] 根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。
[0020] 优选地，所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括：
[0021] 以帧为单位，根据当前帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量；或者
[0022] 根据所有帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量。
[0023] 优选地，所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括：
[0024] 对描述所述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量；
[0025] 针对所述测试语音特征，采用迭代方式计算所述特征相对于各聚类的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；
[0026] 在迭代次数达到设定次数或所述似然度达到稳定后，获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量；
[0027] 根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0028] 优选地，在每次迭代过程中计算所述特征相对于各聚类的偏差量包括：
[0029] 计算所述特征相对于所述注册说话人模型的后验概率；
[0030] 根据所述注册说话人模型参数，计算所述特征的参数距离；
[0031] 根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。
[0032] 优选地，所述利用第一修正测试语音特征进行声纹认证包括：
[0033] 计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0034] 计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度；
[0035] 计算所述说话人似然度与所述第一背景似然度的比值，得到第一判决得分；
[0036] 如果所述第一判决得分大于第一阈值，则确定用户认证通过。
[0037] 优选地，所述方法还包括：
[0038] 利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差；
[0039] 根据所述第二特征域偏差对所述测试语音特征进行修正，得到第二修正测试语音特征；
[0040] 所述利用所述第一修正测试语音特征进行声纹认证包括：
[0041] 计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0042] 计算所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度；
[0043] 计算所述说话人似然度与所述第二背景似然度的比值，得到第二判决得分；
[0044] 如果所述第二判决得分大于第二阈值，则确定用户认证通过。
[0045] 一种声纹密码认证系统，包括：
[0046] 接收模块，用于接收登录用户的语音数据，并将所述语音数据作为测试语音数据；
[0047] 特征提取模块，用于提取所述测试语音数据的特征，得到测试语音特征；
[0048] 第一估计模块，用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；
[0049] 第一修正模块，用于根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；
[0050] 认证模块，用于利用所述第一修正测试语音特征进行声纹认证。
[0051] 优选地，所述第一估计模块包括：
[0052] 迭代处理单元，用于针对所述测试语音特征，采用迭代方式计算所述特征的偏差量，根据所述偏差量对所述测试语音特征进行补偿，并计算补偿后的测试语音特征与所述注册说话人模型的似然度；
[0053] 检测单元，用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；
[0054] 特征域偏差输出单元，用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量，并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0055] 优选地，所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。
[0056] 优选地，所述迭代处理单元，以帧为单位，根据当前帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量；或者根据所有帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量。
[0057] 优选地，所述第一估计模块包括：
[0058] 聚类单元，用于对描述所述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量；
[0059] 迭代处理单元，用于针对所述测试语音特征，采用迭代方式计算所述特征相对于各聚类的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；
[0060] 检测单元，用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；
[0061] 特征域偏差输出单元，用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量，并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0062] 优选地，所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。
[0063] 优选地，所述认证模块包括：
[0064] 说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0065] 第一背景似然度计算单元，用于计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度；
[0066] 判决得分计算单元，用于计算所述说话人似然度与所述第一背景似然度的比值，得到第一判决得分；
[0067] 判决单元，用于在所述第一判决得分大于第一阈值时，确定用户认证通过。
[0068] 优选地，所述系统还包括：
[0069] 第二估计模块，用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差；
[0070] 第二修正模块，用于根据所述第二特征域偏差对所述测试语音特征进行修正，得到第二修正测试语音特征；
[0071] 所述认证模块包括：
[0072] 说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0073] 第二背景似然度计算单元，用于计算所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度；
[0074] 判决得分计算单元，用于计算所述说话人似然度与所述第二背景似然度的比值，得到第二判决得分；
[0075] 判决单元，用于在所述第二判决得分大于第二阈值时，确定用户认证通过。
[0076] 本发明实施例提供的声纹密码认证方法及系统，利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差，利用所述特征域偏差描述注册语音和测试语音之间的信道偏差，并利用该偏差对测试语音特征进行修正，得到修正后的测试语音特征，然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下，估计测试语音与注册语音之间的信道偏差，利用所述偏差对登录用户登录时的测试语音进行修正，解决了注册语音和测试语音信道不匹配的问题，及用户登录时间飘移问题，从而有效提升了声纹认证的准确度。
[0077] 进一步地，本发明方案还提出了利用通用背景模型进行偏差估计，从而降低了测试语音特征与通用背景模型之间的差异，进一步提升了声纹认证的准确度。
【附图说明】
[0078] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0079] 图1是本发明实施例声纹密码认证方法的一种流程图；
[0080] 图2是本发明实施例声纹密码认证方法的另一种流程图；
[0081] 图3是本发明实施例声纹密码认证系统的一种结构示意图；
[0082] 图4是本发明实施例中第一估计模块的一种结构示意图；
[0083] 图5是本发明实施例中第一估计模块的另一种结构示意图；
[0084] 图6是本发明实施例声纹密码认证系统的另一种结构示意图。
【具体实施方式】
[0085] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0086] 如图1所示，是本发明实施例声纹密码认证方法的一种流程图，包括以下步骤：
[0087] 步骤101，接收登录用户的语音数据，并将所述语音数据作为测试语音数据。
[0088] 步骤102,提取所述测试语音数据的特征，得到测试语音特征。
[0089] 在本发明实施例中，测试语音特征和注册语音特征可以使用39维的 MFCC(Mel_scale Frequency Cepstral Coefficients，Mel 频率倒谱系数）作为频谱特征，为了便于描述，后面将测试语音特征用Y = {yi，y2,...，yT}表示，其中T表示测试语音数据的帧数，将注册语音特征用X = {Χι，χ2,...，χΝ}表示，其中N表示注册语音数据的帧数。
[0090] 步骤103,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差。
[0091] 在实际应用中，所述第一特征域偏差的估计可以采用多种方法实现，比如：局部偏差估计方法、全局偏差估计方法、高斯聚类偏差估计方法。下面对这三种偏差估计方法分别进行详细说明。
[0092] 1.局部偏差估计方法
[0093] 局部偏差估计时，利用测试语音的每一帧数据及注册说话人模型进行偏差估计，具体偏差估计过程如下：
[0094] 步1)利用初始偏差估计值对当前帧测试语音特征进行局部偏差估计，具体计算方法如下式：
[0095]
[0096] 其中，γ (yt，y」bt)表示在给定第t帧初始偏差bt条件下，测试语音特征5^对于注册说话人模型的第c个高斯分量的后验概率，y tid表示第t帧第d维的测试语音特征，μ μ 和σ d分别表示第C个高斯分量第d维的均值和标准差，C表示描述注册说话人模型的高斯总数，-爲^/^,为测试语音第t帧数据第d维特征的参数距离；
[0097] 步2)利用上面得到的偏差量对当前帧测试语音特征进行补偿，得到当前帧补偿后的测试语音特征；
[0098] 步3)计算当前帧补偿后的测试语音特征相对于注册说话人模型的似然度；
[0099] 步4)将当前帧估计得到的偏差量作为初始偏差值，迭代执行步2)至步4)，直到达到预先设定的迭代次数或者所述似然度达到稳定；
[0100] 步5)将迭代过程中最大似然度对应的偏差量作为当前帧估计得到的最优偏差量；
[0101] 步6)根据各帧测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0102] 2.全局偏差估计方法
[0103] 全局偏差估计方法中，利用所有帧测试语音特征及注册说话人模型进行偏差估计，具体估计过程如下所述：
[0104] 步1)利用初始偏差估计值进行全局偏差估计，具体计算方法如下式：
[0105]
[0106] 其中，T表示测试语音的总帧数；
[0107] 步2)利用上面估计到的偏差量对所有帧测试语音特征进行补偿，得到补偿后的测试语音特征；
[0108] 步3)计算补偿后的测试语音特征相对于注册说话人模型的似然度；
[0109] 步4)将估计得到的偏差量作为初始偏差值，迭代执行步1)至步4)，直到达到预先设定的迭代次数或者所述似然度达到稳定；
[0110] 步5)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量；
[0111] 步6)根据所述最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0112] 3.高斯聚类偏差估计方法
[0113] 高斯聚类偏差估计方法需要先对描述注册说话人模型的高斯分量进行聚类，利用聚类后每类的高斯分量及每类对应的测试语音特征进行偏差估计；具体如下所述：
[0114] 步1)对描述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量；
[0115] 步2)利用初始偏差估计值进行高斯聚类偏差估计，具体计算方法如下式：
[0116]
[0117] 其中，Nk表示第k个高斯聚类中包含的高斯分量总数；
[0118] 步3)利用上面得到的测试语音特征偏差量对测试语音特征进行补偿，具体补偿时需要首先找到与当前高斯聚类所对应的测试语音特征，然后利用当前高斯聚类估计出的偏差量对所述测试语音特征进行补偿，从而得到补偿后的测试语音特征；
[0119] 步4)计算补偿后的测试语音特征相对于注册说话人模型的似然度；
[0120] 步5)将估计得到的偏差量作为初始偏差值，迭代执行步2)至步5)，直到达到预先设定的迭代次数或者所述似然度达到稳定；
[0121] 步6)将迭代过程中最大似然度对应的偏差量作为估计得到的最优偏差量；
[0122] 步7)根据各聚类对应的测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0123] 相应地，在后续利用上述不同方法得到的第一特征域偏差对测试语音特征进行修正时，也有所不同，具体将在后面详细说明。
[0124] 步骤104,根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征。
[0125] 假设注册语音特征X = {χ^ χ2, · · ·，χΝ}和测试语音特征Y = h，y2, · · ·，yT}属于同一发音人朗读相同文本的语音，则由于信道因素的影响，两者的特征矢量之间存在一定的偏差，注册语音特征和测试语音特征两两之间长度可以完全对齐或者采用DTW(Dynamic Time Warping，动态时间规整）方法强制对齐，则存在以下对应关系：
[0126] xt=yt-bt
[0127] 其中xt表示第t帧注册语音特征，y t表示第t帧测试语音特征，b t表示第t帧测试语音特征相对于注册语音特征的偏差值。
[0128] 根据上述不同的偏差估计方法进行偏差估计，得到相应的偏差，利用得到的偏差值对测试语音特征进行修正，具体如下：
[0129] 1)利用局部偏差估计方法得到的偏差进行修正，如下式：
[0130] yr t,d=yt,d-b， t,d
[0131] 其中，太t,d表示修正后的第t帧第d维测试语音特征，y t,d表示修正前的第t帧第d维测试语音特征，b ' t，d表示第t帧第d维测试语音特征相对于注册语音特征的偏差 (即第一特征域偏差）。
[0132] 2)利用全局偏差估计方法得到的偏差进行修正，如下式：
[0133] yr t,d=yt,d-b， d
[0134] 其中，b' d表示第d维测试语音特征相对于注册语音特征的偏差（即第一特征域偏差）。
[0135] 3)利用高斯聚类偏差估计方法得到的偏差进行修正，如下式：
[0136] y' td=ytd-b' M
[0137] 其中，y' tid表示修正后的与第k个高斯聚类对应的第t帧第d维的测试语音特征，ytid表示修正前的与第k个高斯聚类对应的第t帧第d维的测试语音特征，b' kid表示与第k个高斯聚类对应的第t帧第d维测试语音特征相对于注册语音特征的偏差（即第一特征域偏差）。
[0138] 步骤105,利用所述第一修正测试语音特征进行声纹认证。
[0139] 用太t表示第一修正测试语音特征，声纹认证过程如下：
[0140] 1)计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度P (太t |mspk)，其中mspk表示注册说话人模型的均值；
[0141] 2)计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度P(y' t|mubJ，其中mubni表示通用背景模型的均值；
[0142] 3)计算说话人似然度与第一背景似然度的比值，得到第一判决得分scorel，即：
[0143]
[0144] 4)将第一判决得分scorel与预先设定的第一阈值进行比较，如果第一判决得分 scorel大于第一阈值，则确定用户认证通过。
[0145] 所述第一阈值可以根据大量数据训练得出或根据经验设定。
[0146] 可见，本发明实施例提供的声纹密码认证方法，利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差，利用所述特征域偏差描述注册语音和测试语音之间的信道偏差，并利用该偏差对测试语音特征进行修正，得到修正后的测试语音特征，然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下，估计测试语音与注册语音之间的信道偏差，利用所述偏差对登录用户登录时的测试语音进行修正，解决了注册语音和测试语音信道不匹配的问题，及用户登录时间飘移问题，从而有效提升了声纹认证的准确度
[0147] 进一步地，本发明方案还提出了利用通用背景模型进行偏差估计，以降低测试语音特征与通用背景模型之间的差异，进一步提升声纹认证的准确度。
[0148] 如图2所示，是本发明实施例声纹密码认证方法的另一种流程图，包括以下步骤：
[0149] 步骤201，接收登录用户的语音数据，并将所述语音数据作为测试语音数据。
[0150] 步骤202,提取所述测试语音数据的特征，得到测试语音特征。
[0151] 步骤203,利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差。
[0152] 步骤204,利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差。
[0153] 在计算所述第二特征域偏差时，同样可以利用前面提到的三种不同偏差估计方法，只需将其中的注册说话人模型用通用背景模型替代即可，具体过程不再赘述。
[0154] 步骤205,分别根据所述第一特征域偏差和所述第二特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征及第二修正测试语音特征。
[0155] 步骤206,根据所述第一修正测试语音特征及第二修正测试语音特征进行声纹认证。
[0156] 用yt'表示第一修正测试语音特征，用yt"表示第二修正测试语音特征，声纹认证过程如下：
[0157] 1)分别计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度P(y t' |mspk)，以及所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度P(yt" |mubJ ;
[0158] 2)计算说话人似然度P(yt' |mspk)与第二背景似然度P(yt" |mubJ的比值，得到第二判决得分score2, BP :
[0159]
[0160] 3)将第二判决得分SC〇re2与预先设定的第一阈值进行比较，如果第二判决得分 score2大于第二阈值，则确定用户认证通过。
[0161] 所述第二阈值可以根据大量数据训练得出或根据经验设定。而且，所述第二阈值与前面提到的第一阈值可以相同，也可以不同。
[0162] 相应地，本发明实施例还提供了一种声纹密码认证系统，如图3所示，是该系统的一种结构不意图。
[0163] 在该实施例中，所述系统包括：
[0164] 接收模块301，用于接收登录用户的语音数据，并将所述语音数据作为测试语音数据；
[0165] 特征提取模块302,用于提取所述测试语音数据的特征，得到测试语音特征；
[0166] 第一估计模块303,用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；
[0167] 第一修正模块304,用于根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；
[0168] 认证模块305,用于利用所述第一修正测试语音特征进行声纹认证。
[0169] 上述认证模块305可以包括以下各单元：
[0170] 说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0171] 第一背景似然度计算单元，用于计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度；
[0172] 判决得分计算单元，用于计算所述说话人似然度与所述第一背景似然度的比值，得到第一判决得分；
[0173] 判决单元，用于在所述第一判决得分大于第一阈值时，确定用户认证通过。
[0174] 在实际应用中，第一估计模块303在进行第一特征域偏差的估计时可以采用多种方式实现，比如：局部偏差估计方法、全局偏差估计方法、高斯聚类偏差估计方法，其中：
[0175] 局部偏差估计是指利用测试语音的每一帧数据及注册说话人模型进行偏差估计；
[0176] 全局偏差估计是指利用所有帧测试语音特征及注册说话人模型进行偏差估计；
[0177] 高斯聚类偏差估计是指先对描述注册说话人模型的高斯分量进行聚类，利用聚类后每类的高斯分量及每类对应的测试语音特征进行偏差估计。
[0178] 相应地，针对局部偏差估计和全局偏差估计，第一估计模块303可采用如图4所示的结构。
[0179] 在该实施例中，第一估计模块303包括：
[0180] 迭代处理单元311，用于针对所述测试语音特征，采用迭代方式计算所述特征的偏差量，根据所述偏差量对所述测试语音特征进行补偿，并计算补偿后的测试语音特征与所述注册说话人模型的似然度。具体地，迭代理处理单元311在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。
[0181] 检测单元312,用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；
[0182] 特征域偏差输出单元313,用于在所述检测单元312检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量，并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0183] 上述迭代处理单元311在每次迭代过程中可以根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。而且，可以帧为单位，根据当前帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量；或者根据所有帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量。具体计算过程可参见前面本发明方法实施例中的描述，在此不再赘述。
[0184] 相应地，针对高斯聚类偏差估计，第一估计模块303可采用如图5所示的结构。
[0185] 与图4不同的是，在该实施例中，还包括：聚类单元320，用于对描述所述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量。而且，在该实施例中，迭代处理单元321用于针对所述测试语音特征，采用迭代方式计算所述特征相对于各聚类的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度。同样，检测单元312用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；特征域偏差输出单元313用于在所述检测单元312检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量，并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。
[0186] 在该实施例中，迭代处理单元321同样可以在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。
[0187] 如图6所示，是本发明实施例声纹密码认证系统的另一种结构示意图。
[0188] 与图3所示实施例的区别在于，在该实施例中，所述系统还包括：
[0189] 第二估计模块403,用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差；
[0190] 第二修正模块404,用于根据所述第二特征域偏差对所述测试语音特征进行修正，得到第二修正测试语音特征；
[0191] 相应地，在该实施例中，认证模块405可以包括以下各单元：
[0192] 说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；
[0193] 第二背景似然度计算单元，用于计算所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度；
[0194] 判决得分计算单元，用于计算所述说话人似然度与所述第二背景似然度的比值，得到第二判决得分；
[0195] 判决单元，用于在所述第二判决得分大于第二阈值时，确定用户认证通过。
[0196] 上述第二估计模块403在计算所述第二特征域偏差时，同样可以利用前面提到的三种不同偏差估计方法，只需将其中的注册说话人模型用通用背景模型替代即可，具体过程不再赘述。
[0197] 本发明实施例提供的声纹密码认证系统，利用登录用户的测试语音及注册说话人模型估计测试语音相对于注册语音的特征域偏差，利用所述特征域偏差描述注册语音和测试语音之间的信道偏差，并利用该偏差对测试语音特征进行修正，得到修正后的测试语音特征，然后根据修正后的测语音特征对登录用户进行声纹密码认证。本发明方案可以在没有较多的跨场景训练数据情况下，估计测试语音与注册语音之间的信道偏差，利用所述偏差对登录用户登录时的测试语音进行修正，解决了注册语音和测试语音信道不匹配的问题，及用户登录时间飘移问题，从而有效提升了声纹认证的准确度。
[0198] 进一步地，本发明方案还提出了利用通用背景模型进行偏差估计，从而降低了测试语音特征与通用背景模型之间的差异，进一步提升了声纹认证的准确度。
[0199] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0200] 以上对本发明实施例进行了详细介绍，本文中应用了【具体实施方式】对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种声纹密码认证方法，其特征在于，包括：接收登录用户的语音数据，并将所述语音数据作为测试语音数据；提取所述测试语音数据的特征，得到测试语音特征；利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；利用所述第一修正测试语音特征进行声纹认证。2. 根据权利要求1所述的方法，其特征在于，所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括：针对所述测试语音特征，采用迭代方式计算所述特征的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；在迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量；根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。3. 根据权利要求2所述的方法，其特征在于，在每次迭代过程中计算所述特征的偏差量包括：计算所述特征相对于所述注册说话人模型的后验概率；根据所述注册说话人模型参数，计算所述特征的参数距离；根据所述后验概率及所述特征的参数距离计算所述特征的偏差量。4. 根据权利要求3述的方法，其特征在于，所述根据所述后验概率及所述特征的参数距离计算所述特征的偏差量包括：以帧为单位，根据当前帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量；或者根据所有帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量。5. 根据权利要求1所述的方法，其特征在于，所述利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差包括：对描述所述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量；针对所述测试语音特征，采用迭代方式计算所述特征相对于各聚类的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；在迭代次数达到设定次数或所述似然度达到稳定后，获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量；根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。6. 根据权利要求5所述的方法，其特征在于，在每次迭代过程中计算所述特征相对于各聚类的偏差量包括：计算所述特征相对于所述注册说话人模型的后验概率；根据所述注册说话人模型参数，计算所述特征的参数距离；根据所述后验概率及所述特征的参数距离计算所述特征相对于各聚类的偏差量。7. 根据权利要求1至6任一项所述的方法，其特征在于，所述利用第一修正测试语音特征进行声纹认证包括：计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度；计算所述说话人似然度与所述第一背景似然度的比值，得到第一判决得分；如果所述第一判决得分大于第一阈值，则确定用户认证通过。8. 根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差；根据所述第二特征域偏差对所述测试语音特征进行修正，得到第二修正测试语音特征；所述利用所述第一修正测试语音特征进行声纹认证包括：计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；计算所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度；计算所述说话人似然度与所述第二背景似然度的比值，得到第二判决得分；如果所述第二判决得分大于第二阈值，则确定用户认证通过。9. 一种声纹密码认证系统，其特征在于，包括：接收模块，用于接收登录用户的语音数据，并将所述语音数据作为测试语音数据；特征提取模块，用于提取所述测试语音数据的特征，得到测试语音特征；第一估计模块，用于利用所述测试语音特征及注册说话人模型估计测试语音相对于注册语音的特征域偏差，得到第一特征域偏差；第一修正模块，用于根据所述第一特征域偏差对所述测试语音特征进行修正，得到第一修正测试语音特征；认证模块，用于利用所述第一修正测试语音特征进行声纹认证。10. 根据权利要求9所述的系统，其特征在于，所述第一估计模块包括：迭代处理单元，用于针对所述测试语音特征，采用迭代方式计算所述特征的偏差量，根据所述偏差量对所述测试语音特征进行补偿，并计算补偿后的测试语音特征与所述注册说话人模型的似然度；检测单元，用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；特征域偏差输出单元，用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为当前测试语音特征的最优偏差量，并根据测试语音特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。11. 根据权利要求10所述的系统，其特征在于，所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。12. 根据权利要求11所述的系统，其特征在于，所述迭代处理单元，以帧为单位，根据当前帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量；或者根据所有帧数据对应的所述特征的后验概率及所述参数距离，计算所述特征的偏差量。13. 根据权利要求9所述的系统，其特征在于，所述第一估计模块包括：聚类单元，用于对描述所述注册说话人模型的高斯分量进行聚类，得到每个聚类包含的高斯分量；迭代处理单元，用于针对所述测试语音特征，采用迭代方式计算所述特征相对于各聚类的偏差量，并根据所述偏差量对所述测试语音特征进行补偿，计算补偿后的测试语音特征与所述注册说话人模型的似然度；检测单元，用于检测迭代次数是否达到设定次数或者所述似然度是否达到稳定；特征域偏差输出单元，用于在所述检测单元检测到迭代次数达到设定次数或者所述似然度达到稳定后，获取最大似然度对应的偏差量作为所述特征相对于所述聚类的最优偏差量，并根据所述特征的最优偏差量确定测试语音相对于注册语音的特征域偏差。14. 根据权利要求13所述的系统，其特征在于，所述迭代处理单元在每次迭代过程中根据所述特征相对于所述注册说话人模型的后验概率、以及所述特征与所述注册说话人模型参数的参数距离，计算所述特征的偏差量。15. 根据权利要求9至14任一项所述的系统，其特征在于，所述认证模块包括：说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；第一背景似然度计算单元，用于计算所述第一修正测试语音特征与通用背景模型的似然度，得到第一背景似然度；判决得分计算单元，用于计算所述说话人似然度与所述第一背景似然度的比值，得到第一判决得分；判决单元，用于在所述第一判决得分大于第一阈值时，确定用户认证通过。16. 根据权利要求9至14任一项所述的系统，其特征在于，所述系统还包括：第二估计模块，用于利用所述测试语音特征及通用背景模型估计测试语音相对于注册语音的特征域偏差，得到第二特征域偏差；第二修正模块，用于根据所述第二特征域偏差对所述测试语音特征进行修正，得到第二修正测试语音特征；所述认证模块包括：说话人似然度计算单元，用于计算所述第一修正测试语音特征与所述注册说话人模型的似然度，得到说话人似然度；第二背景似然度计算单元，用于计算所述第二修正测试语音特征与通用背景模型的似然度，得到第二背景似然度；判决得分计算单元，用于计算所述说话人似然度与所述第二背景似然度的比值，得到第二判决得分；判决单元，用于在所述第二判决得分大于第二阈值时，确定用户认证通过。
【文档编号】G10L17/04GK106033670SQ201510121720
【公开日】2016年10月19日
【申请日】2015年3月19日
【发明人】殷兵, 方昕, 魏思, 胡国平, 王影, 胡郁, 刘庆峰
【申请人】科大讯飞股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷兵;方昕;魏思;胡国平;王影;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：确定声道间时间差参数的方法和装置的制造方法
上一篇：一种键盘乐器数字化输入系统的制作方法