一种带反馈的连续声纹认证方法及系统与流程

文档序号：15237722发布日期：2018-08-24 07:26阅读：288来源：国知局

本发明涉及语音识别技术领域，更具体地，涉及一种带反馈的连续声纹认证方法及系统。

背景技术：

生物身份认证通过用户特有的生物特征进行身份确认或辨认，在现代社会中具有重要意义。声纹身份认证技术是各种生物身份认证中的重要一员。与其它认证方式相比，声纹认证具有方便性和便捷性等特点，特别适合远程认证，在移动支付时代具有重要意义。所谓声纹认证，是指用声音来判断说话人身份的方法。

当前声纹认证技术都可称作“无反馈片段认证”。在这一认证方式中，用户按要求给出一段发音，在发音过程中系统无反馈；发音完成后，系统对该声音片段进行整体评价，并给出结果。这种无反馈片段式认证方式存在的一个弊端是认证过程对用户是不透明的，即用户在这一过程中不能得到任何反馈。对非法用户来说，这种方式可减少系统的信息暴露，从而减小被非法用户闯入的风险；但对合法用户来说，这种方式会极大提高被错误拒绝的可能。这是因为用户在认证过程中缺乏反馈机制，无法通过调整发音方式来配合系统提高认证分数。

有鉴于此，亟需提供一种声纹认证方法及系统，能够在认证过程中实时给出反馈，从而指导用户调整发音，以减少对合法用户的错误拒绝，提高用户体验。

技术实现要素：

本发明为了克服现有技术中的声纹认证技术在认证过程中缺乏反馈机制，导致出现合法用户认证失败的问题，提供一种带反馈的连续声纹认证方法及系统。

一方面，本发明提供一种带反馈的连续声纹认证方法，包括：

s1，实时获取待认证语音帧，提取所述待认证语音帧对应的待认证声纹特征向量；

s2，计算所述待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定所述待认证声纹特征向量与所述注册声纹特征向量的相似度；

s3，根据所述相似度确定所述待认证语音帧对应的匹配分值，将所述匹配分值实时反馈给所述待认证语音帧对应的用户，以使得所述用户根据所述匹配分值调整发音。

优选地，所述步骤s3还包括：

当所述匹配分值达到第一预设分值时，确定所述用户认证成功。

优选地，所述步骤s3之后还包括：

当所述匹配分值未达到第一预设分值时，重复执行所述步骤s1至s3，获得所述匹配分值；

在第一预设时间内，当所述匹配分值达到所述第一预设分值时，确定所述用户认证成功；

当达到所述第一预设时间时，若所述匹配分值未达到第二预设分值，则确定所述用户认证失败。

优选地，所述步骤s3之后还包括：

当达到所述第一预设时间时，若所述匹配分值未达到所述第一预设分值但高于所述第二预设分值，延长所述用户的认证时间至第二预设时间；

在所述第二预设时间内，若所述匹配分值未达到所述第一预设分值，则确定所述用户认证失败。

优选地，所述步骤s1进一步包括：

实时获取待认证语音帧，获取所述待认证语音帧对应的频谱；

利用预设特征提取模型根据所述频谱提取所述待认证语音帧对应的待认证声纹特征向量。

优选地，所述步骤s2之前还包括：

获取注册用户的语音片段，提取所述语音片段中的每个语音帧对应的声纹特征向量；

将所述语音片段中的所有语音帧对应的声纹特征向量进行加权平均运算，获得所述注册声纹特征向量。

优选地，步骤s2中所述计算所述待认证声纹特征向量与注册声纹特征向量之间的距离进一步包括：

利用距离函数计算所述待认证声纹特征向量与注册声纹特征向量之间的距离；

所述距离函数包括余弦距离函数和欧氏距离函数。

一方面，本发明提供一种带反馈的连续声纹认证系统，包括：

特征提取模块，用于实时获取待认证语音帧，提取所述待认证语音帧对应的待认证声纹特征向量；

相似度计算模块，用于计算所述待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定所述待认证声纹特征向量与所述注册声纹特征向量的相似度；

实时反馈模块，用于根据所述相似度确定所述待认证语音帧对应的匹配分值，将所述匹配分值实时反馈给所述待认证语音帧对应的用户，以使得所述用户根据所述匹配分值调整发音。

一方面，本发明提供一种带反馈的连续声纹认证方法的设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述任一所述的方法。

一方面，本发明提供一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任一所述的方法。

本发明提供的一种带反馈的连续声纹认证方法及系统，实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。该方法及系统能够在声纹认证过程中实时反馈用户发出的语音中每一语音帧的匹配分值，从而有效指导用户根据匹配分值调整自己的发音方式，能够有效避免对合法用户的错误拒绝，提高了合法用户认证成功的几率，有利于提升用户的认证体验。

附图说明

图1为本发明实施例的一种带反馈的连续声纹认证方法的整体流程示意图；

图2为本发明实施例的待认证声纹特征向量提取方法的流程示意图；

图3为本发明实施例的注册声纹特征向量提取方法的流程示意图；

图4为本发明实施例的一种带反馈的连续声纹认证系统的整体结构示意图；

图5为本发明实施例的一种带反馈的连续声纹认证方法的设备的结构框架示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明实施例的一种带反馈的连续声纹认证方法的整体流程示意图，如图1所示，本发明提供一种带反馈的连续声纹认证方法，包括：

s1，实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；

需要说明的是，本发明提供的一种带反馈的连续声纹认证方法可以应用于各类终端设备上，以用户终端为例，在利用声纹认证对用户进行身份认证时，用户连续发出一段语音，其中语音内容可以为预先规定的内容，例如用户终端的屏幕上显示的内容；也可以为用户读取的任意内容，可以根据实际需求进行设置，此处不做具体限定。

在用户连续发出一段语音的过程中，实时获取用户在每个时刻发出的语音帧，该语音帧即为待认证语音帧。同时，针对获取的待认证语音帧，提取待认证语音帧对应的声纹特征向量，该声纹特征向量即为待认证声纹特征向量。具体地，可以利用预设特征提取模型提取待认证语音帧对应的待认证声纹特征向量，以神经网络模型为例，可以通过卷积神经网络提取待认证语音帧对应的待认证声纹特征向量。其中卷积神经网络可以包括多个卷积层，每个卷积层的卷积核的个数和大小可以根据实际需求进行调整，此处不做具体限定。此外，每个卷积层后可以连接一个池化层，其中池化层可以为最大池化层或平均池化层，池化层的窗口可以重叠，也可以不重叠，池化层的窗口大小可以根据实际需求进行调整，此处不做具体限定。在利用卷积神经网络提取待认证语音帧对应的待认证声纹特征向量时，首先将待认证语音帧转换为频谱特征，再使用每个卷积核对频谱特征进行卷积，并对应生成一个特征平面，最后一个池化层对应的特征平面即为待认证声纹特征向量。

s2，计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；

具体地，针对上述获得的待认证声纹特征向量，计算待认证声纹特征向量与注册声纹特征向量之间的距离，该距离可以为待认证声纹特征向量与注册声纹特征向量之间的余弦距离，也可以为待认证声纹特征向量与注册声纹特征向量之间的欧几里得距离，可以根据实际需求进行设置，此处不做具体限定。其中，注册声纹特征向量是预先从注册用户的语音片段中提取的，用于表示注册用户的声纹特征，注册用户也即为合法用户。注册用户的数量可以为一个，对应地，注册声纹特征向量的数量也为一个；此外，注册用户的数量也可以为多个，且每个注册用户对应一个注册声纹特征向量，对应地，注册声纹特征向量的数量也为多个。当存在多个注册声纹特征向量时，则应分别计算待认证声纹特征向量与每个注册声纹特征向量之间的距离。

进一步地，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度，以余弦距离为例，当待认证声纹特征向量与注册声纹特征向量之间的余弦距离越大时，则可确定待认证声纹特征向量与注册声纹特征向量的相似度越高；当待认证声纹特征向量与注册声纹特征向量之间的余弦距离越小时，则可确定待认证声纹特征向量与注册声纹特征向量的相似度越低。

s3，根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。

具体地，在计算获得待认证声纹特征向量与注册声纹特征向量的相似度之后，根据相似度确定待认证语音帧对应的匹配分值。待认证声纹特征向量与注册声纹特征向量的相似度越高，则待认证语音帧对应的匹配分值越高；待认证声纹特征向量与注册声纹特征向量的相似度越低，则待认证语音帧对应的匹配分值越低。

与此同时，将待认证语音帧对应的匹配分值实时反馈给待认证语音帧对应的用户。即，在用户认证过程中，当用户发出每一语音帧时，可以同时将每一语音帧对应的匹配分值实时反馈给用户。以用户终端为例，可以将用户发出的每一语音帧对应的匹配分值实时显示在用户终端上。由此，用户可以根据匹配分值调整发音。例如，对于某一注册用户来说，在认证过程中，若起初该用户由于没有调整好发音，导致一小段时间内每一语音帧对应的匹配分值普遍偏低，则该用户根据反馈的匹配分值可以了解到自己的发音方式可能存在问题，进而该用户可以随即调整自己的发音方式，以有效提高后续发音中的每一语音帧对应的匹配分值，直至认证成功。

本发明提供的一种带反馈的连续声纹认证方法，实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。该方法能够在声纹认证过程中实时反馈用户发出的语音中每一语音帧的匹配分值，从而有效指导用户根据匹配分值调整自己的发音方式，能够有效避免对合法用户的错误拒绝，提高了合法用户认证成功的几率，有利于提升用户的认证体验。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，步骤s3还包括：

当匹配分值达到第一预设分值时，确定用户认证成功。

具体地，在对用户进行声纹认证的过程中，对于用户发出的语音中的每一待认证语音帧，向用户实时反馈每一待认证语音帧对应的匹配分值。当某一待认证语音帧对应的匹配分值达到第一预设分值时，则可确定该待认证语音帧对应的待认证声纹特征向量与注册声纹特征向量匹配成功，即可确定该用户认证成功。其中，第一预设分值为预先设定的高分值的阈值，例如，第一预设分值为99分，则当用户发出的某一语音帧对应的匹配分值高于或等于99分时，则可确定该用户认证成功。

此外，当用户认证成功时，也可以向用户进行及时反馈。以用户终端为例，当用户认证成功时，可以在用户终端上显示认证成功的文字或图案。可以根据实际需求设置认证成功的反馈方式，此处不做具体限定。

本发明提供的一种带反馈的连续声纹认证方法，当匹配分值达到第一预设分值时，确定用户认证成功，能够准确地对用户身份进行认证，提高了合法用户认证成功的几率，有利于提升用户的认证体验。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，步骤s3之后还包括：

当匹配分值未达到第一预设分值时，重复执行步骤s1至s3，获得匹配分值；

具体地，在用户进行声纹认证的过程中，实时获取待认证语音帧，并计算获得待认证语音帧对应的匹配分值，当匹配分值未达到第一预设分值时，则重复执行上述任一方法实施例中的步骤s1至s3，获得后续每一语音帧对应的匹配分值。其中，第一预设分值为预先设定的高分值的阈值，例如，第一预设分值为99分，则当前待认证语音帧对应的匹配分值低于99分时，则重复执行上述任一方法实施例中的步骤s1至s3。

例如，当t时刻获取的待认证语音帧对应的匹配分值未达到第一预设分值时，则再获取t+1时刻对应的待认证语音帧，并根据上述任一方法实施例中的步骤s1至s3计算获得该待认证语音帧对应的匹配分值，具体请参见上述任一方法实施例中的方法步骤，此处不再赘述。

在第一预设时间内，当匹配分值达到第一预设分值时，确定用户认证成功；

具体地，在重复执行上述任一方法实施例中的步骤s1至s3的过程中，若在第一预设时间内的某一时刻获取的待认证语音帧对应的匹配分值达到第一预设分值，则可确定该用户认证成功。其中第一预设时间为预先设置的有效认证时间，可以设置为10秒、15秒等，可以根据实际需求进行设置，此处不做具体限定。

当达到第一预设时间时，若匹配分值未达到第二预设分值，则确定用户认证失败。

具体地，重复执行上述任一方法实施例中的步骤s1至s3，直至达到第一预设时间时，若最后时刻获取的待认证语音帧对应的匹配分值未达到第二预设分值，则可确定该用户认证失败。其中，第二预设分值为预先设定的低分值的阈值，可以根据实际需求进行设置，此处不做具体限定。例如，若第一预设时间为10秒，第二预设分值为20分，在对某一用户进行声纹认证时，若重复执行上述任一方法实施例中的步骤s1至s3的时间达到第10秒时，若第10秒获取的待认证语音帧对应的匹配分值低于20分时，则可确定该用户认证失败。

本发明提供的一种带反馈的连续声纹认证方法，当某一时刻实时获取的待认证语音帧对应的匹配分值未达到第一预设分值时，则采用相同的方式确定下一时刻实时获取的待认证语音帧对应的匹配分值，在第一预设时间内，当某一时刻获取的语音帧对应的匹配分值达到第一预设分值时，确定用户认证成功；当达到第一预设时间时，若最后时刻获取的语音帧对应的匹配分值未达到第二预设分值，则确定用户认证失败。该方法能够在预设有效认证时间内对用户身份进行有效认证，当且仅当用户在预设有效时间内语音帧对应的匹配分值满足高分值条件或低分值条件时，才对应确定该用户认证成功或失败，提高了用户身份认证的准确性，有利于提升用户认证体验。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，步骤s3之后还包括：

当达到第一预设时间时，若匹配分值未达到第一预设分值但高于第二预设分值，延长用户的认证时间至第二预设时间；

具体地，在重复执行上述任一方法实施例中的步骤s1至s3的时间达到第一预设时间时，若最后时刻获取的待认证语音帧对应的匹配分值未达到第一预设分值但高于第二预设分值时，即处于高分值阈值和低分值阈值之间，则将用户的认证时间从第一预设时间延长至第二预设时间。其中第二预设时间可以根据实际需求进行设置，此处不做具体限定。

例如，假设第一预设时间为10秒，第二预设时间为15秒，第一预设分值为99分，第二预设分值为20分。在重复执行上述任一方法实施例中的步骤s1至s3的时间达到10秒时，若第10秒获取的待认证语音帧对应的匹配分值低于99分但高于20分，则将用户的有效认证时间从10秒延长至15秒。

在第二预设时间内，若匹配分值未达到第一预设分值，则确定用户认证失败。

具体地，在将用户的认证时间从第一预设时间延长至第二预设时间后，在第二预设时间内重复执行上述任一方法实施例中的步骤s1至s3，即实时获取待认证语音帧，并计算获得待认证语音帧对应的匹配分值，若第二预设时间内获取的待认证语音帧对应的匹配分值均未达到第一预设分值，则可确定用户认证失败。在上述举例的基础上，即在重复执行上述任一方法实施例中的步骤s1至s3的时间达到15秒时，若15秒内(包括第15秒)实时获取的待认证语音帧对应的匹配分值均未达到99分时，则可确定用户认证失败。

本发明提供的一种带反馈的连续声纹认证方法，当达到第一预设时间时，若匹配分值未达到第一预设分值但高于第二预设分值，延长用户的认证时间至第二预设时间；在第二预设时间内，若匹配分值未达到第一预设分值，则确定用户认证失败。该方法避免了传统认证系统中所有用户需在相同时间内进行认证导致存在认证失误的缺陷，在确保认证便捷程度的基础上，进一步提高了认证结果的准确性，从而进一步提升了用户体验。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，如图2所示，步骤s1进一步包括：

s11，实时获取待认证语音帧，获取待认证语音帧对应的频谱；

具体地，在对用户进行声纹认证时，用户连续发出一段语音，实时获取用户在每个时刻发出的语音帧，该语音帧即为待认证语音帧。同时，针对获取的待认证语音帧，获取待认证语音帧对应的频谱，每一语音帧均对应一个频谱，不同用户发出的语音对应的频谱特征存在差异，故而通过频谱可以对不同用户进行区分识别。

s12，利用预设特征提取模型根据频谱提取待认证语音帧对应的待认证声纹特征向量。

具体地，利用预设特征提取模型根据上述获得的频谱提取待认证语音帧对应的声纹特征向量，该声纹特征向量即为待认证声纹特征向量。其中预设特征提取模型是预先构建并训练好的，可以为预设构建并训练好的神经网络模型等，可以根据实际需求进行设置，此处不做具体限定。

以神经网络模型为例，可以通过卷积神经网络提取待认证语音帧对应的待认证声纹特征向量。其中卷积神经网络可以包括多个卷积层，每个卷积层的卷积核的个数和大小可以根据实际需求进行调整，此处不做具体限定。此外，每个卷积层后可以连接一个池化层，其中池化层可以为最大池化层或平均池化层，池化层的窗口可以重叠，也可以不重叠，池化层的窗口大小可以根据实际需求进行调整，此处不做具体限定。在利用卷积神经网络提取待认证语音帧对应的待认证声纹特征向量时，将待认证语音帧对应的频谱输入卷积神经网络，再使用每个卷积核对频谱进行卷积，并对应生成一个特征平面，最后一个池化层对应的特征平面即为待认证声纹特征向量。

本发明提供的一种带反馈的连续声纹认证方法，实时获取待认证语音帧，获取待认证语音帧对应的频谱；利用预设特征提取模型根据频谱提取待认证语音帧对应的待认证声纹特征向量；能够准确提取待认证语音帧对应的声纹特征向量，有利于根据提取的声纹特征向量对用户身份进行认证，进而有利于确保用户身份认证的准确性。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，如图3所示，步骤s2之前还包括：

s21，获取注册用户的语音片段，提取语音片段中的每个语音帧对应的声纹特征向量；

具体地，在计算待认证声纹特征向量和注册声纹特征向量之间的距离之前，应预先提取注册声纹特征向量。首先，针对每个注册用户，也即合法用户，获得每个注册用户的语音片段，其中语音片段的长度可以根据实际需求进行设置，此处不做具体限定。针对每个注册用户的语音片段，将语音片段划分为多个语音帧，提取每个语音帧对应的声纹特征向量，通过语音帧提取声纹特征向量的方式可以参照上述任一方法实施例中的方法步骤，此处不再赘述。

s22，将语音片段中的所有语音帧对应的声纹特征向量进行加权平均运算，获得注册声纹特征向量。

具体地，针对每个注册用户的语音片段，将语音片段中所有帧对应的声纹特征向量进行加权平均运算，运算后获得的声纹特征向量即为注册声纹特征向量。例如，若某个注册用户的语音片段包括100个语音帧，每个语音帧对应的声纹特征向量分别为a1、a2、a3……a100，则加权平均运算后获得的注册声纹特征即为(a1+a2+a3+……+a100)/100。

本发明提供的一种带反馈的连续声纹认证方法，在计算待认证声纹特征向量和注册声纹特征向量之间的距离之前，获取注册用户的语音片段，提取语音片段中的每个语音帧对应的声纹特征向量；将语音片段中的所有语音帧对应的声纹特征向量进行加权平均运算，获得注册声纹特征向量；能够有效准确地提取注册用户的声纹特征向量，有利于将待认证用户的声纹特征向量与注册用户的声纹特征向量进行匹配，以有效实现对待认证用户的身份认证。

基于上述任一实施例，提供一种带反馈的连续声纹认证方法，步骤s2中计算待认证声纹特征向量与注册声纹特征向量之间的距离进一步包括：

利用距离函数计算待认证声纹特征向量与注册声纹特征向量之间的距离；距离函数包括余弦距离函数和欧氏距离函数。

具体地，利用距离函数计算待认证声纹特征向量与注册声纹特征向量之间的距离，其中距离函数包括余弦距离函数和欧氏距离函数，可以根据实际需求进行设置，此处不做具体限定。以欧氏距离函数为例进行说明：如待认证声纹特征向量为feature(x1,x2,x3,...xn)，注册声纹特征向量为feature(y1,y2,y3,...yn)，则利用欧氏距离函数计算待认证声纹特征向量和注册声纹特征向量之间的距离的具体计算公式为：

本发明提供的一种带反馈的连续声纹认证方法，利用距离函数计算待认证声纹特征向量与注册声纹特征向量之间的距离，其中距离函数包括余弦距离函数和欧氏距离函数，有利于确定待认证声纹特征向量与注册声纹特征向量的相似度，进而有利于对用户身份进行认证。

图4为本发明实施例的一种带反馈的连续声纹认证系统的整体结构示意图，如图4所示，本发明提供一种带反馈的连续声纹认证系统，包括：

特征提取模块1，用于实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；

在用户连续发出一段语音的过程中，利用特征提取模块1实时获取用户在每个时刻发出的语音帧，该语音帧即为待认证语音帧。同时，针对获取的待认证语音帧，利用特征提取模块1提取待认证语音帧对应的声纹特征向量，该声纹特征向量即为待认证声纹特征向量。具体地，可以利用预设特征提取模型提取待认证语音帧对应的待认证声纹特征向量，以神经网络模型为例，可以通过卷积神经网络提取待认证语音帧对应的待认证声纹特征向量。其中卷积神经网络可以包括多个卷积层，每个卷积层的卷积核的个数和大小可以根据实际需求进行调整，此处不做具体限定。此外，每个卷积层后可以连接一个池化层，其中池化层可以为最大池化层或平均池化层，池化层的窗口可以重叠，也可以不重叠，池化层的窗口大小可以根据实际需求进行调整，此处不做具体限定。在利用卷积神经网络提取待认证语音帧对应的待认证声纹特征向量时，首先将待认证语音帧转换为频谱特征，再使用每个卷积核对频谱特征进行卷积，并对应生成一个特征平面，最后一个池化层对应的特征平面即为待认证声纹特征向量。

相似度计算模块2，用于计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；

具体地，针对上述获得的待认证声纹特征向量，利用相似度计算模块2计算待认证声纹特征向量与注册声纹特征向量之间的距离，该距离可以为待认证声纹特征向量与注册声纹特征向量之间的余弦距离，也可以为待认证声纹特征向量与注册声纹特征向量之间的欧几里得距离，可以根据实际需求进行设置，此处不做具体限定。其中，注册声纹特征向量是预先从注册用户的语音片段中提取的，用于表示注册用户的声纹特征，注册用户也即为合法用户。注册用户的数量可以为一个，对应地，注册声纹特征向量的数量也为一个；此外，注册用户的数量也可以为多个，且每个注册用户对应一个注册声纹特征向量，对应地，注册声纹特征向量的数量也为多个。当存在多个注册声纹特征向量时，则应分别计算待认证声纹特征向量与每个注册声纹特征向量之间的距离。

进一步地，利用相似度计算模块2根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度，以余弦距离为例，当待认证声纹特征向量与注册声纹特征向量之间的余弦距离越大时，则可确定待认证声纹特征向量与注册声纹特征向量的相似度越高；当待认证声纹特征向量与注册声纹特征向量之间的余弦距离越小时，则可确定待认证声纹特征向量与注册声纹特征向量的相似度越低。

实时反馈模块3，用于根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。

具体地，在计算获得待认证声纹特征向量与注册声纹特征向量的相似度之后，利用实时反馈模块3根据相似度确定待认证语音帧对应的匹配分值。待认证声纹特征向量与注册声纹特征向量的相似度越高，则待认证语音帧对应的匹配分值越高；待认证声纹特征向量与注册声纹特征向量的相似度越低，则待认证语音帧对应的匹配分值越低。

与此同时，利用实时反馈模块3将待认证语音帧对应的匹配分值实时反馈给待认证语音帧对应的用户。即，在用户认证过程中，当用户发出每一语音帧时，可以同时将每一语音帧对应的匹配分值实时反馈给用户。以用户终端为例，可以将用户发出的每一语音帧对应的匹配分值实时显示在用户终端上。由此，用户可以根据匹配分值调整发音。例如，对于某一注册用户来说，在认证过程中，若起初该用户由于没有调整好发音，导致一小段时间内每一语音帧对应的匹配分值普遍偏低，则该用户根据反馈的匹配分值可以了解到自己的发音方式可能存在问题，进而该用户可以随即调整自己的发音方式，以有效提高后续发音中的每一语音帧对应的匹配分值，直至认证成功。

本发明提供的一种带反馈的连续声纹认证系统，实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。该系统能够在声纹认证过程中实时反馈用户发出的语音中每一语音帧的匹配分值，从而有效指导用户根据匹配分值调整自己的发音方式，能够有效避免对合法用户的错误拒绝，提高了合法用户认证成功的几率，有利于提升用户的认证体验。

图5示出本发明实施例的一种带反馈的连续声纹认证方法的设备的结构框图。参照图5，所述带反馈的连续声纹认证方法的设备，包括：处理器(processor)51、存储器(memory)52和总线53；其中，所述处理器51和存储器52通过所述总线53完成相互间的通信；所述处理器51用于调用所述存储器52中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：实时获取待认证语音帧，提取待认证语音帧对应的待认证声纹特征向量；计算待认证声纹特征向量与注册声纹特征向量之间的距离，根据距离计算结果确定待认证声纹特征向量与注册声纹特征向量的相似度；根据相似度确定待认证语音帧对应的匹配分值，将匹配分值实时反馈给待认证语音帧对应的用户，以使得用户根据匹配分值调整发音。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的带反馈的连续声纹认证方法的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;李蓝天
技术所有人：清华大学;北京孚睿星辰智能科技有限责任公司
我是此专利的发明人

上一篇：铝电解抬包中使用的脱硫剂及脱硫方法与流程
上一篇：一种提高离子渗氮效率的激光冲击工艺的制作方法