一种识别说话人的方法及终端与流程

文档序号：16542371发布日期：2019-01-08 20:32阅读：211来源：国知局

本发明属于计算机技术领域，尤其涉及一种识别说话人的方法及终端。

背景技术：

随着信息技术和网络技术的迅猛发展，人们对身份识别技术的需求越来越多。基于传统密码认证的身份识别技术在实际应用中已经暴露出许多不足之处(例如安全可靠性较低)，而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出其优越性。其中，声纹识别技术便是基于生物特征辨别的身份识别技术之一。

声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同，所发出来的声音及其音调各不相同，因此，以声纹作为基本特征进行身份识别具有不可替代性和稳定性。

声纹识别有文本相关的(text-dependent)和文本无关的(text-independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，只要用户发出相关内容的声音就可以识别该用户的身份，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，只要系统中录有说话人的声音，就能识别出说话人的身份。

由于文本无关型的声纹识别方法具有用户使用方便、应用范围较宽的特点，人们在实际应用中通常采用文本无关型的声纹识别方法进行身份识别。

然而，文本无关型的声纹识别方法需要提取说话人的语音特征，对于复杂的声纹语音信息(例如，短话音、模仿语音等)，文本无关型的声纹识别系统无法准确提取说话人的语音特征，从而导致无法准确识别说话人的身份。

技术实现要素：

有鉴于此，本发明实施例提供了一种识别说话人的方法及终端，以解决现有技术中，对于复杂的声纹语音信息(例如，短话音、模仿语音等)，文本无关型的声纹识别系统无法准确提取说话人的语音特征，从而导致无法准确识别说话人的身份的问题。

本发明实施例的第一方面提供了一种识别说话人的方法，包括：

获取待识别的目标声音信息；

使用预设的神经网络模型对所述目标声音信息进行处理，提取所述目标声音信息的目标特征向量；其中，所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到，在训练过程中，所述神经网络模型的输入为所述声音样本集的声音信息，所述神经网络模型的输出为所述声音样本对应的身份识别结果；

使用所述神经网络模型对所述目标特征向量进行处理，得到所述目标特征向量与标签向量之间的损失值，所述损失值包括角度损失值以及距离损失值；

基于所述损失值，确定所述目标声音信息对应的身份识别结果。

本发明实施例的第二方面提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别的目标声音信息；

使用所述神经网络模型对所述目标特征向量进行处理，得到所述目标特征向量与标签向量之间的损失值，所述损失值包括角度损失值以及距离损失值；

基于所述损失值，确定所述目标声音信息对应的身份识别结果。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别的目标声音信息；

使用所述神经网络模型对所述目标特征向量进行处理，得到所述目标特征向量与标签向量之间的损失值，所述损失值包括角度损失值以及距离损失值；

基于所述损失值，确定所述目标声音信息对应的身份识别结果。

实施本发明实施例提供的一种识别说话人的方法及终端具有以下有益效果：

本发明实施例，使用预设的神经网络模型提取待识别的目标声音信息的目标特征向量，基于文本无关型的识别说话人的方法能够准确提取说话人的语音特征，由于通过目标特征向量与标签向量之间的角度损失以及距离损失，能够准确分析声音信息的特征向量与已知的标签向量之间的差异，因此，在基于目标特征向量与标签向量之间的角度损失值以及距离损失值，确定目标声音信息对应的身份识别结果时，能够提高身份识别结果的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种识别说话人的方法的实现流程图；

图2是本发明另一实施例提供的一种识别说话人的方法的实现流程图；

图3是本发明一实施例提供的一种终端的示意图；

图4是本发明另一实施例提供的一种终端的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参见图1，图1是本发明实施例提供的一种识别说话人的方法的实现流程图。本实施例中识别说话人的方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的识别说话人的方法可包括：

s101：获取待识别的目标声音信息。

终端在检测到说话人识别指令时，可以通过内置的声音拾取装置(例如，麦克风)获取周围环境中的说话人发出的待识别的目标声音信息；或者终端根据说话人识别指令中包含的文件标识获取该文件标识对应的音频文件或视频文件，并提取音频文件或视频文件中的声音信息，将其识别为待识别的目标声音信息。音频文件或视频文件可以是用户上传的，也可以从用于存储音频文件或视频文件的服务器中下载得到，此处不做限制。

s102：使用预设的神经网络模型对所述目标声音信息进行处理，提取所述目标声音信息的目标特征向量；其中，所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到，在训练过程中，所述神经网络模型的输入为所述声音样本集的声音信息，所述神经网络模型的输出为所述声音样本对应的身份识别结果。

预设的神经网络模型是通过使用机器学习算法对声音样本集中包含的声音样本进行训练得到，声音信息样本集包括正样本集以及标签样本集，正样本集包括预置的说话人对应的多个声音信息样本，预置的说话人可以为多个，标签样本集包括已知的说话人的多个声音样本，已知的说话人也可以为多个；在训练过程中，预设的神经网络模型的输入为声音样本集的声音信息，神经网络模型的输出为声音样本对应的身份识别结果。

预设的神经网络模型可以包括输入层、隐藏层、池化层、全连接层、损失函数层(输出层)。池化层包括一个中间最大值池化层节点以及一个最大值池化层节点。隐藏层包括两个以上的隐含层节点，隐藏层节点的数量与最大值池化层节点的数量相等，最大值池化层节点与隐藏层节点相邻且间隔设置。

输入层包括一个输入层节点，用于从外部接收输入的声音信息。

隐含层以用于对声音信息进行处理，提取声音信息的局部特征，局部特征为上下文范围的声音特征，池化层的最大值池化层节点用于提取局部特征的最大值。

中间最大值池化层节点用于提取全局特征，全局特征是声音信息对应的全文的语音特征。

全连接层用于整合池化层的最大值池化层节点提取的局部特征、中间最大值池化层节点提取的全局特征，得到声纹特征。

损失函数层用于使用损失函数对全连接层整合的声纹特征进行处理，输出特征向量与标签向量之间的损失值，该损失值包括角度损失值以及距离损失值。

目标声音信息的特征向量包括局部特征向量以及全局特征向量。具体地，终端可以将待识别的目标声音信息输入输入层，在隐含层对目标声音信息进行处理，提取目标声音信息的局部特征，在将提取的局部特征输入最大值池化层之后，对局部特征进行归一化处理，筛选出局部特征的最大值。

终端在中间最大值池化层对目标声音信息进行处理，提取全局特征。之后，将全局特征以及经过最大值池化层处理后得到的局部特征输入全连接层，将输入的局部特征以及全局特征进行整合，得到目标声音信息的目标特征向量。

其中，基于声音样本集训练预设的神经网络模型的方法如下：

具体地，终端将声音样本集中的声音信息输入初始的神经网络模型进行处理，提取每个声音信息对应的样本特征向量，得到样本特征向量集。声音信息样本集包括样本标签向量集、多个正样本集。每个正样本特征向量对应一个样本标签向量，同一个说话人的不同正样本特征向量可以对应一个该说话人的样本标签向量。正样本集中的样本的数量，可以根据实际情况进行设置，例如500或1500，在一定程度上训练的样本数量越多，使用训练得到的神经网络模型进行识别时，结果越准确。

将样本特征向量集作为训练数据，将其输入初始的神经网络模型，基于预设的线性函数(例如，y＝wx)训练初始的神经网络模型中全连接层的权重向量w，其中，x表示样本特征向量，y表示标签特征向量。

具体地，终端可以设置全连接层的初始权重向量w0，根据正弦定理和/或余弦定理计算每个样本特征向量与w0之间的角度，并将每个样本特征向量xi与w0之间的角度，每个样本特征相邻对应的标签向量yi，代入损失函数层的预设的损失函数，得到每个样本特征向量xi与其对应的标签向量yi之间的损失值，该损失值包括角度损失值以及距离损失值。损失函数如下：

n是训练样本(xi，yi)的数量，(xi，yi)代表样本，xi代表样本特征向量，yi代表标签向量，cos(mθi，yi)代表权重向量w和yi之间的角度的余弦值，m为常量系数，θ是x和全连接层权重向量w之间的角度。

终端在确认每个正样本特征向量对应的角度损失值大于预设的第一角度损失阈值，或每个正样本特征向量对应的距离损失值大于预设的第一距离损失阈值时，修改全连接层的权重向量w，基于修改后的权重向量w、训练数据，计算每个样本特征向量与其对应的标签向量之间的损失值。

终端在确认每个正样本特征向量对应的角度损失值小于或等于预设的第一角度损失阈值，且每个正样本特征向量对应的距离损失值小于或等于预设的第一距离损失阈值时，判定正样本特征向量与其对应的标签向量相等或近似相等，结束训练，将此时的w作为全连接层的权重向量w，得到训练好的预设的神经网络模型。

可以理解的是，一个说话人对应一个神经网络识别模型，当需要识别多个说话人时，训练多个说话人各自对应的神经网络识别模型。

s103：使用所述神经网络模型对所述目标特征向量进行处理，得到所述目标特征向量与标签向量之间的损失值，所述损失值包括角度损失值以及距离损失值。

终端将在全连接层整合得到的目标特征向量输入损失函数层，根据正弦定理和/或余弦定理计算目标特征向量与全连接层的权重向量w之间的角度，将该角度、目标特征向量以及s102中提及的预设的标签向量代入损失函数，得到目标特征向量与标签向量之间的损失值，该损失值包括角度损失值以及距离损失值。

s104：基于所述损失值，确定所述目标声音信息对应的身份识别结果。

目标特征向量与标签向量之间的损失值越小，判定目标向量与标签向量越相似。

当损失值小于或等于第一预设损失阈值时，判定该声音信息为标签向量对应的说话人发出。第一预设损失阈值可根据目标特征向量与标签向量之间的损失值的误差值进行设置，第一预设损失阈值标识目标特征向量与标签向量之间的损失值在允许的误差范围内。

当损失值大于第二预设损失阈值时，判定该声音信息不是标签向量对应的说话人发出。第二预设损失阈值大于或等于第二预设损失阈值。

可选地，在说话人可通过语音控制指令控制终端的应用场景中，为了保护用户隐私，在s104之后，还可以包括：当所述身份识别结果为验证通过时，响应来自所述目标声音信息对应的说话人的语音控制指令，并执行所述语音控制指令对应的预设操作。

终端在确认身份识别结果为验证通过时，判定输入目标声音信息的用户为合法用户，采用语音识别技术识别该目标声音信息对应的说话人的语音控制指令，并响应该语音控制指令，获取与该语音控制指令匹配的处理流程，按匹配的处理流程进行处理，从而执行该语音控制指令对应的预设操作。

请参见图2，图2是本发明另一实施例提供的一种识别说话人的方法的实现流程图。本实施例中识别说话人的方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。本实施例的识别说话人的方法包括以下步骤：

s201：获取待识别的目标声音信息。

本实施例中s201与上一实施例中s101相同，具体请参阅上一实施例中s101的相关描述，此处不赘述。

s202：使用预设的神经网络模型对所述目标声音信息进行处理，提取所述目标声音信息的目标特征向量；其中，所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到，在训练过程中，所述神经网络模型的输入为所述声音样本集的声音信息，所述神经网络模型的输出为所述声音样本对应的身份识别结果。

本实施例中s202与上一实施例中s102相同，具体请参阅上一实施例中s102的相关描述，此处不赘述。

s203：使用所述神经网络模型对所述目标特征向量进行处理，计算所述目标特征向量与所述标签向量之间的余弦相似度；其中，所述余弦相似度用于标识所述目标特征向量与所述标签向量之间的相似度。

终端将在全连接层整合得到的目标特征向量输入损失函数层，根据正弦定理和/或余弦定理计算目标特征向量与全连接层的权重向量w之间的角度，之后，使用上述损失函数

将目标特征向量映射到超球面上得到第一特征向量，将标签向量映射到超球面上得到第二特征向量，之后，终端可以采用两个向量的夹角的余弦计算公式计算第一特征向量与第二特征向量之间的夹角的余弦值，得到余弦相似度。

两个向量的夹角的余弦计算公式为：

其中，a表示第一特征向量，b表示第二特征向量，a和b是两个三维向量，因此，上式中n＝3，a是[a1，a2，a3]，b是[b1，b2，b3]。

a与b的余弦值越接近1，就表明夹角越接近0度，也就是a与b这两个向量越相似。

进一步地，为了提高识别结果的准确度，s203可以包括：

s2031：使用所述神经网络模型将所述目标特征向量映射到超球面，得到第一特征向量，将所述标签向量映射到所述超球面得到第二特征向量。

终端将在全连接层整合得到的目标特征向量输入损失函数层，根据正弦定理和/或余弦定理计算目标特征向量与全连接层的权重向量w之间的角度，之后，使用上述损失函数将目标特征向量映射到超球面上得到第一特征向量x1，将标签向量映射到超球面上得到第二特征向量x2。

s2032：基于预设的余弦相似度公式计算所述第一特征向量与所述第二特征向量之间的余弦相似度；其中，所述余弦相似度公式如下：

s(x1，x2，a)指的是x1与x2之间的余弦相似度，x1为第一特征向量，x2为第一特征向量，x1、x2的值可以取任意实数，s的值的取值范围在(-1，1)之间，线性变换a是上对角矩阵，a^ta是正定的；线性变换a是由三元组(triplet)损失函数训练得到，三元组损失函数为：

da，p，n＝sa，p-sa，n

t是从所述声音样本集中收集的训练三元组集合，所述三元组集合包括锚(anchor)、所有和锚相同类别的正样本，多个和锚不同类别的负样本，负样本来自于除锚以外的其他人对应的声音信息，a、p、n均为三元组集合中的样本；sa，p和sa，n是相似度分数，sa，p是样本a和样本p之间的相似度，sa，n是样本a和样本n之间的相似度，da，p，n是sa，p和sa，n之间的差值。

余弦相似度用于标识目标特征向量与标签向量之间的角度损失以及距离损失。

s204：基于所述余弦相似度，确定所述目标声音信息对应的身份识别结果。

当余弦相似度以余弦值表示时，目标特征向量与标签向量之间的余弦值越接近1，判定目标向量与标签向量越相似。

当终端执行s2031～s2032得到余弦相似度时，目标特征向量与标签向量之间的余弦相似度越接近1，判定目标向量与标签向量越相似。

进一步地，s204可以包括：基于所述余弦相似度以及预设的相似度阈值，确定所述目标声音信息对应的身份识别结果。

具体地，终端在确认余弦相似度大于或等于预设相似度阈值时，判定该声音信息为标签向量对应的说话人发出；当余弦相似度小于预设相似度阈值时，判定该声音信息不是标签向量对应的说话人发出。

预设相似度阈值小于1且大于零，预设相似度阈值可根据目标特征向量与标签向量近似相等时所对应的夹角的余弦值进行设置，预设相似度阈值与1之间的差值的绝对值属于可接受的误差范围之内。可接受的误差范围由目标特征向量与标签向量近似相等时所对应的夹角的余弦值确定。

可选地，在说话人可通过语音控制指令控制终端的应用场景中，为了保护用户隐私，在s204之后，还可以包括：当所述身份识别结果为验证通过时，响应来自所述目标声音信息对应的说话人的语音控制指令，并执行所述语音控制指令对应的预设操作。

终端在确认身份识别结果为验证通过时，判定输入目标声音信息的用户为合法用户，采用语音识别技术识别该目标声音信息对应的说话人的语音控制指令，并响应该语音控制指令，获取与该语音控制指令匹配的处理流程，按匹配的处理流程进行处理，从而执行该语音控制指令对应的预设操作。语音控制指令包括但不限于解锁指令。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

请参阅图3，图3是本发明一实施例提供的一种终端的示意图。终端包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，终端3包括：

获取单元310，用于获取待识别的目标声音信息；

提取单元320，用于使用预设的神经网络模型对所述目标声音信息进行处理，提取所述目标声音信息的目标特征向量；其中，所述神经网络模型是通过使用机器学习算法对声音样本集进行训练得到，在训练过程中，所述神经网络模型的输入为所述声音样本集的声音信息，所述神经网络模型的输出为所述声音样本对应的身份识别结果；

损失值计算单元330，用于使用所述神经网络模型对所述目标特征向量进行处理，得到所述目标特征向量与标签向量之间的损失值，所述损失值包括角度损失值以及距离损失值；

识别单元340，用于基于所述损失值，确定所述目标声音信息对应的身份识别结果。

可选地，终端还可以包括：

余弦相似度计算单元350，用于使用所述神经网络模型对所述目标特征向量进行处理，计算所述目标特征向量与所述标签向量之间的余弦相似度；其中，所述余弦相似度用于标识特征向量与标签向量之间的相似度；

识别单元340还用于基于所述余弦相似度，确定所述目标声音信息对应的身份识别结果。

进一步地，余弦相似度计算单元350包括：

映射单元351：用于使用所述神经网络模型将所述目标特征向量映射到超球面，得到第一特征向量，将所述标签向量映射到所述超球面得到第二特征向量；

计算单元352，用于基于预设的余弦相似度公式计算所述第一特征向量与所述第二特征向量之间的余弦相似度；其中，所述余弦相似度公式如下：

s(x1，x2，a)指的是x1与x2之间的余弦相似度，x1为第一特征向量，x2为第一特征向量，x1，x2的值可以取任意实数，s的值的取值范围在(-1，1)之间，线性变换a是上对角矩阵，a^ta是正定的；线性变换a是由三元组损失函数训练得到，三元组损失函数为：

da，p，n＝sa，p-sa，n

t是从所述声音样本集中收集的三元组集合，所述三元组集合包括锚、所有和锚相同类别的正样本，多个和锚不同类别的负样本，负样本来自于除锚以外的其他人对应的声音信息，a、p、n均为三元组集合中的样本；sa，p和sa，n是相似度分数，sa，p是样本a和样本p之间的相似度，sa，n是样本a和样本n之间的相似度。

进一步地，识别单元340具体用于：基于所述余弦相似度以及预设的相似度阈值，确定所述目标声音信息对应的身份识别结果。

可选地，终端还可以包括：

响应单元360，用于当所述身份识别结果为验证通过时，响应来自所述目标声音信息对应的说话人的语音控制指令，并执行所述语音控制指令对应的预设操作。

图4是本发明另一实施例提供的一种终端的示意图。如图4所示，该实施例的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个终端的识别说话人的方法实施例中的步骤，例如图1所示的s101至s104。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各单元的功能，例如图3所示单元310至340功能。

示例性的，所述计算机程序42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端4中的执行过程。例如，所述计算机程序42可以被分割成获取单元、提取单元、损失值计算单元以及识别单元，各单元具体功能如上所述。

所述终端可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端4的示例，并不构成对终端4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端4的内部存储单元，例如终端4的硬盘或内存。所述存储器41也可以是所述终端4的外部存储终端，例如所述终端4上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。进一步地，所述存储器41还可以既包括所述终端4的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾雪丽;王健宗;肖京
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人