1.一种模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括多个音频数据;
设置神经网络模型训练时所使用的损失函数;
基于每个所述音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型;
所述损失函数包括第一损失函数和第二损失函数,所述第一损失函数为基于特征角度进行分类的损失函数,所述第二损失函数为区分类间和类内的损失函数。
2.如权利要求1所述的模型训练方法,其特征在于,所述损失函数的表达式为:ltotal=αlaam+βlcos
其中,
ltotal表示损失函数,laam表示第一损失函数,lcos表示第二损失函数,α表示laam的权重,β表示lcos的权重,n表示训练样本的数量,s表示余弦距离的放缩因子超参数,m表示间隔距离,i表示第i个训练样本,yi表示第i个训练样本对应的标签,θyi表示第i个训练样本和第i个标签的夹角,θj表示第j个训练样本与第j个标签的夹角。
3.如权利要求1所述的模型训练方法,其特征在于,所述神经网络模型包括3层卷积层、9层残差链接层、3层se-block层、attentionpooling层和affine层;每层所述卷积层与3层残差链接层以及1层se-block层进行结合组成15层神经网络。
4.如权利要求1所述的模型训练方法,其特征在于,所述获取训练样本的步骤之后,所述模型训练方法还包括:
对每个音频数据进行数据增强处理;
对每个数据增强后的音频数据进行噪音去除处理,以得到每个去除噪音后的音频数据;
所述基于每个所述音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型的步骤具体包括:
基于所述每个去除噪音后的音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型。
5.一种模型训练系统,其特征在于,包括第一获取模块、设置模块和训练模块;
所述第一获取模块用于获取训练样本,所述训练样本包括多个音频数据;
所述设置模块用于设置神经网络模型训练时所使用的损失函数;
所述训练模块用于基于每个所述音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型;
所述损失函数包括第一损失函数和第二损失函数,所述第一损失函数为基于特征角度进行分类的损失函数,所述第二损失函数为区分类间和类内的损失函数。
6.如权利要求5所述的模型训练系统,其特征在于,所述损失函数的表达式为:ltotal=αlaam+βlcos
其中,
ltotal表示损失函数,laam表示第一损失函数,lcos表示第二损失函数,α表示laam的权重,β表示lcos的权重,n表示训练样本的数量,s表示余弦距离的放缩因子超参数,m表示间隔距离,i表示第i个训练样本,yi表示第i个训练样本对应的标签,θyi表示第i个训练样本和第i个标签的夹角,θj表示第j个训练样本与第j个标签的夹角。
7.如权利要求5所述的模型训练系统,其特征在于,所述神经网络模型包括3层卷积层、9层残差链接层、3层se-block层、attentionpooling层和affine层;每层所述卷积层与3层残差链接层以及1层se-block层进行结合组成15层神经网络。
8.如权利要求5所述的模型训练系统,其特征在于,所述模型训练系统还包括第一处理模块和第二处理模块;
所述第一处理模块用于对每个音频数据进行数据增强处理;
所述第二处理模块用于对每个数据增强后的音频数据进行噪音去除处理,以得到每个去除噪音后的音频数据;
所述训练模块具体用于基于所述每个去除噪音后的音频数据以及所述损失函数对所述神经网络模型进行模型训练,以得到声纹识别模型。
9.一种用户识别方法,其特征在于,包括:
获取进线用户的音频数据和所述音频数据对应的标识信息;
提取所述音频数据的声纹特征;
将所述声纹特征输入声纹识别模型,得到第一声纹特征向量,所述声纹识别模型利用上述权利要求1-4中任一项所述的模型训练方法训练得到;
从声纹数据库中获取所述标识信息对应的第一历史声纹特征向量;
计算所述第一声纹特征向量与所述第一历史声纹特征向量的第一相似度得分;
若所述第一相似度得分大于相似度阈值,则确定所述进线用户与所述第一历史声纹特征向量对应的用户为同一个人。
10.如权利要求9所述的用户识别方法,其特征在于,所述提取所述音频数据的声纹特征的步骤之前,所述用户识别方法还包括:
对所述进线用户的音频数据进行编码转换,以得到编码转换后的音频数据;
对所述编码转换后的音频数据进行音频切割及噪音去除处理;
拼接音频切割及噪音去除后的音频数据;
所述提取所述音频数据的声纹特征的步骤具体包括:
提取拼接后的音频数据的声纹特征。
11.如权利要求9所述的用户识别方法,其特征在于,若所述第一相似度得分大于所述相似度阈值,则确定所述进线用户与所述第一历史声纹特征向量对应的用户为同一个人的步骤之后,所述用户识别方法还包括:
计算所述第一声纹特征向量对应的音频数据与所述第一历史声纹特征向量对应的音频数据的音频质量得分;
将音频质量得分高的声纹特征向量更新至所述声纹数据库中;
和/或,
所述用户识别方法还包括:
若所述第一相似度得分不大于所述相似度阈值,则判断所述声纹数据库中是否有所述标识信息对应的第二历史声纹特征向量,若有,则计算所述第一声纹特征向量与所述第二历史声纹特征向量的第二相似度得分,在所述第二相似度得分大于所述相似度阈值时,将所述声纹数据库中的所述第一历史声纹特征向量替换为所述第二历史声纹特征向量。
12.一种用户识别系统,其特征在于,包括第二获取模块、提取模块、第三获取模块、第四获取模块、第一计算模块和确定模块;
所述第二获取模块用于获取进线用户的音频数据和所述音频数据对应的标识信息;
所述提取模块用于提取所述音频数据的声纹特征;
所述第三获取模块用于将所述声纹特征输入声纹识别模型,得到第一声纹特征向量,所述声纹识别模型利用上述权利要求5-8中任一项所述的模型训练系统训练得到;
所述第四获取模块用于从声纹数据库中获取所述标识信息对应的第一历史声纹特征向量;
所述第一计算模块用于计算所述第一声纹特征向量与所述第一历史声纹特征向量的第一相似度得分;
所述确定模块用于若所述第一相似度得分大于相似度阈值,则确定所述进线用户与所述第一历史声纹特征向量对应的用户为同一个人。
13.如权利要求12所述的用户识别系统,其特征在于,所述用户识别系统还包括转换模块、第三处理模块和拼接模块;
所述转换模块用于对所述进线用户的音频数据进行编码转换,以得到编码转换后的音频数据;
所述第三处理模用于对所述编码转换后的音频数据进行音频切割及噪音去除处理;
所述拼接模块用于拼接音频切割及噪音去除后的音频数据;
所述提取模块具体用于提取拼接后的音频数据的声纹特征。
14.如权利要求12所述的用户识别系统,其特征在于,所述用户识别系统还包括第二计算模块和存储模块;
所述第二计算模块用于计算所述第一声纹特征向量对应的音频数据与所述第一历史声纹特征向量对应的音频数据的音频质量得分;
所述存储模块用于将音频质量得分高的声纹特征向量更新至所述声纹数据库中;
和/或,
所述用户识别系统还包括判断模块、第三计算模块和替换模块;
所述判断模块用于若所述第一相似度得分不大于所述相似度阈值,则判断所述声纹数据库中是否有所述标识信息对应的第二历史声纹特征向量,若有,则调用所述第三计算模块;
所述第三计算模块用于计算所述第一声纹特征向量与所述第二历史声纹特征向量的第二相似度得分;
所述替换模块用于在所述第二相似度得分大于所述相似度阈值时,将所述声纹数据库中的所述第一历史声纹特征向量替换为所述第二历史声纹特征向量。
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的模型训练方法,或执行如权利要求9-11中任一项所述的用户识别方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的模型训练方法,或执行如权利要求9-11中任一项所述的用户识别方法。