一种用户身份识别方法与流程

文档序号：37352125发布日期：2024-03-18 18:33阅读：31来源：国知局

本技术涉及音频识别，具体而言，涉及一种用户身份识别方法。

背景技术：

1、平凡发音是指在口语对话中时常出现的、受用户主观控制较弱的发音，比如“嗯”“喂”、清嗓子的声音等。平凡发音虽然不具有语义，但却蕴含着丰富的用户信息。因此在比如司法鉴定，无法获得完整语句等的情景下，能基于平凡发音对用户的身份进行识别。尽管平凡发音能体现用户声道的物理特性，但由于其发音时间短，平均时长多在0.5s之内，以及不具有语义，因此如果利用经由具有语义的语音音频训练得到的模型，对平凡发音的用户身份进行识别，性能将大幅度下降。

2、要建立高性能对平凡发音的用户身份进行识别的模型，平凡发音数据集是关键。但收集平凡发音数据集代价大，已有的平凡发音数据量通常有限，从而基于少量的平凡发音数据量训练得到的模型，对平凡发音的识别效果差，基于此，如何提高使用平凡发音识别用户身份时的识别效果是亟待解决的技术问题。

技术实现思路

1、本技术的实施例提供了一种用户身份识别方法，基于本技术提供的技术方案能提高使用平凡发音音频识别用户身份时的识别效果。

2、本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。

3、根据本技术实施例的第一方面，提供了一种用户身份识别方法，所述方法包括：获取预先构建的识别模型，所述识别模型包括串行连接的嵌入层模型和分类层；获取训练样本集，所述训练样本集包括第一训练样本子集和第二训练样本子集，所述第一训练样本子集包括具有语义的语音音频，所述第二训练样本子集包括不具有语义的平凡发音音频；将所述训练样本集输入所述识别模型，得到输出结果；根据所述输出结果，通过目标损失函数确定所述识别模型的损失值，所述目标损失函数包括交叉熵损失函数和设定的三元损失函数；基于所述损失值，反向更新所述识别模型的模型参数，得到一个新的识别模型，并返回执行所述获取训练样本集的步骤，直至所述识别模型收敛，得到目标识别模型；将所述目标识别模型中的嵌入层模型作为用户身份识别模型，并通过所述用户身份识别模型，对实时发音音频进行识别，以确定所述实时发音音频所属用户的身份。

4、在本技术的一些实施例中，基于前述方案，所述第一训练样本子集包括n个用户的语音音频，所述第二训练样本子集包括m个用户的平凡发音音频；所述第一训练样本子集中每个用户有两个语音音频；所述第二训练样本子集中每个用户有一个平凡发音音频；所述第一训练样本子集还包括用于标识所述语音音频所属用户的用户标签，n大于或等于m，n和m均为正整数。

5、在本技术的一些实施例中，基于前述方案，所述目标损失函数的表达式如下：

6、

7、其中，其中，l表示所述目标损失函数；lce表示所述交叉熵损失函数，ltriplet表示所述三元损失函数；n表示所述第一训练样本子集对应的用户数量；i表示所述第一训练样本子集中第i个语音音频；j表示所述n个用户中的第j个用户。

8、在本技术的一些实施例中，基于前述方案，所述交叉熵损失函数的表达式如下：

9、

10、其中，c表示所述第i个语音音频对应的用户标签；表示由所述分类层输出的所述第i个语音音频属于c的概率。

11、在本技术的一些实施例中，基于前述方案，所述输出结果中包括由所述嵌入层模型输出的与所述第一训练样本子集中的各个语音音频对应的向量，以及由所述嵌入层模型输出的与所述第二训练样本子集中的各个平凡发音音频对应的向量，所述设定的三元损失函数的表达式如下：

12、

13、其中，wp表示第一权重；表示所述输出结果中与所述第j个用户的第一个语音音频对应的向量；表示所述输出结果中与所述第j个用户的第二个语音音频对应的向量；wn表示第二权重；表示所述输出结果中与所述第一个语音音频的目标负样本对应的向量；m表示所述第一训练样本子集中正样本与负样本之间的距离参数。

14、在本技术的一些实施例中，基于前述方案，所述方法还包括：如果与x(2)之间的余弦相似度大于第一阈值，且与x(2)之间的余弦相似度大于所述第一阈值，则将所述第一权重确定为1，x(2)表示所述输出结果中与任意一个平凡发音音频对应的向量；如果与x(2)之间的余弦相似度均小于或等于所述第一阈值，或者与x(2)之间的余弦相似度均小于或等于所述第一阈值，则将所述第一权重确定为0。

15、在本技术的一些实施例中，基于前述方案，所述方法还包括：如果与x(2)之间的余弦相似度大于第一阈值，则将所述第二权重确定为1，x(2)表示所述输出结果中与任意一个平凡发音音频对应的向量；如果与x(2)之间的余弦相似度均小于或等于所述第一阈值，则将所述第二权重确定为0。

16、在本技术的一些实施例中，基于前述方案，所述方法还包括：从所述第一训练样本子集中确定与所述第一个语音音频对应的负样本，作为候选负样本；计算与各个候选负样本对应的向量之间的第一余弦相似度；按照第一余弦相似度从高到低的排序顺序，从各个所述候选负样本中选定第一余弦相似度排序靠前的至少一个候选负样本；从所述至少一个候选负样本中确定所述目标负样本。

17、在本技术的一些实施例中，基于前述方案，所述从所述至少一个候选负样本中确定所述目标负样本，包括：确定所述至少一个候选负样本中各个候选负样本对应的向量与x(2)之间的第二余弦相似度，x(2)表示所述输出结果中与任意一个平凡发音音频对应的向量；如果所述至少一个候选负样本中存在第二余弦相似度大于第一阈值的候选负样本，则从所述第二余弦相似度大于第一阈值的候选负样本中确定所述目标负样本；如果所述至少一个候选负样本中不存在第二余弦相似度大于所述第一阈值的候选负样本，则从所述至少一个候选负样本中确定所述目标负样本。

18、在本技术的一些实施例中，基于前述方案，所述通过所述用户身份识别模型，对实时发音音频进行识别，以确定所述实时发音音频所属用户的身份，包括：获取实时发音音频；如果所述实时发音音频中包含平凡发音音频，则将所述实时发音音频输入所述用户身份识别模型，得到第一向量；确定所述第一向量与第二向量之间的目标余弦相似度，所述第二向量为通过将注册用户的平凡发音音频输入所述用户身份识别模型得到的向量；如果所述目标余弦相似度大于第二阈值，则确定所述实时发音音频所属用户与所述注册用户为同一用户。

19、根据本技术实施例的第二方面，提供了一种用户身份识别装置，所述装置包括：第一获取单元，用于获取预先构建的识别模型，所述识别模型包括串行连接的嵌入层模型和分类层；第二获取单元，用于获取训练样本集，所述训练样本集包括第一训练样本子集和第二训练样本子集，所述第一训练样本子集包括具有语义的语音音频，所述第二训练样本子集包括不具有语义的平凡发音音频；输出单元，用于将所述训练样本集输入所述识别模型，得到输出结果；第一确定单元，用于根据所述输出结果，通过目标损失函数确定所述识别模型的损失值，所述目标损失函数包括交叉熵损失函数和设定的三元损失函数；更新单元，用于基于所述损失值，反向更新所述识别模型的模型参数，得到一个新的识别模型，并返回执行所述获取训练样本集的步骤，直至所述识别模型收敛，得到目标识别模型；第二确定单元，用于将所述目标识别模型中的嵌入层模型作为用户身份识别模型，并通过所述用户身份识别模型，对实时发音音频进行识别，以确定所述实时发音音频所属用户的身份。

20、根据本技术实施例的第三方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如上述第一方面任一项所述的方法所执行的操作。

21、根据本技术实施例的第四方面，提供了一种电子设备，包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如上述第一方面任一项所述的方法所执行的操作。

22、本技术的技术方案，首先，获取预先构建的包括串行连接的嵌入层模型和分类层的识别模型；其次，获取训练样本集，所述训练样本集包括第一训练样本子集和第二训练样本子集，所述第一训练样本子集包括具有语义的语音音频，所述第二训练样本子集包括不具有语义的平凡发音音频；再次，将所述训练样本集输入所述识别模型，得到输出结果；再次，根据所述输出结果，通过包括交叉熵损失函数和设定的三元损失函数的目标损失函数，确定所述识别模型的损失值；再次，基于所述损失值，反向更新所述识别模型的模型参数，得到一个新的识别模型，并返回执行所述获取训练样本集的步骤，直至所述识别模型收敛，得到目标识别模型；最后，将所述目标识别模型中的嵌入层模型作为用户身份识别模型，并通过所述用户身份识别模型，对实时发音音频进行识别，以确定所述实时发音音频所属用户的身份。

23、由此可见，本技术在训练用于识别平凡发音音频的用户身份的用户身份识别模型的过程中，是基于样本数据量有限的平凡发音音频，同时结合样本数据量大的语音音频，对识别模型进行训练得到的，在识别模型的训练过程中采用含有交叉熵损失函数和设定的三元损失函数的目标损失函数进行损失值计算，由于交叉熵损失函数能保证训练得到的用户身份识别模型的区分性，设定的三元损失函数能着重提高平凡发音音频与相似的语音音频的区分性，进而解决了现有技术中利用仅采用语音音频训练得到的模型，对平凡发音用户身份进行识别时存在识别效果差的问题，以及利用仅采用平凡发音数据训练得到的模型，对平凡发音用户身份进行识别时也存在识别效果差的问题，因此，基于本技术的技术方案训练得到的用户身份识别模型，能提升使用平凡发音音频识别用户身份时的识别效果。

24、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李郡,尚德龙,周玉梅
技术所有人：中科南京智能技术研究院
我是此专利的发明人

上一篇：多功能可视化仪器的制作方法
上一篇：多媒体播放报告的生成方法、装置、设备及介质与流程