声纹的识别方法、存储介质及电子装置与流程

文档序号：37259561发布日期：2024-03-12 20:37阅读：8来源：国知局

本申请涉及智能家居/智慧家庭，具体而言，涉及一种声纹的识别方法、存储介质及电子装置。

背景技术：

1、目前，随着人工智能的发展，将神经网络模型应用到音频识别是相关领域的重要研究方向。

2、在智能语音对话系统中，声纹的识别及应用越来越广泛，针对大多数较好发音的音频数据(例如，发音较为标准的普通话音频、声音较大的音频)，现有技术中的神经网络模型可以有较好的识别结果，但是对于部分音频(例如，地方语言、发音较小的音频、环境较为嘈杂的音频)，或跨信道的设备，现有技术中的神经网络模型的音频识别准确率较低。

3、针对上述问题，目前尚未存在有效的解决方案。

技术实现思路

1、本发明实施例提供了一种声纹的识别方法、存储介质及电子装置，以至少解决现有技术中音频识别准确率较低的问题。

2、根据本发明的一个实施例，提供了一种声纹的识别方法，包括：获取待识别音频数据；将所述待识别音频数据输入目标神经网络模型的时间延迟神经网络tdnn，得到第一特征数组；将第一特征数组输入所述目标神经网络模型的声源分离神经网络，得到所述待识别音频数据的声纹识别结果；其中，所述目标神经网络模型是使用样本音频数据集中的样本音频数据对待训练的神经网络模型进行多轮迭代训练得到的，所述目标神经网络模型输出的预测标签与输入的样本音频数据的已知标签之间的梯度调和机制ghm损失值满足ghm损失条件，所述ghm损失值是根据所述样本音频数据的梯度模长和梯度密度得到的。

3、在一个示例性实施例中，所述将第一特征数组输入所述目标神经网络模型的声源分离神经网络，得到所述待识别音频数据的声纹识别结果，包括：将所述第一特征数组输入所述声源分离神经网络的自注意力机制，得到第二特征数组；将所述第二特征数组输入所述声源分离神经网络的长短期记忆神经网络lstm编码器、lstm解码器，以及sigmoid函数，得到所述待识别音频数据的所述声纹识别结果。

4、在一个示例性实施例中，所述将所述第二特征数组输入所述声源分离神经网络的长短期记忆神经网络lstm编码器、lstm解码器，以及sigmoid函数，得到所述待识别音频数据的所述声纹识别结果，包括：将所述第二特征数组输入所述lstm编码器，得到第三特征数组；将所述第三特征数组与所述lstm解码器的吸引子进行乘积运算，得到第四特征数组；将所述第四特征数组输入所述sigmoid函数，得到所述待识别音频数据的所述声纹识别结果。

5、在一个示例性实施例中，在所述将所述待识别音频数据输入目标神经网络模型之前，所述方法还包括：获取样本音频数据集，以及所述样本音频数据集中每个样本音频数据的已知标签；使用所述样本音频数据集对待训练的神经网络模型进行多轮迭代训练，若所述神经网络模型输出的预测标签与输入的样本音频数据的已知标签满足所述ghm损失条件，结束训练得到所述目标神经网络模型，否则调整所述神经网络模型的模型参数继续训练。

6、在一个示例性实施例中，使用所述样本音频数据集对待训练的神经网络模型进行多轮迭代训练中的第i轮训练，其中，i大于或等于1，第0轮训练得到的神经网络模型为未经训练的所述待训练的神经网络模型，包括：将所述样本音频数据集中第i轮使用的样本音频数据输入第i-1轮训练得到的神经网络模型，得到第i轮使用的样本音频数据的预测标签；判断所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签之间是否满足所述ghm损失条件；若满足所述ghm损失条件结束训练，得到所述目标神经网络模型；若不满足所述ghm损失条件继续第i+1轮训练。

7、在一个示例性实施例中，所述将所述样本音频数据集中第i轮使用的样本音频数据输入第i-1轮训练得到的神经网络模型，得到第i轮使用的样本音频数据的预测标签，包括：将所述第i轮使用的样本音频数据输入所述第i-1轮训练得到的神经网络模型的时间延迟神经网络tdnn，得到第一样本特征数组；将所述第一样本特征数组输入所述第i-1轮训练得到的神经网络模型的声源分离神经网络，得到所述第i轮使用的样本音频数据的预测标签。

8、在一个示例性实施例中，判断所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签之间是否满足所述ghm损失条件，包括：根据所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签确定所述第i轮使用的样本音频数据的梯度模长；根据所述梯度模长确定所述第i轮使用的样本音频数据的梯度密度；根据所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签之间的交叉熵损失值、所述梯度密度确定所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签之间的ghm损失值；在所述ghm损失值小于或等于预设阈值的情况下，确定满足所述ghm损失条件，否则确定不满足所述ghm损失条件。

9、根据本发明的另一个实施例，提供了一种声纹的识别装置，包括：获取模块，用于获取待识别音频数据；第一输入模块，用于将所述待识别音频数据输入目标神经网络模型的时间延迟神经网络tdnn，得到第一特征数组；第二输入模块，用于将第一特征数组输入所述目标神经网络模型的声源分离神经网络，得到所述待识别音频数据的声纹识别结果；其中，所述目标神经网络模型是使用样本音频数据集中的样本音频数据对待训练的神经网络模型进行多轮迭代训练得到的，所述目标神经网络模型输出的预测标签与输入的样本音频数据的已知标签之间的梯度调和机制ghm损失值满足ghm损失条件，所述ghm损失值是根据所述样本音频数据的梯度模长和梯度密度得到的。

10、根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

11、根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

12、通过本发明，结合了时间延迟神经网络tdnn和声源分离神经网络对待识别音频数据进行音频识别，提高了音频识别的准确率。并且在模型训练过程中使用了ghm损失函数，ghm损失函数可以在样本数据量较小的情况下，提高模型训练的准确性。解决了现有技术中音频识别准确率较低的问题，达到了提高音频识别准确率的效果。

技术特征：

1.一种声纹的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一特征数组输入所述目标神经网络模型的声源分离神经网络，得到所述待识别音频数据的声纹识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第二特征数组输入所述声源分离神经网络的长短期记忆神经网络lstm编码器、lstm解码器，以及sigmoid函数，得到所述待识别音频数据的所述声纹识别结果，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，在所述将所述待识别音频数据输入目标神经网络模型之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，所述将所述样本音频数据集中第i轮使用的样本音频数据输入第i-1轮训练得到的神经网络模型，得到第i轮使用的样本音频数据的预测标签，包括：

7.根据权利要求5所述的方法，其特征在于，判断所述第i轮使用的样本音频数据的预测标签与所述第i轮使用的样本音频数据的已知标签之间是否满足所述ghm损失条件，包括：

8.一种声纹的识别装置，其特征在于，包括：

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。

技术总结
本申请公开了一种声纹的识别方法、存储介质及电子装置，涉及智能家居/智慧家庭技术领域，该方法包括：获取待识别音频数据；将待识别音频数据输入目标神经网络模型的时间延迟神经网络TDNN，得到第一特征数组；将第一特征数组输入目标神经网络模型的声源分离神经网络，得到待识别音频数据的声纹识别结果。

技术研发人员：朱文博
受保护的技术使用者：海尔优家智能科技（北京）有限公司
技术研发日：
技术公布日：2024/3/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱文博
技术所有人：海尔优家智能科技（北京）有限公司
我是此专利的发明人