一种基于深度学习的轻量化单通道声纹识别方法及系统

文档序号：34973070发布日期：2023-08-01 19:25阅读：120来源：国知局

本发明涉及单通道语音识别，尤其涉及一种基于深度学习的轻量化单通道声纹识别方法及系统。

背景技术：

1、当今信息社会在不断的发展，指纹识别、虹膜识别、人脸识别等生物识别技术逐渐占领了我们生活中的一部分，慢慢的改变了人们的生活，而在此时另一种生物识别技术：声纹识别逐渐出现在人们的视野当中；声纹识别技术是指通过对人的声音识别，验证某个人身份的技术，是一种新型的生物识别技术，此技术常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用、证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等，轻量化单通道声纹识别用于个性化应用、证券交易、银行交易等场景，此类场景需要简单的录音的设备以及更快的运算处理速度进行大量识别计算，轻量化模型在此类型场景凸显优势，神经网络轻量化设计的目标就是在低硬件条件的设备上仍然能保持良好的网络性能，需要保持较好的测试集准确率的前提下，解决储存空间和能耗对于神经网络性能的限制，现在国内与国外的声纹识别大部分追求准确高，轻量化的声纹识别模型目前较少现在国内与国外的声纹识别大部分追求准确高，轻量化的声纹识别模型目前较少，主流的模型有rawnet、sincnet、am-mobilenet和ecapa-tdnn等，这些主流模型参数量巨大，所需要的训练数据量也是非常的巨大。

技术实现思路

1、为了解决上述技术问题，本发明的目的是提供一种基于深度学习的轻量化单通道声纹识别方法及系统，能够在保持声纹识别模型的识别准确率的同时减少声纹识别模型的参数量，加快模型的识别速度。

2、本发明所采用的第一技术方案是：一种基于深度学习的轻量化单通道声纹识别方法，包括以下步骤：

3、对单通道语音输入数据进行预处理，得到语音梅尔频谱数据；

4、结合se残差模块和cbam注意力机制模块，基于语音梅尔频谱数据对轻量化声纹识别模型进行训练，得到训练后的轻量化声纹识别模型；

5、基于训练后的轻量化声纹识别模型进行单通道语音识别处理，得到识别结果。

6、进一步，所述对单通道语音输入数据进行预处理，得到语音梅尔频谱数据这一步骤，其具体包括：

7、获取预设时长的单通道语音输入数据；

8、根据预设数据比例，对单通道语音输入数据进行加入噪声和回响，得到语音信号数据；

9、根据预设时间间隔对语音信号数据进行采样处理，得到一维语音信号；

10、对一维语音信号进行预加重、分帧、加窗、短时傅里叶变换、取功率谱与取对数处理，得到语谱图；

11、将语谱图输入mel滤波器组进行相乘，得到语音梅尔频谱数据。

12、进一步，所述结合se残差模块和cbam注意力机制模块，基于语音梅尔频谱数据对轻量化声纹识别模型进行训练，得到训练后的轻量化声纹识别模型这一步骤，其具体包括：

13、将语音梅尔频谱数据输入至轻量化声纹识别模型，所述轻量化声纹识别模型包括卷积层、归一化层、se残差模块、cbam注意力机制模块和线性层；

14、基于卷积层，对语音梅尔频谱数据进行卷积处理，得到语音梅尔频谱特征数据；

15、基于归一化层，对语音梅尔频谱特征数据进行归一化处理，得到归一化后的语音梅尔频谱特征数据；

16、基于se残差模块，对归一化后的语音梅尔频谱特征数据进行残差处理，得到语音梅尔频谱残差数据；

17、基于cbam注意力机制模块，对语音梅尔频谱残差数据进行压缩处理，得到压缩后的语音梅尔频谱残差数据；

18、基于线性层，通过aam损失函数对压缩后的语音梅尔频谱残差数据进行线性处理，输出语音数据嵌入码，并得到训练后的轻量化声纹识别模型。

19、进一步，所述基于se残差模块，对归一化后的语音梅尔频谱特征数据进行残差处理，得到语音梅尔频谱残差数据这一步骤，其具体包括：

20、将归一化后的语音梅尔频谱特征数据输入至se残差模块，首先依次通过第一x通道的二维卷积层进行卷积处理，再通过第一relu激活函数进行激活处理，再进行第一二维批归一化进行归一化处理，得到第一待处理语音数据；

21、所述第一待处理语音数据再通过第二x通道的二维卷积层与第二二维批归一化处理，输出第二待处理语音数据；

22、所述第二待处理语音数据再依次通过二维自适应平均池化、线性层、relu激活函数、线性层和sigmoid激活函数进行处理，得到第三待处理语音数据；

23、将第二待处理语音数据与第三待处理语音数据进行相乘，再与归一化后的语音梅尔频谱特征数据进行相加，得到语音梅尔频谱残差数据。

24、进一步，所述基于cbam注意力机制模块，对语音梅尔频谱残差数据进行压缩处理，得到压缩后的语音梅尔频谱残差数据这一步骤，其具体包括：

25、将语音梅尔频谱残差数据输入至cbam注意力机制模块，所述cbam注意力机制模块包括通道注意力模块和空间注意力模块；

26、首先进入通道注意力模块，所述通道注意力模块包括左分支与右分支，所述左分支为先二维自适应最大池化，再经过线性层，再经过relu激活层，再经过线性层，再经过sigmoid激活层，得到左分支待处理语音数据；

27、右分支为先二维自适应平均池化，再经过线性层，再经过relu激活层，再经过线性层，再经过sigmoid激活层，得到右分支待处理语音数据；

28、将左分支待处理语音数据与右分支待处理语音数据进行相加后经过sigmoid激活层再与语音梅尔频谱残差数据进行相乘，得到通道注意力模块输出数据；

29、将通道注意力模块输出数据输入空间注意力模块，先对第二维度(即[b,c,h,w]对c维度进行操作，结果为[n,h,w])最大和平均，拼接后得到特征图，再经过7×7的二维卷积层，再进过sigmoid激活层，再与语音梅尔频谱残差数据进行相乘，最后得到压缩后的语音梅尔频谱残差数据。

30、进一步，所述aam损失函数的表达式具体如下所示：

31、

32、上式中，l7表示aam损失函数，s表示损失函数的规模值，m表示损失函数的边缘值，表示yi转换成的角度，yi表示第i个y向量，j表示从1开始到n，n表示说话人的总数量。

33、进一步，所述基于训练后的轻量化声纹识别模型进行单通道语音识别处理，得到识别结果这一步骤，其具体包括：

34、获取多个待识别的单通道语音数据；

35、将多个待识别的单通道语音数据输入至训练后的轻量化声纹识别模型，获取对应的语音数据嵌入码；

36、根据语音数据嵌入码进行两两配对计算余弦相似度，根据计算结果判断待识别的单通道语音数据是否为同一说话人，输出识别结果。

37、进一步，所述余弦相似度的计算公式具体如下所示：

38、

39、上式中，ai表示第一待识别的单通道语音数据a的第i个向量单位，bi表示第一待识别的单通道语音数据b的第i个向量单位，i的范围为1～n，a和b都是有n个向量单位。

40、本发明所采用的第二技术方案是：一种基于深度学习的轻量化单通道声纹识别系统，包括：

41、预处理模块，用于对单通道语音输入数据进行预处理，得到语音梅尔频谱数据；

42、训练模块，用于结合se残差模块和cbam注意力机制模块，基于语音梅尔频谱数据对轻量化声纹识别模型进行训练，得到训练后的轻量化声纹识别模型；

43、识别模块，基于训练后的轻量化声纹识别模型进行单通道语音识别处理，得到识别结果。

44、本发明方法及系统的有益效果是：本发明通过对获取到的单通道语音数据信息进行预处理，获取对应的语音梅尔频谱数据，进一步构建声纹识别模型，所述声纹识别模型包括se残差模块和cbam注意力机制，且在se残差模块之间加入了跳连接，se残差模块把语音数据的通道压缩在32通道上和通过cbam注意力机制将语音数据的嵌入码压缩在128维，能够在保持声纹识别模型的识别准确率的同时减少声纹识别模型的参数量，加快模型的识别速度。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱珍吴靖朱文博黎海兵张忠波陈建文王修才
技术所有人：佛山科学技术学院
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！