基于深度学习的声纹识别模型构建及识别方法与流程

文档序号：42296371发布日期：2025-06-27 18:34阅读：164来源：国知局

本发明涉及深度学习和人工智能，具体地说涉及基于深度学习的声纹识别模型构建及识别方法。

背景技术：

1、随着生物特征认证技术的快速发展，声纹识别凭借其独特的优势正日益成为身份认证领域的重要技术手段。作为一种基于语音信号的行为特征认证方式，声纹识别不仅具备非接触、低成本、高便捷性的特点，还因其生物特征的复杂性和动态性而具有较高的防伪安全性。相较于其他人脸、指纹等生物特征，声纹识别在采集便利性、用户隐私保护和系统部署成本等方面展现出显著优势。该技术通过深度学习模型提取语音信号中的个性化特征，将说话人的声学特性映射为固定维度的嵌入向量，这种端到端的特征表示方式有效提升了识别的准确性和可靠性。在模型优化方面，研究者们开发了多种改进的损失函数来增强特征的判别能力，同时采用语音噪声增广技术，通过在训练阶段模拟各种噪声和混响环境，显著提升了系统在真实复杂场景下的鲁棒性。

2、目前，声纹识别技术在实际应用中仍面临诸多挑战：环境噪声会显著干扰语音信号质量，尤其在嘈杂场景下系统识别性能明显下降；多说话人环境中的语音混叠问题增加了目标说话人分离与识别的难度；短语音条件下的有限声学特征使得说话人信息提取更具挑战性；不同录音设备和声学环境导致的特征分布差异影响了系统的跨场景鲁棒性；混响环境中的直达声与反射声混合降低了现有技术的识别准确率。此外，传统信号处理方法存在计算复杂度高、资源利用率低的问题，难以适应移动端部署需求；基于深度学习的方法虽然性能优越，但仍面临训练测试环境失配导致的泛化能力不足，以及模型复杂度与实时性要求的矛盾；端到端系统则受限于缺乏有效的声学先验知识嵌入，对复杂声学环境的适应能力有限，特别是在噪声、混响和多说话人同时存在的场景下表现欠佳。

3、现有技术中，如公开号cn114913860a，在数据处理与模型训练方面，通过生成对抗网络对小样本语音数据进行数据扩增，并将生成对抗网络模型的卷积层参数迁移至声纹识别模型，以加快训练收敛速率并提高准确率；在特征提取与模型结构方面，主要通过传统预处理方法进行特征提取，声纹识别模型与生成对抗网络模型的卷积层结构相同；在损失函数与优化方法方面，主要通过更新网络参数进行优化；在系统架构与应用场景方面，侧重于声纹识别模型的构建和训练过程，应用场景描述较宽泛。因此存在环境适应性不足，导致模型在复杂声学环境下的鲁棒性较差。如公开号kr102294638b1，核心技术则聚焦于使用基于深度神经网络的特征增强模型和修正的损失函数进行组合学习，以提高说话人识别在噪声环境中的鲁棒性，其创新点在于将特征增强模型与说话人特征向量提取模型结合，并通过联合学习优化整个系统。因此存在模型架构局限性，影响复杂声学特征的表达能力，联合学习机制可能较为简单，特征增强模型与特征提取模型的结合方式可能不够紧密。如公开号us12067989b2，提出了一种基于深度神经网络的特征增强与改进损失函数的组合学习方法。该方法通过联合训练特征增强模型和说话人特征向量提取模型，优化整体性能。特征增强模型通过最小化均方误差(mse)学习，将劣化语音数据的声学特征转换为干净语音数据的声学特征。说话人特征向量提取模型采用x向量模型，通过时延神经网络(tdnn)层提取说话人相关信息，并在统计特征提取层计算均值和标准差，生成固定长度的说话人特征向量。在联合训练中，通过修改损失函数，从目标说话人的输出值中减去特定常数值的余量，增加说话人的后验概率，从而提高模型在噪声环境下的识别性能。因此在特征增强方法的局限性，限制了复杂声学特征的表达能力，模型复杂度可能难以满足低功耗设备的部署需求。如公开号wo2020204525a1，侧重于特征增强与修正损失函数的组合学习方法。其核心在于将基于深度神经网络的特征增强模型与说话人特征向量提取模型相结合，通过联合学习优化整体性能。特征增强模型通过最小化均方误差学习，将劣化语音数据的声学特征转换为干净语音数据的声学特征。说话人特征向量提取模型则采用x向量模型，通过时延神经网层提取与说话人相关的信息，并在统计特征提取层计算均值和标准差，生成固定长度的说话人特征向量。在联合学习过程中，通过修改损失函数，即从目标说话者的输出值中减去特定常数值的余量，来增加说话者的后验概率，从而提高模型在噪声环境下的识别性能。因此存在信号预处理局限性，无法有效处理非线性失真和复杂声学干扰，模型收敛性和泛化能力受限，仅聚焦特征增强模块，缺乏从信号预处理到特征提取的端到端优化。

技术实现思路

1、本发明解决上述声纹识别过程中，因在混响环境下的识别准确度低、计算资源受限、无法满足实时性要求等问题。提出基于深度学习的声纹识别模型构建及识别方法，通过结合卷积神经网络、循环神经网络和长短期记忆网络等端到端模型，实现了声纹特征的有效提取和身份的准确识别，解决了以上技术问题，特别是在混响和噪声环境下的性能下降等问题。技术方案如下：

2、方案一。

3、基于深度学习的声纹识别模型构建方法，包括以下步骤：

4、s1，输入原始语音信号，通过噪声增广与预处理，输出频谱图；

5、s2，将所述频谱图依次通过浅层物理特征、中层声道特征及深层嵌入特征的多层次特征提取，生成说话人第一嵌入特征；

6、s3，将所述说话人第一嵌入特征输入混合神经网络，提取局部特征信息与时序依赖关系，生成全局的语音特征表示；

7、s4，将所述语音特征表示通过特征增强网络与说话人嵌入网络，生成说话人第二嵌入特征；

8、s5，对所述说话人第二嵌入特征进行损失函数联合优化的模型训练，将网络划分为不同区域，通过异步子区域优化方法协调不同损失函数对网络优化的影响，优化增强网络层获得最小化去噪误差的网络参数，优化说话人嵌入网络层获得最大化身份区分度的网络参数。

9、进一步地，s1步骤中所述噪声增广包括：

10、从噪声数据库中随机选择噪声信号，从加混响数据库中随机选择混响信号；将所述噪声信号与所述混响信号结合，生成具有不同混响特性的噪声样本；将所述噪声样本与原始语音信号进行叠加，生成带噪语音数据。

11、进一步地，s1步骤中所述预处理包括：对原始语音信号或噪声增广后的带噪语音数据至少进行分帧、加窗操作；

12、将语音信号分割成固定长度的帧，对每一帧信号进行加窗处理；将预处理后的语音信号转换为频谱图。

13、进一步地，s2步骤中所述浅层物理特征提取包括：提取所述频谱图，将时域信号转换为频域信号，计算每一帧的幅度谱生成频谱图，同时计算语音信号的短时能量。

14、进一步地，s2步骤中所述中层声道特征提取包括：提取发声部位信息，通过分析语音信号的频谱特性推断发声部位信息，计算lpc线性预测系数，提取共振峰频率与带宽参数。

15、进一步地，s2步骤中所述深层嵌入特征提取包括：构建多层神经网络结构，使用非线性激活函数引入非线性因素，网络学习特征映射关系，在网络的输出层生成所述说话人第一嵌入特征；

16、所述多层神经网络结构包括：全连接层与卷积层。

17、进一步地，s3步骤包括：

18、s31，卷积神经网络从频谱图中提取局部模式，识别包括韵律和共振峰特征；和/或

19、s32，循环神经网络或长短期记忆网络在s31步骤的基础上捕捉语音信号中时间步之间的依赖关系，生成全局的语音特征表示。

20、进一步地，s4步骤包括：

21、s41，所述特征增强网络对输入的所述语音特征进行去噪、去混响处理，生成增强特征；

22、s42，将所述增强特征输入到所述说话人嵌入网络，通过深层卷积操作提取区分性特征，生成所述说话人第二嵌入特征。

23、进一步地，所述说话人第二嵌入特征的判别能力大于所述说话人第一嵌入特征。

24、方案二。

25、基于深度学习的声纹识别方法，包括：使用方案一所述的声纹识别模型，执行以下步骤：

26、s1.语音信号预处理：将原始语音信号转化为模型可处理的输入格式，端到端映射至说话人标签；所述原始语音信号包括：短语、关键词或连续语音片段；

27、s2.深层特征提取网络：通过深度神经网络对所述语音信号进行多层次特征提取，生成说话人嵌入特征；

28、s3.将所述说话人嵌入特征与预存数据库中的身份标签进行匹配，输出用户身份验证结果；

29、其中，所述多层次特征提取包括：浅层物理特征、中层声道特征及深层嵌入特征。

30、本发明具有如下有益效果：

31、1、本发明所述基于深度学习的声纹识别模型构建及识别方法，通过实时选择噪声数据进行加噪和加混响处理，能够有效模拟真实环境中的各种噪声条件，增强模型对复杂环境的适应能力。该方法提高了模型对背景噪声和混响的适应能力，显著提升了在嘈杂环境下的识别准确率；结合了卷积神经网络、循环神经网络和长短期记忆网络等多种深度学习模型，充分利用其特征提取能力，能够提取更深层次的声纹特征。这种多模型融合的方式相比于传统的单一模型，能够更好地捕捉复杂的语音特征；引入了区分性损失函数，并采用特征增强网络和说话人嵌入网络的联合训练框架，能够更有效地优化样本间的相似性和差异性，从而提高了模型的区分能力，提升声纹识别系统的鲁棒性和准确性灵活的系统架构，简化了用户交互流程，提高了系统的可靠性和灵活性。只需提供必要的参数，无需直接面对复杂的解码器。

32、2、本发明所述基于深度学习的声纹识别模型构建及识别方法，通过模型优化、鲁棒性提升与实时性保证，当前说话人识别系统在复杂环境下实现了高效的端到端识别。模型优化方面，采用基于特征增强网络和说话人嵌入网络，降低了计算复杂度和存储需求，使模型能够在低功耗设备上高效运行。为了提升系统的鲁棒性，在训练阶段引入实时噪声语音增广技术，从噪声数据库随机选取噪声样本并结合加混响，对原始音频实时加噪，增强模型对复杂环境的适应能力。同时，采用特征增强网络与说话人验证网络的联合训练框架，通过最小均方误差优化增强网络，并利用说话人损失函数优化嵌入网络和增强网络的特定模块，提升模型的去噪能力与识别精度。

33、3、本发明所述基于深度学习的声纹识别模型构建及识别方法，针对增强损失和说话人损失的梯度差异，使用异步子区域优化方法分别更新网络不同区域，有效解决优化方向冲突。此外，在联合训练中引入特征连接技术，将原始特征与增强特征在通道维度连接，既保留原始信号的精细结构，又从增强特征中学习去噪，避免了高信噪比场景下的伪像和失真。此优化措施不仅减轻了网络实体负荷，还提高了系统在复杂环境下的鲁棒性与识别准确度，同时通过异步更新与特征连接技术确保系统满足实时性需求。

34、4、本发明所述基于深度学习的声纹识别模型构建及识别方法，提供一种在混响和噪声环境下依然能够保持高准确度的声纹识别系统。该系统拥有高效的计算性能，资源占用低，系统经过优化，能够在实际应用中高效运行，特别适用于资源受限的设备，及需要快速、准确身份验证的场景。例如移动设备或嵌入式系统，并能够在低计算力的平台上实现端到端的声纹识别与语音识别，同时确保反馈时间小于1秒。使得该系统非常适合需要快速、准确身份验证的应用场景，如移动设备解锁、远程身份验证、安全访问控制系统等。能够在多种设备上实现，包括移动设备和嵌入式系统。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈忠晨,张雅玲,郭锋
技术所有人：福建新大陆自动识别技术有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！