一种基于多尺度蒸馏的轻量化说话人识别方法

文档序号：42648257发布日期：2025-08-05 18:33阅读：53来源：国知局

本发明涉及语音信号处理与机器学习领域，具体涉及一种基于多尺度蒸馏的轻量化说话人识别方法。

背景技术：

1、近年来，基于自监督预训练的大模型(如wavlm、ecapa-tdnn)显著提升了说话人识别的性能。这些模型通过在无标注语音数据上学习通用表示，结合transformer或时延神经网络(tdnn)架构，能够有效提取高质量的说话人嵌入。然而，其庞大的参数量和计算复杂度使其难以部署于资源受限设备，如移动终端或嵌入式系统。为解决这一问题，知识蒸馏被广泛用于模型压缩，通过将教师模型的知识迁移至轻量级学生模型实现性能与效率的平衡。传统方法如kl散度蒸馏或余弦相似度对齐主要聚焦单样本层面的预测传递，但忽略了批量样本间相关性和类别间关系的建模，导致学生模型难以充分利用教师模型的全局知识。此外，单一温度缩放生成的软标签缺乏多样性，限制了学生模型在复杂场景(如噪声、语速变化)下的泛化能力，且高置信度预测可能引发过拟合问题。因此，需要一种新的技术方案，在保持识别性能的同时，实现高效的模型压缩与部署。

技术实现思路

1、本发明针对现有预训练大模型在说话人识别任务中的高计算复杂度、难以部署及传统知识蒸馏方法仅关注单一层面对齐而未能充分利用教师模型深层知识的问题，提出了一种基于多尺度蒸馏的轻量化说话人识别方法。本方法充分该方法利用预训练教师模型特征，并通过温度池、非对称温度缩放及多尺度对齐策略，实现从庞大的参数量和较高的计算复杂度教师模型向轻量化学生模型的高效知识迁移，包括以下步骤：

2、s1:特征提取：将预处理后的音频利用窗口提取80维滤波器组特征作为学生模型输入，并在训练过程中随机叠加噪声或者混响；同时将每一条音频数据输入到教师模型，该教师模型基于预训练的自监督学习语音表示网络和时延神经网络，对语音特征进行深度建模，提取高维语音表示及预测logits，并作为后续知识蒸馏过程中学生模型学习的目标分布，以实现有效的知识迁移；

3、s2:预测增强机制：

4、s2-1温度池构造：采用多个不同温度参数t0，t1，...，tk对教师模型的logits进行不同程度的平滑处理，生成多个不同平滑度的预测分布，多样化的输出使学生模型能够学习到更丰富的类别信息，提高其泛化能力；

5、s2-2非对称温度缩放：对正确类别和错误类别分别采用不同的温度参数，对正确类别应用较高温度降低其logits的绝对优势，防止学生模型过度依赖高置信度类别，对错误类别应用较低温度保持类别间的相对置信度差异，优化类别判别能力；

6、s3:多尺度对齐策略：

7、s3-1单样本级对齐：最小化教师模型与学生模型在不同温度参数tk下的预测分布之间的kullback-leibler(kl)散度，确保学生模型能够充分学习教师模型提供的单样本层面的类别置信度信息，训练中该部分损失为lsingle；

8、s3-2批量样本级对齐：计算批量样本在不同温度参数tk下预测分布的gram矩阵，并最小化教师模型与学生模型在该矩阵上的frobenius范数差异，以保持样本间的相关性信息，从而强化同一说话人语音片段间的相似性，并提升不同说话人样本间的区分度，训练中该部分损失为lbatch；

9、s3-3类别层面对齐：构建类别相关性矩阵(class affinity matrix,cam)，用于描述不同说话人类别在特征空间中的相似性和可区分性，并最小化教师模型与学生模型在类别相关性矩阵上的差异，以有效学习类别层面的分布信息，提高学生模型对复杂说话人结构的建模能力，训练中该部分损失为lclass；

10、s4联合优化与学生模型训练：对上述单样本、批量样本及类别层面对齐损失进行联合优化，并结合加性角间隔softmax(aam-softmax)分类损失函数进行学生模型训练，确保学生模型能够在较低计算复杂度和参数量的情况下复现教师模型的特征提取能力和判别性能，实现轻量化部署。

11、所述s1将输入语音数据进行预处理，随机裁剪为2秒的片段以确保模型输入数据的一致性和稳定性。

12、所述温度池由多个温度参数t0，t1，...，tk组成，每个温度参数均对教师模型的logits进行不同程度的缩放，以提供多个不同平滑度的预测分布，增强学生模型的泛化能力，并优化其对复杂场景下语音数据的适应性。

13、所述教师模型可包括wavlm、hubert等基于自监督学习的预训练模型，而所述学生模型可为resnet34、x-vector、ecapa-tdnn等轻量化神经网络模型，以适应不同计算资源受限场景的应用需求。

14、所述方法适用于多种数据集，包括但不限于voxceleb、cn-celeb等公开语音数据集，以及实际应用中的多语种、跨设备和复杂环境语音数据，能够广泛应用于移动终端、智能家居、身份验证系统及其他语音识别相关场景。

15、所述方法能够通过调整温度池的温度参数、非对称温度缩放策略的温度设定、以及不同层面对齐的损失权重，以适应不同的计算资源限制，提供灵活的模型压缩和部署方案，使学生模型在保持较高识别精度的同时，实现高效、低功耗的计算需求。

16、有益效果

17、1、本发明结合自监督预训练模型、知识蒸馏技术以及多尺度对齐策略，通过从大型教师模型向轻量级学生模型迁移多层次知识，实现高效、鲁棒的说话人识别，适用于资源受限的设备，如移动终端、智能穿戴设备和嵌入式系统。

18、2、本发明在优化说话人嵌入向量的提取过程，提升模型在复杂语音环境下的泛化能力，同时降低计算复杂度和存储需求，具有广泛的应用前景，例如身份验证、语音助手和智能监控等领域。

19、3、与现有的知识蒸馏方法相比，本发明通过多尺度蒸馏策略，在降低参数量的同时，确保高效的知识迁移，使得轻量级学生模型能够在移动端、嵌入式设备等计算资源有限的场景中高效运行；结合单样本、批量样本和类别层面对齐策略，使学生模型不仅学习局部信息，还能全局建模类别结构，提高识别性能；采用温度池和非对称温度缩放技术，使学生模型能够更全面地学习类别信息，提高模型的判别能力。

技术特征：

1.一种基于多尺度蒸馏的轻量化说话人识别方法，其特征在于，该方法利用预训练教师模型特征，并通过温度池、非对称温度缩放及多尺度对齐策略，实现从庞大的参数量和较高的计算复杂度教师模型向轻量化学生模型的高效知识迁移，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，将输入语音数据进行预处理，随机裁剪为2秒的片段以确保模型输入数据的一致性和稳定性。

3.根据权利要求1所述的方法，其特征在于，所述温度池由多个温度参数t0，t1，...，tk组成，每个温度参数均对教师模型的logits进行不同程度的缩放，以提供多个不同平滑度的预测分布。

4.根据权利要求1所述的方法，其特征在于，所述教师模型包括wavlm、hubert基于自监督学习的预训练模型，而所述学生模型包括resnet34、x-vector、ecapa-tdnn轻量化神经网络模型。

5.根据权利要求1所述的方法，其特征在于，适用于多种数据集，包括voxceleb、cn-celeb公开语音数据集，以及实际应用中的多语种、跨设备和复杂环境语音数据。

6.根据权利要求1所述的方法，其特征在于，所述方法能够通过调整温度池的温度参数、非对称温度缩放策略的温度设定、以及不同层面对齐的损失权重，以适应不同的计算资源限制，提供灵活的模型压缩和部署方案，使学生模型在保持较高识别精度的同时，实现高效、低功耗的计算需求。

技术总结
本发明公开了一种基于多尺度蒸馏的轻量化说话人识别方法，利用自监督预训练的教师模型提取高质量说话人嵌入，通过预测增强机制和多尺度对齐策略，将知识迁移至轻量级学生模型。预测增强机制通过基础温度池和非对称温度缩放生成多样化的软标签，提升学生模型的学习能力；多尺度对齐策略从单样本、批量样本和类别三个层面优化知识传递，确保学生模型全面学习教师模型的表示能力；联合优化结合分类损失和对齐损失，进一步提升模型性能。本发明显著降低模型参数量和计算复杂度，适用于移动终端和嵌入式系统等场景，同时保持在复杂语音环境下的鲁棒性和泛化能力，具有广泛的实际应用价值。

技术研发人员：王龙标,朱骁,王天锐
受保护的技术使用者：天津大学
技术研发日：
技术公布日：2025/8/4

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王龙标,朱骁,王天锐
技术所有人：天津大学
我是此专利的发明人

上一篇：一种类混塔塔架式基础装置的制作方法
下一篇：一种定子组件结构及电机结构的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！