一种基于人类听觉反馈机制的声音活体检测方法及系统

文档序号：37585586发布日期：2024-04-18 12:12阅读：来源：国知局

技术特征：

1.一种基于人类听觉反馈机制的声音活体检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法，其特征在于：步骤2中，所述特征提取网络，包括stft层、tdnn层和三个se-resblock层；

3.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法，其特征在于：步骤3中，所述差分增强网络，包括全局池化层、softmax激活函数层、逐通道相乘层、逐像素相减层；

4.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法，其特征在于：步骤4中，所述特征融合和归一化网络，由顺序连接的conv层、relu激活函数层、注意力统计池化层、bn层、全连接层和bn层组成。

5.根据权利要求1-4任意一项所述的基于人类听觉反馈机制的声音活体检测方法，其特征在于：所述特征提取网络、差分增强网络和特征融合和归一化网络，构成声音活体检测网络；所述声音活体检测网络，是训练好的声音活体检测网络；训练中，采用附加角间距损失来对差分向量进行分类训练，通过拉近类内距离、拉远类间距离来获得高区分度的特征，其损失函数表示如下：

6.一种基于人类听觉反馈机制的声音活体检测系统，其特征在于，包括以下模块：

7.根据权利要求6所述的基于人类听觉反馈机制的声音活体检测系统，其特征在于：所述特征提取网络，包括stft层、tdnn层和三个se-resblock层；

8.根据权利要求7所述的基于人类听觉反馈机制的声音活体检测系统，其特征在于：所述差分增强网络，包括全局池化层、softmax激活函数层、逐通道相乘层、逐像素相减层；

9.根据权利要求6所述的基于人类听觉反馈机制的声音活体检测系统，其特征在于：所述特征融合和归一化网络，由顺序连接的conv层、relu激活函数层、注意力统计池化层、bn层、全连接层和bn层组成。

10.根据权利要求6-9任意一项所述的基于人类听觉反馈机制的声音活体检测方法，其特征在于：所述特征提取网络、差分增强网络和特征融合和归一化网络，构成声音活体检测网络；所述声音活体检测网络，是训练好的声音活体检测网络；训练中，采用附加角间距损失来对差分向量进行分类训练，通过拉近类内距离、拉远类间距离来获得高区分度的特征，其损失函数表示如下：

技术总结
本发明公开了一种基于人类听觉反馈机制的声音活体检测方法及系统，为了保护说话人验证系统免受伪造语音的欺骗，本发明首次将活体说话人在嘈杂环境下会不由自主地改变自己说话模式的Lombard效应引入声音活体检测，并提出了基于Lombard效应的声音活体检测框架Lombard‑VLD。为了改善Lombard‑VLD的鲁棒性和泛化性，本发明设计了基于参考的双输入模式和差分增强网络，以普通语音的特征为参考，对Lombard语音与普通语音之间的差异性特征进行提取和增强。本发明利用Lombard效应所导致的活体说话人发声模式的差异实现了低成本、高准确率、鲁棒性强、泛化性强的声音活体检测，可以方便地应用到各种类型的移动设备中以实现高效的说话人验证系统的反欺骗前置防护上。

技术研发人员：任延珍,朱洪承,孙宗锟,王子煊,何佳庆,鄢湧棚,杨玉红,涂卫平
受保护的技术使用者：武汉大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

当前第2页1 2