1.一种基于人类听觉反馈机制的声音活体检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法,其特征在于:步骤2中,所述特征提取网络,包括stft层、tdnn层和三个se-resblock层;
3.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法,其特征在于:步骤3中,所述差分增强网络,包括全局池化层、softmax激活函数层、逐通道相乘层、逐像素相减层;
4.根据权利要求1所述的基于人类听觉反馈机制的声音活体检测方法,其特征在于:步骤4中,所述特征融合和归一化网络,由顺序连接的conv层、relu激活函数层、注意力统计池化层、bn层、全连接层和bn层组成。
5.根据权利要求1-4任意一项所述的基于人类听觉反馈机制的声音活体检测方法,其特征在于:所述特征提取网络、差分增强网络和特征融合和归一化网络,构成声音活体检测网络;所述声音活体检测网络,是训练好的声音活体检测网络;训练中,采用附加角间距损失来对差分向量进行分类训练,通过拉近类内距离、拉远类间距离来获得高区分度的特征,其损失函数表示如下:
6.一种基于人类听觉反馈机制的声音活体检测系统,其特征在于,包括以下模块:
7.根据权利要求6所述的基于人类听觉反馈机制的声音活体检测系统,其特征在于:所述特征提取网络,包括stft层、tdnn层和三个se-resblock层;
8.根据权利要求7所述的基于人类听觉反馈机制的声音活体检测系统,其特征在于:所述差分增强网络,包括全局池化层、softmax激活函数层、逐通道相乘层、逐像素相减层;
9.根据权利要求6所述的基于人类听觉反馈机制的声音活体检测系统,其特征在于:所述特征融合和归一化网络,由顺序连接的conv层、relu激活函数层、注意力统计池化层、bn层、全连接层和bn层组成。
10.根据权利要求6-9任意一项所述的基于人类听觉反馈机制的声音活体检测方法,其特征在于:所述特征提取网络、差分增强网络和特征融合和归一化网络,构成声音活体检测网络;所述声音活体检测网络,是训练好的声音活体检测网络;训练中,采用附加角间距损失来对差分向量进行分类训练,通过拉近类内距离、拉远类间距离来获得高区分度的特征,其损失函数表示如下: