一种基于重参数化的解耦方式的音频特征提取方法及装置与流程

文档序号：26013931发布日期：2021-07-23 21:35阅读：来源：国知局

技术特征：

1.一种基于重参数化的解耦方式的音频特征提取方法，其特征在于，包括：

获取目标说话人的待测语音样本；

将所述待测语音样本进行预处理；

提取预处理后的所述待测语音样本的声学特征；

将所述声学特征输入到网络推理模块中得到声纹特征向量，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

2.根据权利要求1所述的基于重参数化的解耦方式的音频特征提取方法，其特征在于，在所述将所述声学特征输入到所述网络推理模块中得到声纹特征向量，之前还包括：

采集大量目标说话人的语音样本作为训练语音样本；

将所述训练语音样本进行预处理；

提取预处理后的所述训练语音样本的声学特征；

将所述声学特征输入到所述网络训练模块中，得到训练好的所述网络训练模块，所述网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层。

3.根据权利要求2所述的基于重参数化的解耦方式的音频特征提取方法，其特征在于，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型，具体为：

将训练好的所述网络训练模块中的所述第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

将训练好的所述训练网络模块中的所述第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

将训练好的所述训练网络模块中的所述直连层与bn层单元进行合并，得到第三1x1卷积层；

将所述第二1x1卷积层扩展为第三3x3卷积层；

将所述第三1x1卷积层扩展为第四3x3卷积层；

依据卷积的可加性原理，将所述第二3x3卷积层，所述第三3x3卷积层，以及所述第四3x3卷积层进行相加，得到所述网络推理模块中的第五3x3卷积层。

4.根据权利要求1所述的基于重参数化的解耦方式的音频特征提取方法，其特征在于，所述将所述待测语音样本进行预处理，包括：

将所述待测语音样本进行重采样，降噪变换。

5.一种基于重参数化的解耦方式的音频特征提取装置，其特征在于，包括：

获取单元，用于获取目标说话人的待测语音样本；

第一预处理单元，用于将所述待测语音样本进行预处理；

第一特征提取单元，用于提取预处理后的所述待测语音样本的声学特征；

声纹特征获取单元，用于将所述声学特征输入到网络推理模块中得到声纹特征向量，所述网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。

6.根据权利要求5所述的基于重参数化的解耦方式的音频特征提取装置，其特征在于，还包括：

采集单元，用于采集大量目标说话人的语音样本作为训练语音样本；

第二预处理单元，用于将所述训练语音样本进行预处理；

第二特征提取单元，用于提取预处理后的所述训练语音样本的声学特征；

训练单元，用于将所述声学特征输入到所述网络训练模块中，得到训练好的所述网络训练模块，所述网络训练模块包括多个并行的第一3x3卷积层，第一1x1卷积层以及直连层。

7.根据权利要求6所述的基于重参数化的解耦方式的音频特征提取装置，其特征在于，所述声纹特征获取单元包括：

第一合并单元，用于将训练好的所述网络训练模块中的所述第一3x3卷积层与bn层单元进行合并，得到第二3x3卷积层；

第二合并单元，用于将训练好的所述训练网络模块中的所述第一1x1卷积层与bn层单元进行合并，得到第二1x1卷积层；

第三合并单元，用于将训练好的所述训练网络模块中的所述直连层与bn层单元进行合并，得到第三1x1卷积层；

第一扩展单元，用于将所述第二1x1卷积层扩展为第三3x3卷积层；

第二扩展单元，用于将所述第三1x1卷积层扩展为第四3x3卷积层；

相加单元，用于依据卷积的可加性原理，将所述第二3x3卷积层，所述第三3x3卷积层，以及所述第四3x3卷积层进行相加，得到所述网络推理模块中的第五3x3卷积层。

8.根据权利要求5所述的基于重参数化的解耦方式的音频特征提取装置，其特征在于，所述预处理单元具体用于将所述待测语音样本进行重采样，降噪变换。

9.一种基于重参数化的解耦方式的音频特征提取设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的基于重参数化的解耦方式的音频特征提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的基于重参数化的解耦方式的音频特征提取方法。

技术总结
本申请公开了一种基于重参数化的解耦方式的音频特征提取方法及装置，包括：获取目标说话人的待测语音样本；将待测语音样本进行预处理；提取预处理后的待测语音样本的声学特征；将声学特征输入到网络推理模块中得到声纹特征向量，网络推理模块是由训练好的多层网络训练模块经过重参数化转换成的单路结构的网络模型。本申请在训练阶段，使用多分支结构，以达到更好的收敛效果，在推理阶段，重参数化为单路结构，以获得比参数量相当的多分支结构更好的效果，并且能使速度更快，消耗内存更低。

技术研发人员：许敏强;马雨枫;赵淼;刘敏
受保护的技术使用者：广州国音智能科技有限公司
技术研发日：2021.04.27
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2