混音环境中的端到端目标声信号提取方法及系统与流程

文档序号：33505473发布日期：2023-03-18 00:08阅读：来源：国知局

技术特征：
1.一种混音环境中的端到端目标声信号提取方法，其特征在于，包括：s1：构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；s2：获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；s3：将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；s4：将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。2.根据权利要求1所述的混音环境中的端到端目标声信号提取方法，其特征在于，步骤s2具体为：s21：获取声信号，声信号的波形信号表达式为：x∈r1×
t
，t为一维波形中每个通道的信号序列长度，r为实数集；s22：可学习编码单元将声信号分割为长度为l的无重叠段，通过n个大小同为为l的卷积核对无重叠段进行采样操作，获得n个通道信息；s23：将n个通道信息拼接为隐式声音特征图w，隐式声音特征图的表达式为：其中，x为输入的声信号，relu为非线性激活函数，conbld()为一维卷积运算函数。3.根据权利要求1所述的混音环境中的端到端目标声信号提取方法，其特征在于，步骤s4具体为：s41：将基于因果卷积机制的分离单元获得的c个掩码函数与隐式声音特征图进行点积乘法，获得掩蔽后的特征图，计算公式为：其中，w为隐式声音特征图，为hadamard积，mask
i
为掩码函数，i为掩码函数的编号；w
i
为第i个声源估计的掩蔽后的特征图，w
i
∈r
n
×
m
，n为通道信息的数量，m为掩蔽后的特征图中每个通道的信号序列长度，r为实数集；s42：可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形，计算公式为：其中，x
i
为解码单元输出的第i个声源波形序列的一维波形，x
i
∈r1×
t
，t为一维波形中每个通道的信号序列长度，convldtranspose()为转置卷积运算函数；s43：可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号。4.根据权利要求1所述的混音环境中的端到端目标声信号提取方法，其特征在于：基于因果卷积机制的分离单元由上至下共包括8个卷积层，第一卷积层位于最上层，第一卷积层由一维卷积块组成，向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维，第八卷积层位于最下层，第八卷积层由八维卷积块组成。5.一种混音环境中的端到端目标声信号提取系统，其特征在于，包括：模型构建模块，用于构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；
特征图提取模块，用于获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；分离模块，用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；重构模块，用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。

技术总结
本发明提供一种混音环境中的端到端目标声信号提取方法及系统，包括：S1：构建端到端目标声信号抽取模型，端到端目标声信号抽取模型包括：可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元；S2：获取声信号，将声信号输入可学习编码单元，通过可学习编码单元提取声信号的隐式声音特征图；S3：将隐式声音特征图输入基于因果卷积机制的分离单元进行分离，获得掩码函数；S4：将隐式声音特征图和掩码函数输入可学习解码单元进行编码，获得重构声信号。本发明中端到端目标声信号抽取模型无需预处理、推理时间短，在不同的音频类别时鲁棒性较好。棒性较好。棒性较好。

技术研发人员：余永升章林柯宋鹏
受保护的技术使用者：海纳科德（湖北）科技有限公司
技术研发日：2023.02.07
技术公布日：2023/3/17

完整全部详细技术资料下载

当前第2页1 2