本申请涉及声信号处理,特别是涉及一种混合声源分离方法、装置、计算机设备以及可读存储介质。
背景技术:
1、随着深度学习技术的发展,机器听觉得到飞速的发展。声源分离技术旨在从多声源混合声源信号中分别估计出不同声源的声源信号,送给下游识别任务,是解决多声源场景智能识别的关键技术,在提高机器人智能化水平方面具有重要的应用价值。
2、虽然目前基于深度学习的单通道声源分离技术得到了广泛研究和应用,但是由于基于深度学习的神经网络模型的参数在训练时已经固定,通常较难适应不同声场环境、不同麦克风阵列及声源数量的变化,使得模型泛化性不足和应用场景受限,在多个声源同时存在的场景下,机器听觉对于每个声源的分辨率低的问题仍尚未解决。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够实现高分辨率声源分离的混合声源分离方法、装置、计算机设备以及可读存储介质。
2、第一方面,本申请提供了一种混合声源分离方法,所述方法包括:
3、获取多个混合声源信号,所述混合声源信号为声源重叠的多通道信号;
4、将各所述混合声源信号输入神经网络模型,输出得到多个通道的分离声源信号;
5、计算两两通道间所述分离声源信号的相似性,将相似性大于设定阈值的分离声源信号聚合为同一个单声源信号,所述单声源信号包括至少两个通道的分离声源信号;
6、基于各所述单声源信号,生成每个所述单声源信号的单通道信号。
7、在其中一个实施例中,所述神经网络模型包括依次连接的音频编码器、特征瓶颈层、通道间注意力模块、分离编码输出模块以及音频解码器,所述将各所述混合声源信号输入神经网络模型,输出得到多个通道的分离声源信号包括:
8、将所述混合声源信号并行通过所述音频编码器,获取所述混合声源信号的多通道音频特征张量;
9、将所述多通道音频特征张量通过所述特征瓶颈层,计算得到第一多通道音频输入表征张量;
10、将所述第一多通道音频输入表征张量通过所述通道间注意力模块,计算得到第二多通道音频输入表征张量;
11、将所述第二多通道音频输入表征张量并行地通过所述分离编码输出模块,计算得到多通道音频输出表征张量;
12、将所述多通道音频输出表征张量通过所述音频解码器,计算得到无顺序的所述多个通道的分离声源信号。
13、在其中一个实施例中,所述通道间注意力模块包括通道间多头注意力层、相加和层归一化模块、图卷积层,所述将所述第一多通道音频输入表征张量通过所述通道间注意力模块,计算得到第二多通道音频输入表征张量包括:
14、将所述第一多通道音频输入表征张量通过所述通道间多头注意力层,计算得到通道间音频输入表征张量;
15、将所述通道间音频输入表征张量、所述第一多通道音频输入表征张量通过所述相加和层归一化模块,进行相加求和和层归一化计算,得到中间音频输入表征张量;
16、将所述中间音频输入表征张量通过所述图卷积层,计算得到所述第二多通道音频输入表征张量。
17、在其中一个实施例中,所述基于各所述单声源信号,生成每个所述单声源信号的单通道信号包括:
18、根据每个所述单声源信号所包括的至少两个通道的分离声源信号,计算得到所述单声源信号的信号协方差矩阵;
19、基于所述多个通道的分离声源信号、所述混合声源信号,计算所述单声源信号的干扰协方差矩阵;
20、对所述信号协方差矩阵、所述干扰协方差矩阵进行最小方差无畸变响应的波束成形计算,得到所述单声源信号的单通道信号。
21、在其中一个实施例中,所述根据每个所述单声源信号所包括的至少两个通道的分离声源信号,计算得到所述单声源信号的信号协方差矩阵包括:
22、计算所述单声源信号的共轭转置与所述单声源信号的乘积在时间帧上的平均值,得到所述单声源信号的信号协方差矩阵。
23、在其中一个实施例中,所述基于所述多个通道的分离声源信号、所述混合声源信号,计算所述单声源信号的干扰协方差矩阵包括:
24、计算所述混合声源信号与所述多个通道的分离声源信号之间的信号差;
25、计算所述信号差的共轭转置与所述信号差的乘积在时间帧上的平均值,得到所述单声源信号的干扰协方差矩阵。
26、在其中一个实施例中,所述对所述信号协方差矩阵、所述干扰协方差矩阵进行最小方差无畸变响应的波束成形计算,得到所述单声源信号的单通道信号包括:
27、根据所述信号协方差矩阵、所述干扰协方差矩阵,计算所述单声源信号的波束成形系数:
28、;
29、其中,wi为波束成形系数,tr为矩阵的迹,u为参考通道选择向量,为信号协方差矩阵,为干扰协方差矩阵;
30、根据所述波束成形系数,计算得到所述单声源信号的单通道信号:
31、;
32、其中,y表示混合声源信号,h表示矩阵的共轭转置。
33、第二方面,本申请还提供了一种混合声源分离装置,包括:
34、声源获取模块,用于获取多个混合声源信号,所述混合声源信号为声源重叠的多通道信号;
35、声源分离模块,用于将各所述混合声源信号输入神经网络模型,输出得到多个通道的分离声源信号;
36、声源聚合模块,用于计算两两通道间所述分离声源信号的相似性,将相似性大于设定阈值的分离声源信号聚合为同一个单声源信号,所述单声源信号包括至少两个通道的分离声源信号;
37、单声源提取模块,用于基于各所述单声源信号,生成每个所述单声源信号的单通道信号。
38、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的内容。
39、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的内容。
40、上述混合声源分离方法、装置、计算机设备以及可读存储介质,通过获取多个混合声源信号,所述混合声源信号为声源重叠的多通道信号;将各所述混合声源信号输入神经网络模型,输出得到多个通道的分离声源信号;计算两两通道间所述分离声源信号的相似性,将相似性大于设定阈值的分离声源信号聚合为同一个单声源信号,所述单声源信号包括至少两个通道的分离声源信号;基于各所述单声源信号,生成每个所述单声源信号的单通道信号,实现了高分辨率的声源信号分离。
1.一种混合声源分离方法,其特征在于,所述方法包括:
2.根据权利要求1所述的混合声源分离方法,其特征在于,所述神经网络模型包括依次连接的音频编码器、特征瓶颈层、通道间注意力模块、分离编码输出模块以及音频解码器,所述将各所述混合声源信号输入神经网络模型,输出得到多个通道的分离声源信号包括:
3.根据权利要求2所述的混合声源分离方法,其特征在于,所述通道间注意力模块包括通道间多头注意力层、相加和层归一化模块、图卷积层,所述将所述第一多通道音频输入表征张量通过所述通道间注意力模块,计算得到第二多通道音频输入表征张量包括:
4.根据权利要求1所述的混合声源分离方法,其特征在于,所述基于各所述单声源信号,生成每个所述单声源信号的单通道信号包括:
5.根据权利要求4所述的混合声源分离方法,其特征在于,所述根据每个所述单声源信号所包括的至少两个通道的分离声源信号,计算得到所述单声源信号的信号协方差矩阵包括:
6.根据权利要求4所述的混合声源分离方法,其特征在于,所述基于所述多个通道的分离声源信号、所述混合声源信号,计算所述单声源信号的干扰协方差矩阵包括:
7.根据权利要求4所述的混合声源分离方法,其特征在于,所述对所述信号协方差矩阵、所述干扰协方差矩阵进行最小方差无畸变响应的波束成形计算,得到所述单声源信号的单通道信号包括:
8.一种混合声源分离装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。