本技术涉及音频分析,特别涉及一种音频提取方法、装置、设备及存储介质。
背景技术:
1、在一些场景中,针对麦克风阵列采集的语音,需要按照音区进行语音提取。
2、相关技术中,通过音区提取模型可在麦克风阵列采集的音频中,提取出在用户的指定音区(指定角度范围)内采集的音频,从而可针对提取到的该指定音区的音频进行后续处理,例如语音增强。
3、相关技术的音区提取模型通常仅对音频的时频特征进行分析,从而构建用于音区提取的特征,音区提取的准确度较低。
技术实现思路
1、本技术提供了一种音频提取方法、装置、设备及存储介质,可以实现提升音区提取的性能。所述技术方案如下:
2、根据本技术的一方面,提供了一种音频提取方法,所述方法包括:
3、获取多个输入音频的时频特征,所述多个输入音频中的每个输入音频是通过声音传感器阵列中的一个声音传感器采集得到的,所述多个输入音频包括第一输入音频;
4、根据所述多个输入音频的时频特征确定角度分布特征,所述角度分布特征用于表征所述每个输入音频在指定角度范围内的n个角度方向的音频,在所述每个输入音频中所占的比重,n为正整数;
5、将所述第一输入音频的时频特征在频域维度上按照k个频带进行切分,得到所述k个频带对应的时频子特征,k为大于1的正整数;将所述角度分布特征在所述频域维度上按照所述k个频带进行切分,得到所述k个频带对应的角度分布子特征;
6、对所述k个频带对应的时频子特征以及所述k个频带对应的角度分布子特征进行特征提取,得到所述k个频带对应的特征提取结果;
7、根据所述k个频带对应的特征提取结果提取所述第一输入音频在所述指定角度范围内的输出音频。
8、根据本技术的另一方面,提供了一种音频提取装置,所述装置包括:
9、特征提取模块,用于获取多个输入音频的时频特征,所述多个输入音频中的每个输入音频是通过声音传感器阵列中的一个声音传感器采集得到的,所述多个输入音频包括第一输入音频;
10、所述特征提取模块,还用于根据所述多个输入音频的时频特征确定角度分布特征,所述角度分布特征用于表征所述每个输入音频在指定角度范围内的n个角度方向的音频,在所述每个输入音频中所占的比重,n为正整数;
11、频带划分模块,用于将所述第一输入音频的时频特征在频域维度上按照k个频带进行切分,得到所述k个频带对应的时频子特征,k为大于1的正整数;将所述角度分布特征在所述频域维度上按照所述k个频带进行切分,得到所述k个频带对应的角度分布子特征;
12、特征建模模块,用于对所述k个频带对应的时频子特征以及所述k个频带对应的角度分布子特征进行特征提取,得到所述k个频带对应的特征提取结果;
13、掩膜估计模块,用于根据所述k个频带对应的特征提取结果提取所述第一输入音频在所述指定角度范围内的输出音频。
14、在一个可选的设计中,所述角度分布特征包括第一分布特征和第二分布特征,所述第一分布特征包括每两个声音传感器对应的输入音频的第一相位差,所述第二分布特征用于反映所述第一相位差与第二相位差的相似度,所述第二相位差是所述每两个声音传感器对所述指定角度范围内的n个角度方向的脉冲信号进行采样的相位差;所述频带划分模块,包括:
15、第一划分子模块,用于将所述第一分布特征在所述频域维度上按照所述k个频带进行切分,得到所述k个频带对应的第一分布子特征;
16、第二划分子模块,用于将所述第二分布特征在所述频域维度上按照所述k个频带进行切分,得到所述k个频带对应的相似度分布子特征,所述k个频带中的每个频带具有n个相似度分布子特征,所述n个相似度分布子特征与所述n个角度方向一一对应;
17、整合子模块,用于将所述k个频带中每个频带对应的所述n个相似度分布子特征进行特征整合,得到所述k个频带对应的第二分布子特征;
18、所述频带划分模块,还用于将所述k个频带对应的第一分布子特征以及所述k个频带对应的第二分布子特征确定为所述k个频带对应的角度分布子特征。
19、在一个可选的设计中,所述整合子模块,用于:
20、将所述k个频带中每个频带对应的所述n个相似度分布子特征进行拼接,得到所述k个频带对应的第二分布子特征。
21、在一个可选的设计中,所述整合子模块,用于:
22、对所述k个频带中每个频带对应的所述n个相似度分布子特征进行线性或非线性特征变换,得到所述k个频带中每个频带对应的n个特征变换结果;
23、将所述k个频带中每个频带对应的n个特征变换结果进行拼接,得到所述k个频带对应的第二分布子特征。
24、在一个可选的设计中,所述整合子模块,用于:
25、对所述k个频带中每个频带对应的所述n个相似度分布子特征进行线性或非线性特征变换,得到所述k个频带中每个频带对应的n个特征变换结果;
26、确定所述k个频带中每个频带对应的n个特征变换结果的平均特征,得到所述k个频带对应的第二分布子特征。
27、在一个可选的设计中,所述整合子模块,用于:
28、对所述k个频带中每个频带对应的所述n个相似度分布子特征,按照所述角度方向的顺序进行级联特征提取,得到所述k个频带对应的第二分布子特征;
29、其中,所述级联特征提取包括对前i级的级联特征提取结果与第i+1级的相似度分布子特征进行特征提取,得到前i+1级的级联特征提取结果,i为正整数。
30、在一个可选的设计中,所述频带划分模块还包括:
31、第一映射子模块,用于将所述k个频带中每个频带对应的时频子特征映射至指定维度,得到所述k个频带对应的第一序列特征;第二映射子模块,用于将所述k个频带中每个频带对应的第一分布子特征映射至所述指定维度,得到所述k个频带对应的第二序列特征;第三映射子模块,用于将所述k个频带中每个频带对应的第二分布子特征映射至所述指定维度,得到所述k个频带对应的第三序列特征;
32、合并子模块,用于将所述k个频带对应的第一序列特征、所述k个频带对应的第二序列特征以及所述k个频带对应的第三序列特征进行拼接,得到所述k个频带对应的拼接特征;
33、所述特征建模模块,用于对所述k个频带对应的拼接特征进行特征提取,得到所述k个频带对应的特征提取结果。
34、在一个可选的设计中,所述特征建模模块,包括:
35、第一建模子模块,用于将所述k个频带对应的拼接特征沿第一维度进行建模,得到所述k个频带对应的第一建模序列特征,所述第一建模序列特征携带有所述拼接特征在所述第一维度的不同位置处的特征之间的相关性;
36、第二建模子模块,用于将所述k个频带对应的第一建模序列特征沿第二维度进行建模,得到所述k个频带对应的第二建模序列特征,所述第二建模序列特征携带有所述第一建模序列特征在所述第二维度的不同位置处的特征之间的相关性;
37、所述特征建模模块,用于将所述k个频带对应的第二建模序列特征确定为所述k个频带对应的特征提取结果;
38、其中,所述第一维度为时间维度,所述第二维度为频带维度;或,所述第一维度为所述频带维度,所述第二维度为所述时间维度。
39、在一个可选的设计中,所述掩膜估计模块,用于:
40、通过所述k个频带对应的第二建模序列特征预测所述k个频带对应的掩膜,所述k个频带中每个频带对应的掩膜用于指示在所述每个频带上所述输出音频在所述第一输入音频的不同时频位置的占比;
41、将所述k个频带中每个频带对应的掩膜进行合并,得到合并掩膜;
42、根据所述第一输入音频以及所述合并掩膜,确定所述输出音频。
43、在一个可选的设计中,所述特征提取模块,用于:
44、在所述声音传感器阵列中确定一个或多个声音传感器对,所述声音传感器对包括第一声音传感器和第二声音传感器;
45、根据所述第一声音传感器对应的时频特征和所述第二声音传感器对应的时频特征确定所述第一相位差;
46、确定所述第一声音传感器和所述第二声音传感器对所述指定角度范围内n个角度方向的脉冲信号进行采样的所述第二相位差;
47、确定所述第一相位差和所述第二相位差的相似度;
48、根据所述相似度确定所述第二分布特征。
49、在一个可选的设计中,所述特征提取模块,用于:
50、将所述n个角度方向中每个角度方向对应的m个第二分布特征进行求和;
51、其中,m表示所述声音传感器对的个数,m为正整数。
52、根据本技术的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上方面所述的音频提取方法。
53、根据本技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上方面所述的音频提取方法。
54、根据本技术的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的音频提取方法。
55、本技术提供的技术方案带来的有益效果至少包括:
56、通过基于输入音频的时频特征构建用于音区提取的角度分布特征,并且针对时频特征和角度分布特征均进行频带切分,因此能够针对不同频带单独分析音区提取得到的输出音频,从而提升音区提取的性能。