本发明涉及通信,特别是指一种音频提取方法、装置及电子设备。
背景技术:
1、随着人工智能技术的发展,对通信中语音质量的要求越来越高。通常,实际生活场景下,语音音频中往往充斥着很多干扰声源,影响人感知理解以及人机交互效率。突出目标人声、抑制噪声这一任务称为语音增强技术,根据应用场景不同可对语音增强技术进行细分,如单纯降噪的降噪算法技术、去除回声的回声消除技术、突出某个方向音频的波束增强技术、对多说话人的音频进行目标说话人语音增强技术等。目前目标说话人语音增强技术,主要是利用混合信号的幅度信息,获得待提取目标人声的音频数据,其存在提取目标人声的音频信息的质量较差的问题。
技术实现思路
1、本发明的目的是提供一种音频提取方法、装置及电子设备,以解决目前目标说话人语音增强技术,存在提取目标人声的音频信息的质量较差的问题。
2、为达到上述目的,本发明的实施例提供一种音频提取方法,包括:
3、获取待处理的混合信号以及待提取目标人声的声纹特征向量;
4、将所述混合信号和所述声纹特征向量输入到复数长短期记忆(long short-termmemory,lstm)网络模型,得到第一输出数据;
5、根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据;其中,所述第二输出数据为频域数据;
6、利用所述第二输出数据获取所述目标人声的音频数据;其中,所述音频数据为时域数据。
7、可选地,获取待提取目标人声的声纹特征向量,包括:
8、获取待提取目标人声的注册语音数据;
9、将所述注册语音数据输入到辅助网络模型,得到所述待提取目标人声的声纹特征向量。
10、可选地,所述将所述混合信号和所述声纹特征向量输入到复数lstm网络模型,得到第一输出数据,包括:
11、将所述混合信号划分为实部和虚部;
12、将所述混合信号的实部和虚部以及所述声纹特征向量输入到复数lstm网络模型的第一lstm层,得到第一子输出数据;
13、将所述第一子输出数据和所述声纹特征向量输入到复数lstm网络模型的第二lstm层,得到所述第一输出数据。
14、可选地,所述根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据,包括:
15、按照信道维度,对所述混合信号、所述声纹特征向量和所述第一输出数据进行拼接,得到拼接后的预提取数据;
16、将预提取数据在全频带范围内划分为m个子带数据;其中,m为正整数;
17、将所述m个子带数据分别输入到卷积神经网络(convolutional neuralnetworks,cnn)模型,得到所述第二输出数据。
18、可选地,所述将所述m个子带数据分别输入到cnn模型,得到所述第二输出数据,包括:
19、针对所述m个子带数据中的每个子带数据,将所述子带数据输入到cnn模型中的第一cnn层,得到信道维度为n1的第二子输出数据;
20、将每个子带数据对应的第二子输出数据依次输入到所述cnn模型中的第二cnn层,得到信道维度为n2的第三子输出数据;其中,所述第三子输出数据是按照频带维度,将所述m个子带数据经过所述第二cnn层的输出数据进行拼接后确定的;
21、将所述第三子输出数据输入到所述cnn模型中的第三cnn层,得到信道维度为2的所述第二输出数据;其中,一个信道维度为实部数据,另一个信道维度为虚部数据;
22、其中,n1、n2均为正整数。
23、可选地,所述将每个子带数据对应的第二子输出数据依次输入到所述cnn模型中的第二cnn层,得到信道维度为n2的第三子输出数据,包括:
24、按照所述m个子带数据对应的频点降序的顺序,依次执行以下步骤:
25、步骤1:将第i个子带数据对应的第二子输出数据输入到所述第二cnn层中的第一cnn单元,得到所述第一cnn单元信道维度为n2的输出数据;
26、步骤2:将所述第一cnn单元的输出数据输入到所述第二cnn层中的第二cnn单元,得到所述第二cnn单元信道维度为n1的输出数据;其中,所述第二cnn单元的输出数据用于与第i+1个子带数据对应的第二子输出数据共同输入到所述第二cnn层;
27、步骤3:按照频带维度,将所述m个子带数据对应的所述第一cnn单元的输出数据进行拼接,得到拼接后信道维度为n2的输出数据;
28、步骤4:将所述拼接后信道维度为n2的输出数据输入到所述第二cnn层中的第三cnn单元,得到所述第三cnn单元信道维度为n1的输出数据,并将所述第三cnn单元的输出数据作为所述第一cnn单元输入数据,返回到所述步骤1开始重复执行多次;
29、步骤5:将最后一次拼接得到的信道维度为n2的输出数据确定为所述第三子输出数据。
30、可选地,所述根据所述第二输出数据获得所述目标人声的音频数据,包括:
31、对所述第二输出数据与所述混合信号之积进行反傅里叶变换处理,得到所述目标人声的音频数据。
32、为达到上述目的,本发明的实施例提供一种音频提取装置,包括:
33、获取模块,用于获取待处理的混合信号以及待提取目标人声的声纹特征向量;
34、第一处理模块,用于将所述混合信号和所述声纹特征向量输入到复数lstm网络模型,得到第一输出数据;
35、第二处理模块,用于根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据;其中,所述第二输出数据为频域数据;
36、提取模块,用于利用所述第二输出数据获取所述目标人声的音频数据;其中,所述音频数据为时域数据。
37、可选地,所述获取模块,包括:
38、获取单元,用于获取待提取目标人声的注册语音数据;
39、第一处理单元,用于将所述注册语音数据输入到辅助网络模型,得到所述待提取目标人声的声纹特征向量。
40、可选地,所述第一处理模块,包括:
41、第一划分单元,用于将所述混合信号划分为实部和虚部;
42、第二处理单元,用于将所述混合信号的实部和虚部以及所述声纹特征向量输入到复数lstm网络模型的第一lstm层,得到第一子输出数据;
43、第三处理单元,用于将所述第一子输出数据和所述声纹特征向量输入到复数lstm网络模型的第二lstm层,得到所述第一输出数据。
44、可选地,所述第二处理模块,包括:
45、拼接单元,用于按照信道维度,对所述混合信号、所述声纹特征向量和所述第一输出数据进行拼接,得到拼接后的预提取数据;
46、第二划分单元,用于将预提取数据在全频带范围内划分为m个子带数据;其中,m为正整数;
47、第四处理单元,用于将所述m个子带数据分别输入到cnn模型,得到所述第二输出数据。
48、可选地,所述第四处理单元还用于:
49、针对所述m个子带数据中的每个子带数据,将所述子带数据输入到cnn模型中的第一cnn层,得到信道维度为n1的第二子输出数据;
50、将每个子带数据对应的第二子输出数据依次输入到所述cnn模型中的第二cnn层,得到信道维度为n2的第三子输出数据;其中,所述第三子输出数据是按照频带维度,将所述m个子带数据经过所述第二cnn层的输出数据进行拼接后确定的;
51、将所述第三子输出数据输入到所述cnn模型中的第三cnn层,得到信道维度为2的第二输出数据;其中,一个信道维度为实部数据,另一个信道维度为虚部数据;
52、其中,n1、n2均为正整数。
53、可选地,所述第四处理单元还用于:
54、按照所述m个子带数据对应的频点降序的顺序,依次执行以下步骤:
55、步骤1:将第i个子带数据对应的第二子输出数据输入到所述第二cnn层中的第一cnn单元,得到所述第一cnn单元信道维度为n2的输出数据;
56、步骤2:将所述第一cnn单元的输出数据输入到所述第二cnn层中的第二cnn单元,得到所述第二cnn单元信道维度为n1的输出数据;其中,所述第二cnn单元的输出数据用于与第i+1个子带数据对应的第二子输出数据共同输入到所述第二cnn层;
57、步骤3:按照频带维度,将所述m个子带数据对应的所述第一cnn单元的输出数据进行拼接,得到拼接后信道维度为n2的输出数据;
58、步骤4:将所述拼接后信道维度为n2的输出数据输入到所述第二cnn层中的第三cnn单元,得到所述第三cnn单元信道维度为n1的输出数据,并将所述第三cnn单元的输出数据作为所述第一cnn单元输入数据,返回到所述步骤1开始重复执行多次;
59、步骤5:将最后一次拼接得到的信道维度为n2的输出数据确定为所述第三子输出数据。
60、可选地,所述获取模块,包括:
61、变换单元,用于对所述第二输出数据与所述混合信号之积进行反傅里叶变换处理,得到所述目标人声的音频数据。
62、为达到上述目的,本发明的实施例提供一种移动终端,包括收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;所述处理器执行所程序或指令时实现如上所述的音频提取方法的步骤。
63、为达到上述目的,本发明的实施例提供一种可读存储介质,其上存储有程序或指令,所述程序或指令被处理器执行时实现如上所述的音频提取方法的步骤。
64、本发明的上述技术方案的有益效果如下:
65、本发明实施例中,通过获取待处理的混合信号以及待提取目标人声的声纹特征向量,将所述混合信号和所述声纹特征向量输入到复数lstm网络模型,得到第一输出数据,根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理,得到第二输出数据,从而可以保证利用所述第二输出数据获取所述目标人声的音频数据具有较高的质量,能够解决目前目标说话人语音增强技术,存在提取目标人声的音频信息的质量较差的问题。