1.本发明涉及语音处理技术领域,尤其涉及一种语音降噪方法、装置、设备及计算机可读存储介质。
背景技术:2.单通道(单声道)语音降噪方法是通过从单通道带噪音频信号中去除背景噪声,旨在提高语音的质量和可懂度。而对于非稳态或突发噪声采用传统信号处理方法进行语音降噪往往效果不佳。另一方面,传统的语音降噪方法基于一些设定好的先验假设,但是这些先验假设存在一定的不合理之处。此外传统语音增强依赖于参数的设定,人工经验等。随着深度学习的发展,越来越多的人开始注意使用深度学习来解决语音降噪问题。
技术实现要素:3.本发明的主要目的在于提供一种语音降噪方法、装置、设备及计算机可读存储介质,旨在实现一种融合语音活动检测信息的深度学习语音降噪方案,提高语音降噪效果。
4.为实现上述目的,本发明提供一种语音降噪方法,所述方法包括以下步骤:
5.获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;
6.将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;
7.将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
8.可选地,所述获取多个信号帧的频谱数据的步骤包括:
9.获取多个信号帧的幅度谱数据、实数谱数据和虚数谱数据;
10.所述将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息的步骤包括:
11.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
12.可选地,所述将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息的步骤包括:
13.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据分别输入所述全频带模型中的幅度谱加权模块、实数谱加权模块和虚数谱加权模块进行频段加权,得到各所述信号帧对应的加权幅度谱数据、加权实数谱数据和加权虚数谱数据;
14.将所述加权幅度谱数据、所述加权实数谱数据和所述加权虚数谱数据分别输入所述全频带模型中的幅度全频带提取器、实数全频带提取器和虚数全频带提取器,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
15.可选地,所述将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进
行预测,得到各所述信号帧对应的干净语音的步骤包括:
16.对于各所述信号帧中的任一目标信号帧,以及对于任一目标频率,将所述目标信号帧对应的所述全频带幅度谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带实数谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带虚数谱信息中所述目标频率对应的全频带信息以及所述目标信号帧对应的所述语音活动检测信息进行拼接,得到所述目标信号帧对应的所述目标频率的子频带模型输入序列;
17.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
18.可选地,所述将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音的步骤包括:
19.将所述目标信号帧对应的所述加权幅度谱数据中所述目标频率的加权数据与所述目标频率相邻的多个频率的加权数据拼接,得到所述目标信号帧对应的所述目标频率的子频带数据;
20.将所述目标信号帧对应的所述目标频率的所述子频带数据和所述子频带模型输入序列进行拼接后输入子频带模型进行预测,得到所述目标信号帧对应的干净语音。
21.可选地,所述将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音的步骤包括:
22.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的复理想比值掩码;
23.根据所述复理想比值掩码和所述频谱数据计算得到各所述信号帧对应的干净语音。
24.可选地,所述获取多个信号帧的频谱数据的步骤包括:
25.获取待降噪的音频信号;
26.对所述音频信号进行分帧处理得到多个信号帧;
27.对各个所述信号帧分别进行时域到频域的转换得到频谱数据。
28.为实现上述目的,本发明还提供一种语音降噪装置,所述装置包括:
29.获取模块,用于获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;
30.提取模块,用于将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;
31.预测模块,用于将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
32.为实现上述目的,本发明还提供一种语音降噪设备,所述语音降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现如上所述的语音降噪方法的步骤。
33.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如上所述的语音降噪方法的步骤。
34.本发明实施例中,通过获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。本发明实施例实现了一种融合语音活动检测信息的深度学习语音降噪方案,使得模型能够更好的聚焦利用语音帧信息进行降噪处理,提高了语音降噪效果。
附图说明
35.图1为本发明语音降噪方法一实施例的流程示意图;
36.图2为本发明实施例方案涉及的硬件运行环境的结构示意图。
37.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
38.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
39.参照图1,图1为本发明语音降噪方法一实施例的流程示意图。
40.本发明实施例提供了语音降噪方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,语音降噪方法的执行主体可以是耳机、智能手机、个人电脑、服务器等设备,在本实施例中并不做限制。在本实施例中,为便于表述,以降噪设备为执行主体进行各实施例阐述。在本实施例中,所述语音降噪方法包括以下步骤:
41.步骤s10,获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;
42.信号帧可以通过对音频信号进行分帧处理得到,每个信号帧的长度在本实施例中并不做限制。本实施例中对音频信号的获取方式以及对音频信号进行语音降噪的场景并不做限制。例如,在一可行实施方式中,降噪设备可以通过麦克风采集音频信号,对音频信号实时进行分帧,再对各个信号帧进行实时的语音降噪处理。频谱数据可以通过对信号帧进行时域到频域的转换,得到频域的频谱数据。频谱数据具体可以是幅度谱数据,或者还可以包括实数谱数据或虚数谱数据,在本实施例中并不做限制。
43.语音活动检测(voice activity detection,vad)也称为speech activity detection or speech detection,是一项用于语音处理的技术,目的是检测语音信号是否存在。语音活动检测的具体实施方式在本实施例中并不做限制。信号帧的语音活动检测信息可以是但不限于是表征该信号帧是否为语音帧的信息。
44.步骤s20,将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;
45.全频带模型是用于以全频带的频谱数据为基础,提取全频带频谱信息的模型。全频带频谱信息包括全频带上的各个频率分别对应的全局频域特征信息。假设有t个信号帧,f个频率,那么频谱数据可以表示为x∈rf×
t
,全频带频谱信息则可以表示为ψ∈rf×
t
。
46.在本实施例中对全频带模型的具体结构并不做限制,例如可以采用lstm((long short-term memory,长短期记忆网络)来实现。
47.步骤s30,将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
48.子频带模型是用于以子频带的频谱数据为基础,提取子频带频谱信息的模型。在本实施例中,通过将输入子频带的频谱数据换做是输入子频率的全局频域特征信息和语音活动检测信息,一方面可以使得子频带模型能够基于全频带模型所提取到的全局频域特征信息进行预测,另一方面可以使得子频带模型能够聚焦利用语音帧信息进行预测,从而提高语音降噪效果。
49.在本实施例中,对子频带模型的具体结构并不做限制,例如可以采用lstm来实现。
50.需要说明的是,全频带模型和子频带模型可以预先通过训练数据集进行联合训练得到,训练数据集中可以包括多条带噪音频信号和各条带噪音频数据对应的干净语音信号,可以采用该干净语音信号作为监督数据,采用有监督训练方法训练得到全频带模型和子频带模型中的参数,在需要进行语音降噪时,采用训练好的模型来进行语音降噪。
51.在一可行实施方式中,对于各个信号帧中的任意一个信号帧,和各个频率中的任意一个频率,降噪设备可以将该信号帧的该频率对应的全频带信息(也即全频带频域特征信息)与该信号帧的语音活动检测信息进行拼接,得到该信号帧的该频率的子频带模型输入序列,将各个信号帧的各个频率的子频带模型输入序列输入子频带模型进行预测,得到各个信号帧对应的干净语音。例如假设有t个信号帧,f个频率,对于第t个信号帧,其语音活动检测信息可以表示为ψ
st
∈r,对于第t个信号帧的第f个频率,其全频带信息可以表示为ψ
mt,f
∈r,那么,拼接得到的第t个信号帧在第f个频率子频带模型输入序列可以表示为ψ
nt,f
∈r2。可以将t个信号帧的第f个频率的子频带模型输入序列作为一个独立的输入序列,一共f个输入序列分别输入到子频带模型进行预测,得到t个信号帧分别在各个频率的干净频谱数据,进而通过频域到时域的转换,将干净频谱数据转换为各个信号帧分别对应的干净语音信号。
52.在本实施例中,通过获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。本实施例实现了一种融合语音活动检测信息的深度学习语音降噪方案,使得模型能够更好的聚焦利用语音帧信息进行降噪处理,提高了语音降噪效果。
53.进一步地,基于上述第一实施例,提出本发明语音降噪方法第二实施例,在本实施例中,所述步骤s10包括:
54.步骤s101,获取多个信号帧的幅度谱数据、实数谱数据和虚数谱数据;
55.幅度谱数据、实数谱数据和虚数谱数据可以通过对信号帧进行时域到频域的转换得到,例如,通过短时傅里叶变换得到。假设有t个信号帧,f个频率,那么幅度谱数据、实数谱数据和虚数谱数据可以分别表示为xm∈rf×
t
、xr∈rf×
t
、xi∈rf×
t
。通过获取幅度谱数据、实数谱数据和虚数谱数据,能够在利用幅度信息的同时,也能够利用相位信息,进一步提高语音降噪的降噪效果。
56.所述步骤s20包括:
57.步骤s201,将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模
型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
58.在具体实施方式中,全频带模型中可以设置针对三种频谱数据的全频带提取器,降噪设备可以将幅度谱数据、实数谱数据和虚数谱数据分别输入至对应的全频带提取器,提取得到各个信号帧分别对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。例如,全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息可以分别表示为ψm∈rf×
t
、ψr∈rf×
t
、ψi∈rf×
t
。全频带提取器的具体实施方式在本实施例中并不做限制,例如可以是采用tnc(temporal convolutional network,时间卷积网络)来实现。
59.进一步地,在一可行实施方式中,可以将各信号帧的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息以及语音活动检测信息进行拼接,然后输入子频带模型进行预测,得到各个信号帧对应的干净语音。例如,对于各个信号帧中的任意一个信号帧,和各个频率中的任意一个频率,降噪设备可以将该信号帧的全频带幅度谱信息中该频率对应的全频带信息(也即全频带频域特征信息)、该信号帧的全频带实数谱信息中该频率对应的全频带信息(也即全频带频域特征信息)、该信号帧的全频带虚数谱信息中该频率对应的全频带信息(也即全频带频域特征信息)与该信号帧的语音活动检测信息进行拼接,得到该信号帧的该频率的子频带模型输入序列,将各个信号帧的各个频率的子频带模型输入序列输入子频带模型进行预测,得到各个信号帧对应的干净语音。例如假设有t个信号帧,f个频率,对于第t个信号帧,其语音活动检测信息可以表示为ψ
st
∈r,对于第t个信号帧的第f个频率,其在全频带实数谱信息中的全频带信息可以表示为ψ
rt,f
∈r,在全频带虚数谱信息中的全频带信息可以表示为ψ
it,f
∈r,在全频带幅度谱信息中的全频带信息可以表示为ψ
mt,f
∈r,那么,拼接得到的第t个信号帧在第f个频率的子频带模型输入序列可以表示为ψ
nt,f
∈r4。可以将t个信号帧的第f个频率的子频带模型输入序列作为一个独立的输入序列,一共f个输入序列分别输入到子频带模型进行预测,得到t个信号帧分别在各个频率的干净频谱数据,进而通过频域到时域的转换,将干净频谱数据转换为各个信号帧分别对应的干净语音信号。
60.进一步地,在一可行实施方式中,所述步骤s201包括:
61.步骤s2011,将所述幅度谱数据、所述实数谱数据和所述虚数谱数据分别输入所述全频带模型中的幅度谱加权模块、实数谱加权模块和虚数谱加权模块进行频段加权,得到各所述信号帧对应的加权幅度谱数据、加权实数谱数据和加权虚数谱数据;
62.步骤s2012,将所述加权幅度谱数据、所述加权实数谱数据和所述加权虚数谱数据分别输入所述全频带模型中的幅度全频带提取器、实数全频带提取器和虚数全频带提取器,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
63.由于不同频率对语音降噪的影响是不同的,在本实施方式中,通过在全频带模型中针对幅度谱加权模块、实数谱加权模块和虚数谱加权模块,分别对幅度谱数据、实数谱数据和虚数谱数据进行各个频率的加权,不同频率对应的权重可能是不同的,从而使得对语音降噪影响更深的频率的幅度、实数、虚数数据能够给预测干净语音提供更多的信息。假设有t个信号帧,f个频率,那么加权幅度谱数据、加权实数谱数据和加权虚数谱数据可以分别表示为表示为
64.幅度谱加权模块、实数谱加权模块和虚数谱加权模块的具体实施方式在本实施例中并不做限制。例如,在一可行实施方式中,可以使用了几个平行的一维深度卷积,用不同的核大小,k1(小),k2(中)和k3(大),沿时间轴提取每个频率的不同时间尺度特征;卷积之后是平均池化层和整流线性单元(relu)激活函数,以产生不同的时间尺度特征;然后采用全连接层将三个特征融合成融合特征。最后再堆叠两个全连接层,从融合特征中学习权权重,采用权重对频谱数据进行加权。
65.进一步地,在一可行实施方式中,所述步骤s30包括:
66.步骤s301,对于各所述信号帧中的任一目标信号帧,以及对于任一目标频率,将所述目标信号帧对应的所述全频带幅度谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带实数谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带虚数谱信息中所述目标频率对应的全频带信息以及所述目标信号帧对应的所述语音活动检测信息进行拼接,得到所述目标信号帧对应的所述目标频率的子频带模型输入序列;
67.步骤s302,将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
68.将各个信号帧中的任意一个信号帧称为目标信号帧,以及将各个频率中的任意一个频率称为目标频率,以示区分。例如假设有t个信号帧,f个频率,对于第t个信号帧,其语音活动检测信息可以表示为ψ
st
∈r,对于第t个信号帧(目标信号帧)的第f个频率(目标频率),其在全频带实数谱信息中的全频带信息可以表示为ψ
rt,f
∈r,在全频带虚数谱信息中的全频带信息可以表示为ψ
it,f
∈r,在全频带幅度谱信息中的全频带信息可以表示为ψ
mt,f
∈r,那么,拼接得到的第t个信号帧在第f个频率的子频带模型输入序列可以表示为ψ
nt,f
∈r4。可以将t个信号帧的第f个频率的子频带模型输入序列作为一个独立的输入序列,一共f个输入序列分别输入到子频带模型进行预测,得到t个信号帧分别在各个频率的干净频谱数据,进而通过频域到时域的转换,将干净频谱数据转换为各个信号帧分别对应的干净语音信号。
69.进一步地,在一可行实施方式中,所述步骤s302包括:
70.步骤s3021,将所述目标信号帧对应的所述加权幅度谱数据中所述目标频率的加权数据与所述目标频率相邻的多个频率的加权数据拼接,得到所述目标信号帧对应的所述目标频率的子频带数据;
71.加权幅度谱数据中包括各个频率对应的加权数据(也即各个频率的加权后的全频带幅度特征信息)。目标频率相邻的多个频率的数量可以根据需要设置,在此并不做限制。假设将目标频率(f)的左右两侧分别选取n个频率,将目标频率的加权数据和这2n个频率的加权数据进行拼接,得到目标信号帧对应的该目标频率的子频带数据,例如表示为ψ
ot,f
∈r
2n+1
。
72.步骤s3022,将所述目标信号帧对应的所述目标频率的所述子频带数据和所述子频带模型输入序列进行拼接后输入子频带模型进行预测,得到所述目标信号帧对应的干净语音。
73.例如第t个信号帧在第f个频率的子频带模型输入序列表示为ψ
nt,f
∈r4,第t个信号帧的第f个频率的子频带数据表示为ψ
ot,f
∈r
2n+1
,那么,拼接后可以表示为ψ
ct,f
∈r
(2n
+5)
,可以将t个信号帧的第f个频率的该拼接结果作为一个独立的输入序列,一共f个输入序列分别输入到子频带模型进行预测,得到t个信号帧分别在各个频率的干净频谱数据,进而通过频域到时域的转换,将干净频谱数据转换为各个信号帧分别对应的干净语音信号。
74.进一步地,在一可行实施方式中,所述步骤s302包括:
75.步骤s3023,将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的复理想比值掩码;
76.步骤s3024,根据所述复理想比值掩码和所述频谱数据计算得到各所述信号帧对应的干净语音。
77.给定带噪音频信号的复谱y
t,f
,干净语音的复谱s
t,f
,有如下关系:
78.s
t,f
=m
t,f
*y
t,f
79.其中,m
t,f
是复理想比值掩码,*表示复数乘法,s
t,f
、m
t,f
、y
t,f
均是复数。本实施方式中,以复理想比值掩码为预测目标,将各个信号帧对应的各个频率的子带模型输入序列(或与子频带数据拼接后)输入子带模型进行预测,得到各个信号帧对应的复理想比值掩码。再根据复理想比值掩码和频谱数据计算得到干净语音,也即,通过公式s
t,f
=m
t,f
*y
t,f
计算得到干净语音。
80.此外,本发明实施例还提出一种语音降噪装置,所述装置包括:
81.获取模块,用于获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;
82.提取模块,用于将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;
83.预测模块,用于将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
84.进一步地,所述获取模块还用于:
85.获取多个信号帧的幅度谱数据、实数谱数据和虚数谱数据;
86.所述提取模块还用于:
87.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
88.进一步地,所述提取模块还用于:
89.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据分别输入所述全频带模型中的幅度谱加权模块、实数谱加权模块和虚数谱加权模块进行频段加权,得到各所述信号帧对应的加权幅度谱数据、加权实数谱数据和加权虚数谱数据;
90.将所述加权幅度谱数据、所述加权实数谱数据和所述加权虚数谱数据分别输入所述全频带模型中的幅度全频带提取器、实数全频带提取器和虚数全频带提取器,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
91.进一步地,所述预测模块还用于:
92.对于各所述信号帧中的任一目标信号帧,以及对于任一目标频率,将所述目标信号帧对应的所述全频带幅度谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带实数谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带虚数谱信息中所述目标频率对应的全频带信息以及所述目标信号帧对应的所述
语音活动检测信息进行拼接,得到所述目标信号帧对应的所述目标频率的子频带模型输入序列;
93.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
94.进一步地,所述预测模块还用于:
95.将所述目标信号帧对应的所述加权幅度谱数据中所述目标频率的加权数据与所述目标频率相邻的多个频率的加权数据拼接,得到所述目标信号帧对应的所述目标频率的子频带数据;
96.将所述目标信号帧对应的所述目标频率的所述子频带数据和所述子频带模型输入序列进行拼接后输入子频带模型进行预测,得到所述目标信号帧对应的干净语音。
97.进一步地,所述预测模块还用于:
98.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的复理想比值掩码;
99.根据所述复理想比值掩码和所述频谱数据计算得到各所述信号帧对应的干净语音。
100.进一步地,所述获取模块还用于:
101.获取待降噪的音频信号;
102.对所述音频信号进行分帧处理得到多个信号帧;
103.对各个所述信号帧分别进行时域到频域的转换得到频谱数据。
104.此外,本发明实施例还提出一种语音降噪设备,如图2所示,图2是本发明实施例方案涉及的硬件运行环境的设备结构示意图。需要说明的是,本发明实施例语音降噪设备可以是耳机、智能手机、个人计算机、服务器等设备,在此不做具体限制。
105.如图2所示,该语音降噪设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
106.本领域技术人员可以理解,图2中示出的设备结构并不构成对语音降噪设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
107.如图2所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音降噪程序。操作系统是管理和控制设备硬件和软件资源的程序,支持语音降噪程序以及其它软件或程序的运行。在图2所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的语音降噪程序,并执行以下操作:
108.获取多个信号帧的频谱数据,并对各所述信号帧进行语音活动检测得到各所述信号帧的语音活动检测信息;
109.将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息;
110.将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
111.进一步地,所述获取多个信号帧的频谱数据的操作包括:
112.获取多个信号帧的幅度谱数据、实数谱数据和虚数谱数据;
113.所述将所述频谱数据输入全频带模型提取得到各所述信号帧对应的全频带频谱信息的操作包括:
114.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
115.进一步地,所述将所述幅度谱数据、所述实数谱数据和所述虚数谱数据输入全频带模型,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息的操作包括:
116.将所述幅度谱数据、所述实数谱数据和所述虚数谱数据分别输入所述全频带模型中的幅度谱加权模块、实数谱加权模块和虚数谱加权模块进行频段加权,得到各所述信号帧对应的加权幅度谱数据、加权实数谱数据和加权虚数谱数据;
117.将所述加权幅度谱数据、所述加权实数谱数据和所述加权虚数谱数据分别输入所述全频带模型中的幅度全频带提取器、实数全频带提取器和虚数全频带提取器,提取得到各所述信号帧对应的全频带幅度谱信息、全频带实数谱信息和全频带虚数谱信息。
118.进一步地,所述将所述全频带频谱信息和所述语音活动检测信息输入子频带模型进行预测,得到各所述信号帧对应的干净语音的操作包括:
119.对于各所述信号帧中的任一目标信号帧,以及对于任一目标频率,将所述目标信号帧对应的所述全频带幅度谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带实数谱信息中所述目标频率对应的全频带信息、所述目标信号帧对应的所述全频带虚数谱信息中所述目标频率对应的全频带信息以及所述目标信号帧对应的所述语音活动检测信息进行拼接,得到所述目标信号帧对应的所述目标频率的子频带模型输入序列;
120.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音。
121.进一步地,所述将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音的操作包括:
122.将所述目标信号帧对应的所述加权幅度谱数据中所述目标频率的加权数据与所述目标频率相邻的多个频率的加权数据拼接,得到所述目标信号帧对应的所述目标频率的子频带数据;
123.将所述目标信号帧对应的所述目标频率的所述子频带数据和所述子频带模型输入序列进行拼接后输入子频带模型进行预测,得到所述目标信号帧对应的干净语音。
124.进一步地,所述将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的干净语音的操作包括:
125.将各所述信号帧对应的各个频率的所述子频带模型输入序列输入子频带模型进行预测,得到各所述信号帧对应的复理想比值掩码;
126.根据所述复理想比值掩码和所述频谱数据计算得到各所述信号帧对应的干净语
音。
127.进一步地,所述获取多个信号帧的频谱数据的操作包括:
128.获取待降噪的音频信号;
129.对所述音频信号进行分帧处理得到多个信号帧;
130.对各个所述信号帧分别进行时域到频域的转换得到频谱数据。
131.此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如下所述的语音降噪方法的步骤。
132.本发明语音降噪设备和计算机可读存储介质各实施例,均可参照本发明语音降噪方法各个实施例,此处不再赘述。
133.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
134.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
135.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
136.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。