语音降噪方法、装置、设备及存储介质与流程

文档序号:30948424发布日期:2022-07-30 06:20阅读:92来源:国知局
语音降噪方法、装置、设备及存储介质与流程

1.本发明涉及音视频技术领域,尤其涉及一种语音降噪方法、装置、设备及存储介质。


背景技术:

2.语音降噪具有通过减弱背景噪音以增强有用的语音信号的作用。现有的语音降噪方法,例如基于深度学习的语音降噪方法,虽然可以对非平稳噪声场景的音频信号进行降噪,但实时性差,无法基于实时场合对音频信号进行降噪处理。


技术实现要素:

3.本发明实施例通过提供一种语音降噪方法、装置、设备及存储介质,旨在解决现有语音降噪方法实现音频信号降噪的实时性差,无法基于实时场合对音频信号进行降噪处理的技术问题。
4.本发明实施例提供了一种语音降噪方法,所述语音降噪方法,包括:
5.采集音频流,并识别所述音频流对应的场景类型;
6.根据所述场景类型选取预训练的目标语音降噪模型;
7.采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号;以及,
8.将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流。
9.在一实施例中,所述目标语音降噪模型包括短时傅里叶变换层、第一信号降噪层、短时傅里叶逆变换层、第一卷积层、第二信号降噪层、第二卷积层和信号重建层,所述短时傅里叶变换层、所述第一信号降噪层、所述短时傅里叶逆变换层、所述第一卷积层、所述第二信号降噪层、所述第二卷积层和所述信号重建层依次连接。
10.在一实施例中,所述识别所述音频流对应的场景类型的步骤之后,还包括:
11.根据所述场景类型确定所述目标语音降噪模型的降噪参数,所述降噪参数用于调节所述目标语音降噪模型的降噪效果。
12.在一实施例中,所述采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号的步骤包括:
13.对所述各个采样点进行短时傅里叶变换,得到所述各个采样点的频域信号;
14.对所述各个采样点的频域信号进行降噪处理;
15.对降噪处理后的各个所述频域信号进行短时傅里叶逆变换,得到所述各个采样点的第一时域信号;
16.对所述各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个所述第一时域信号;
17.对具有第二时域特征的各个所述第一时域信号进行降噪,得到所述各个采样点的
第二时域信号;
18.根据所述各个采样点的第二时域信号确定所述各个采样点的干净时域信号。
19.在一实施例中,所述将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流的步骤包括:
20.对所述各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个所述干净时域信号;
21.对具有第四时域特征的各个所述干净时域信号进行重叠相加,得到降噪后的所述音频流。
22.在一实施例中,所述识别所述音频流对应的场景类型的步骤包括:
23.采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型。
24.在一实施例中,所述声学场景识别模型包括卷积层、池化层、全连接层和归一化指数函数层,卷积层、池化层、全连接层和归一化指数函数层依次连接,所述采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型的步骤包括:
25.提取所述音频流的梅尔频谱特征;
26.采用所述卷积层、所述池化层、所述全连接层和所述归一化指数函数层对所述梅尔频谱特征进行识别,得到多个预设场景类型和各个所述预设场景类型对应的概率;
27.将最大概率对应的预设场景类型作为所述场景类型。
28.此外,为实现上述目的,本发明还提供了一种语音降噪装置,所述语音降噪装置包括:
29.类型获取模块,用于采集音频流,并识别所述音频流对应的场景类型;
30.模型选择模块,用于根据所述场景类型选取预训练的目标语音降噪模型;
31.语音降噪模块,用于采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号;
32.语音重建模块,用于将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流。
33.此外,为实现上述目的,本发明还提供了一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现上述的语音降噪方法的步骤。
34.此外,为实现上述目的,本发明还提供了一种存储介质,其上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现上述的语音降噪方法的步骤。
35.本发明实施例中提供的一种语音降噪方法、装置、设备及存储介质的技术方案,至少具有如下技术效果或优点:
36.本发明通过采集音频流,并识别音频流对应的场景类型,根据场景类型选取预训练的目标语音降噪模型,采用目标语音降噪模型对音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到各个采样点的干净时域信号,将各个采样点的干净时域信号进行重叠相加,得到降噪后的音频流的技术方案,解决了现有语音降噪方法实现音频信号降噪的实时性差,无法基于实时场合对音频信号进行降噪处理的技术问题。本发明通过根据音频流对用户所处的场景进行识别,从而根据用户所处的场景类型选择对应的语音
降噪模型对音频流进行降噪,不仅实现了音频流的实时降噪处理,还降低了降噪后的音频流的传输时延以及提高了降噪后的音频流的质量。
附图说明
37.图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
38.图2为本发明语音降噪方法的一实施例的流程示意图;
39.图3为本发明语音降噪方法的语音降噪流程框图;
40.图4为本发明声学场景识别模型的网络结构示意图;
41.图5为本发明语音降噪模型的网络结构示意图;
42.图6为本发明语音降噪装置的功能模块图。
具体实施方式
43.为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
44.如图1所示,图1为本发明实施例方案涉及的硬件运行环境的结构示意图。
45.需要说明的是,图1即可为终端设备的硬件运行环境的结构示意图。
46.作为一种实现方式,可以如图1所示,本发明实施例方案涉及的是终端设备,所述终端设备包括:处理器1001,例如cpu,存储器1002,通信总线1003。其中,通信总线1003用于实现这些组件之间的连接通信。
47.存储器1002可以是高速rax存储器,也可以是稳定的存储器(non-volatilexexory),例如磁盘存储器。如图1所示,作为一种存储介质的存储器1002中可以包括语音降噪程序;而处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
48.采集音频流,并识别所述音频流对应的场景类型;
49.根据所述场景类型选取预训练的目标语音降噪模型;
50.采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号;以及,
51.将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流。
52.进一步的,处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
53.根据所述场景类型确定所述目标语音降噪模型的降噪参数,所述降噪参数用于调节所述目标语音降噪模型的降噪效果。
54.进一步的,处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
55.对所述各个采样点进行短时傅里叶变换,得到所述各个采样点的频域信号;
56.对所述各个采样点的频域信号进行降噪处理;
57.对降噪处理后的各个所述频域信号进行短时傅里叶逆变换,得到所述各个采样点
的第一时域信号;
58.对所述各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个所述第一时域信号;
59.对具有第二时域特征的各个所述第一时域信号进行降噪,得到所述各个采样点的第二时域信号;
60.根据所述各个采样点的第二时域信号确定所述各个采样点的干净时域信号。
61.进一步的,处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
62.对所述各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个所述干净时域信号;
63.对具有第四时域特征的各个所述干净时域信号进行重叠相加,得到降噪后的所述音频流。
64.进一步的,处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
65.采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型。
66.进一步的,所述声学场景识别模型包括卷积层、池化层、全连接层和归一化指数函数层,卷积层、池化层、全连接层和归一化指数函数层依次连接,处理器1001可以用于调用存储器1002中存储的语音降噪程序,并执行以下操作:
67.提取所述音频流的梅尔频谱特征;
68.采用所述卷积层、所述池化层、所述全连接层和所述归一化指数函数层对所述梅尔频谱特征进行识别,得到多个预设场景类型和各个所述预设场景类型对应的概率;
69.将最大概率对应的预设场景类型作为所述场景类型。
70.本发明实施例提供了语音降噪方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
71.如图2所示,在本发明的一实施例中,本发明的语音降噪方法,应用于终端设备,终端设备可以是pc、移动通信设备(例如手机)等,所述语音降噪方法包括以下步骤:
72.步骤s210:采集音频流,并识别所述音频流对应的场景类型。
73.本实施例中,音频流可以是通话语音流,也可以是音乐音频流,等等。例如,音频流是通话语音流,一般用户在说话之后,音频流中除了包括用户语音之外,还包括用户所在环境中的环境语音。在采集到音频流之后,通过提取音频流中的环境语音,以根据提取的环境语音识别用户所在环境的场景类型,用户所在环境的场景类型即为音频流对应的场景类型。
74.具体的,音频流对应的场景类型可以通过模型识别得到,即步骤s210包括:采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型。
75.声学场景识别模型是预先训练好的,用于识别声学场景类型。声学场景类型包括实际生活中的各种场景类型,例如,公园、地铁站、飞机场等。声学场景识别模型的训练过程包括:根据标注的音频场景数据,提取音频的梅尔频谱特征,把梅尔频谱特征及其对应的场景标签输入给深度卷积模型进行迭代训练,把每轮标签的错误个数和总标签数的比值作为
损失,直到模型训练达到最大训练轮数或者损失小于设定阈值时,停止模型的训练,将停止训练的模型保存为所述声学场景识别模型。例如,模型保存格式为tensorflow-lite,大小为240kb+,相较原始模型分类精度基本没变,正确率在95%以上,识别10秒音频流耗时0.2秒到0.4秒,缩短了识别时间。
76.如图3所示,在实际应用中,获取到音频流后,将音频流输入到声学场景识别模型中,声学场景识别模型对音频流识别处理后,输出音频流对应的场景类型。例如,通过声学场景识别模型对音频流对应的场景类型进行识别,识别的场景类型结果为地铁站。
77.具体的,声学场景识别模型的网络结构如图4所示,声学场景识别模型包括卷积层、池化层、全连接层和归一化指数函数层,卷积层、池化层、全连接层和归一化指数函数层依次连接。conv2d表示二维卷积,relu表示激活函数,conv2d/relu对应于卷积层,maxpool2d对应于池化层,表示二维最大池化层,fullconnected表示全连接层,softmax是归一化指数函数,对应于归一化指数函数层。
78.采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型的具体实现过程包括:
79.提取所述音频流的梅尔频谱特征;
80.采用所述卷积层、所述池化层、所述全连接层和所述归一化指数函数层对所述梅尔频谱特征进行识别,得到多个预设场景类型和各个所述预设场景类型对应的概率;
81.将最大概率对应的预设场景类型作为所述场景类型。
82.音频流输入声学场景识别模型后,声学场景识别模型提取音频流的梅尔频谱特征,例如,提取的梅尔频谱特征是(1,128,416,6)的音频特征矩阵;然后,通过卷积层、池化层、全连接层和归一化指数函数层对梅尔频谱特征进行识别处理,由归一化指数函数层输出识别结果,识别结果中包括多个预设场景类型和各个预设场景类型对应的概率,将最大概率对应的预设场景类型作为最终识别的场景类型。例如,归一化指数函数层输出(1,3)维矩阵,(1,3)维矩阵中的3表示,输出了3种预设场景类型,其中最大的数值对应的预设场景类型,即为音频流对应的场景类型。
83.步骤s220:根据所述场景类型选取预训练的目标语音降噪模型。
84.本实施例中,参考图3,图中的智能语音降噪模型包括了多个语音降噪模型,每个语音降噪模型用于对对应场景类型的音频流进行降噪。例如公园类型的语音降噪模型对公园场景下的音频流进行降噪,机场类型的语音降噪模型对机场场景下的音频流进行降噪。通过声学场景识别模型识别音频流对应的场景类型之后,根据识别的场景类型从智能语音降噪模型中选取与该场景类型匹配的语音降噪模型,选取的与该场景类型匹配的语音降噪模型即为目标语音降噪模型,然后采用目标语音降噪模型对音频流进行降噪,得到降噪后的音频流,即将音频流输入目标语音降噪模型进行降噪处理。
85.步骤s230:采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号。
86.步骤s240:将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流。
87.本实施例中,采用目标语音降噪模型对音频流进行降噪,得到降噪后的音频流为:采用目标语音降噪模型对音频流进行两次降噪处理,将第二次降噪处理后的音频流作为最
终的输出。采用目标语音降噪模型获取音频流对应的各个采样点,其中,两两相邻的采样点数据有互相重叠的部分。
88.对各个采样点进行频域转换,得到各个采样点的频域信号,接着对应各个采样点的频域信号进行频域降噪处理,也就是实现音频流的第一次降噪处理,即各个采样点在频域降噪完成。然后,将降噪处理后的频域信号进行时域转换,得到各个采样点的第一时域信号,接着对各个采样点的第一时域信号进行时域降噪处理,得到各个采样点的第二时域信号,也就是实现音频流的第二次降噪处理,即各个采样点在时域降噪完成。其中,各个采样点的第二时域信号是降噪处理后的各个采样点的第一时域信号,即各个采样点的第二时域信号中是不包括噪音的,各个采样点的第二时域信号也称为各个采样点的干净时域信号。
89.得到各个采样点的干净时域信号之后,将各个采样点的干净时域信号进行重叠相加,从而得到降噪后的音频流,然后输出音频流,如此降低了音频流的时延,提高降噪后的音频流的质量。
90.本实施例根据上述技术方案,通过根据音频流对用户所处的场景进行识别,从而根据用户所处的场景类型选择对应的语音降噪模型对音频流进行频域和时域降噪,不仅实现了音频流的实时降噪处理,还降低了降噪后的音频流的传输时延以及提高了降噪后的音频流的质量。
91.值得注意的是,一方面,上述的声学场景识别模型和语音降噪模型可以移植到android系统和ios系统的手机端,也可以移植到搭载软件的客户端中,从而满足实时通话的降噪要求。
92.另一方面,为了使语音降噪模型适应不同的场景,本发明通过一个降噪参数d(如图3所示)控制语音降噪模型的降噪效果,即在步骤s220之后,还包括:根据所述场景类型确定所述目标语音降噪模型的降噪参数。
93.应理解的是,降噪参数用于调节所述目标语音降噪模型的降噪效果,具体根据识别的场景类型可以确定目标语音降噪模型的降噪参数。d的取值范围在0和1之间,d=0表示消除所有噪声,用于控制不同的消噪比例。针对不同的场景类型,该功能会为用户选择不同的参数值,同时为了提升降噪后语音的质量,一般情况默认d=0.04。当降噪参数确定之后,通过降噪参数更新目标语音降噪模型中存储的默认降噪参数,之后目标语音降噪模型按照确定的降噪参数进行工作,从而达到提升音频流降噪效果的作用。
94.进一步的,所述语音降噪模型的训练过程如下:
95.假设带有噪声的语音数据为x,则x可由干净语音y和噪声e组合而成,即x=y+e,那么语音降噪模型的任务就是在已知噪声的语音数据x的条件下,对干净语音y进行估计,即y1=f(x),语音降噪的任务就是寻找一个函数f,使得通过函数f预测的干净语音信号y1更接近与y。采集特定场景(如会议场景、户外、交通等)噪声语音数据及其对应的语音(干净的语音相当于标签),采集的音频数据累计若干个小时,然后对是用于不同场景类型的语音降噪模型进行训练。其中,所述干净语音即为没有噪声的语音。
96.如图5所示,语音降噪模型的网络结构包括短时傅里叶变换层、第一信号降噪层、短时傅里叶逆变换层、第一卷积层、第二信号降噪层、第二卷积层和信号重建层,短时傅里叶变换层、第一信号降噪层、短时傅里叶逆变换层、第一卷积层、第二信号降噪层、第二卷积层和信号重建层依次连接;第一信号降噪层和第二信号降噪层均包括长短期记忆神经网络
和全连接网络,第二卷积层为因果卷积层。
97.其中,短时傅里叶变换层对应于图5中的stft(257),501表示第一信号降噪层,第一信号降噪层包括:多个长短期记忆神经网络、多个随机丢弃参数比例、全连接网络和激活层;其中,每个长短期记忆神经网络和一个随机丢弃参数比例构成一个长短期记忆神经网络层,全连接网络和激活层构成了全连接层。第一信号降噪层中存在两个长短期记忆神经网络层和一个全连接层,对应于图5中左侧部分的网络结构,由上往下第一个lstm+dropout表示第一个长短期记忆神经网络层,lstm表示第一个长短期记忆神经网络,dropout表示第一个随机丢弃参数比例;第二个lstm+dropout表示第二个长短期记忆神经网络层,lstm表示第二个长短期记忆神经网络,dropout表示第二个随机丢弃参数比例,dense+activation表示全连接层。其中,第一个长短期记忆神经网络层、第二个长短期记忆神经网络层以及一个全连接层依次连接。
98.502表示第二信号降噪层,第二信号降噪层包括:多个长短期记忆神经网络、多个随机丢弃参数比例、全连接网络和激活层;其中,每个长短期记忆神经网络和一个随机丢弃参数比例构成一个长短期记忆神经网络层,全连接网络和激活层构成了全连接层。第二信号降噪层中存在两个长短期记忆神经网络层和一个全连接层,对应于图5中右侧部分的网络结构,由上往下第一个lstm+dropout表示第一个长短期记忆神经网络层,lstm表示第一个长短期记忆神经网络,dropout表示第一个随机丢弃参数比例;第二个lstm+dropout表示第二个长短期记忆神经网络层,lstm表示第二个长短期记忆神经网络,dropout表示第二个随机丢弃参数比例,dense+activation表示全连接层。其中,第一个长短期记忆神经网络层、第二个长短期记忆神经网络层以及一个全连接层依次连接。
99.短时傅里叶逆变换层对应于图5中的istft(512)、第一卷积层对应于图5中的conv1d(256)、第二卷积层对应于图5中的conv1d(512)和信号重建层对应于图5中的overlap-add。
100.stft(short-time fourier transform)表示短时傅里叶变换,dropout是随机丢弃参数比例(例如。图中四个dropout均设置为0.25),dense是全连接网络,activation是激活层,激活函数为sigmoid,istft(inverse short-time fourier transform)是短时傅里叶逆变换,overlap-add是重叠相加法,用于把音频帧重建为音频信号。通常情况下,在进行语音降噪时,一般要先进行短时傅里叶变换(stft),音频数据具有连续性,每帧数据之间都有密切的联系。模型在处理第n帧音频数据时,需要用到n-j帧和n+j帧音频数据,但是为了保证模型处理的实时性,在处理第n帧音频数据时,不能用到未来的n+j帧音频数据,所以这里采用因果卷积(即图5中的conv1d(512),采用因果卷积)对模型进行构建,即在处理第n帧音频数据时,只用前n-j帧音频数据,这样势必会影响当前第n帧音频数据的处理质量,为了解决这一问题,在模型中加入长短期记忆神经网络,即lstm网络,充分利用更多之前音频帧信息,这样不仅消除了由后续帧引起的固定时延,还保证了当前音频帧的降噪质量。
101.进一步的,基于上述实施例,步骤s230包括以下步骤:
102.对所述各个采样点进行短时傅里叶变换,得到所述各个采样点的频域信号;
103.对所述各个采样点的频域信号进行降噪处理;
104.对降噪处理后的各个所述频域信号进行短时傅里叶逆变换,得到所述各个采样点的第一时域信号;
105.对所述各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个所述第一时域信号;
106.对具有第二时域特征的各个所述第一时域信号进行降噪,得到所述各个采样点的第二时域信号;
107.根据所述各个采样点的第二时域信号确定所述各个采样点的干净时域信号。
108.应理解的是,对各个采样点进行短时傅里叶变换,也就是将各个采样点转换到频域,得到各个采样点的频域信号,然后在频域下对各个采样点的频域信号进行降噪,得到降噪处理后的各个频域信号,如此完成各个采样点的频域降噪处理,即音频流的第一次降噪处理完成。其中,降噪前频域信号的频域特征的维度与降噪后频域信号的频域特征的维度是相同的。
109.音频流的第一次降噪处理完成后,对降噪处理后的各个频域信号进行短时傅里叶逆变换,也就是将降噪处理后的各个频域信号转换到时域,得到各个采样点的第一时域信号,各个采样点的第一时域信号的时域特征称为第一时域特征。其中,第一时域特征的维度大于降噪前频域信号的频域特征的维度以及降噪后频域信号的频域特征的维度。
110.接着,在时域下对各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个第一时域信号,第二时域特征的维度小于第一时域特征的维度。接着,在时域下对具有第二时域特征的各个第一时域信号进行降噪,得到各个采样点的第二时域信号,即各个采样点的第二时域信号就是降噪后的具有第二时域特征的各个第一时域信号。得到各个采样点的第二时域信号之后,各个采样点的第二时域信号就是各个采样点的干净时域信号,音频流的第二次降噪处理完成。
111.基于目标语音降噪模型的网络结构,步骤s230的具体实现过程如下:
112.采用所述短时傅里叶变换层对所述各个采样点进行短时傅里叶变换,得到所述各个采样点的频域信号;
113.采用所述第一信号降噪层对所述各个采样点的频域信号进行降噪处理;
114.采用所述短时傅里叶逆变换层对降噪处理后的各个所述频域信号进行短时傅里叶逆变换,得到所述各个采样点的第一时域信号;
115.采用所述第一卷积层对所述各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个所述第一时域信号;
116.将所述第二时域特征输入所述第二信号降噪层,以对各个所述第一时域信号进行降噪,得到所述各个采样点的第二时域信号;
117.根据所述各个采样点的第二时域信号确定所述各个采样点的干净时域信号。
118.应理解的是,通过采用短时傅里叶变换层对音频流各个采样点进行短时傅里叶变换,可以实现各个采样点的频域转换,得到各个所述采样点对应的频域信号。假设以单声道16khz采样率的音频流为例,每秒对应16个采样点,短时傅里叶变换层的输入(也是语音降噪模型的输入)是512个采样点,对应的音频时长是32ms,经过短时傅里叶变换层对512个采样点进行短时傅里叶变换后,得到各个采样点对应的频域信号,频域信号的频谱特征的维度是257维,即257维频谱特征。
119.得到频域信号的频谱特征之后,将频谱特征输入第一信号降噪层,第一信号降噪层对各个频域信号进行过滤,实现各个频域信号的降噪,得到降噪处理后的各个频域信号,
实现各个采样点的频域降噪,即音频流的第一次降噪处理完成。如,257维频谱特征通过两个长短期记忆神经网络和全连接层处理后,得到降噪后的各个频域信号,降噪后的各个频域信号的频谱特征也是257维。
120.得到降噪处理后的各个频域信号之后,采用短时傅里叶逆变换层对降噪处理后的各个频域信号进行短时傅里叶逆变换,即可以将降噪处理后的各个频域信号转换到时域,得到各个采样点的第一时域信号。例如,通过降噪处理后的各个频域信号的频谱特征输入短时傅里叶逆变换层进行短时傅里叶逆变换后,输出各个采样点的第一时域信号,第一时域信号的第一时域特征的维度是512维,即512维时域特征。
121.第一卷积层是一维卷积层,通过采用第一卷积层对各个采样点的第一时域信号的第一时域特征进行降维处理后,得到具有第二时域特征的各个第一时域信号,第二时域特征的维度低于第一时域特征的维度。接着,将各个第二时域特征输入第二信号降噪层,第二信号降噪层通过对各个第二时域特征进行过滤,实现对第一时域信号的降噪,从而得到各个采样点的第二时域信号,各个采样点的第二时域信号就是降噪后的各个第一时域信号。得到各个采样点的第二时域信号之后,各个采样点的第二时域信号就是各个采样点的干净时域信号,音频流的第二次降噪处理完成。
122.进一步的,基于上述实施例,步骤s240包括以下步骤:
123.对所述各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个所述干净时域信号;
124.对具有第四时域特征的各个所述干净时域信号进行重叠相加,得到降噪后的所述音频流。
125.应理解的是,各个采样点的干净时域信号的第三时域特征为各个采样点的第二时域信号的时域特征。得到各个采样点的干净时域信号之后,对各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个干净时域信号,即第四时域特征的维度大于第三时域特征的维度。其中,各个采样点的干净时域信号是已经完全经过降噪后的信号,但也是零散的信号,如果需要输出,则需要按照时间的先后顺序将具有第四时域特征的各个干净时域信号重叠相加起来,从而得到最终降噪后的音频流,然后输出。其中,频域信号,可以理解为频域中的音频帧,时域信号可以理解为时域中的音频帧。
126.基于目标语音降噪模型的网络结构,步骤s240的具体实现过程如下:
127.采用所述第二卷积层对所述各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个所述干净时域信号;
128.采用所述信号重建层对具有第四时域特征的各个所述干净时域信号进行重叠相加,得到降噪后的所述音频流。
129.由于各个干净时域信号的第三时域特征的维度低于各个采样点的数量,得到有第三时域特征的各个干净时域信号之后,将各个干净时域信号的第三时域特征输入第二卷积层,第二卷积层对各个干净时域信号的第三时域特征进行升维处理,得到具有第四时域特征的各个干净时域信号,具有第四时域特征的各个干净时域信号是已经完全经过降噪后的信号,但也是零散的信号,如果需要输出,则需要按照时间的先后顺序将各个第二时域信号重叠相加起来,即采用信号重建层对具有第四时域特征的各个所述干净时域信号进行重叠相加,从而得到最终降噪后的音频流,然后输出。其中,频域信号可以理解为频域中的音频
帧,时域信号可以理解为时域中的音频帧。
130.例如,各个第一时域信号的第一时域特征是512维时域特征,第一卷积层对512维时域特征进行降维之后,得到具有256维时域特征的各个第一时域信号,即第二时域特征是256维时域特征,第二信号降噪层对256维时域特征进行过滤,然后将过滤后的256维时域特征输入第二卷积层,第二卷积层输出512维时域特征的各个干净时域信号,即第三时域特征是过滤后的256维时域特征,第四时域特征是512维时域特征;信号重建层对512维时域特征的各个干净时域信号进行重叠相加,得到降噪后的音频流,实现了音频流的降噪,降低了降噪后的音频流的传输时延以及提高了降噪后的音频流的质量。
131.如图6所示,本发明提供的一种语音降噪装置,所述语音降噪装置包括:
132.类型获取模块310,用于采集音频流,并识别所述音频流对应的场景类型;
133.模型选择模块320,用于根据所述场景类型选取预训练的目标语音降噪模型;
134.语音降噪模块330,用于采用所述目标语音降噪模型对所述音频流对应的各个采样点依次进行频域降噪处理以及时域降噪处理,得到所述各个采样点的干净时域信号;
135.语音重建模块340,用于将所述各个采样点的干净时域信号进行重叠相加,得到降噪后的所述音频流。
136.进一步的,所述目标语音降噪模型包括短时傅里叶变换层、第一信号降噪层、短时傅里叶逆变换层、第一卷积层、第二信号降噪层、第二卷积层和信号重建层,所述短时傅里叶变换层、所述第一信号降噪层、所述短时傅里叶逆变换层、所述第一卷积层、所述第二信号降噪层、所述第二卷积层和所述信号重建层依次连接。
137.进一步的,所述语音降噪装置还包括:
138.参数选择单元,用于根据所述场景类型确定所述目标语音降噪模型的降噪参数,所述降噪参数用于调节所述目标语音降噪模型的降噪效果。
139.进一步的,所述语音降噪模块330包括:
140.频域转换单元,用于对所述各个采样点进行短时傅里叶变换,得到所述各个采样点的频域信号;
141.第一降噪单元,用于对所述各个采样点的频域信号进行降噪处理;
142.时域转换单元,用于对降噪处理后的各个所述频域信号进行短时傅里叶逆变换,得到所述各个采样点的第一时域信号;
143.特征降维单元,用于对所述各个采样点的第一时域信号的第一时域特征进行降维,得到具有第二时域特征的各个所述第一时域信号;
144.第二降噪单元,用于对具有第二时域特征的各个所述第一时域信号进行降噪,得到所述各个采样点的第二时域信号;
145.信号确定单元,用于根据所述各个采样点的第二时域信号确定所述各个采样点的干净时域信号。
146.进一步的,所述语音重建模块340包括:
147.特征升维单元,用于对所述各个采样点的干净时域信号的第三时域特征进行升维,得到具有第四时域特征的各个所述干净时域信号;
148.信号叠加单元,用于对具有第四时域特征的各个所述干净时域信号进行重叠相加,得到降噪后的所述音频流。
149.进一步的,所述类型获取模块310在识别所述音频流对应的场景类型的方面,具体用于采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型。
150.进一步的,所述声学场景识别模型包括卷积层、池化层、全连接层和归一化指数函数层,卷积层、池化层、全连接层和归一化指数函数层依次连接,所述类型获取模块310在采用预先训练的声学场景识别模型识别所述音频流,得到所述音频流对应的场景类型的方面包括:
151.特征提取单元,用于提取所述音频流的梅尔频谱特征;
152.类型选择单元,用于采用所述卷积层、所述池化层、所述全连接层和所述归一化指数函数层对所述梅尔频谱特征进行识别,得到多个预设场景类型和各个所述预设场景类型对应的概率,以及将最大概率对应的预设场景类型作为所述场景类型。
153.本发明语音降噪装置具体实施方式与上述语音降噪方法各实施例基本相同,在此不再赘述。
154.进一步的,本发明还提供了一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现上述的语音降噪方法的步骤。
155.进一步的,本发明还提供了一种存储介质,其上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现上述的语音降噪方法的步骤。
156.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1