降噪方法、装置、电子设备及计算机可读存储介质与流程

文档序号:31126641发布日期:2022-08-13 03:42阅读:85来源:国知局
降噪方法、装置、电子设备及计算机可读存储介质与流程

1.本技术涉及视频技术领域,尤其涉及一种降噪方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着视频技术不断发展,人们对会议视频设备的通话音质也越来越高,视频会议过程中出现的噪声,特别是突发噪声会严重影响用户视频会议的体验。目前使用神经网络模型消除突发噪声在学术界已经成为主流,现有的消除突发噪声的方案主要通过使用一段干净语音作为标签,叠加噪声后作为神经网络模型的输入数据,然后直接对神经网络模型进行训练,此种方案的语音环境与真实视频会议环境相差较大,导致应用到真实的视频会议中进行降噪时的降噪效果比较差。


技术实现要素:

3.为了解决上述技术问题,本技术实施例提供了一种降噪方法、装置、电子设备及计算机可读存储介质。
4.第一方面,本技术实施例提供了一种降噪方法,所述方法包括:
5.根据语音能量分布特征获取干净语音训练集;
6.对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;
7.将所述模拟混响语音进行加噪处理,得到模拟带噪语音;
8.通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;
9.根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;
10.根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。
11.第二方面,本技术实施例提供了一种降噪装置,所述装置包括:
12.获取模块,用于根据语音能量分布特征获取干净语音训练集;
13.冲激模块,用于对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;
14.加噪模块,用于将所述模拟混响语音进行加噪处理,得到模拟带噪语音;
15.计算模块,用于通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;
16.解压模块,用于根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;
17.降噪模块,用于根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。
18.第三方面,本技术实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的降噪方法。
19.第四方面,本技术实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的降噪方法。
20.上述本技术提供的降噪方法、装置、电子设备及计算机可读存储介质,根据语音能量分布特征获取干净语音训练集;对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;将所述模拟混响语音进行加噪处理,得到模拟带噪语音;通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。通过对实际视频会议场景进行仿真,得到模拟带噪语音,然后针对远场环境,对模拟带噪语音的归一化处理,得到归一化幅度谱,防止输入的极端数值影响降噪模型的性能,对降噪模型输出的掩码数据输出进行压缩,保证掩码数据能在任意信噪比都能取到非常大的动态范围,提高真实的视频会议降噪效果。
附图说明
21.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对本技术保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
22.图1示出了本技术实施例提供的降噪方法的一流程示意图;
23.图2示出了本技术实施例提供的降噪模型的一结构示意图;
24.图3示出了本技术实施例提供的降噪降噪方法的另一流程示意图;
25.图4示出了本技术实施例提供的降噪装置的一结构示意图。
具体实施方式
26.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
27.通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.在下文中,可在本技术的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
29.此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
30.除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本技术的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含
义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本技术的各种实施例中被清楚地限定。
31.实施例1
32.本公开实施例提供了一种降噪方法。
33.具体的,参见图1,降噪方法包括:
34.步骤s101,根据语音能量分布特征获取干净语音训练集。
35.在本实施例中,基于视频会议的实际情况,可以将在视频会议中的用户发言情况划分为如下三类:第一类:用户a语音完成后,用户b接着语音;第二类,用户a和用户b同时语音;第三类,用户c单独输出语音。可以针对实际视频会议语音情况,确定各个类别下的语音能量分布特征,然后根据各个类别下的语音能量分布特征获取对应的干净语音训练集。
36.步骤s102,对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音。
37.在本实施例中,卷积房间冲激响应(room impulse response,rir)可以对干净语音训练集模拟实际房间混响,得到模拟混响语音。
38.步骤s103,将所述模拟混响语音进行加噪处理,得到模拟带噪语音。
39.在一实施方式中,可以按照预设信噪比对模拟混响语音叠加噪声数据,得到模拟带噪语音,其中预设信噪比可以随机从[-5,20]db中选取。
[0040]
步骤s104,通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码。
[0041]
在一实施方式中,模拟带噪语音的归一化幅度谱的获取步骤,包括:
[0042]
根据公式1计算模拟带噪语音的归一化幅度谱:
[0043]
公式1:
[0044]
其中,|y(t,f)|为模拟带噪语音的幅度谱,μ表示首帧幅度谱至当前帧幅度谱的平均幅度谱。
[0045]
在一实施方式中,所述降噪模型包括输入层、隐藏层和输出层,所述隐藏层包括多层门控循环单元;所述掩码数据包括掩码实部和掩码虚部;
[0046]
所述通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,可以包括以下步骤:
[0047]
通过所述输入层输入所述归一化幅度谱,所述归一化幅度谱包括第一预设数量的幅度值,所述第一预设数量根据各所述门控循环单元的输出单元数量确定;
[0048]
通过各所述多层门控循环单元对所述归一化幅度谱进行计算,得到计算结果序列,所述计算结果序列包括第二预设数量的结果值,所述第二预设数量根据所述第一预设数量和所述门控循环单元的层数确定;
[0049]
通过所述输出层输出所述计算结果序列,将所述计算结果序列拆分为所述掩码实部和所述掩码虚部。
[0050]
请参阅图2,降噪模型包括输入层201、第一门控循环单元202、第二门控循环单元203和输出层204。门控循环单元(gated recurrent unit,gru)是循环神经网络(recurrent neural network,rnn)中的一种门控机制。输入层201输入的归一化幅度谱有161个幅度值,第一门控循环单元202、第二门控循环单元203分别有320个输出单元,输出层204输出322个
点,将322个点中的前161个点作为掩码实部,将322个点中的后161各点作为掩码虚部。补充说明的是,可以根据以下公式2计算归一化幅度谱的幅度值的第一预设数量;
[0051]
公式2:n=p/2+1;
[0052]
其中,n表示归一化幅度谱的幅度值的第一预设数量,p表示门控循环单元的输出单元数量。
[0053]
具体来说,对于图2所示的降噪模型,归一化幅度谱的幅度值的第一预设数量为161,其计算过程如下:161=320/2+1。
[0054]
在本实施例中的降噪模型由于只使用门控循环单元,降噪模型的单元数据比较少,可以提高降噪模型计算实时效率,便于将降噪模型嵌入相应的电子设备,提高落地便捷度,方便各类电子设备能够运行该降噪模型。
[0055]
下面对掩码进行压缩的原因进行说明。在时域中,采集到的噪声语音可以用以下公式3进行表示:
[0056]
公式3:y(t)=s(t)+n(t);
[0057]
其中,y(t)、s(t)和n(t)分别表示时域中的带噪语音、干净语音和噪音信号。公式3可以通过20ms窗长、10ms帧移、320点的短时傅里叶变换(stft)转换为时频域,即用以下公式4表示:
[0058]
公式4:y(t,f)=s(t,f)+n(t,f)。
[0059]
其中,y(t,f)、s(t,f)、n(t,f)分别表示时频域中的带噪语音、干净语音和噪音信号。
[0060]
掩码可以表示为m(t,f)=mr(t,f)+imr(t,f),其中mr(t,f)和mr(t,f)代表掩码的实部和虚部。可以推出降噪过程可以表示为掩码和带噪声语音的复数乘积,即可以根据以下公式5进行确定:
[0061]
公式5:sr+isi=(mr+imi)
×
(yr+iyi)=(mry
r-miyi)+i(mryi+miyr);
[0062]
可以根据公式5推导出以下公式6:
[0063]
公式6:
[0064]
可以看到,此时得到的掩码实部和掩码虚部的输出取值范围在(-∞,+∞),在远场噪声环境下,掩码很容易达到一些比较极端的值,这样降噪模型很难得到拟合结果,会导致降噪模型无法收敛,可能会导致发散。
[0065]
可以根据以下公式7对掩码实部和掩码虚部进行压缩;
[0066]
公式7:
[0067]
其中,cirm表示压缩掩码实部或压缩掩码虚部,c表示压缩曲线控制系数,k表示压缩系数,mx表示掩码实部mr或掩码虚部mi。mx表示掩码实部时,cirm表示压缩掩码实部。mx表示掩码虚部,cirm表示压缩掩码虚部。
[0068]
步骤s105,根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码。
[0069]
在一实施方式中,所述预设压缩参数包括压缩系数和压缩曲线控制系数,步骤s105包括以下步骤:
[0070]
分别计算所述压缩曲线控制系数与所述压缩掩码的差值、和值,将所述差值与所述和值相除,得到对应的商值;
[0071]
计算所述商值的对数值,根据所述对数值和所述压缩系数计算所述解压掩码。
[0072]
具体的,可以根据以下公式8对所述压缩掩码进行解压处理,得到解压掩码。
[0073]
公式8:
[0074]
其中,表示解压掩码,c表示压缩曲线控制系数,k表示压缩系数。
[0075]
需要说明的是,压缩曲线控制系数用于控制压缩曲线的陡度,压缩系数用于控制压缩的程度。具体来说,解压掩码包括解压掩码实部和解压掩码虚部,解压掩码实部可以由公式8代入压缩掩码实部计算得到,解压掩码虚部可以由公式8代入压缩掩码虚部计算得到。o
x
为压缩掩码实部时,表示解压掩码实部,o
x
为压缩掩码虚部时,表示解压掩码虚部。
[0076]
步骤s106,根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。
[0077]
在一实施方式中,步骤s106包括以下步骤:
[0078]
将所述真实带噪语音进行傅里叶变换,得到带噪语音傅里叶变换结果;
[0079]
将所述解压掩码与所述带噪语音傅里叶变换结果相乘,得到所述预测干净语音。
[0080]
具体来说,解压掩码包括解压掩码实部和解压掩码虚部,解压掩码可以表示为m=mr+imi,其中,m表示解压掩码,mr表示解压掩码实部,mi表示解压掩码虚部。真实带噪语音傅里叶变换结果可以表示为r=rr+iri,其中,r表示真实带噪语音傅里叶变换结果,rr表示真实带噪语音实部,ri表示真实带噪语音虚部。
[0081]
具体的,可以根据以下公式4计算得到预测干净语音;
[0082]
公式9:sr+isi=(mr+imi)
×
(rr+iri);
[0083]
其中,sr+isi表示预测干净语音,mr+imi表示解压掩码,rr+iri表示真实带噪语音。
[0084]
在一实施方式中,步骤s101可以包括以下步骤:
[0085]
根据语音能量分布特征分别获取拼接类型的第一预估概率、叠加类型的第二预估概率和单一类型的第三预估概率;
[0086]
根据所述第一预估概率、所述第二预估概率和所述第三预估概率和用户语音数据分别生成拼接干净语音、叠加干净语音、单一干净语音;
[0087]
根据所述拼接干净语音、叠加干净语音和所述单一干净语音确定所述干净语音训练集。
[0088]
具体来说,可以按照实际视频会议的语音能量分布特征总结分析得到拼接语音、叠加语音、单一语音的三类视频语音场景类型,并确定各个视频语音类型的生成方式。拼接语音是拼接前后两段能量大小不同的语音,代表不同距离的说话人不同时说话的视频会议场景。叠加语音是叠加两段能量大小不同的语音,代表对不同距离的说话人同时讲话的视频会议场景。单一语音是单一说话人说话的场景。可以预先采集实际视频会议语音,检测实际视频会议语音对应的语音能量分布特征,根据语音能量分布特征确定拼接语音、叠加语音、单一语音的三类视频语音场景类型的各自出现的概率,从而确定得到拼接类型的第一预估概率、叠加类型的第二预估概率和单一类型的第三预估概率。
[0089]
在一实施方式中,所述根据所述第一预估概率、所述第二预估概率和所述第三预估概率和用户语音数据分别生成拼接干净语音、叠加干净语音、单一干净语音的步骤,包
括:
[0090]
根据所述第一预估概率从用户语音数据中获取两段不同能量的第一语音和第二语音,对所述第一语音和第二语音进行拼接,得到拼接干净语音;
[0091]
根据所述第二预估概率从所述用户语音数据中获取两段不同能量的第三语音和第四语音,对所述第三语音和所述第四语音进行叠加,得到叠加干净语音;
[0092]
根据所述第三预估概率从所述用户语音数据中获取单一用户的第五语音,将所述第五语音作为单一干净语音。
[0093]
在一实施方式中,所述根据所述拼接干净语音、叠加干净语音和所述单一干净语音确定所述干净语音训练集的步骤,包括:
[0094]
从所述拼接干净语音、叠加干净语音和所述单一干净语音中选取预设比例的语音数据作为所述干净语音训练集。
[0095]
可以理解的是,预设比例可以自定义设置,例如,预设比例为80%,85%等不同比例,在此不做限制。
[0096]
下面结合图3对本实施例提供的带噪语音的获取过程进行举例说明。
[0097]
请参阅图3,包括以下步骤:
[0098]
步骤s301,生成各类干净语音对应的概率。
[0099]
步骤s302,确定拼接语音的概率p《0.75。
[0100]
步骤s303,确定叠加语音的概率0.75≤p≤0.85。
[0101]
步骤s304,确定单一语音的概率p》0.85。
[0102]
步骤s305,获取两段2.5秒不同说话人干净语音数据。
[0103]
步骤s306,获取两段5秒不同说话人干净语音数据。
[0104]
步骤s307,获取一段5秒干净语音数据。
[0105]
步骤s308,对两段语音进行随机能量放缩。
[0106]
步骤s309,对两段语音进行随机能量放缩。
[0107]
步骤s310,拼接两段语音。
[0108]
步骤s311,叠加两段语音。
[0109]
步骤s312,选取部分干净语音进行卷积房间冲激响应,得到模拟混响语音。
[0110]
步骤s313,获取一段5秒噪声数据,按信噪比叠加噪声数据,得到带噪语音。
[0111]
本实施例提供的降噪方法,根据语音能量分布特征获取干净语音训练集;对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;将所述模拟混响语音进行加噪处理,得到模拟带噪语音;通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。通过对实际视频会议场景进行仿真,得到模拟带噪语音,然后针对远场环境,对模拟带噪语音的归一化处理,得到归一化幅度谱,防止输入的极端数值影响降噪模型的性能,对降噪模型输出的掩码数据输出进行压缩,保证掩码数据能在任意信噪比都能取到非常大的动态范围,提高真实的视频会议降噪效果。
[0112]
实施例2
[0113]
此外,本公开实施例提供了一种降噪装置。
[0114]
具体的,如图4所示,降噪装置400包括:
[0115]
获取模块401,用于根据语音能量分布特征获取干净语音训练集;
[0116]
冲激模块402,用于对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;
[0117]
加噪模块403,用于将所述模拟混响语音进行加噪处理,得到模拟带噪语音;
[0118]
计算模块404,用于通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;
[0119]
解压模块405,用于根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;
[0120]
降噪模块406,用于根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。
[0121]
在一实施方式中,所述降噪模型包括输入层、隐藏层和输出层,所述隐藏层包括多层门控循环单元;所述掩码数据包括掩码实部和掩码虚部;
[0122]
计算模块404,还用于通过所述输入层输入所述归一化幅度谱,所述归一化幅度谱包括第一预设数量的幅度值,所述第一预设数量根据各所述门控循环单元的输出单元数量确定;
[0123]
通过各所述多层门控循环单元对所述归一化幅度谱进行计算,得到计算结果序列,所述计算结果序列包括第二预设数量的结果值,所述第二预设数量根据所述第一预设数量和所述门控循环单元的层数确定;
[0124]
通过所述输出层输出所述计算结果序列,将所述计算结果序列拆分为所述掩码实部和所述掩码虚部。
[0125]
在一实施方式中,所述预设压缩参数包括压缩系数和压缩曲线控制系数,解压模块405,还用于分别计算所述压缩曲线控制系数与所述压缩掩码的差值、和值,将所述差值与所述和值相除,得到对应的商值;
[0126]
计算所述商值的对数值,根据所述对数值和所述压缩系数计算所述解压掩码。
[0127]
在一实施方式中,降噪模块406,还用于将所述真实带噪语音进行傅里叶变换,得到带噪语音傅里叶变换结果;
[0128]
将所述解压掩码与所述带噪语音傅里叶变换结果相乘,得到所述预测干净语音。
[0129]
在一实施方式中,获取模块401,还用于根据语音能量分布特征分别获取拼接类型的第一预估概率、叠加类型的第二预估概率和单一类型的第三预估概率;
[0130]
根据所述第一预估概率、所述第二预估概率和所述第三预估概率和用户语音数据分别生成拼接干净语音、叠加干净语音、单一干净语音;
[0131]
根据所述拼接干净语音、叠加干净语音和所述单一干净语音确定所述干净语音训练集。
[0132]
在一实施方式中,获取模块401,还用于根据所述第一预估概率从用户语音数据中获取两段不同能量的第一语音和第二语音,对所述第一语音和第二语音进行拼接,得到拼接干净语音;
[0133]
根据所述第二预估概率从所述用户语音数据中获取两段不同能量的第三语音和第四语音,对所述第三语音和所述第四语音进行叠加,得到叠加干净语音;
[0134]
根据所述第三预估概率从所述用户语音数据中获取单一用户的第五语音,将所述第五语音作为单一干净语音。
[0135]
在一实施方式中,获取模块401,还用于从所述拼接干净语音、叠加干净语音和所述单一干净语音中选取预设比例的语音数据作为所述干净语音训练集。
[0136]
本实施例提供降噪装置500可以实施例1所示降噪方法,为避免重复,在此不再赘述。
[0137]
本实施例提供的降噪装置,根据语音能量分布特征获取干净语音训练集;对所述干净语音训练集进行卷积房间冲激响应,得到模拟混响语音;将所述模拟混响语音进行加噪处理,得到模拟带噪语音;通过降噪模型对所述模拟带噪语音的归一化幅度谱进行计算,得到掩码数据,对所述掩码数据进行压缩处理,得到压缩掩码;根据预设压缩参数对所述压缩掩码进行解压处理,得到解压掩码;根据所述解压掩码对真实带噪语音进行降噪处理,得到预测干净语音。通过对实际视频会议场景进行仿真,得到模拟带噪语音,然后针对远场环境,对模拟带噪语音的归一化处理,得到归一化幅度谱,防止输入的极端数值影响降噪模型的性能,对降噪模型输出的掩码数据输出进行压缩,保证掩码数据能在任意信噪比都能取到非常大的动态范围,提高真实的视频会议降噪效果。
[0138]
实施例3
[0139]
此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述方法实施例1所提供的降噪方法。
[0140]
本实施例提供的降噪装置500可以执行实施例1所示降噪方法,为避免重复,在此不再赘述。
[0141]
实施例4
[0142]
本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序在处理器上运行时执行实施例1所提供的降噪方法。
[0143]
本实施例提供的计算机可读存储介质可以执行实施例1所示降噪方法,为避免重复,在此不再赘述。
[0144]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
[0145]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0146]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员
在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1