语音增强模型的训练、识别方法、电子设备和存储介质与流程

文档序号:29494688发布日期:2022-04-06 14:43阅读:144来源:国知局
语音增强模型的训练、识别方法、电子设备和存储介质与流程

1.本发明属于语音处理及识别技术领域,尤其涉及语音增强模型的训练、识别方法、电子设备和存储介质。


背景技术:

2.现有技术中,回声消除是指利用麦克风和参考音(回声信号源)估计传递路径函数,随后麦克风信号减去估计回声,实现对回声的抑制。去混响是指利用线性预测估计出晚期混响,随后原始信号减去晚期混响信号得到直达声与早期混响的混合信号。环境噪声抑制是指利用噪声估计算法估得噪声,再将其去除。
3.回声消除无法估计出硬件系统(如扬声器)的非线性失真,因此非线性失真大的系统的回声经回声消除后会有较多残余回声(非线性部分)无法去除。对于大混响环境,去混响算法需要很长的时间信号才能估准和生效,因此数据量的增加会引起对处理器运算能力成倍的增加。另外噪声环境下去混响算法效果也会明显下降。
4.环境噪声抑制算法存在噪声估计不准的情况,无法准确和及时地估得突变的非平稳噪声,如猫狗叫、开关门等噪声。另外,上述每个算法模块相对独立,无法融合成单一模块。
5.发明人发现:回声消除经过时频域转换,频点间认为是不相关的,这与硬件的非线性失真不符,因为非线性失真的频点间是有一定联系的。去混响语音信号观测模型中,假设观测信号不包含噪声,因此观测信号包含噪声时,噪声有可能导致滤波器性能恶化。
6.传统的噪声估计算法,如最小值跟踪算法、时间递归平均算法、基于直方图算法等,均基于假设:分析时间段内的噪声比语音更为平稳,即噪声变化速率比语音慢,因此无法准确和及时地估出突变的非平稳噪声。另外,这些不同算法模块的数学模型、假设条件、优化目标存在一定差异,因此无法将这些算法融合成一个统一的算法。
7.同时,传统信号处理方案基于数学严谨推导,是在统计意义上的最优解,因此在满足算法假设的场景内具有效果良好且稳定的性能,这也是大多数行业选择传统信号处理方案的原因。近年来,人工智能神经网络的技术迅速发展,在很多领域场景均体现出优于传统技术的趋势。


技术实现要素:

8.本发明实施例旨在至少解决上述技术问题之一。
9.第一方面,本发明实施例提供一种多任务融合的语音增强模型的训练方法,其包括:获取回声信号源和干净语音。干净语音为仅有说话人声音无混响/近场的语音。获取多种房间空间内的混响时间、第一房间冲激响应和第二房间冲激响应。获取真实噪声。根据回声信号源、第一房间冲激响应获取模拟回声。根据干净语音和第二房间冲激响应获取混响语音。根据预设的信回比/信噪比范围,叠加模拟回声、混响语音和真实噪声得到带噪信号。根据带噪信号估得误差信号和估计回声/回声信号源。将第二房间冲激响应的直达信号及
其早期混响保存为第三冲激响应。将干净语音卷积第三响应获取待训练神经网络的训练标签。将误差信号和估计回声/回声信号源的一种或多种语音特征,作为待训练神经网络模型训练的输入训练。将语音/噪声掩蔽值、语音/噪声幅度谱、语音/噪声复数谱作为待训练神经网络模型训练的输出训练。获取语音增强模型。
10.第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项多任务融合的语音增强模型的训练方法。
11.第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项多任务融合的语音增强模型的训练方法。
12.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项多任务融合的语音增强模型的训练方法。
13.本发明实施例通过神经网络学习硬件系统引入的非线性失真特性,能够提升对残余非线性回声的抑制程度。利用神经网络优于传统线性预测、噪声估计算法的优点,可以得到更好的去混响和降噪效果。单一模型即可完成多种语音增强任务,算法集成简单高效,维护成本低。
附图说明
14.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1为本发明的一种多任务融合的语音增强模型的训练方法的一实施例的流程图;
16.图2为本发明的一种语音增强的识别方法的一实施例的流程图;
17.图3为本发明的电子设备的一实施例的结构示意图。
具体实施方式
18.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
19.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
20.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由
通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
21.在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
22.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
23.本发明实施例提供一种语音增强模型的训练以及识别方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。
24.请参考图1,其示出了本发明一实施例提供的一种多任务融合的语音增强模型的训练方法,其包括步骤:
25.步骤s101,获取回声信号源、干净语音和真实噪声。
26.本步骤中,获取回声信号源和干净语音。干净语音为仅有说话人声音无混响/近场的语音。获取多种房间空间内的混响时间、第一房间冲激响应和第二房间冲激响应。获取真实噪声。
27.步骤s102,获取混响语音、带噪信号。
28.本步骤中,根据回声信号源、第一房间冲激响应获取模拟回声。根据干净语音和第二房间冲激响应获取混响语音。根据预设的信回比/信噪比范围,叠加模拟回声、混响语音和真实噪声得到带噪信号。
29.步骤s103,获取待训练神经网络的训练标签。
30.本步骤中,根据带噪信号估得误差信号和估计回声/回声信号源。将第二房间冲激响应的直达信号及其早期混响保存为第三冲激响应。将干净语音卷积第三响应获取待训练神经网络的训练标签。
31.步骤s104,训练、获取语音增强模型。
32.本步骤中,将误差信号和估计回声/回声信号源的一种或多种语音特征,作为待训练神经网络模型训练的输入训练。将语音/噪声掩蔽值、语音/噪声幅度谱、语音/噪声复数谱作为待训练神经网络模型训练的输出训练。获取语音增强模型。
33.在一些可选的实施例中,在本发明多任务融合的语音增强模型的训练方法的步骤s102中根据回声信号源、第一房间冲激响应获取模拟回声的步骤包括:
34.将回声信号源通过非线性仿真算法仿真;将仿真结果卷积所述第一房间冲激响应
获取第一卷积结果;空间频率响应调制所述第一卷积结果获取模拟回声。
35.在一些可选的实施例中,在本发明多任务融合的语音增强模型的训练方法的步骤s102中根据干净语音和第二房间冲激响应获取混响语音的步骤包括:将干净语音卷积第二房间冲激响应获取第二卷积结果。然后空间频率响应调制第二卷积结果得到混响语音。
36.在一些可选的实施例中,语音特征包括:fft快速傅里叶变换频点/子带幅度谱/复数谱、梅尔域/bark域fbank、mfcc梅尔频率倒谱系数。
37.在一些可选的实施例中,在本发明多任务融合的语音增强模型的训练方法的步骤s104中还包括:对误差信号和估计回声/回声信号源的语音特征进行拼帧;向前拼第一设定数量的帧,当前第二设定数量的帧,向后拼第三设定数量的帧;进一步可选的,对所述误差信号和估计回声/回声信号源的语音特征拼帧结果进行cmvn特征均值方差归一化。
38.在一些可选的实施例中,待训练神经网络模型为dnn深度神经网络、cnn卷积神经网络、lstm长短时记忆神经网络、fsmn前馈序列神经网络、rnn递归神经网络、gru门循环单元、dcnn反卷积神经网络、gcn图卷积神经网络中一种或多种神经网络模型的组合。
39.在一些可选的实施例中,待训练神经网络模型中设置损失函数;损失函数对训练标签、模型输出的语音/噪声掩蔽值、语音/噪声幅度谱和语音/噪声复数谱进行范数计算,和/或snr语音信噪比、pesq客观语音质量、stoi短时客观可懂度的一种或多种的组合。
40.同时,本发明的另一个方面,还提供了一种语音增强的识别方法,其中,识别方法通过上述多任务融合的语音增强模型的训练方法所获得的多任务融合的语音增强模型实现。语音增强的识别方法,如图2所示,包括:
41.步骤s201,获取采集输入特征。
42.获取麦克风原始信号和回路参考音;通过回声消除线性层计算,估得误差信号和估计回声/回声信号源;对误差信号和估计回声/回声信号源分别获取每一帧的语音特征;所述语音特征和多任务融合的语音增强模型训练时输入的语音特征一致。
43.步骤s202,获取语音/噪声掩蔽值、幅度谱或者复数谱。
44.本步骤中,模型前向计算得到每一帧每一个频点上的语音/噪声掩蔽值、幅度谱或者复数谱。
45.步骤s203,获取输出特征。
46.若输出是语音/噪声掩蔽值,则将输出结果乘以带噪幅度谱,再乘以带噪语音的相位谱得到降噪语谱。若输出是语音/噪声幅度谱,则将输出结果乘以带噪语音的相位谱即为降噪语谱。若输出是语音/噪声复数谱,则输出为降噪语谱。
47.步骤s204,将降噪语谱进行时频转换得到降噪语音。
48.在本发明另一种实施方式中,本发明中的基于多任务融合神经网络的语音增强模型的训练方法包括以下方面:
49.任务1回声消除:将传统回声消除线性层估得的误差信号和估计回声/回声信号源作为神经网络输入,无任何残余回声的近端干净语音作为神经网络训练标签。
50.任务2去混响:将语音晚期混响视为噪声,混响信号作为神经网络输入,直达声与早期混响的混合信号作为神经网络训练标签。
51.任务3环境噪声抑制:将带噪语音作为神经网络输入,干净语音作为神经网络训练标签。
52.通过融合三种输入和训练标签,结合神经网络训练可以得到一个单一的语音增强神经网络,该网络可以同时完成回声消除、去混响、环境噪声抑制这三个语音增强的任务。
53.在一种实施方式中,本发明的语音增强模型的训练以及识别方法包括:
54.一、数据准备:
55.1.1、开源数据(人声、音乐等)来模拟回声的信号源及干净语音2,回声仿真算法,包括线性和非线性部分3,仿真各种房间尺寸的混响时间和房间冲激响应,以此模拟回声传递路径和语音混响4,录制各种噪声场景的真实噪声。
56.1.2、将回声信号源加上线性和非线性仿真,再卷积房间冲激响应1,然后进行空间频率响应调制得到模拟回声,将干净语音卷积房间冲激响应2,然后进行空间频率响应调制得到混响语音,再根据预设的信回比/信噪比范围,将模拟回声与混响语音及真实噪声叠加起来得到带噪信号,随后带噪信号经过回声消除线性层估得误差信号和估计回声作为神经网络输入。将房间冲激响应2直达信号及其之后数十毫秒(通常为50ms左右)的数据保存为冲激响应3,该冲激响应包含了直达声和早期混响的信息,将同一条干净语音卷积房间冲激响应3得到的语音作为神经网络训练标签。
57.二、设置神经网络模型:
58.通过提取带噪语音的语音特征,如fft:fast fourier transform快速傅里叶变换频点/子带幅度谱/复数谱、梅尔域/bark域fbank:filter bank滤波器组、mfcc:mel frequency cepstrum coefficient梅尔频率倒谱系数等一种特征或多种特征的组合,作为模型训练的输入。
59.因为语音存在时间上的连续性,所以模型输入做前后拼帧处理后模型效果会有提升。但向后拼帧会带来延时问题,因此可以向前拼的帧数多一些,向后拼的少一些。比如在人耳无法感知的范围内,延时尽可能做大以保证性能,通常在几十毫秒以内。
60.比如,帧移10ms,向前拼2帧,当前1帧,向后拼1帧,得到共计4帧的特征输入。此时的延时为信号处理重叠相加的1帧以及向后拼的1帧,共计2帧20ms,该延时较小,不会造成听感上的明显差异或者影响双讲情况。此外,模型还可选择对输入特征是否做cmvn:cepstral mean and variance normalization特征均值方差归一化,开启后模型对输入数据的绝对幅度不敏感,有利于模型收敛,也有利于远场小幅度的语音。
61.模型的类型可选比较多,比如dnn:deep neural networks深度神经网络、cnn:convolutional neural networks卷积神经网络、lstm:long short term memory长短时记忆神经网络、fsmn:feedforward sequential memory networks前馈序列神经网络、rnn:reccurrent neural networks递归神经网、gru:gate recurrent unit门循环单元、dcnn:de-convolutional neural networks反卷积神经网络、gcn:graph convolutional networks图卷积神经网络等一种或多种的组合。由于一些设备比如可便携设备(如耳机、手表)的运算能力和存储空间相对有限,需要结合实际情况确定模型类型、层数和大小等。
62.通常选用语音/噪声掩蔽值g
speech/noise
、语音/噪声幅度谱a
speech/noise
、语音/噪声复数谱c
speech/noise
等作为模型训练的标签。然后在损失函数中对标签和模型输出的语音和/或噪声的掩蔽值/幅度谱/复数谱进行l1/smooth l1/l2范数计算,或者选用语音信噪比、客观语音质量评估、短时客观可懂度等“端到端”指标。最后,经过各种深度学习工具和优化器,进行大量数据(通常1000~2000小时以上)的模型训练,多轮后模型达到收敛。收敛后的模
型对各种非线性残余回声、混响、噪声环境下的人声语音都具有准确的估计能力,从而提取出干净的人声。
63.在本发明的一种实施方式中,语音增强模型的训练方法的实现步骤是:
64.首先获取麦克风原始信号和回路参考音,然后进行回声消除线性层计算,估得误差信号和估计回声。对误差信号和估计回声分别计算每一帧的特征,该特征与模型训练时保持完全一致,比如频率范围、维数、预加重、拼帧、cmvn:cepstral mean and variance normalization特征均值方差归一化等处理,然后输入预先训练好的神经网络模型,模型前向计算得到每一帧每一个频点上的语音/噪声掩蔽值g
speech/noise tif
或者幅度谱a
speech/noise tif
或者复数谱c
speech/noise tif
,其中t=10,20

ms;i=1,2

n;f=0,50,100

8000hz。如果是语音/噪声掩蔽值g
speech/noise tif
,g
speech tif
或(1-g
noise tif
)乘以带噪幅度谱,再乘以带噪语音的相位谱得到降噪语谱;如果是语音/噪声幅度谱a
speech/noise tif
,a
speech tif
或(a
带噪语谱tif-a
noise tif
)乘以带噪语音的相位谱即为降噪语谱;如果是语音/噪声复数谱c
speech/noise tif
,c
speech tif
或(c
带噪语谱tif-c
noise tif
)即为降噪语谱。最后将降噪语谱进行时频转换得到降噪语音。
65.可选的,该神经网络模型可以支持多通道麦克风输入,利用一些神经网络模块如cnn:convolutional neural networks卷积神经网络、gcn:graph convolutional networks图卷积神经网络、attention layer等学习通道间的相关信息,能够取得比单通道更好的效果。
66.综上所述,本专利通过神经网络学习硬件系统引入的非线性失真特性,能够大大提升对残余非线性回声的抑制程度,同时保留双讲时的近端语音。利用神经网络优于传统线性预测、噪声估计算法的优点,可以得到更好的去混响和降噪效果:语音失真小、清晰度/可懂度高、噪声抑制等。单一模型即可完成多种语音增强任务,算法集成简单高效,维护成本低。
67.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
68.在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项多任务融合的语音增强模型的训练方法。
69.在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项多任务融合的语音增强模型的训练方法。
70.在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一
个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够语音增强模型的训练、识别方法。
71.图3是本技术另一实施例提供的语音增强模型的训练、识别方法的电子设备的硬件结构示意图,如图3所示,该设备包括:
72.一个或多个处理器310以及存储器320,图3中以一个处理器310为例。
73.语音增强模型的训练、识别方法的设备还可以包括:输入装置330和输出装置340。
74.处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。
75.存储器320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的多任务融合的语音增强模型的训练方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例多任务融合的语音增强模型的训练方法。
76.存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据多任务融合的语音增强模型的训练设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至多任务融合的语音增强模型的训练设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
77.输入装置330可接收输入的数字或字符信息,以及产生与多任务融合的语音增强模型的训练设备的用户设置以及功能控制有关的信号。输出装置340可包括显示屏等显示设备。
78.所述一个或者多个模块存储在所述存储器320中,当被所述一个或者多个处理器310执行时,执行上述任意方法实施例中的多任务融合的语音增强模型的训练方法。
79.上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
80.本技术实施例的电子设备以多种形式存在,包括但不限于:
81.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
82.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。
83.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
84.(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。
85.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
86.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
87.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1