基于双LSTM神经网络的回声消除方法与流程

文档序号:24562083发布日期:2021-04-06 12:11阅读:253来源:国知局
基于双LSTM神经网络的回声消除方法与流程

本发明涉及音频信号处理领域,具体来说涉及一种回声消除方法。



背景技术:

随着人工智能时代的到来,语音技术是人机交互的重要接口。随着物联网技术的不断发展,人们希望在更远的距离和更加复杂的环境中使用语音控制智能设备,所以传统的近场语音交互已经不能满足人们的需求,麦克风阵列技术成为远场交互的核心。

针对目前复杂的应用场景,基于麦克风阵列发展了一系列可以有效提高语音识别率的关键技术,主要包括:语音增强、声源定位、混响消除、回声消除、噪声抑制。针对有扬声器和麦克风的设备(如智能音响,智能电视),要消除设备自身的播放声音,得到有效的说话人声音,传统的回声消除算法主要利用自适应信号处理等手段来消除背景音的干扰。但在日常场景中存在各种各样的噪声,因此在回声消除中噪声是不可忽略的影响因素。当无噪声时,效果较好,当环境噪音存在时,回声消除算法的性能降低,尤其是有非平稳噪声存在时,回声消除效果不理想。



技术实现要素:

本发明旨在解决现有的回声消除效果较差的问题,提出一种基于双lstm神经网络的回声消除方法。

本发明解决上述技术问题所采用的技术方案是:基于双lstm神经网络的回声消除方法,其特征在于,包括以下步骤:

步骤1、获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号,并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征;

步骤2、根据所述第一频谱特征和第二频谱特征并基于第一lstm神经网络模型得到回声估计信号和噪声估计信号,所述第一lstm神经网络模型是根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到的;

步骤3、提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征;

步骤4、根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二lstm神经网络模型得到纯净的语音信号,所述第二lstm神经网络模型是根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的;

步骤5、将所述纯净的语音信号输入至扬声器。

进一步的,所述第一lstm神经网络模型包括回声估计模型和噪声估计模型,所述回声估计模型是根据第一样本声源信号、第二样本声源信号和样本回声信号训练得到的,所述噪声估计模型是根据第一样本声源信号、第二样本声源信号和样本噪声信号训练得到的。

本发明的有益效果是:本发明所述的基于双lstm神经网络的回声消除方法,基于lstm神经网络模型对带有噪声的回声信号进行消除,消除了噪声对回声消除的影响,能够有效的对语音信号中的回声信号进行消除。

附图说明

图1为本发明实施例所述的基于双lstm神经网络的回声消除方法的一种流程示意图;

图2为传统的回声消除的结构示意图;

图3为本发明实施例所述的基于双lstm神经网络的回声消除方法的另一种流程示意图。

具体实施方式

下面将结合附图对本发明的实施方式进行详细描述。

本发明旨在解决现有的回声消除效果较差的问题,提出一种基于双lstm神经网络的回声消除方法,其主要的技术构思为:获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号,并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征;根据所述第一频谱特征和第二频谱特征并基于第一lstm神经网络模型得到回声估计信号和噪声估计信号,所述第一lstm神经网络模型是根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到的;提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征;根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二lstm神经网络模型得到纯净的语音信号,所述第二lstm神经网络模型是根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的;将所述纯净的语音信号输入至扬声器。

在实施之前,首先需要预先训练得到第一lstm神经网络模型和第二lstm神经网络模型,其中,第一lstm神经网络模型可以根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到,第二lstm神经网络模型可以根据第一样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到;在具体使用时,获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号,其中,第一声源信号为回声通道中待输入至麦克风的远端信号,第二声源信号为麦克风收集的声源信号,其中包括:语音信号、噪声信号和回声信号,首先将第一声源信号的第一频谱特征和第二声源信号的第二频谱特征输入至第一lstm神经网络模型即可得到当前环境所对应的回声估计信号和噪声估计信号,然后再将第二声源信号的第二频谱特征、回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征输入至第二lstm神经网络模型中,即可得到纯净的语音信号,最后将纯净的语音信号输入至扬声器,即可实现声源信号的回声消除。

实施例

本发明实施例所述的基于双lstm神经网络的回声消除方法,如图1所示,包括以下步骤:

步骤s1、获取待输入至扬声器的第一声源信号以及麦克风输入的第二声源信号,并提取所述第一声源信号的第一频谱特征和第二声源信号的第二频谱特征;

传统的回声消除结构如图2所示,其通过自适应滤波器对待输入至扬声器的远端信号进行回声消除,本实施例在此基础上,获取该远端信号,即待输入至扬声器的第一声源信号,并获取麦克风输入的第二声源信号,即麦克风采集的声源信号。

在获取第一声源信号和第二声源信号后,通过特征提取方法提取第一声源信号对应的第一频谱特征以及第二声源信号的第二频谱特征。

步骤s2、根据所述第一频谱特征和第二频谱特征并基于第一lstm神经网络模型得到回声估计信号和噪声估计信号,所述第一lstm神经网络模型是根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到的;

长短时记忆(longshort-termmemory,lstm)神经网络是循环神经网络(rnn)的一种变体,可以解决传统rnn梯度消失和爆炸的缺陷,它通过在记忆单元中引入门控机制,进而可以选择性地保留上下文的记忆数量,减少网络深度和缓解梯度消失现象。

具体而言,第一lstm神经网络模型是在具体使用之前预设训练好的,其根据第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号训练得到,具体的,可以采集不同环境下的噪声信号作为样本噪声信号,采集扬声器不同音量、不同扬声器与麦克风距离下的回声信号作为样本回声信号,以及采集在上述条件下对应的第一样本声源信号和第二样本声源信号,并通过第一样本声源信号、第二样本声源信号、样本回声信号和样本噪声信号对建立的初步lstm神经网络模型进行训练,进而得到第一lstm神经网络模型。

在具体使用时,将当前获取的第一声源信号的第一频谱特征和第二声源信号的第二频谱特征输入至第一lstm神经网络模型即可得到当前环境所对应的回声估计信号和噪声估计信号。

本实施例中,第一lstm神经网络模型可以包括回声估计模型和噪声估计模型,所述回声估计模型用于回声估计信号的计算,其可以根据第一样本声源信号、第二样本声源信号和样本回声信号训练得到的,所述噪声估计模型用于噪声估计信号的计算,其可以根据第一样本声源信号、第二样本声源信号和样本噪声信号训练得到的。

步骤s3、提取所述回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征;

具体的,与步骤s1中对应,均可以使用现有的特征提取方法对第一lstm神经网络模型输出的回声估计信号和噪声估计信号进行特征提取,得到回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征。

步骤s4、根据所述第二频谱特征、第三频谱特征和第四频谱特征并基于第二lstm神经网络模型得到纯净的语音信号,所述第二lstm神经网络模型是根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到的;

具体而言,第二lstm神经网络模型也是在具体使用之前预设训练好的,其可以根据第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号训练得到,具体的,可以采集不同环境下的噪声信号作为样本噪声信号,采集扬声器不同音量、不同扬声器与麦克风距离下的回声信号作为样本回声信号,以及采集在上述条件下对应的第二样本声源信号,以及不同用户的纯净语音信号,并通过第二样本声源信号、样本回声信号、样本噪声信号和纯净的样本语音信号对建立的初步lstm神经网络模型进行训练,进而得到第二lstm神经网络模型。

在具体使用时,将第二声源信号的第二频谱特征、回声估计信号的第三频谱特征和噪声估计信号的第四频谱特征输入至第二lstm神经网络模型中,即可得到纯净的语音信号。

步骤s5、将所述纯净的语音信号输入至扬声器。

最终将第二lstm神经网络模型输出的纯净语音信号输入至扬声器,即可实现对声源信号的回声消除。

综上所述,如图3所示,本实施中,通过将第一声源信号和第二声源信号输入至第一lstm神经网络模型,得到回声估计信号和噪声估计信号,然后提取回声估计信号和噪声估计信号的频谱特征,然后将回声估计信号、噪声估计信号和第二声源信号的频谱特征输入第二lstm神经网络模型,得到目标信号。其能够保留上下文的记忆数量,减少网络深度和缓解梯度消失现象,该方法对带有噪声的回声信号有明显抑制作用的回声消除方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1