回声消除方法及装置和智能设备与流程

文档序号:21021513发布日期:2020-06-09 19:43阅读:359来源:国知局
回声消除方法及装置和智能设备与流程

本申请涉及但不限于人工智能技术,尤指一种回声消除方法及装置和智能设备。



背景技术:

回声反馈是电声仪器中的常见问题,如电话、助听器等都存在此问题。回声反馈严重影响语音信号的质量,常常产生啸叫、笛鸣等噪音问题,并且降低系统的增益,改变了系统的响应。

自适应回声消除(aec,adaptiveechocontrol)是以扬声器的输出信号与由扬声器的输出信号产生的多路径回声的相关性为基础,将回声估计值从拾音设备的输入信号中减去,从而达到消除回声的目的。

智能设备诞生后,智能语音设备也要消除自身的音源,如图1所示,智能设备中的参考信号(即进入智能设备的扬声器的输入信号)在经过扬声器的扩音后,会和人声等原始信号一起再被智能设备的麦克风阵列进行收音,以形成收音信号。比如智能音箱需要消除自身播放的音乐,再如智能电视需要消除自身播放的电视节目声音等。在语音唤醒、语音识别等场景中,经常会遇到需要回声消除的场景。

相关技术中,回声消除主要是通过在信号层面对多通道声音进行处理后再进行语音唤醒或者语音识别。一方面,这种方式都是对原始声音信号和参考信号进行线性的处理,而实际情况中由于混响、设备结构等原因,存在大量的非线性变换,这些非线性因素的影响是无法克服的。另一方面,这种方式只能从听感上对aec效果进行判断,而听感的优化并不意味着语音唤醒、语音识别效果的提升。



技术实现要素:

本申请提供一种回声消除方法及装置和智能设备,能够使得回声消除产生更好的效果,从而更好地满足实际需求。

本发明实施例提供了一种回声消除方法,包括:

根据收音信号的通道个数,分别将所有参考信号输入回声消除模型,计算得到参考信号估计值;

每个通道的收音信号减去该通道对应的参考信号估计值,得到原始信号估计值;

对所有通道对应的原始信号估计值进行归一化处理,得到原始信号。

在一种示例性实例中,所述方法还包括生成所述回声消除模型,包括:

利用预先设置的原始信号和预先设置的参考信号模拟收音信号;

以模拟得到的收音信号和预先设置的参考信号作为输入,以预先设置的原始信号作为建模目标,对待训练网络进行训练得到所述回声消除模型。

在一种示例性实例中,所述回声消除模型包括多层递归网络。

在一种示例性实例中,所述模拟收音信号包括:

对所述预先设置的参考信号进行预设的冲激响应后,增加预设环境噪声信号得到第一信号;

叠加第一信号与预先设置的原始信号得到模拟出的所述收音信号。

在一种示例性实例中,所述待训练网络包括以下至少一种:

前馈序列记忆神经网络fsmn、或者深度前馈序列记忆神经网络dfsmn、或者长短时记忆单元lstm、或者双向长短时记忆单元blstm、或者门循环单元gru。

在一种示例性实例中,所述参考信号包括至少,所述原始信号包括至少一路。

在一种示例性实例中,所述方法还包括:

采用所述得到的原始信号与语音唤醒模型、语音识别模型进行联合训练。

本申请还提供了一种回声消除处理方法,包括:

利用预先设置的原始信号和预先设置的参考信号模拟收音信号;

以模拟得到的收音信号和预先设置的参考信号作为输入,以预先设置的原始信号作为建模目标,对待训练网络进行训练得到所述回声消除模型。

在一种示例性实例中,所述模拟收音信号包括:

对所述预先设置的参考信号进行预设的冲激响应后,增加预设环境噪声信号得到第一信号;

叠加第一信号与预先设置的原始信号得到模拟出的所述收音信号。

在一种示例性实例中,所述待训练网络包括以下至少一种:

前馈序列记忆神经网络fsmn、或者深度前馈序列记忆神经网络dfsmn、或者长短时记忆单元lstm、或者双向长短时记忆单元blstm、或者门循环单元gru。

本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的回声消除方法,和/或,所述计算机可执行指令用于执行上述任一项所述的回声消除处理方法。

本申请又提供了一种用于回声消除装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的回声消除方法的步骤。

本申请还提供了一种用于回声消除装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的回声消除处理方法的步骤。

本申请再提供了一种智能设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:

根据收音信号的通道个数,分别将所有进入扬声器的参考信号输入回声消除模型,计算得到多个参考信号估计值;

针对每个通道,将每个通道的收音信号减去该通道对应的参考信号估计值,得到多个原始信号估计值;

对所有通道对应的原始信号估计值进行归一化处理,得到进入麦克风整列的原始信号。

在一种示例性实例中,所述智能设备包括:智能音箱、智能电视。

本申请利用具有多层递归网络的回声消除模型对输入信号进行处理,很大程度上改善了非线性因素带来的影响,从而使得回声消除产生了更好的效果,进而更好地满足了实际需求。而且,本申请考虑了多扬声器和多麦克风阵列的情况,使得应用更广泛和方便。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。

图1为智能设备中的收音信号形成示意图;

图2为本申请回声消除处理方法的流程图;

图3为本申请回声消除与语音识别联合使用实施例的网络架构示意图;

图4为本申请回声消除处理装置的组成结构示意图;

图5为本申请回声消除方法的流程图;

图6为本申请回声消除网络的实施例的示意图;

图7为本申请回声消除装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本申请发明人通过对回声消除相关技术的研究发现,如果能基于深度神经网络实现aec,势必能充分利用深度神经网络所具有的强大的非线性建模能力,针对实际情况中非线性因素的影响进行处理。

图2为本申请回声消除处理方法的流程图,用于训练生成回声消除模型,如图2所示,包括:

步骤200:利用预先设置的原始信号和预先设置的参考信号模拟收音信号。

在一种示例性实例中,模拟收音信号可以包括:

对预先设置的参考信号进行预设的冲激响应后,增加预设环境噪声信号得到第一信号;

叠加第一信号与预先设置的原始信号得到模拟出的收音信号。

以一个麦克风阵列(包括4个麦克风)为例,通常利用近场数据模拟远场数据,公式如下:

y_1(t)=x(t)*h_s1(t)+n(t);y_2(t)=x(t)*h_s2(t)+n(t);y_3(t)=x(t)*h_s3(t)+n(t);y_4(t)=x(t)*h_s4(t)+n(t)。

其中,y_i(t)表示模拟产生的第i个麦克风的远场数据,x(t)表示近场数据,h_si(t)表示由房屋、环境和麦克风位置决定的第i个麦克风的冲击响应,*表示卷积操作,n(t)表示环境噪声噪声。i为1、2、3或4。

步骤201:以模拟得到的收音信号和预先设置的参考信号作为输入,以预先设置的原始信号作为建模目标,对待训练网络进行训练得到回声消除模型。

在一种示例性实例中,建模准则可以采用最小均方误差准则,也可以采用mask的方式进行建模。总的目标都是建立从收音信号到原始信号的映射关系。

在一种示例性实例中,待训练网络可以包括如前馈序列记忆神经网络(fsmn,feedforwardsequentialmemorynetworks)、或者深度前馈序列记忆神经网络(dfsmn,deepfeedforwardsequentialmemorynetworks)、或者长短时记忆单元(lstm,long-shorttermmemory)、或者双向长短时记忆单元(blstm,bidirectionallong-shorttermmemory)、或者门循环单元(gru,gatedrecurrentunits)等多层递归网络。其中,lstm是一种时间递归循环神经网络(rnn,recurrentneuralnetworks)

需要说明的是,如何对待训练网络进行训练得到回声消除模型的具体实现并不用于限定本申请的保护范围。本申请强调的是,以模拟得到的多通道收音信号和多通道参考信号作为输入,采用本申请的网络结构对回声消除多层神经网络进行训练。

在一种示例性实例中,参考信号包括至少一路,原始信号包括至少一路。

在一种示例性实例中,经过本申请回声消除后的多通道语音信号还可以会进一步被用于后续语音唤醒、语音识别的模型训练,并可以进行联合训练。

在一种示例性实例中,以回声消除后接语音识别模型为例,假设采集到的信号为2个通道的原始信号(如图3中的wav1、wav2)和2个通道的参考信号(如图3中的ref1、ref2),那么,网络的输入为采集到的4个通道的信号,经过回声消除处理,如图3所示的nnfront-end所指的虚线框部分实现aec功能,aec处理后得到的信号与参考信号合并后,再输入声学模型(am)部分。训练时,先单独训练nnfront-end和am两个网络,再将两个网络串联起来联合训练。

图3所示的结构适合的应用场景广泛,比如:克风阵列采集到多通道信号,多通道信号可以同时加入到神经网络的输入端;再如:存在不同类型信号的情况,如除了外部信号,同时采集到内部信号等的情况。

本申请训练得到的回声消除模型是多层递归网络,非常适合于克服非线性因素造成的影响,从而有助于回声消除产生更好的效果,进而更好地满足实际需求。

本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上任一项的回声消除处理方法。

本申请再提供一种回声消除模型生成装置,包括存储器和处理器,其中,存储器中存储有上述任一项的回声消除处理方法的步骤。

本申请还提供一种智能设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:

根据收音信号的通道个数,分别将所有进入扬声器的参考信号输入回声消除模型,计算得到多个参考信号估计值;

针对每个通道,将每个通道的收音信号减去该通道对应的参考信号估计值,得到多个原始信号估计值;

对所有通道对应的原始信号估计值进行归一化处理,得到进入麦克风整列的原始信号。

在一种示例性实例,所述智能设备包括:智能音箱、智能电视。

图4为本申请回声消除处理装置的组成结构示意图,如图4所示,至少包括:信号处理模块、训练模块;其中,

信号处理模块,用于利用原始信号和参考信号模拟收音信号;

训练模块,用于以模拟得到的收音信号和参考信号作为输入,以原始信号作为建模目标,训练得到回声消除模型。

在一种示例性实例中,信号处理模块具体用于:

对参考信号进行预设的冲激响应后,增加预设环境噪声信号得到第一信号;叠加第一信号与原始信号得到模拟出的收音信号。

在一种示例性实例中,待训练网络可以包括如fsmn、或dfsmn、或者lstm、或者blstm、或者gru等多层神经网络。

在一种示例性实例中,参考信号包括至少一路,原始信号包括至少一路。

图5为本申请回声消除方法的流程图,如图5所示,包括:

步骤500:根据收音信号的通道个数,分别将所有参考信号回声消除模型,计算得到参考信号估计值。

在一种示例性实例中,回声消除模型为利用原始信号和参考信号模拟的收音信号训练得到的多层递归网络。

在一种示例性实例中,收音信号或参考信号的表征形式可以包括但不限于如:原始波(wav)信号、或经过傅里叶变换的快速傅立叶变换(fft,fastfouriertransform)信号、或者是常用语语音唤醒、语音识别的滤波器组(fkank,filterbank)特征等。

在一种示例性实例中,本申请中用于实现回声消除模型的多层递归网络会按照收音信号的通道个数分成通道个数个子网络,每个子网络是以所有参考信号为输入的回声消除模型。经过回声消除模型计算后得到对应该通道的参考信号估计值。

在一种示例性实例中,在每一个通道对应的子网络中,所有的参考信号都会经过多层递归网络进行非线性(包括线性)的处理,子网络包括多层,如fsmn或基于lstm的rnn等的递归网络层、多层归一化层,以及残差网络的直连接。

步骤501:每个通道的收音信号减去该通道对应的参考信号估计值,得到原始信号估计值。

在一种实例性实例中,本步骤包括:针对各通道,从收音信号中减去估计出的参考信号,以得到原始信号估计值。

图6为本申请回声消除网络的实施例的示意图,如图6所示,本实施例中,假设扬声器个数是2,麦克风阵列的个数也是2,即输入包括2个通道的收音信号和2个通道的参考信号,如图6中所示的通道1的收音信号1(图6中表示为收音信号1(通道1))、通道2的收音信号2(图6中表示为收音信号2(通道2))、通道1的参考信号1(图6中表示为参考信号1(通道1))、通道2的参考信号2(图6中表示为参考信号2(通道2))。那么,如图6中的虚线框部分所示,本实施例中的用于实现回声消除模型的多层递归网络会按照收音信号的通道个数分成2个子网络。在每个子网络中,包括如两层递归网络层如fsmn或dfsmn或lstm或blstm或gru,以及多层归一化层,其中,本实施例中,各子网络中对所有参考信息进行处理的过程中有一层归一化层,在对来自各子网络的参考信号估计值进行处理的还有一层归一化层。

步骤502:对所有通道对应的原始信号估计值进行归一化处理,得到原始信号。

本申请利用具有多层递归网络的回声消除模型对输入信号进行处理,很大程度上改善了非线性因素带来的影响,从而使得回声消除产生了更好的效果,进而更好地满足了实际需求。而且,本申请考虑了多扬声器和多麦克风阵列的情况,使得应用更广泛和方便。

在一种示例性实例中,本申请回声消除处理采用网络化的方式,使得回声消除处理与后端的语音唤醒、语音识别模型进行联合训练更为灵活。

本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上任一项的回声消除方法。

本申请再提供一种回声消除装置,包括存储器和处理器,其中,存储器中存储有上述任一项的回声消除方法的步骤。

图7为本申请回声消除装置的组成结构示意图,如图7所示,至少包括:第一估计模块、第二估计模块、处理模块;其中,

第一估计模块,用于根据收音信号的通道个数,分别将所有参考信号输入回声消除模型,计算得到参考信号估计值;

第二估计模块,用于每个通道的收音信号减去该通道对应的计算得到的参考信号估计值,得到原始信号估计值;

处理模块,用于对每个通道对应的原始信号估计值进行归一化处理,得到期望的原始信号。

虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1