应用于远场识别的前处理方法和装置的制造方法

文档序号:8488604阅读:566来源:国知局
应用于远场识别的前处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,尤其涉及一种应用于远场识别的前处理方法和装置。
【背景技术】
[0002]远场识别技术,也即远距离识别技术,通常是为了解决说话人距离语音设备2米之外场景的语音识别请求。为了获取比较稳定可靠的远场识别性能,针对远场识别场景的前处理(远场拾音)技术就显得尤为迫切和重要。
[0003]现有技术中,远场拾音的流程串联依次包括:声回波消除(Acoustic echocancellat1n, AEC),声源定位,自适应波束形成(Adaptive Beamforming, ABF),单麦增强和后处理。
[0004]但是,现有技术中需要声源定位模块,声源定位模块本身准确度就不理想,而且与后续的ABF串联,还会影响ABF的性能,从而影响前处理效果,另外,先进行AEC,当要处理的声音信号的数量较大时,运算量也较大。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本发明的一个目的在于提出一种应用于远场识别的前处理方法,该方法可以提高前处理效果,并且可选的,在声音信号数量较大时可以降低运算量。
[0007]本发明的另一个目的在于提出一种应用于远场识别的前处理装置。
[0008]为达到上述目的,本发明第一方面实施例提出的应用于远场识别的前处理方法,包括:对要处理的声音信号进行固定波束形成处理,得到固定波束形成处理后的波束信号;对所述固定波束形成处理后的波束信号,进行声回波消除以及最优波束选择;根据声回波消除以及最优波束选择后的波束信号,得到应用于远场识别的前处理后的信号。
[0009]本发明第一方面实施例提出的应用于远场识别的前处理方法,不需要声源定位模块,可以避免声源定位不准确造成的前处理效果不好的问题,从而可以提高前处理效果,并且,可选的,先进行FBF后再进行AEC,由于通常FBF后的波束数量相对于要处理的声音信号的数量小,可以降低运算量。
[0010]为达到上述目的,本发明第二方面实施例提出的应用于远场识别的前处理装置,包括:固定波束形成模块,用于对要处理的声音信号进行固定波束形成处理,得到固定波束形成处理后的波束信号;处理模块,用于对所述固定波束形成处理后的波束信号,进行声回波消除以及最优波束选择;获取模块,用于根据声回波消除以及最优波束选择后的波束信号,得到应用于远场识别的前处理后的信号。
[0011]本发明第二方面实施例提出的应用于远场识别的前处理装置,不需要声源定位模块,可以避免声源定位不准确造成的前处理效果不好的问题,从而可以提高前处理效果,并且,可选的,先进行FBF后再进行AEC,由于通常FBF后的波束数量相对于要处理的声音信号的数量小,可以降低运算量。
[0012]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0013]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0014]图1是本发明一实施例提出的应用于远场识别的前处理方法的流程示意图;
[0015]图2是本发明另一实施例提出的应用于远场识别的前处理方法的流程示意图;
[0016]图3是本发明另一实施例提出的应用于远场识别的前处理方法的流程示意图;
[0017]图4是本发明另一实施例提出的应用于远场识别的前处理装置的结构示意图;
[0018]图5是本发明另一实施例提出的应用于远场识别的前处理装置的结构示意图;
[0019]图6是本发明另一实施例提出的应用于远场识别的前处理装置的结构示意图。
【具体实施方式】
[0020]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0021]图1是本发明一实施例提出的应用于远场识别的前处理方法的流程示意图,该方法包括:
[0022]Sll:对要处理的声音信号进行固定波束形成处理,得到固定波束形成处理后的波束信号。
[0023]其中,要处理的声音信号可以是指麦克风信号,麦克风信号指麦克风拾取到的信号,其中包括近端语音信号(语音控制指令),房间混响和各种环境噪音等。
[0024]在远场识别时,为了提高识别性能,通常会采用麦克风阵列(定向麦克风或者全向麦克风),因此,要处理的声音信号可以具体是指麦克风阵列信号,麦克风阵列信号包括多路麦克风信号。
[0025]波束形成技术可以包括现有技术中采用的ABF,还包括固定波束形成(FixedBeamforming, FBF)。
[0026]ABF的空间波束特性是自适应变化的,而FBF的空间波束特性是固定不变的。空间波束特性例如特定方向的信号增益响应。
[0027]FBF处理时,可选的,所述固定波束形成处理采用的固定波束的个数为多个,每个固定波束覆盖部分空间,所有固定波束形成对整个空间的覆盖。
[0028]通过波束对空间的全覆盖,可以保证用户位于空间任意位置时都可以检测到用户讲话,避免对用户位置的限制。
[0029]当要处理的声音信号(如麦克风阵列信号)的数量较大时,为了降低运算量,FBF采用的固定波束的数量可以小于要处理的声音信号的数量。
[0030]例如,所述固定波束的个数是3个,不同的固定波束分别覆盖不同的120度的空间;或者,所述固定波束的个数是6个,不同的固定波束分别覆盖不同的60度的空间。
[0031]S12:对所述固定波束形成处理后的波束信号,进行声回波消除以及最优波束选择。
[0032]其中,为了消除干扰信号,语音识别交互系统中通常会包括声回波消除(Acousticecho cancellat1n, AEC)模块,AEC模块通常称为BargeIn功能模块。
[0033]干扰信号例如为语音识别交互系统(以下简称为系统)产生的音乐,语音合成(text to speech,TTS)信号等。
[0034]由于AEC模块除了要追踪学习从系统的扬声器到麦克风的声学传递函数(Acoustic transfer funct1n,ATF),还要学习各种在它之前的处理模块产生的随时间变化的成分,如果这些变化快于AEC中自适应滤波器的收敛速度,就会出现AEC模块一直无法理想对这些快速变化进行学习的问题,进而导致对于系统播放的干扰信号无法很好消除。
[0035]由于ABF的空间波束特性是变化的,并且,通常ABF的滤波器的变化速度远远大于AEC模块的滤波器的变化速度,所以,现有技术中不能将ABF放在AEC之前来提高信噪比。而AEC的处理效果依赖于信噪比,信噪比越高处理效果越好。由于不能将ABF放在AEC之前以提高信噪比,因此,现有技术不能将ABF放在AEC之前进行处理的方式,会影响AEC效果,进而会影响远场识别效果。
[0036]而本实施例中,采用FBF,由于FBF的空间波束特性是固定不变的,对于AEC模块来讲就是已知的,不需要AEC模块进行追踪学习,因此,本实施例中
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1