小阵列麦克风系统、噪声抑制装置及其抑制方法

文档序号:2837251阅读:252来源:国知局
专利名称:小阵列麦克风系统、噪声抑制装置及其抑制方法
技术领域
本发明涉及一种信号处理,特别是涉及一种抑制使用声音识别机制的小阵列麦克风系统的噪声的方法及装置。
背景技术
近年来,在许多系统(例如免持麦克风、遥控器、汽车定位系统以及电话服务器服务)中,语音控制、语音输入及语音启动应用变得愈来愈受欢迎。然而,在现实环境中,由于噪声及干扰的影响,降低了语音识别机制的效能,而使得现行的语音识别技术无法达到最佳化。为了解决这个问题,已知技术使用前端噪声抑制程序,提高语音信号,再将提高后的信号输入至语音识别系统。由于单一麦克风无法有效地处理噪声,特别是频率响应随时间而改变的噪声,例如其它的声音或是音乐,因此,已知技术利用阵列麦克风(arraymicrophone),改善语音识别系统在不良环境中的效能。阵列麦克风不仅使用短暂的光谱信息,还利用空间信息。通过抑制噪声及干扰,使得语音更加清晰,并提供语音识别机制更精确的声音变化检测。
图1示出了已知适用于语音识别应用的阵列麦克风系统的示意图。系统100包括设置在不同位置的麦克风112a-112n。为了方便操作,麦克风112a-112n需相隔距离D。距离D最好是重要信号的频带波长的一半。麦克风112a-112n接收所需的语音启动、所在环境的噪声以及有害的干扰。放大器114a-114n用以放大麦克风112a-112n所接收的N个信号。模拟数字转换器(ADC)116a-116n转换放大器114a-114n所放大的N个信号,因而产生N个数字信号s1(n)-sN(N)。
麦克风112a-112n所接收的N个信号是由不同位置输入的,其代表麦克风的相对位置。N个数字信号s1(n)-sN(N)输入至空间滤波器(beamformer)118,并通过语音启动检测器122提高单一通道语音。被提高的单一通道语音信号输入至适应性噪声抑制滤波器120以及语音识别机制124。适应性噪声抑制滤波器120降低多通道的数字信号s1(n)-sN(N)的噪声成分,用以提高语音成分的信号噪声比(signal to noise ratio;SNR)。空间滤波器118用以抑制噪声及外部光线的干扰,并提高光线中所需的语音。空间滤波器118可为一固定的空间滤波器(如delay-and-sum beamformer;延迟总和空间滤波器)或是适应性空间滤波器(如adaptive sidelobe cancellationbeamformer;适应性旁瓣消除空间滤波器)。所述型式的空间滤波器均为本领域技术人员所熟知。
已知具有语音识别机制的阵列麦克风系统100具有许多缺点,因而降低效能。第一种缺点为,阵列麦克风系统100无法提供音束内(in-beam)及音束外(out-of-beam)信号给语音启动检测器。第二种缺点为,麦克风彼此之间的距离需维持在一最小距离。第三种缺点为,阵列麦克风系统100不具有噪声抑制控制单元,用以抑制来自不同方向的噪声。第四种缺点为,对于四散的噪声无法达到最佳效能。
因此,能够有效地消除语音识别系统的噪声的技术,是很令人期待的。

发明内容
本发明提供一种小阵列麦克风系统,适用于一语音识别机制,包括一阵列麦克风、一第一语音启动检测器以及一第二语音启动检测器。阵列麦克风具有多个麦克风。每一麦克风可提供一接收信号。第一语音启动检测器利用所述接收信号提供一第一语音检测信号,用以代表在音束内的所需语音是否存在。第二语音启动检测器利用所述接收信号提供一第二语音检测信号,用以表示当在音束内的所需语音不存在时,在音束外的噪声是否存在。其中,语音识别机制接收第一语音检测信号、第二语音检测信号以及所述输出信号。
本发明还提供一种噪声抑制装置,包括一用以得到一阵列麦克风中的多个麦克风所接收到的信号的装置、一根据所述接收信号而提供一第一语音检测信号的装置,用以表示在音束内的所需语音是否存在、一根据所述接收信号而提供一第二语音检测信号的装置,用以表示当音束内的所需语音不存在时,在音束外的噪声是否存在、一根据该第一语音检测信号、所述接收信号以及一音束成型信号而提供一参考信号的装置,其中该参考信号的所需语音已被抑制、一根据该第二语音检测信号、该参考信号以及所述接收信号而提供该音束成型信号的装置,其中该音束成型信号的噪声已被抑制、一用以抑制该音束成型信号的额外噪声的装置,用以提供一输出信号、以及一用以提供一可靠度检测信号的装置,该可靠度检测信号表示每一次频带的可靠度。
本发明还提供一种方法,用以抑制一小阵列麦克风系统的噪声及干扰,包括由该阵列麦克风的多个麦克风中,得到多个接收信号;产生一第一及第二语音检测信号,其中该第一语音检测信号根据所述接收信号而被产生,用以代表在音束内的所需语音是否存在,该第二语音检测信号根据所述接收信号而被产生,用以代表当音束内的所需语音不存在时,音束外的噪声是否存在;根据该第一语音检测信号、所述接收信号以及一音束成型信号而产生一参考信号,其中该参考信号所需语音已抑制;根据该第二语音检测信号、该参考信号以及所述接收信号而产生该音束成型信号,其中该音束成型信号的噪声已被抑制;利用一多通道噪声抑制器抑制该音束成型信号的噪声,以产生一输出信号;产生一可靠度检测信号,代表每一次频带的可靠度;及提供该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号给一语音识别机制。
为让本发明的上述和其它目的、特征、和优点能更明显易懂,下文特举出较佳实施例,并结合附图详细说明如下


图1示出了已知适用于语音识别应用的阵列麦克风系统的示意图。
图2示出了本发明的小阵列麦克风系统的示意图。
图3为语音启动检测器的一可能实施例。
图4为语音启动检测器的另一可能实施例。
图5为多通道噪声抑制器的一可能实施例。
图6为语音识别检测器的一可能实施例。
图7为小阵列麦克风系统的另一可能实施例。
图8为输出信号b(n)的格式。
图9为小阵列麦克风系统的另一可能实施例。
图10为具有小阵列麦克风系统的系统。
附图符号说明112a-112n麦克风;114a-114n、214a、214b、714a、714b、914.1-914.n放大器;
116a-116n、216a、216b、716a、716b、916.1-916.n模拟数字转换器;120适应性噪声抑制滤波器;118、250、750、950空间滤波器;122、220、230、720、730、920、930语音启动检测器;124、280、780、980、1050语音识别机制;212a、712a、1012a单指向麦克风;212b、712b、912.1-912.n、1012b全指向麦克风;240、740、940参考产生器;260、760、960噪声抑制控制器;270、770、970多通道噪声抑制器;790混合器;909主信号形成单元;910次信号形成单元;1020模拟处理单元;1030数字信号处理器;1040存储器;410栅极;412、414预处理单元;416、418功率计算单元;420、670分割单元;422、650、660平滑滤波器;424临界计算单元;426、680比较器;510多通道快速付里叶转换单元;520、530噪声估计器;540语音可靠度检测器;550噪声抑制增益计算单元;560延迟单元;580反向快速付里叶转换;610、620频带分割单元;630、640频带功率计算单元。
具体实施例方式
为方便起见,以下许多信号及控制为用小写或大写符号符号表示。时间差异信号及控制标示“n”及“m”,其中n表示取样时间,而m表示音帧索引。一个音帧是由L次取样而得到的。频率差异信号及控制标示为(k,m),其中k代表频率。小写符号(如s(n)及d(m))均代表时域信号,而大写符号(如B(k,m))代表频域信号。此处所提到的”噪声”,不管其来源为何,均指所有不好的信号,可能包含随机噪声、其它来源的语音、及/或来自其它音源的干扰。
本发明所述的噪声消除技术为处理一声音信号。该声音信号是由阵列麦克风所接收,并包含所需的语音及有害的噪声。通过多个不同位置或是不同极性图案的麦克风所提供的空间信息,可使阵列麦克风形成一音束(beam)。音束指向所需的语音,用以提高所需的语音,并且抑制所有来自音束以外的音源。相较于单一麦克风系统或是已知技术,本发明的技术在吵杂的环境中,对于语音识别机制而言,更能改善语音识别。在本实施例中,提供一改善的噪声抑制系统,其可适用在不同的环境、声音品质以及语音辨别方面。对于语音输入、免持通讯、及声音控制应用而言,本发明所提供的改善是很令人满意的。
图2示出了本发明的小阵列麦克风系统的示意图。如图所示,小阵列麦克风系统200具有多个麦克风。在本实施例中,小阵列麦克风系统200里的麦克风彼此之间的距离可小于已知阵列麦克风系统100的距离D。此外,小阵列麦克风系统200里的麦克风可为全指向麦克风(omni-directionalmicrophone)及单指向麦克风(uni-directional microphone)的任何组合。全指向麦克风可撷取来自不同方向的信号及噪声,而单指向麦克风只能撷取其主要旁瓣方向的信号及噪声。
举例而言,若小阵列麦克风系统200具有两个麦克风,一可为单指向麦克风,面向所需的音源,另一为全指向麦克风。两麦克风可轮流面向所需的音源。在另一实施例中,亦可利用两全指向麦克风。举例而言,假设,阵列麦克风系统200里的两麦克风分别为单指向麦克风以及全指向麦克风时,单指向麦克风可为取样单指向麦克风,或是由两全指向麦克风组成。当两全指向麦克风构成单指向麦克风时,两全指向麦克风被排成一直线,并指向所需的音源。此两全指向麦克风之间具有一适当的距离。将设置在前方的全指向麦克风所接收到的信号减去后方的全指向麦克风所接收到的信号后,便可等效成单指向麦克风所接收到的信号。举例而言,由两全指向麦克风所构成的单指向麦克风可看作以本实施例所述的单指向麦克风,而设置在前方或后方的全指向麦克风可看作本实施例所述的全指向麦克风。在本实施例中,面向所需音源的单指向麦克风可作为第一通道,而全指向麦克风可作为第二通道。
简单来说,以下的小阵列麦克风系统具有两个麦克风。
如图2所示,小阵列麦克风系统200具有由麦克风212a及212b所构成的阵列麦克风。更明确地说,小阵列麦克风系统200具有一全指向麦克风212b以及一单指向麦克风212a。如上所述,单指向麦克风212a可能由两个以上的全指向麦克风所构成。在一实施例中,全指向麦克风212b可以是另一全指向麦克风或是构成单指向麦克风212a的多个全指向麦克风的一者。在本实施例中,单指向麦克风212a作为参考麦克风,不但撷取所需声音信号,也会撷取噪声及干扰。单指向麦克风212a为主要麦克风,其主要旁瓣面向说话者,用以撷取所需的语音信号。
单指向麦克风212a以及全指向麦克风212b所接收到的信号分别提供给放大器214a及214b。模拟数字转换器216a接收并数字化放大器214a所放大的信号,以提供主信号s1(n)。模拟数字转换器216b接收并数字化放大器214b所放大的信号,以提供次信号a(n)。然而,在其它实施例中,主信号可能由面向所需音源的一单指向麦克风所提供,而次信号可能由面向所需音源的一单指向麦克风所提供。另外,主信号可能由全指向麦克风所提供,而次信号由面向所需音源的至少一单指向麦克风所提供。
语音启动检测器220接收主信号s1(n)及次信号a(n)。语音启动检测器220检测音束内的前端语音,其中音束取决于既定的总功率,总功率大于噪声功率。以下将会说明噪声功率。语音启动检测器220提供一在音束内的语音检测信号d1(n),其代表是否检测到前端语音。
语音启动检测器230接收主信号s1(n)、次信号a(n)以及在音束内的语音检测信号d1(n)。语音启动检测器230检测所缺少的前端语音以及在音束外的现有噪声/干扰,其中音束取决于主信号及所需语音信号之间的既定相互关系,既定相互关系大于总功率。语音启动检测器230提供音束外的噪声检测信号d2(n),其代表当前端语音不存在时,音束外是否存在噪声/干扰。
参考产生器240接收主信号s1(n)、次信号a(n)、音束内的语音检测信号d1(n)以及音束成型信号b1(n)。参考产生器240根据音束内的语音检测信号d1(n),更新本身的系数、并检测在主信号s1(n)、次信号a(n)以及音束成型信号b1(n)内的所需语音、并消除来自次信号a(n)的所需语音、以提供一参考信号r1(n)。参考信号r1(n)包含大部分的噪声及干扰。
空间滤波器250接收主信号s1(n)、次信号a(n)、参考信号r1(n)、以及音束外的噪声检测信号d2(n)。空间滤波器250根据音束外的噪声检测信号d2(n),更新本身的系数、并检测次信号a(n)以及参考信号r1(n)内的噪声及干扰、并消除来自主信号s1(n)的噪声及干扰以及提供音束成型信号b1(n)。音束成型信号b1(n)包含大部分的所需语音。
噪声抑制控制器260接收音束内的语音检测信号d1(n)、音束外的噪声检测信号d2(n)、参考信号r1(n)以及音束成型信号b1(n)。
多通道噪声抑制器270接收音束成型信号b1(n)以及参考信号r1(n)。多通道噪声抑制器270利用快速付里叶转换(Fast Fourier Transform;FFT),将音束成型信号b1(n)以及参考信号r1(n)由时域转换成具有L点快速付里叶转换频域,用以产生频域音束成型信号B(k,m)以及频域参考信号R(k,m)。音束内的语音检测信号d1(n)以及音束外的噪声检测信号d2(n)被转换成音帧索引(如音束内的语音检测信号d1(m)以及音束外的噪声检测信号d2(m)),用以代替多通道噪声抑制器270内的取样索引n。
多通道噪声抑制器270还会抑制频域音束成型信号B(k,m)内的噪声及干扰,并提供频域输出信号Bo(k,m),其具有大部分被抑制的噪声及干扰。在多通道噪声抑制器270内的反向快速付里叶转换接收频域输出信号Bo(k,m),并将频域输出信号Bo(k,m)由频域转换成时域,然后提供一对应时域的输出信号bo(n)。此外,一语音可靠度检测器产生一检测信号m(j),用以表示每一次频带(frequency subband)的可靠度。
输出信号bo(n)可以数字格式提供给语音识别系统、或是被转换(如由数字信号转换成模拟信号)、被放大、被滤波...等,再提供给语音识别机制280。在本实施例中,语音识别机制280接收噪声已被抑制的语音信号b0(n)、检测信号m(j)、音束内的语音检测信号d1(n)以及音束外的噪声检测信号d2(n),用以执行语音识别功能。
图3为语音启动检测器的一可能实施例。如图所示,语音启动检测器300根据1.主信号s1(n)的功率、2.主信号s1(n)减去次信号a(n)后的噪声功率、以及3.上述1.2.之间的功率比,检测目前音束内的前端所需语音。
在语音启动检测器300中,减法单元310将主信号s1(n)减去次信号a(n),并产生一第一差异信号e1(n),其中e1(n)=s1(n)-a(n)。第一差异信号e1(n)包含大部分的噪声及干扰。预处理单元312及314分别接收主信号s1(n)及第一差异信号e1(n),利用相同的滤除系数,滤除对应信号的低频成分,并分别提供滤除后的信号 及 然后,功率计算单元316及318分别接收信号 及 用以计算所接收到的信号的功率,并分别提供计算后的结果ps1(n)以及pe1(n)。功率计算单元316及318还能计算结果ps1(n)以及pe1(n)的平均值。在本实施例中,平均值的计算方式如下式所示ps1(n)=α1·ps1(n-1)+(1-α1)·s~1(n)·s~1(n)........(1a)]]>pe1(n)=α1·pe1(n-1)+(1-α1)·e~1(n)·e~1(n).......(1b)]]>其中α1为一系数(0<α1<1),用以决定平均值的总合。较大的α1对应较大的平均值。ps1(n)不但具有音束内所需语音的功率,也具有噪声及干扰的功率。pe1(n)包含大部分的噪声及干扰。
分割单元320然后接收平均功率ps1(n)及pe1(n),并计算平均功率ps1(n)及pe1(n)的比例h1(n)。比例h1(n)的计算方式如下式所示h1(n)=ps1(n)pe1(n).........................(2)]]>比例h1(n)具有相对于噪声功率的大部分总功率。比例h1(n)的值愈大时,若音束内的前端所需语音存在时,表示相对于噪声功率的总功率愈大。较大的比例h1(n)表示音束内具有前端所需语音。
平滑滤波器(smoothing filter)322接收并平滑或滤除比例h1(n),并提供一平滑比例hs1(n)。平滑比例hs1(n)如下式所示hs1(n)=αh1·hs1(n-1)+(1-αh1)·h1(n).................................(3)其中,αh1为一常数(0<α1<1),用以决定平滑的量。
临界计算单元324接收实时的比例h1(n)、平滑比例hs1(n)以及一临界值q1(n)。为了得到临界值q1(n),需先计算原始临界值q’1(n)。
q1′(n)=αh1·q1′(n-1)+(1-αh1)·h1(n),ifh1(n)>β1hs1(n)q1′(n-1),ifh1(n)≤β1hs1(n).......(4)]]>其中,β1(β1>0)为一常数,在式(4)中,若实时的比例h1(n)大于β1hs1,则利用与平滑比例hs1(n)相同的手法,根据实时的比例h1(n),计算原始临界值q’1(n)。除此之外,对应于之前的取样周期,原始临界值会被维持住,并且原始临界值q’1(n)并不会根据比例h1(n)而被更新。如此,便可防止临界值在不正常的情况下,根据很小的比例h1(n)而被更新。
还可将原始临界值q’1(n)限制在范围Qmax1-Qmin1中。然后,临界值q1(n)被设定成等于原始临界值q’1(n)。设定的方式如下q1(n)=Qmax1,ifq1′(n)>Qmax1,q1′(n),ifQmax1≥q1′(n)≥Qmin1,andQmin1,ifQmin1>q1′(n),.........(5)]]>其中Qmax1与Qmin1均为常数。
因此,临界值q1(n)会根据比例h1(n)的平均值而被计算,其中较小的比例h1(n)会被排除。另外,还可将临界值q1(n)限制在范围Qmax1-Qmin1中。因此,可依据操作环境,适当地计算临界值q1(n)。
比较器326接收并比较比例h1(n)以及临界值q1(n),再根据比较结果提供音束内的语音检测信号d1(n)。比较方式如下式所示d1(n)=1,ifh1(n)≥q1(n),0,ifh1(n)<q1(n)............(6)]]>当音束内的语音检测信号d1(n)被设成定成1时,表示在音束内的前端所需语音已被检测到。当音束内的语音检测信号d1(n)被设成定0时,表示在音束内的前端所需语音未被检测到。
图4为语音启动检测器的另一可能实施例。如图所示,语音启动检测器400根据1.音束内的语音检测信号d1(n)、2.主信号s1(n)的总功率、3.主信号s1(n)与信号e1(n)之间的相互关系(e1(n)=s1(n)-a(n))、以及4.大于上述2.的上述3.的计算结果,检测缺少的前端所需语音,以及在音束外所存在的干扰及噪声。
语音启动检测器400具有栅极410,其接收音束内的语音检测信号d1(n),用以执行下列判断条件当音束内的所需语音被检测到时,音束内的语音检测信号d1(n)=1;当音束外的语音检测并未产生时,音束外的噪声检测信号d2(n)=0。当音束内的所需语音未被检测到,并且语音启动检测器已被启动时,音束内的语音检测信号d1(n)=0。
预处理单元412及414分别接收主信号s1(n)及第一差异信号e1(n),利用相同的滤除系数,滤除对应信号的低频成分,并分别提供滤除后的信号 及 预处理单元412及414的滤除参数可与预处理单元312及314相同或不同。
功率计算单元416接收信号 用以计算所接收到的信号的功率,并提供计算后的结果ps2(n)。功率计算单元418接收信号 用以计算所接收到的信号的功率,并提供计算后的结果pse(n)。功率计算单元416及418还能计算结果ps2(n)以及pe2(n)的平均值。在本实施例中,功率计算单元416及418所计算出来的平均值如下式所示ps2(n)=α2·ps2(n-1)+(1-α2)·s~2(n)·s~2(n)............(7a)]]>pse(n)=α2·pse(n-1)+(1-α2)·s~2(n)·e~2(n)...........(7b)]]>其中α2为一常数(0<α2<1),其可等于或不等于α1。
ps2(n)不但具有所需语音的总功率,亦具有噪声及干扰。pse(n)包含信号 及信号 之间的相互关系。若前端所需语音存在时,则信号 及信号 之间的相互关系一般为负关系。
分割单元420然后接收平均功率ps2(n)及pse(n),并计算平均功率ps1(n)及pe1(n)的比例h2(n)。比例h2(n)的计算方式如下式所示h2(n)=pse(n)ps2(n)......................(8)]]>平滑滤波器422接收并滤除或平滑比例h2(n),并提供一平滑比例hs2(n)。平滑比例hs2(n)如下式所示hs2(n)=αh2·hs2(n-1)+(1-αh2)·h2(n)...........................(9)其中,αh2为一常数(0<α2<1),其可等于或不等于αh1。
临界计算单元424接收实时的比例h2(n)、平滑比例hs2(n)以及一临界值q2(n)。为了得到临界值q2(n),需先计算原始临界值q’2(n)。
q2′(n)=αh2·q2′(n-1)+(1-αh2)·h2(n),ifh2(n)>β2hs2(n),q2′(n-1),ifh2(n)≤β2hs2(n),.......(10)]]>其中,β2(β2>0)为一常数,其可等于或不等于β1。在式(10)中,若实时的比例h2(n)大于β2hs2,则利用与平滑比例hs2(n)相同的手法,根据实时的比例h2(n),计算原始临界值q’2(n)。除此之外,对应于之前的取样周期,原始临界值会被维持住。
还可将原始临界值q’2(n)限制在范围Qmax2-Qmin2中。然后,临界值q2(n)被设定成等于原始临界值q’2(n)。设定的方式如下q2(n)=Qmax2,ifq2′(n)>Qmax2,q2′(n),ifQmax2≥q2′(n)≥Qmin2,andQmin2,ifQmin2>q2′(n),........(11)]]>其中Qmax2与Qmin2均为常数,例如Qmax2大于Qmin2。
比较器426接收并比较比例h2(n)以及临界值q2(n),再根据比较结果提供音束外的噪声检测信号d2(n)。比较方式如下式所示d2(n)=1,ifh2(n)≥q2(n),0,ifh2(n)<q2(n)...........(12)]]>当音束外的噪声检测信号d2(n)被设成定1时,表示在音束外的干扰及噪声是存在的,而前端所需语音并不存在。
图5为多通道噪声抑制器的一可能实施例。多通道噪声抑制器500由噪声抑制控制信号c(m)所控制。噪声抑制控制信号c(m)由时域的噪声抑制控制信号c(n)转换而来的。
在多通道噪声抑制器500中,多通道快速付里叶转换单元510将空间滤波器250所输出的音束成型信号b1(n)、参考产生器240所输出的参考信号r1(n)转换成频域,因此可得到频域音束成型信号B(k,m)以及频域参考信号R(k,m)。噪声估计器520接收频域音束成型信号B(k,m),并估计在频域音束成型信号B(k,m)内的噪声量,并提供频域噪声信号N1(k,m)。噪声估计器可根据技术人员所深知的最小统计数据进行估计。举例而言,其中一种方式为R.Martin在1994年的European Signal Processing Conference(EUSIPCO)的第1182-1185页曾提出”利用最小统计数据估计光谱的减损”。噪声估计器530接收频域噪声信号N1(k,m)、频域参考信号R(k,m)、以及音束外的噪声检测信号d2(m),其中将音束外的噪声检测信号d2(n)由时域转换至频域后,便可得到音束外的噪声检测信号d2(m)。噪声估计器530决定频域音束成型信号B(k,m)的最后估计,并提供最终噪声估计N2(k,m)。最终噪声估计N2(k,m)的计算方式如下式所示N2(k,m)=γa1·N1(k,m)+γa2·|R(k,m)|,ifd2(m)=0,γb1·N1(k,m)+γb2·|R(k,m)|,ifd2(m)=1,......(13)]]>其中,γa1、γa2、γb1及γb2为常数,其中,γa1>γb1>0,而γb2>γa2>0。如式(13)所示,最终噪声估计N2(k,m)被设定成等于第一标准噪声估计γx1·N1(k,m)与第二标准噪声估计γx2·|R(k,m)|的总合,其中,γx可等于γa或γb。常数γa1,γa2,γb1及γb2按比例方式排列,当音束外的噪声检测信号d2(m)=0,即表示音束外的噪声及干扰已被检测到,则最终噪声估计N2(k,m)具有大部分的噪声信号N1(k,m)以及少部分的参考信号量|R(k,m)|。相反的,当音束外的噪声检测信号d2(m)=1,即表示音束外的噪声及干扰未被检测到,则最终噪声估计N2(k,m)具有少部分的噪声信号N1(k,m)以及大部分的参考信号量|R(k,m)|。
噪声抑制增益计算单元550接收频域音束成型信号B(k,m)、最终噪声估计N2(k,m)、以及延迟单元560所提供的频域输出信号Bo(k,m-1)。噪声制增益计算单元550计算噪声抑制增益G(k,m),其用以抑制频域音束成型信号B(k,m)的额外噪声及干扰。
为了定义噪声抑制增益G(k,m),对于频域音束成型信号B(k,m)的信号噪声比估计G’SNR,B(k,m)要先得知,其得知方法如下式所示GSNR,B′(k,m)=|B(k,m)|N2(k,m)-1...................(14)]]>然后,如下式所示,信号噪声比估计G’SNR,B(k,m)会被限定成正值或于零。
GSNR,B(k,m)=GSNR,B′(k,m),ifGSNR,B′(k,m)≥0,0,ifGSNR,B′(k,m)<0...........(15)]]>接着,如下式所示,信号噪声比估计GSNR(k,m)将会被求得。
GSNR(k,m)=λ·|Bo(k,m-1)|N2(k,m)+(1-λ)·GSNR,B(k,m).......(16)]]>其中,λ为一正常数,例如1>λ>0。如式(16)所示,最终的信号噪声比估计GSNR(k,m)具有两成分,一是对于先前画面的输出信号的信号噪声比估计的标准版本(如λ·|Bo(k,m-1)|/N2(k,m)),另一是对于成型信号的被限制信号噪声比估计的标准版本(如(1-λ)·GSNR,B(k,m))。常数λ决定两成分的比重,以得到最终的信号噪声比估计GSNR(k,m)。
增益Go(k,m)计算如下所示G0(k,m)=GSNR(k,m)1+GSNR(k,m)....................(17)]]>增益Go(k,m)为一实值,其大小代表噪声抑制的结果。更进一步而言,当增益Go(k,m)的值愈小时,则噪声抑制量愈大;而当增益Go(k,m)的值愈大时,则噪声抑制量愈小。
最终增益G(k,m)的计算如下式所示G(k,m)=GSNR(k,m)σ+GSNR(k,m)ifc(m)=1,G0(k,m),ifc(m)=0...........(18)]]>其中,σ为正值,且大于1。当噪声抑制控制信号c(m)=1时,则最终增益G(k,m)更符合大量噪声的抑制。当噪声抑制控制信号c(m)=0时,最终增益G(k,m)等于增益Go(k,m)。乘法器570将频域音束成型信号B(k,m)与最终增益G(k,m)相乘,以得到频域输出信号Bo(k,m),其计算方式如下Bo(k,m)=B(k,m)·G(k,m).......................(19)反向快速付里叶转换580接收频域输出信号Bo(k,m),以产生被处理的语音信号bo(n)。
图6为语音识别检测器的一可能实施例。语音识别检测器600与语音识别检测器540相同。语音识别检测器600用以得知语音识别机制所撷取出的语音特色的每一次频带的可靠度。频带分割单元610及620分别接收最终噪声估计N2(k,m)以及频域输出信号Bo(k,m),并根据由语音识别机制所撷取出的语音特色分割频带。频带分割单元610及620分别产生输出信号 及 其中,j表示次频带的索引。频带功率计算单元630及640分别计算输出信号 及 的功率,以产生功率信号PN(j,m)及PB(j,m)。平滑滤波器650及660分别平均化功率信号PN(j,m)及PB(j,m),其平均化方式如下所示P~N(j,m)=αN·P~N(j,m-1)+(1-αN)·PN(j,m)·PN(j,m).....(20a)]]>P~B(j,m)=αB·P~B(j,m-1)+(1-αB)·PB(j,m)·PB(j,m).....(20b)]]>其中,αN及αB均为常数,其决定平均化的量,并可被设定成0<αN,αB<1。当αN及αB的值较大时,表示具有较大的平均化及平滑量分割器670利用平滑功率 及 以得到功率比D(j,m)。然后,比较功率比D(j,m)与预决定临界值T(j,m),以得到检测信号m(j),其表示每一次频带的可靠度。检测信号m(j)可被传送至语音识别系统中,以改善撷取的特征。
图7为小阵列麦克风系统的另一可能实施例。小阵列麦克风系统700具有麦克风712a及712b、放大器714a及714b、模拟数字转换器716a及716b、语音启动检测器720、730、参考产生器740、空间滤波器750、多通道噪声抑制器770、噪声抑制控制器760、语音识别机制780、以及混合器790。
图7与图2不同之处在于,图7具有混合器790,用以混合语音信号bo(n)、检测信号m(j)、音束内的语音检测信号d1(n)、以及音束外的噪声检测信号d2(n),以产生具有特殊格式的输出信号b(n)。图8为输出信号b(n)的格式。在奇数数据b(n)(n=1,3,5...)中,最高的14位表示语音的实际声音数据。倒数第二个位用以放置检测信号m(j)。最后一个位用以放置音束内的语音检测信号d1(n)。在偶数数据b(n)(n=2,4,6...)中,最高的14位表示语音的实际声音数据。倒数第二个位用以放置检测信号m(j)。最后一个位用以放置音束外的噪声检测信号d2(n)。
图9为小阵列麦克风系统的另一可能实施例。如图所示,小阵列麦克风系统900具有语音启动检测器920、930、参考产生器940、空间滤波器950、多通道噪声抑制器970、噪声抑制控制器960、以及语音识别机制980。图9不同于图2之处在于,图9具有麦克风912.1-912.n,放大器914.1-914.n、模拟数字转换器916.1-916.n、主信号形成单元909以及次信号形成单元910,用以产生主信号s1(n)以及次信号a(n)。
图10为具有小阵列麦克风系统的系统。在此实施例中,系统1000具有麦克风1012a及1012b、模拟处理单元1020、数字信号处理器(DSP)1030、存储器1040、以及语音识别机制1050。麦克风1012a及1012b可对应图2中的212a及212b。模拟处理单元1020执行模拟处理,并可具有如图2所示的放大器214a、214b以及模拟数字转换器216a及216b。数字信号处理器1030可改善用以抑制噪声及干扰的不同处理单元,如图2所示的语音启动检测器220、230、参考产生器240、空间滤波器250、多通道噪声抑制器270、噪声抑制控制器260、以及语音识别机制280。存储器1040用以储存程序代码及数字信号处理器1030所需的数据。
可利用不同的装置改善阵列麦克风及噪声抑制的技术。举例而言,所述技术可用硬件、软件或是软硬件来改善。若利用硬件改善,则可利用特定用途集成电路(application specific integrated circuits;ASICs)、数字信号处理器(DSPs)、数字信号处理装置(DSPDs)、可程序逻辑装置(PLDs)、现场可编程逻辑阵列(fleld programmable gate arrays;FPGAs)、处理器、控制器、微控制器、微处理器、其它上述的电子单元或上述组件的组合。
若利用软件改善,则可利用模块(如传统的做法等)执行上述的功能。软件的程序代码可储存在一存储器单元(如图10所示的存储器单元140)中,并可由处理器(如图10所示的DSP 1030)所执行。
虽然本发明已以较佳实施例披露如上,但其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围的前提下,当可作若干的更改与修饰,因此本发明的保护范围当以权利要求为准。
权利要求
1.一种小阵列麦克风系统,适用于一语音识别机制,包括一阵列麦克风,具有多个麦克风,每一麦克风可提供一接收信号;一第一语音启动检测器,利用所述接收信号提供一第一语音检测信号,用以代表在音束内的所需语音是否存在;以及一第二语音启动检测器,利用所述接收信号提供一第二语音检测信号,用以表示当在音束内的所需语音不存在时,在音束外的噪声是否存在;其中,该语音识别机制接收该第一语音检测信号、第二语音检测信号以及所述输出信号。
2.如权利要求1所述的小阵列麦克风系统,还包括一参考信号产生器,根据该第一语音检测信号、所述接收信号以及一音束成型信号,提供一参考信号,其中该参考信号的所需语音已被抑制;一空间滤波器,根据该第二语音检测信号、该参考信号以及所述接收信号,提供该音束成型信号,其中该音束成型信号的噪声已被抑制;一多通道噪声抑制器,用以抑制该音束成型的噪声并提供一输出信号;以及一语音可靠度检测器,提供一可靠度检测信号,用以表示每一次频带的可靠度;其中该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号均被提供至该语音识别机制。
3.如权利要求1所述的小阵列麦克风系统,其中该第一语音检测信号取决于所述接收信号的总功率比例,所述接收信号大于噪声功率。
4.如权利要求1所述的小阵列麦克风系统,其中该第二语音检测信号取决于一所需信号以及一主信号之间的相互关系比例,该主信号大于该总功率。
5.如权利要求1所述的小阵列麦克风系统,其中该音束成型信号大体上具有所需语音。
6.如权利要求1所述的小阵列麦克风系统,其中所述信号具有一主信号以及至少一次信号。
7.如权利要求6所述的小阵列麦克风系统,其中该主信号由一朝向一所需音源的单指向麦克风所提供,该次信号由至少一全指向麦克风所提供。
8.如权利要求6所述的小阵列麦克风系统,其中该主信号由一单指向麦克风所提供,该次信号由至少一单指向麦克风所提供,提供该主信号的该单指向麦克风朝向一所需音源,提供该次信号的该单指向麦克风不朝向该所需音源。
9.如权利要求6所述的小阵列麦克风系统,其中将一后方全指向麦克风所提供的信号减去一前方全指向麦克风所提供的信号,便可得到该主信号,该次信号为该后方全指向麦克风或该前方全指向麦克风所提供。
10.如权利要求6所述的小阵列麦克风系统,其中该主信号由一全指向麦克风所提供,该次信由至少一单指向麦克风提供,该单指向麦克风朝向该所需音源。
11.如权利要求1所述的小阵列麦克风系统,其中该参考信号大体上具有噪声。
12.如权利要求1所述的小阵列麦克风系统,还包括一噪声抑制控制器,用以控制该多通道噪声抑制器的抑制功率。
13.如权利要求1所述的小阵列麦克风系统,其中该参考信号产生器及该空间滤波器处理时域信号,该多通道噪声抑制器处理频域信号。
14.如权利要求1所述的小阵列麦克风系统,还包括一混合器,用以提供一具有特殊格式的混合输出信号给该语音识别机制,该语音识别机制使用该输出信号、该可靠度检测信号、以及该第一及第二语音检测信号。
15.一种噪声抑制装置,包括一用以得到一阵列麦克风中的多个麦克风所接收到的信号的装置;一根据所述接收信号而提供一第一语音检测信号的装置,用以表示在音束内的所需语音是否存在;一根据所述接收信号而提供一第二语音检测信号的装置,用以表示当音束内的所需语音不存在时,在音束外的噪声是否存在;一根据该第一语音检测信号、所述接收信号以及一音束成型信号而提供一参考信号的装置,其中该参考信号的所需语音已被抑制;一根据该第二语音检测信号、该参考信号以及所述接收信号而提供该音束成型信号的装置,其中该音束成型信号的噪声已被抑制;一用以抑制该音束成型信号的额外噪声的装置,用以提供一输出信号;以及一用以提供一可靠度检测信号的装置,该可靠度检测信号表示每一次频带的可靠度。
16.如权利要求15所述的噪声抑制装置,还包括一用以控制噪声抑制能力的装置。
17.如权利要求15所述的噪声抑制装置,其中该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号均被提供至一语音识别机制中。
18.如权利要求15所述的噪声抑制装置,还包括一用以提供一混合信号给该语音识别机制的装置,该混合信号具有特殊格式。
19.一种方法,用以抑制一小阵列麦克风系统的噪声及干扰,包括由该阵列麦克风的多个麦克风中,得到多个接收信号;产生一第一及第二语音检测信号,其中该第一语音检测信号根据所述接收信号而被产生,用以代表在音束内的所需语音是否存在,该第二语音检测信号根据所述接收信号而被产生,用以代表当音束内的所需语音不存在时,音束外的噪声是否存在;根据该第一语音检测信号、所述接收信号以及一音束成型信号而产生一参考信号,其中该参考信号所需语音已抑制;根据该第二语音检测信号、该参考信号以及所述接收信号而产生该音束成型信号,其中该音束成型信号的噪声已被抑制;利用一多通道噪声抑制器抑制该音束成型信号的噪声,以产生一输出信号;产生一可靠度检测信号,代表每一次频带的可靠度;及提供该第一语音检测信号、该第二语音检测信号、该可靠度检测信号以及该输出信号给一语音识别机制。
20.如权利要求19所述的方法,其中该第一语音检测信号取决于大于噪声功率的该接收信号的总功率比例。
21.如权利要求19所述的方法,其中该第二语音检测信号取决于一所需信号以及一主信号之间的相互关系比例,该主信号大于总功率。
22.如权利要求19所述的方法,其中产生该参考信号以及该音束成型信号的步骤是处理时域信号,该抑制音束成型信号的步骤是处理频域信号。
23.如权利要求19所述的方法,还包括产生一噪声抑制控制信号的步骤,用以控制该多通道噪声抑制器的噪声抑制功率。
24.如权利要求19所述的方法,还包括一混合步骤,周以混合该输出信号、该可靠度检测信号以及该第一及第二语音检测信号,以产生一混合信号。
全文摘要
小阵列麦克风系统,具有一阵列麦克风,其具有多个麦克风,每一麦克风可提供一接收信号。第一语音启动检测器利用所述接收信号提供第一语音检测信号,用以代表在音束内的所需语音是否存在。一第二语音启动检测器利用所述接收信号提供第二语音检测信号,用以表示当在音束内的所需语音不存在时,在音束外的噪声是否存在。参考信号产生器根据该第一语音检测信号、所述接收信号以及音束成型信号,提供参考信号,其中该参考信号的所需语音已被抑制。空间滤波器根据该第二语音检测信号、该参考信号以及所述接收信号,提供该音束成型信号。多通道噪声抑制器用以抑制该音束成型的噪声并提供一输出信号。语音可靠度检测器提供可靠度检测信号,用以表示每一次频带的可靠度。
文档编号G10L15/00GK101071566SQ20071010283
公开日2007年11月14日 申请日期2007年5月9日 优先权日2006年5月9日
发明者张铭, 陆晓燕 申请人:美商富迪科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1