回波抑制系统中增强近端语音信号的制作方法

文档序号:7600544阅读:337来源:国知局
专利名称:回波抑制系统中增强近端语音信号的制作方法
技术领域
本发明涉及通信系统中的语音信号处理,更具体地说,涉及增强信号中的近端语音,其中所述信号包括与远端语音回波组合的近端语音。
在诸如带有扬声器电话的电信领域中及在蜂窝电话中,常常希望用户可操作通信设备,却无需持续使用一只或更多只手。这在诸如汽车的环境中是一个重要的因素,在驾驶汽车时,司机手持电话设备不但可能危及其自身的安全,而且可能危及同在路上的其他人的安全。在其它应用中,不用拿着麦克风也有助于腾出手来从事其它工作,诸如通过个人计算机、由计算机的语音识别而进行的因特网通信或视听呈现系统。
为适应这些重要的需求,开发了称为“免提”的设备,其中麦克风与扬声器安装在免提环境中,因而免除了拿着它们的需要。例如,在汽车应用中,蜂窝电话的扬声器可安装在遮光板上,而扬声器可以是仪表板安装单元,或者可以是与车子的立体声设备相关的一个装置。部件以这种方式安装时,蜂窝电话用户可以进行对话,却无需拿着蜂窝单元或其手持机。同样地,个人计算机常常装有麦克风和扬声器,例如,彼此相对极接近安装在显示器中。
免提配置的一个问题是除免提设备用户(称为“近端用户”)的语音外,麦克风往往会从邻近的扬声器获得声音。这也是一些非免提装置的问题,诸如手持式移动电话,它们正变得越来越小。(因为尺寸小,移动电话的麦克风无法完全不受其扬声器发出声音的影响。)麦克风对扬声器所产生声音的这种感应会在许多类型的应用中造成问题。例如,在通信设备中,通信系统导致的延迟大致上会使呼叫的另一端的个人(称为“远端”)从扬声器听到的声音为其自己语音的回波。此类回波降低了音频质量,因而希望将其减轻。类似的问题会存在于诸如自动系统中,系统通过扬声器合成语音,并包括语音识别部件,用于识别和响应麦克风检测到的口述命令或其它单词。此类应用中,麦克风信号中合成语音回波的存在会严重降低语音识别部件的性能。改善此类回波的解决方案包括利用自适应回波消除滤波器或回波衰减器。
作为免提设备的通常代表性示例,示例性“免提”移动电话在

图1中示出,它具有自适应滤波器配置形式的常规回波消除器。例如,免提通信环境可以是安装了移动电话的汽车内部。此类环境对其中的声信号传播有影响,影响一般是未知的。今后,此类型的环境将在此说明书整篇中称为未知系统H(z)。麦克风105用于检测用户的语音,但在检测扬声器109发出的音频信号方面也有不希望的效果。正是这个不希望的作用为系统带来了回波信号。
如果不是消除,而是用于降低回波的电路包括诸如自适应有限脉冲响应(FIR)滤波器的自适应滤波器101、诸如最小均方(LMS)互相关器的自适应单元103、及减法器107。操作中,自适应滤波器101生成回波估计信号102,这通常称为信号。回波估计信号102是远端信号112和滤波器101的m个滤波器加权系数(hj)的序列的卷积(参见等式1)。u^(n)=Σi=0m-1hix(n-i)----(1)]]>其中x(n)是输入信号,m是加权系数的数量,以及n是抽样数。
加权系数设置正确时,自适应滤波器101产生脉冲响应,它大约等于未知系统H(z)中扬声器109产生的响应。从输入数字化麦克风信号126(等式2中的指定的u(n))中减去自适应滤波器101生成的回波估计信号102,以产生误差信号e(n)(参见等式2)。
e(n)=u(n)-(n)(2)理想的情况是,通过减去回波估计信号102,从数字化麦克风信号126删除扬声器109引入的未知系统H(z)中任何回波响应。一般的情况是,有效消除回波所需的加权系数(以下称为“系数”)的数量将取决于应用。对于手持式电话,少于100个系数可能便足够了。对于汽车中的免提电话,需要约200到400个系数。大的空间可能需要滤波器利用超过1000个系数,以提供充分的回波消除。
可以看到,回波消除器的效用直接涉及到自适应滤波器101能够复制未知系统H(z)的脉冲响应的程度。这又直接涉及到滤波器101保持的系数集合hi。
最好是提供一种用于动态更改系数hi的机制,以便使自适应滤波器101适应未知系统H(z)中的变化。在具有免提蜂窝配置的车中,打开或关上车窗或车门时,此类变化便会发生。众所周知的系数自适应方案是最小均方(LMS)处理,它最早由Widrow和Hoff于1960年提出,由于其有效性和健壮性而得到频繁地使用。应用于回波消除问题时,LMS处理是一种随机梯度步骤法(stochastic gradient stepmethod),它使用梯度的粗略(噪音)估计,g(n)=e(n)x(n),以进行朝着使麦克风信号e(n)中回波信号的能量最小的递增步骤,其中x(n)是以与表达式x(n)=[x(n)x(n-1)x(n-2)...x(n-m+1)]对应的向量符号表示。LMS处理产生的更新信息e(n)x(n)用于确定下一抽样中的系数值。用于计算下一系数值hi(n+l)的表达式如下hi(n+l)=hi(n)+μe(n)x(n-i),i=0...m-1(3)其中x(n)是数字化输入信号134,(hi)是滤波器加权系数,i指定特定系数,m是系数的数量,n是抽样数,以及
μ是一个步长或更新增益参数。
LMS方法在递增部分产生信息,每个部分会有一个正值或负值。由LMS处理产生的信息可提供给滤波器以更新滤波器的系数。
再参见图1,常规回波消除电路包括以LMS互相关器形式的滤波器自适应单元103,用于将系数更新信息104提供给滤波器101。在此配置中,滤波器自适应单元103监视纠正信号e(n),该信号表示数字化麦克风信号126减去由滤波器101生成的回波估计信号102。如上所述,使用由滤波器自适应单元103提供给自适应滤波器101的更新信息104来生成回波估计信号102。自适应滤波器101的系数hi如等式3所示累积更新信息104。
从麦克风信号减少声回波的出现后,作为结果的信号随后被提供给其它部件做进一步处理,这种处理随应用而定。例如,除诸如上述的声回波消除电路外,诸如图1所示的收发信机一般还包括近端语音活动性检测器150,它输出表示近端用户是否正在说话的信号153。执行近端语音活动性检测的最常用方法是采用时域功率计算。通常,关于存在或是不存在语音活动性的判决主要是基于阈值能级(对应于背景噪音)与带通滤波的信号能量的量度之间的比较。带通滤波的目的是消除与背景噪音相关的信号能量。
表示存在或是不存在近端语音的信号对于多个使用中的任一个使用是有用的。首先,在诸如全球移动通信系统(GSM)的蜂窝通信系统中,数字化语音信号不会以其原始形式通过网络发送,而是以某种方式被编码,这降低了实际需要从一个地方传送到另一个地方的比特数。在GSM中,正常对话中每个参与者平均说话的时间少于40%的时间,语音编码器利用了这一事实。通过将语音活动检测器作为语音编码器机能的一部分,GSM系统以间断传输模式(DTX)操作,在该模式中,GSM发射机在无声期间不活动(即,在近端语音活动性检测器150指示近端用户不在说话时)。此方法提供了更长的用户电池使用寿命,并降低了瞬间无线电干扰。接收端的舒适噪音子系统引入背景噪声以补偿由于DTX而发生的讨厌的转换静噪。
还可以根据语音信号是否包括近端语音分量来采用近端语音活动性检测器,以便控制活动声回波消除器的衰减因数。
此外,还可以使用近端语音活动性检测器以控制自适应滤波器101的自适应速度。
语音活动性检测器不是处理表示近端语音的信号的仅有类型部件。例如,此类信号可提供给语音识别器模块。语音识别器模块是众所周知的,并且在允许用户通过语音控制来对装置或计算机进行控制的应用中以及在允许用户仅通过口述来创建电子文档的应用中,语音识别器模块是有用的。
此外,表示近端语音的信号还可在系统中被反馈用于控制回波消除滤波器101本身,诸如用于控制自适应的速度。
尽管存在如上所述的回波消除电路,供进一步处理(例如,用于对通信系统中远端用户的传输,或用于近端语音识别,或用于控制回波消除滤波器101的操作)而生成的信号仍会常常包括回波分量。这种情况会发生,例如,因为自适应滤波器仍未收敛到完全自适应状态,或即使在此类收敛后,只要未知环境H(z)发生变化,便需要重复自适应过程。信号中存在强的回波信号分量可造成下游处理部件的操作降级,甚至出现故障,因为这些回波信号分量可能被误认为是近端语音。
诸如常规语音活动性检测器、语音识别模块等的处理近端语音信号的常规应用程序一般假定要处理的信号中不存在回波,因此不具有集中注视近端语音以排除回波信号分量的任何能力,回波信号分量也可能在人的语音活动性的频率范围内。
发明概述因此,本发明的一个目的是提供生成信号的方法和装置,所述信号中,近端语音分量相对于回波信号分量得到增强。
上述和其它目的可在用于生成增强的近端语音信号的方法和装置中实现。按照本发明的一个方面,生成增强的近端语音信号包括接收音频信号;生成估计的声回波信号;以及通过从音频信号删除估计的声回波信号来生成处理信号。这些步骤在例如免提电话装置中是有用的,其中从远端用户传送信息的扬声器信号被获得,作为免提电话装置的麦克风的声回波。下一步,确定近端增强频谱,其中,近端增强频谱具有至少一个范围的连续频率,对于所述范围,近端增强频谱具有大于预定阈值的量值,而其中所述范围的连续频率是与处理信号中相对高的回波损耗(echo return loss)相关的那些频率。随后按照近端增强频谱对处理信号进行滤波,由此生成增强近端语音信号。
按照本发明的另一方面,对增强近端语音信号中包含的能量进行测量。随后根据增强的近端语音信号的测量能量来检测存在或是不存在近端语音活动性。
按照本发明的又一方面,增强的近端语音信号可以应用到近端语音识别器,由此获得改进的语音识别性能。
按照本发明的另一方面,上述过程被定期重复,以致检测是否存在近端语音活动性可以动态调整,以便适应变化的条件。
按照本发明的再一方面,确定近端增强频谱包括将近端增强频谱确定为加权频谱的函数,其中加权频谱定义为W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是从远端信号得到的声回波的估计的频谱;E是表示步骤c)的回波消除性能的回波损耗增强频谱;N是处理信号的频谱;S是表示回波路径的频谱扩展属性的回波扩频;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及
α、β和γ是常量,且α+β+γ>0。
在本发明的另一方面,α+β+γ=1。
在本发明的又一方面,将近端增强频谱确定为加权频谱的函数包括根据以下等式确定检测器频谱C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtotalmaxW(f)df]]>其中Speechmin(i)是第i个频率,其中N超过预定阈值;Speechmax(i)是第i个频率,其中N低于预定阈值;以及Spectrumtotal max是加权频谱W(f)中感兴趣的最大频率。
附图简述通过结合附图来阅读下述详细说明,将理解本发明的目的和优点,附图中图1是常规免提收发信机的方框图,该收发信机包括声回波消除器和近端语音活动性检测器;图2是比较应用回波消除前后的语音信号(一句话)的功率频谱的图形;图3是本发明示例性实施例的方框图;图4是一个流程图,描述按照本发明执行的步骤;图5是示例性近端频谱N,说明几个非连续频带的情况,对于这些频带,量值超过了预定阈值级(threshold level);图6A是示例性标准化近端语音频谱N的图形;图6B是示例性标准化ERLE频谱E的图形;图6C是示例性标准化扬声器频谱Γ的图形;图6D是按照本发明一个方面的示例性加权频谱的图形;图6E是按照本发明一个方面的确定示例性压缩系数C的图形说明;图7A是另一示例性标准化近端语音频谱N的图形;图7B是另一示例性标准化ERLE频谱E的图形;图7C是另一示例性标准化扬声器频谱Γ的图形;图7D是按照本发明一个方面的另一示例性加权频谱的图形;以及图7E是按照本发明一个方面的确定示例性压缩系数C的另一图形说明。
详细描述现将关于附图来描述本发明各种特性,附图中相同的部件用相同的标号来标识。
按照本发明的一个方面,通过利用有关一些频率的信息来生成相对于回波信号分量增强了近端语音分量的信号,其中回波消除器正在所述一些频率适当工作,以确定信号能量最可能归因于近端语音活动性的频率带宽。通过对已知回波消除在其中有效的那些最初选定的频率的功率进行计算,而不是对只是一般与语音活动性相关的更大频率范围来计算功率,可以获得回波分量与近端语音之间的更大差值。增加此差值可增强被设计来处理近端语音的下游部件的性能,这样的部件诸如有语音活动性检测器、语音识别器或用于控制回波消除操作本身的反馈路径。
用于选择增强哪些频率的技术依赖于正在使用的是哪种回波消除器。例如,在LMS类型回波消除方法中,用于每个频率的回波损耗增强(ERLE)依赖于信号的频谱功率。在图2中,实线201说明在回波消除应用之前的语音信号(一句话)的功率频谱。为进行比较,虚线203说明在回波消除应用之后同一语音信号的功率频谱。对于低于250Hz或高于1500Hz的那些频率,可以观察到回波消除性能中的实际损失。因此,将其分析仅限制在250Hz到1500Hz范围的那些语音信号频率的近端语音处理单元(例如,语音活动性检测器或语音识别器)不大可能把回波分量误认为近端语音。通常,近端语音处理单元为获得改进的性能而应操作的特定频带将依赖于信号频谱功率以及正在使用的回波消除器类型。
要处理近端语音以排除远端回波信号时,下面是在选择要增强或集中注视的频带时应考虑在内的注意事项。必须认识到,由于麦克风将近端语音信号与远端回波信号相混合,因此,近端语音信号的真实频谱还不知道。用于噪声环境中检测语音的常规技术常常包括排除噪声占优势的那些频率(例如,通过滤波)。然而,在具有远端回波的情况下,与远端回波信号相关的频率本身是与语音相关的那些频率。也就是说,在存在其它(例如远端)语音的情况下,我们尝试检测近端语音。因此,简单地排除与回波相关的频率可能也会排除与近端语音相关的信号部分,从而未能实现目的。
如上所述,得不到近端语音信号的原始副本,因此不可能获得近端语音频谱的量度。(事实上,如果可得到近端语音信号的原始副本,现在所述的问题将不存在。)然而,可以得到没有混杂近端语音的远端语音信号112,并且这可以有利地被使用。首先,平均算来,回波信号中所含的频谱能量对应于近端语音信号的频谱能量(因为两者均为语音信号)。因此,在某种程度上,远端语音信号(或从该信号得到的信号)可用作聚焦近端语音搜索的信息源。
我们也可以获得回波消除最有效的那些频率的量度。正是在这些频率上,近端语音信号更不大可能由于存在回波语音分量而不明显,因而该信息也可有利地被用于增强近端语音处理。
要用来计算近端语音的增强频谱的频带数量由设计人员决定。算得的频谱中可存在的最大频带数量是计算频谱的信号抽样数量的一半。然而,不是总要计算最大频带数量。通过从相同数量的信号抽样来确定更少的频带,可以产生更有意义的数。例如,假设频谱要从正在GSM蜂窝通信系统中传播的信号的1600个抽样中生成。在GSM中,这1600个抽样表示200毫秒的语音。因此,最高可表示的频率为4000Hz(尼奎斯特频率)。这1600个抽样可分成十组,每组具有160个抽样。对这十组中的每个组执行256点快速傅立叶变换(FFT)将生成十个频谱,这些频谱可使用适当的加权平均策略进行组合。例如,可以使用一种类型的指数平均,由此,与新生成的频谱相关的频带具有比以前确定的平均值低得多的加权(这样,该平均值对频谱随时间的变化响应缓慢)。这种频谱组合产生了一个频谱,在该频谱中,每个点(频带)从十倍的信息中生成,好象已对原1600个抽样执行单个FFT,生成更多的频带。通过使用加权组合技术,从抽样的非典型集合生成的单个频谱对整体操作将不产生实质影响。
在本发明的一个实施例中,设计人员可以预先计算回波消除器预期在其中适当工作的一个或多个频带,然后将随后的近端语音处理安排为仅在这些频带中操作。
在另一实施例中,随后的近端语音处理操作所处的频带可被动态确定。这提供了能使近端语音处理适应对应动态变化条件的变化条件的能力,诸如回波消除器的性能变化和远端信号112的频谱质量变化。现在将参照图3的方框图来描述按照本发明这一方面的近端语音增强的示例性实施例。
示例性声回波消除配置301包括自适应滤波器101、滤波器自适应单元103、扬声器109、麦克风105、D/A转换器136、A/D转换器124及减法器107,它们的操作与图1中示出的一样。因此,在此不重复对这些部件的描述。在示例性收发信机中示出的还有噪音抑制单元303,虽然此部件是任选的。按照本发明,当存在噪音抑制单元303时,噪音抑制单元303本身可以根据生成的信息被动态调节(例如,噪音抑制单元303的操作可以为是否在减法器107输出端生成的信号e(n)中检测到近端语音活动性的函数)。视具体应用而定,远端信号112可由许多源生成。例如,在蜂窝电话中,可在语音解码器(未示出)的输出端提供远端信号112,该解码器从接收信号生成远端信号112。处理的近端语音信号313作为声回波消除配置301的输出被生成,并可被提供到近端语音处理器(未示出)的输入端。近端语音处理器的功能随应用而定,在此不做详细描述。在蜂窝电话示例中,近端语音处理器可以为语音活动性检测器(未示出),也可以是语音编码器(未示出),它生成传输到远端用户的编码信号。
按照本发明,声回波消除配置301还包括近端增强频谱生成器309。近端增强频谱生成器309的输出可提供给近端语音处理器的控制输入端,用于增强其性能。例如,在近端语音处理器是语音活动性检测器的情况下,根据如近端增强频谱生成器309所表示的处理的近端语音信号313的特定频谱带的特性,语音活动性检测器可做出语音活动性判决。也就是说,近端增强频谱生成器309确定将何种类型的滤波应用到处理的近端语音信号313,作为语音活动性检测策略的一部分。
可以对诸如语音识别设备的其它类型近端语音处理设备做类似的控制调节。
近端增强频谱生成器309可以体现为多种形式,且每种形式均被视为在本发明的范围内。这样的形式包括在计算机可用存储媒体上以信号体现的计算机程序指令,所述计算机可用存储媒体诸如有随机访问存储器(RAM)、磁存储媒体(例如,磁盘、软盘或磁带)和光存储媒体(例如光盘只读存储器(CD ROM))。另一方面,本发明可被指定为执行这样的指令的可编程处理器。另一方面,近端增强频谱生成器309也可以体现为硬连线部件或编程逻辑阵列的许多配置。
为描述近端增强频谱生成器309的操作,定义了下列术语估计回波频谱(Γ)是估计回波信号的频谱,由自适应滤波器101提供的y(n)(即要从数字化麦克风信号d(n)抽取的信号)。估计回波频谱Γ可通过例如FFT从数字化麦克风信号d(n)生成,因而是频率f的函数。估计回波频谱Γ一般表示远端频谱回波的本地固定频谱。在诸如GSM蜂窝电话的应用中,这应是20毫秒语音的频谱。考虑到这种情况下语音改变其频谱内容的速度不快于20毫秒,用于计算估计回波频谱Γ的抽样数量最好与近端语音处理器(例如,近端语音活动性检测器)所用的抽样数量相同。如果组合技术(例如,加权平均)应用于估计回波频谱Γ的几种量度,则加权应是使新计算的估计回波频谱Γ迅速影响组合。在一些优选实施例中,相对于估计回波频谱Γ不应用取平均值。注意估计回波频谱Γ可用于指示与相对高回波损耗相关的那些频率。
回波损耗增强(ERLE)频谱(E)是表示回波消除滤波器的回波消除性能的频谱。ERLE频谱E是频率f的函数。ERLE频谱E的几个其它量度可以被利用。在一些实施例中,可根据以下等式确定来ERLE频谱E=F{d(n)}-F{e′(n)} (4)其中,F( )表示傅立叶转换,d(n)是包含近端语音及回波与噪音分量的数字化麦克风信号,并且e′(n)是处理的近端语音信号313。
在其它实施例中,可按照以下等式先生成时域量度来确定不同的ERLE频谱ERLE(n)=10log10{d(n)2e′(n)2}----(5.1)]]>此后,频域频谱可按照以下等式生成E=F{ERLE(n)} (5.2)ERLE频谱E的每个量度可用于指示与相对高回波损耗相关的那些频率。此外,在这些实施例的任一实施例中,可为一组抽样中的每一个抽样及按上所述组合(例如,通过加权平均)的作为结果的频谱分别确定ERLE频谱E。平均速度(即新计算的频谱对平均值影响较大的速度)最好与自适应滤波器101的自适应速度大约相同,以便ERLE频谱E准确反应回波消除性能。
近端频谱(N)是回波消除和任选的噪音抑制后接收信号的频谱(即,它是处理的近端语音信号313的频谱)。近端频谱N是频率f的函数,并可作为处理的近端语音信号313(e′(n))的FFT来计算。最好计算使用的抽样数量与计算估计回波频谱Γ使用的抽样数量相同。
回波扩频(S)表示回波路径的频谱扩展属性。也就是说,它是对如何在扬声器109和麦克风105之间变换不同频率的估计的量度。回波扩频S是频率f的函数,并可作为系数h(n)的傅立叶变换来计算,该系数确定自适应滤波器101所执行滤波的特性。也就是说,S=F{h(n)}。
如前面所述实施例中那样,使用ERLE频谱(E)确定近端语音处理应操作的频带(以下称为“检测器频谱”)改进了近端检测性能。按照本发明的另一方面,通过以下方式确定检测器频谱,在估计回波频谱(Γ)与E不一致时,可以实现由使用E频谱得到的好处而不损失性能参照图4的流程图,如上所述先确定不同的频谱Γ、E、S和N(步骤401)。
接着,在步骤403,按照以下等式从估计回波频谱Γ、ERLE频谱E和回波扩频S来确定加权频谱W(f)W(f)=αΓΓmax+βEEmax+γSSmax----(6)]]>其中Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量。
在用加权系数α、β和γ中相应的一个换算后,按Γ、E和S各自最大值划分每个Γ、E和S频谱的目的是为了生成随后可组合的标准化频谱,这容易明白。
在优选实施例中,α+β+γ的和接近于值1(例如,它的范围可能从接近但不等于0的小数值到大约为2的值),但这不是严格的要求。
接着,在步骤405,确定压缩系数C,对于这样的压缩系数C而言,加权频谱W(f)包括在一个或多个频带中的功率,而近端频谱N在这一个或多个频带中具有其最大有功分量。因为近端频谱N可具有几个非连续频带,对于这些频带,量值超过了预定阈值级,因此可参考一个或多个频带,如图5中SPEECHMIN(1)和SPEECHMAX(1)之间的第一频带及SPEECHMIN(2)和SPEECHMAX(2)之间的第二频带所示。压缩系数C由以等式得出C=Σi∫Speechmin(i)Speechmax(t)W(f)df∫0SpectrumtotalmaxW(f)df----(7)]]>其中Speechmin(i)是第i个频率,其中N超过预定阈值,阈值随应用而定,因此由设计人员设置;Speechmax(i)是第i个频率,其中N低于预定阈值;以及Spectrumtotal max是加权频谱W(f)中我们感兴趣的最大频率。也就是说,对所有高于Spectrumtotal max的频率,可假定函数W(f)的值等于零。
还要注意的是,虽然压缩系数定义为两个积分的比率,但实际上通过使对应的频谱在不同频率范围上几乎平直,常常容易算得C。这将在下面所示的几个示例中进一步描述。
确定压缩系数C和加权频谱W(f)后,随后在步骤407中,通过计算以下等式获得检测器频谱近端增强频谱=(1+Cx(W(f)-1))(8)可认识到结果的近端增强频谱是频率f的函数。
随后,近端增强频谱可提供到近端语音处理器(未示出)的控制输入端。例如,在蜂窝电话中,近端增强频谱可用于确定近端语音活动性检测器执行的带通滤波。
对于动态可调节操作,定期重复所述步骤,如图4所示,再从步骤401开始。例如,在每20毫秒生成一次有160个抽样的帧的系统中,新的近端增强频谱也可每20毫秒确定一次。
现在将介绍几个示例以说明上述技术。在每种情况下,除近端频谱N外,所有说明的频谱均已标准化。(未标准化N的原因是为了保持关于处理的近端语音信号313的实际能量级的信息。)另外,在下述示例中,认为扩频均匀分布,这是常常出现的情况。为进一步便于理解本发明,N被示为只有一个区域,该区域中,量值超过了预定阈值级。这避免必须合计分别计算的积分。
现在将参照图6A至6E描述第一示例。图6A是近端语音频谱N的图形。在从f=0到f=250Hz的间隔中,N=0.25;在从f=250Hz到750Hz的间隔中,N=1.0;并且在f=750Hz到f=1500Hz的间隔中,N=0.25。(注意最大值为1.0的描述仅仅是为了说明的目的;通常N未标准化。)继续描述示例,图6B是标准化ERLE频谱E的图形。在从f=0到f=750Hz的间隔中,E=1.0;并且在f=750Hz到f=1500Hz的间隔中,E=0.25。
图6C显示了标准化的估计回波频谱Γ的图形。在从f=0到f=750Hz的间隔中,Γ=1.0;并且在f=750Hz到f=1500Hz的间隔中,Γ=0.25。
在此示例中,加权频谱由以下等式得出W(f)=12Γ+12E+0]]>(在此示例中,因为加权系数γ=0,所以回波扩频S看起来象什么并不相干。)假定有标准化的估计回波频谱Γ(如图6C所示)和标准化的ERLE频谱E(如图6B所示),则图6D所示为此示例的结果的加权频谱W(f)。
接着,我们计算压缩系数C。如果我们假设预定阈值为0.25,则从图6A我们可看到只有一个频带超过此阈值,且这些受限于Speechmin=250Hz;Speechmax=750Hz;以及Spectrumtotal max=1500Hz。因此,按照等式(7)C=Σi∫SpeechtotalmaxSpeechmaxW(f)df∫0SpectrumtotalmaxW(f)df=(750-250)×1(750-0)×1+(1500-750)×0.25=0.5333···]]>因为加权频谱W(f)对于几个范围的每个范围是恒定的,因此,积分相对易于计算,因而C也相对易于计算。
我们现在可按照等式(8)来计算近端增强频谱。图6E中最左侧的频谱描述此示例的结果的近端增强频谱。可以看到在f=0到f=750Hz的范围中有一个等于1.0的量值;而在f=750Hz和f=1500Hz之间有一个等于0.600...的量值。
图6E还描绘了应用此近端增强频谱以控制诸如语音活动性检测器的近端语音处理器。这样的语音活动性检测器将使其带通滤波功能被调节以与近端增强频谱一致。结果,当处理的近端语音信号313施加到语音活动性检测器时(参见图6E的中间频谱),结果的语音活动性检测器频谱看上去象图6E右侧所示的频谱。我们可以看到,在从f=0到f=250Hz的范围中,结果的检测器频谱等于0.25;在从f=250Hz到f=750Hz的范围中,等于1.0;在从f=750Hz到f=1500Hz的范围中,等于0.15。结果,对于回波消除操作良好的那些频率(即在f=0Hz到f=750Hz之间-参见图6D中的示例性加权频谱),在其操作中将没有变化。然而,与差的回波消除性能相关的那些频率对近端检测器的性能有少得多的影响。结果,近端检测器的性能将得到改进。
现在将参照图7A到7E描述第二示例。图7A是近端语音频谱N的图形。在从f=0到f=250Hz的间隔中,N=0.25;在从f=250Hz到750Hz的间隔中,N=1.0;并且在f=750Hz到f=1500Hz的间隔中,N=0.25。(注意最大值为1.0的描述仅仅是为了说明的目的;通常N未被标准化。)继续描述示例,图7B是标准化的ERLE频谱E的图形。在从f=0到f=750Hz的间隔中,E=1.0;并且在f=750Hz到f=1500Hz的间隔中,E=0.25。
至此,示例仿效上述关于图6A至6E的描述。然而此处,图7C显示了不同的标准化的估计回波频谱Γ的图形。在从f=0到f=750Hz的间隔中,Γ=0.25;并且在f=750Hz到f=1500Hz的间隔中,Γ=1.0。
在此示例中,我们将再次假定加权频谱由以下等式得出W(f)=12Γ+12E+0]]>(在此示例中,因为加权系数γ=0,所以回波扩频S看起来象什么并不相干。)假定有标准化的估计回波频谱Γ(如图7C所示)和标准化的ERLE频谱E(如图7B所示),则图7D所示为此示例的结果的加权频谱W(f)。注意在从f=0到f=1500的整范围中,它是一个常量(等于0.625)。
接着,我们计算压缩系数C。从图7A我们可以看到Speechmin=250Hz;Speechmax=750Hz;以及Spectrumtotal max=1500Hz。
因此,按照等式(7)C=Σi∫SpeechminSpeechmaxW(f)df∫0SpectrumtotalmaxW(f)df=(750-250)×0.625(1500-0)×0.625=13]]>因为加权频谱W(f)对于在f=0和f=1500Hz之间的整个范围是恒定的,因此,积分再次相对易于计算,因而C也再次相对易于计算。
我们现在可按照等式(8)来计算此示例的近端增强频谱。图7E中最左侧的频谱描述此示例的结果的近端增强频谱。可以看到,在f=0到f=1500Hz的整个范围有一个等于0.875的量值。
图7E还描绘了应用此近端增强频谱以控制诸如语音活动性检测器的近端语音处理器。这样的语音活动性检测器将使其带通滤波功能被调节为与近端增强频谱一致。结果,当处理的近端语音信号313施加到语音活动性检测器时,(参见图7E的中间频谱),结果的语音活动性检测器频谱看上去象图7E右侧所示的频谱。我们可以看到,在从f=0到f=250Hz的范围中,结果的检测器频谱等于0.21875;在从f=250Hz到f=750Hz的范围中,等于0.875;在从f=750Hz到f=1500Hz的范围中,又等于0.21875。可以看到,对于这种情况,ERLE频谱E与估计回波频谱Γ之间的相关不存在或较低,整个检测器频谱将衰减。但是,近端检测器将仍对近端频谱N具有其最大分量的那些频率最敏感。
本发明参照特定的实施例进行了描述。然而,本领域的技术人员容易明白,可以用上述优选实施例形式外的其它形式体现本发明。这可以在不脱离本发明精神的情况下来进行。
例如,为便于讨论本发明,所示频谱已理想化。然而,实际上,任一或所有这些频谱可能与图6A至6E和7A至7E中所示的示例性阶跃函数不符。相反地,一些或所有这些频谱可由更复杂的数学函数来描述。尽管存在此差异,但却期望结果的检测器频谱的特征将表现在连续频率的范围,对于所述范围,检测器频谱具有其最大值,其中连续频率的所述范围是与处理的信号中的相对高的回波损耗相关的那些频率。
因此,优选实施例仅是说明性的,无论如何不应视为限制性。本发明的范围由后附权利要求书而不是上述说明来指定,在权利要求书范围内的所有变化与同等物均包含在内。
权利要求
1.一种生成增强近端语音信号的方法,它包括以下步骤a)接收音频信号;b)生成估计声回波信号;c)通过从所述音频信号删除所述估计声回波信号来生成处理的信号;d)确定具有连续频率范围的近端增强频谱,对于所述连续频率范围,所述近端增强频谱具有大于预定阈值的量值,其中所述连续频率范围是与所述处理的信号中相对高的回波损耗相关的频率;以及e)按照所述近端增强频谱对所述处理的信号进行滤波,由此生成所述增强近端语音信号。
2.如权利要求1所述的方法,其特征在于还包括以下步骤f)测量所述增强近端语音信号中包含多少能量;以及g)根据所述增强近端语音信号的所述测量能量来检测是否存在近端语音活动性。
3.如权利要求1所述的方法,其特征在于还包括以下步骤f)识别所述增强近端语音信号中包含的近端语音。
4.如权利要求1所述的方法,其特征在于定期重复步骤a)至e)。
5.如权利要求1所述的方法,其特征在于确定所述近端增强频谱的所述步骤包括将所述近端增强频谱确定为加权频谱的函数,其中所述加权频谱被定义为W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是从远端信号得到的声回波的估计的频谱;E是表示步骤c)的回波消除性能的回波损耗增强频谱;N是所述处理的信号的频谱;S是表示所述回波路径的频谱扩展属性的回波扩频;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量,且α+β+γ>0。
6.如权利要求5所述的方法,其特征在于α+β+γ=1。
7.如权利要求5所述的方法,其特征在于将所述近端增强频谱确定为所述加权频谱的函数的所述步骤包括按照以下等式确定所述近端增强频谱C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtoialmaxW(f)df]]>其中Speechmin(i)是N超过预定阈值的第i个频率;Speechmax(i)是N低于所述预定阈值的第i个频率;以及Spectrumtotal max是所述加权频谱W(f)中感兴趣的最大频率。
8.一种增强近端语音信号生成器,它包括a)用于接收音频信号的装置;b)用于生成估计声回波信号的装置;c)用于通过从所述音频信号删除所述估计声回波信号来生成处理的信号的装置;d)用于确定具有连续频率范围的近端增强频谱的装置,对于所述连续频率范围,所述近端增强频谱具有大于预定阈值的量值,其中所述连续频率范围是与所述处理的信号中相对高的回波损耗相关的频率;以及e)滤波器,用于按照所述近端增强频谱对所述处理的信号进行滤波,由此生成增强近端语音信号。
9.如权利要求8所述的增强近端语音信号生成器,其特征在于还包括f)用于测量所述增强近端语音信号中包含多少能量的装置;以及g)用于根据所述增强近端语音信号的所述测量能量来检测是否存在近端语音活动性的装置。
10.如权利要求8所述的增强近端语音信号生成器,其特征在于还包括f)被连接来接收所述增强近端语音信号的语音识别器。
11.如权利要求8所述的近端语音活动性检测器,其特征在于定期地重复操作部件a)至e)。
12.如权利要求8所述的增强近端语音信号生成器,其特征在于用于确定所述近端增强频谱的所述装置包括用于将所述近端增强频谱确定为加权频谱的函数的装置,其中所述加权频谱被定义为W(f)=αΓΓmax+βEEmax+γSSmax]]>其中Γ是从远端信号得到的声回波的估计的频谱;E是表示用于生成处理的信号的所述装置的回波消除性能的回波损耗增强频谱;N是所述处理的信号的频谱;S是表示所述回波路径的频谱扩展属性的回波扩频;Γmax=max(Γ),Emax=max(E)和Smax=max(S);以及α、β和γ是常量,且α+β+γ>0。13.如权利要求12所述的增强近端语音信号生成器,其特征在于α+β+γ=1。
14.如权利要求12所述的增强近端语音信号生成器,其特征在于用于将所述近端增强频谱确定为所述加权频谱的函数的所述装置包括用于按照以下等式来确定近端增强频谱的装置C=Σi∫Speechmin(i)Speechmax(i)W(f)df∫0SpectrumtotalmaxW(f)df]]>其中Speechmin(i)是N超过预定阈值的第i个频率;Speechmax(i)是N低于所述预定阈值的第i个频率;以及Spectrumtotal max是所述加权频谱W(f)中感兴趣的最大频率。
全文摘要
通过接收音频信号、生成估计声回波信号、并从音频信号删除估计声回波信号来生成处理的信号,可以生成增强近端语音信号。随后确定近端增强频谱,该频谱具有一个或多个连续频率范围,对于所述连续频率范围,检测器频谱具有其最大值,其中所述连续频率范围是与处理的信号中相对高的回波损耗相关的频率。按照近端增强频谱对处理的信号进行滤波,由此生成增强近端语音信号。随后,增强近端语音信号可施加到要用于处理近端语音的多个部件的任一部件。例如,当应用到语音活动性检测器时,随后,测量增强近端语音信号中包含的能量。随后,可以根据增强近端语音信号的测量能量来确定存在或是不存在近端语音活动性。该处理可以定期地被重复,以实现动态可调节操作。
文档编号H04M9/08GK1361972SQ00810367
公开日2002年7月31日 申请日期2000年5月9日 优先权日1999年5月20日
发明者N·克里斯腾松, J·菲利普松 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1