语音活动检测器的制作方法

文档序号:2820408阅读:396来源:国知局
专利名称:语音活动检测器的制作方法
技术领域
本发明涉及一种语音活动检测器。它尤其适用于包括在主语音活动检测器及包含在噪音降低装置中的辅助语音活动检测器。包含这种辅助语音检测器的主语音活动检测器特别适用于移动电话机,后者需要工作在噪音环境中。
因为蜂窝式无线电系统的可使用的电磁频谱区域是有限的,在最近十年中移动电话用户数目的猛然增长意味着蜂窝式无线电设备的供应商必须寻求新途径,以增加可用的电磁频谱的使用效率。
可以实现该目的的一个方式是减小蜂窝式无线电系统中单元的尺寸。但是,已发现,仅在来自邻近单元的干扰幅度(同信道干扰)变得高到不可接受之前,单元尺寸才能降低许多。为了降低同信道干扰,使用了一种称为不连续传送的技术。该技术采用仅当移动式电话用户说话时才让移动式电话发送代表语音的信号,并基于观察发现即在给定会话中,通常在任何一时刻仅是一方在说话。通过实施非连续发送,同信道干扰的平均幅值可被降低。这又意味着,系统中单元的尺寸能减小,并由此系统可支持更多的用户。
当移动式电话用户说话时仅发送代表语音的信号的另一优点是移动式电话手机内的电池寿命增大了。
使用语音活动检测器能实现非连续发送。这种检测器的目的是指示给定信号是否仅由噪音组成,或是否该信号包括语音。如果该语音活动检测器指示待发送的信号仅由噪音组成,则不发送该信号。
现在许多移动电话均使用与欧洲专利No.335521中所述相似的语音活动检测器。在那里所述的语音活动检测器中,对输入的代表语音的信号的频谱和噪音信号的频谱之间的相似性进行测量。从已被确定为噪音的先期输入信号部分中获得在该比较测量中使用的噪音频谱。通过辅助语音活动检测器作出判定,该辅助语音活动检测器构成主语音活动检测器的一个部件。由于重要的是包含语音的信号要被移动电话发送,及由于主语音活动检测器的判定是基于由辅助语音检测器识别为噪音的信号,所希望的是,在边界状态下辅助语音检测器倾向作出信号包含语音的判定。被语音活动检测器识别为语音的会话比例被称为检测器的语音活动系数(或简称为“活动率”)。实际上会话中包括语音的比例典型在35%至40%的范围中。因此,理想地,主语音活动检测器将具有处于该范围或稍高于此的活动率,而辅助语音活动检测器具有明显高的活动率。
虽然公知的语音活动检测器在多种环境中呈现良好的性能,但发现在噪音环境中其性能差。移动电话需要工作在汽车、城市街道、繁忙的办公室、火车站或飞机场中。因此,需要有能可靠地工作在噪音环境中的语音活动检测器。
根据本发明的第一方面,提供了一种语音活动检测器,它包括在操作中计算至少一个第一频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后于另一时间区段一个第一时间间隔;在操作中计算至少一个第二频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔;该间隔不同于第一时间间隔;在操作中基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值的装置;以及在操作中将该频谱不规则性测量值与一个阈值相比较的装置。
该语音活动检测器具有的优点是,它能可靠判定输入信号是由噪音组成。如上所述可知,这对于辅助语音活动检测器是希望有的特性,它被用来识别在装置中执行另外处理时用作噪音模板的信号。并且,通过对涉及不同时间间隔得到的频谱差测量值的组合,根据本发明的语音活动检测器可考虑在不同时间间隔上信号的稳定性程度。例如,如果考虑以相对长的第一时间间隔来计算第一频谱差测量值,而以相对短的第二时间间隔来计算第二频谱差测量值,则信号的长期及短期稳定性均会影响频谱不规性测量值,后者组合了第一及第二频谱差测量值。因为噪音频谱不同于语音频谱,它至少在从80ms至1s的时间间隔上是固定不变的,本发明的语音活动检测器提供了在噪音环境中的可靠性能。
最好,时间的预定长度在400ms至1s的范围中。其优点在于,语音频谱相对快的随时间变化的特性能最好地区别于噪音频谱相对慢的随时间变化的特性。
最好,所述频谱不规则性测量值计算装置被设置用来在操作中计算所述频谱差测量值加权的和。其优点在于,在作出语音/噪音判定时,可给予从这样的时间间隔中得到的频谱差测量值较大的权重,即在这样的时间间隔上语音频谱与噪音频谱之间的稳定性差别最为显著。
根据本发明的第二方面,提供了一种语音活动检测器,它包括根据本发明第一方面的可作为辅助语音活动检测器工作的语音活动检测器。
由于该辅助噪音检测器具有高的活动性,可依赖它正确地作出输入信号是由噪音组成的判定。此外,因为主语音活动检测器的正确工作依赖于辅助语音活动检测器正确地识别噪音信号,根据本发明第二方面的语音活动检测器可以对信号是包括语音还是仅由噪音组成的作出可靠的判定。
根据本发明的第三方面,提供了一种噪音抑制装置,包括根据本发明第一部分的语音活动检测器,
在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及在操作中从所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
本领域的技术熟练人员了解,仅当要从需增强的信号中扣除的噪音其特性是固定不变时,频谱扣减技术才可很好地起作用。这意味着,频谱扣减装置及根据本发明第一方面的语音活动检测器的组合形成了一种特别有效的噪音降低装置,因为根据本发明第一方面的语音活动检测器的操作意味着,如果在预定时间长度中噪音信号主要是固定不变的,则输入信号将被确定为是由噪音组成的。
总之,需要可靠噪音模板的任何装置将会因为使用根据本发明第一方面的语音活动检测器而受益。
根据本发明的第四方面,提供了一种语音活动检测器,它包括在操作中从输入信号提取特征值的装置,及在操作中处理多个所述特征值以输出指示所述输入信号是否由噪音组成的一个值的神经网装置。
该装置的优点在于,神经网络一旦示教后便能模拟不易被分析确定的输入参数与输出判定之间的关系。虽然示教神经网络的处理是费力的,但一旦神经网络受训后,其算法的计算复杂度将小于公知的算法。这当然对可能要大规模生产的产品,如语音活动检测器来说是有利的。
最好,输入给神经网络的参数包括从待发送的信号中获得的反频谱系数。已经证实,这些是在对语音及噪音作出区分时有用的参数。
根据本发明的第五方面,提供了一种语音活动检测方法,它包括以下步骤计算至少一个第一频谱差测量值,该测量指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;
计算至少一个第二频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值;将所述频谱不规则性测量值与一个阈值相比较;及基于该比较确定所述信号是否由噪音组成。
该方法具有的优点是,噪音及语音之间的鉴别是可靠的。
根据本发明的第六方面,提供了一种在连续的预定频率上增强代表频谱特性值的频谱的方法,所述增强包括以下步骤对于每个所述预定频率,将所述频率的频谱特性值与相邻频率的频谱特性值相比较,及计算对所述预定频谱值的调节值,所述计算是这样的,即,当所述的预定频谱值大于任何一个相邻频谱特性值时,增大调节值,当所述的预定频谱值小于任何一个相邻频谱特性值时,减小调节值;及在频谱内根据所述计算调节值调节每个所述频谱值。
现在,将仅以例子的方式参照附图来描述本发明的具体实施例,附图为

图1是表示构成第一实施例的语音活动检测器的操作的框图;图2是表示形成图1中的语音活动检测器的一个部件的辅助语音活动检测器的操作的框图;图3是表示频谱扣减部件的框图;图4是表示分类器部件的示意图;及图5是公知的语音活动检测器的框图。
图1中所示语音活动检测器设计用于移动电话机中,并在进行一系列信号处理2、3、4、5、6、7(每个用矩形框表示)前输入信号19,以便达到输入信号是否全由噪音组成的判定79。在处理完2、3、4、5、6、7中每一个之后,产生结果参数或参数组29、39、49、59、69、79(每个用椭圆框表示)。这些处理过程2、3、4、5、6、7的每个可由合适的数字信号集成电路来完成,例如AT&T DS P32C浮点32位处理器来执行。
该语音活动检测器的输入是数字信号19,它代表语音/信息音调和/或噪音。信号19从模拟信号以8KHz速率采样得到及每个采样由13位表示。信号19以20ms帧输入到语音活动检测器中,每个帧由160个采样值组成。
信号19输入到滤波器组处理2,它对每个输入帧进行256点快速付里叶变换。该处理2的输出为三十二个频带能量29,它代表输入信号帧中的功率部分,这些功率部分对应于以下列值为界的三十二个频带的每一个(频率以Hz为单位)100,143,188,236,286,340,397,457,520,588,659,735,815,900,990,1085,1186,1292,1405,1525,1625,1786,1928,2078,2237,2406,2584,2774,2974,3186,3410,3648,3900。
因此第一频带从100Hz延伸到143Hz,第二频带从143Hz延伸到188Hz,以此类推。可以看出,与较高频带相比较较低频带相对地窄。
由滤波器组2输出的频带能量29被输入到一个辅助语音活动检测器3及一个频谱减扣处理器4。
现在参照图2,辅助活动检测器3输入频带能量29,及进行一系列处理过程31、32、33、34以提供一个辅助判定39,即信号帧19是否仅由噪音组成。
提供辅助判定39时使用的第一处理是过程31。过程31涉及对每个频带能量29取底数为10的对数,并将其结果乘以10以提供三十二个频带对数能量311。最先输入的三十个输入信号帧的对数能量被存储在设于DSP IC中的存储器的合适区域中。
频谱不规则性计算处理32首先输入来自当前输入信号帧19的对数能量311及来自在当前输入信号帧之前分别30个帧(即600ms)、20个帧(即400ms)、10个帧(即200ms)发生的第一、第二及第三信号帧的对数能量314、313、312。然后求出当前帧每频带中对数能量311与第三帧相应频带中对数能量312之间的幅值差。于是获得了三十二个不同幅值差,随后相加得到第一频谱差测量值。以类似方式,求得第二、第三及第四频谱差测量值,它们分别表示第二与第三帧的对数能量313、312之间的幅值差,第一与第二帧的对数能量314、313之间的幅值差,及第一与当前帧的对数能量314、311之间的幅值差。可以看出,第一,第二及第三频谱差测量值是相隔200ms的帧之间的频谱差的测量值。第四频谱差测量值是相隔600ms的帧之间的频谱差的测量值。然后将第一至第四频谱差测量值相加在一起,得出一个频谱不规则性测量值321、因此该频谱不规则性测量值既反映了在200ms间隔上信号的稳定性又反映了在600ms间隔上信号的稳定性。
虽然,在该实施例中,频谱不规则性测量值是由四个频谱差测量值的简单相加构成的,但可想到,也可用进行加权求和方式代替此算法。例如,对第一、第二及第三频谱差测量值可给予比对第四频谱差测量值较大的加权,或反之亦然。本领域的熟练技术人员将理解设有三个涉及200ms间隔及仅一个涉及600ms间隔的测量值的作用在于,提供对在短间隔上发生的频谱差给予较大权重的频谱不规则性测量值。
然后将频谱不规则性测量值321输入到阈值处理33,它将确定测量值321是否超过一个预定常数K。该处理的输出是噪音状态,如果测量值321小于预定常数则为“真”,否则为“假”。从最先二个帧获得的噪音状态被存储到设在DSP IC中的存储器的合适位置上。该噪音状态被输入到延时释放处理34,由它输出一个辅助判定39,它表示仅当求得的噪音状态为“真”及当由先前两帧求得的噪音状态也为“真”则当前信号帧仅由噪音组成。否则辅助判定为当前帧包含语音。
本发明人发现,由噪音组成的信号的频谱特性其变化慢于包括语言的信号的频谱特性的变化。尤其是,噪音信号频谱特性在400ms至1s间隔中的差别大大地小于在相同间隔中语音信号相应的区别。辅助语音活动检测器(图2)利用这种区别来识别由噪音组成的和包括语音的输入信号。可以设想,这种语音活动检测器可以用于各种应用,尤其涉及噪音降低技术,其中需要指示当前信号为噪音,以便形成噪音信号的当前估值,用于随后从输入信号中扣减噪音信号。
回到图1,由辅助语音活动检测器(图2)输出的辅助判定39与频带能量29一起被输入到频谱扣减处理4。频谱扣减处理被详细地表示在图3中。首先,通过升高频带能量29的幂到5/7,使该频带能量29在压缩处理41中被压缩。然后将压缩的频带输入到噪音模板处理42。从当前输入信号帧得到的压缩频带能量N1及从在先三帧中得到的压缩频带能量N2、N3、N4与涉及这些帧的辅助判定一起被存储到DSP IC中的存储器的四个区域内。如果当前帧及在先三个输入信号帧被指定为噪音,则将这四个压缩频带能量N1、N2、N3、N4求平均值,以便提供噪音模板421。
每当噪音模板421更新时,它被输入到频谱增强处理43。频谱增强处理包括多个增强级。第n增强级产生n倍的增强频谱。因此,第一增强级将原始噪音模板转换成一倍增强噪音模板,它被输入到第二级中,第二级提供二倍增强噪音模板,如此下去直到最后第八级,并由该最后级产生八倍增强噪音模板。每个增强级的处理如下。
首先,计算涉及最低(第一)频带的压缩能量值及涉及第二频带的压缩能量之间的差。然后,计算涉及第二频带及第三频带之间的压缩能量之间的差。计算每个相应的差值,直到第三十一频带及第三十二频带之间的差为止。将这些差值存储在DSP IC中存储器合适位置上。
在每个增强级中,对输入的噪音模板的每个频带的每个能量值进行调整,以增加其能量值与涉及相邻频带的能量值之间的差。在该计算中所使用的差值是基于输入能量值的差值,而非在当前增强级中产生的调整值。
更详细地,在每个增强级中,以第一输入频带能量值与第二输入频带能量值之差的5%为幅度,调整第一频带能量值,产生新的第一频带能量值。该调整可选择为增大或减小,以便有效地增大两个能带值之差。由于对第二输入频带能量值的调节依赖于两个相邻的频带能量值,调整分两个步骤来计算。首先基于第二与第一频带能量值之差进行5%调整,以产生部分调整的第二频带能量值。然后以类似方式基于第二与第三频带能量值之差进行第二频带能量值第二部分的调整。对其他每个频带重复地进行该处理,但除第三十二频带能量值外,它仅有一个相邻的频带能量值。在此情况下其调整与对第一频带能量值的调整相似。
应当理解,如果一个相邻频带能量值比被调整频带能量值高,而另一相邻频带能量值为低,则两部分调整作用彼此抵消。
在频带增强处理43的第二级中,进行类似的调整处理,在一倍增强噪音模板基础上得到二倍增强噪音模板。当八个增强级均被处理完后,则使每个频带能量值乘以一缩放系数,例如0.9。本发明人发现,引入频带增强处理43意味着,缩放系数可比噪音降低应用的典型值(如1.1)小,而不会引入“音乐”频谱减噪音。
由频谱增强处理43输出的调整噪音模板431比未修改的噪音模板421呈现更明显的谐波。于是,频谱增强处理43模拟发生于人听觉皮层称为“横向抑制”的处理。该调整已被证实能改善在信号一背景噪音比大于10dB时的主语音活动检测器(图1)的性能。
在扣减处理44中,从由当前输入信号帧得到的频带压缩能量411的压缩值中减去调整噪音幅样值431,以提供压缩修正能量441。
然后将压缩修正能量441输入到限幅处理45,它简单地将任何小于1的压缩修正能量值调整到1。一旦以此方式引入了较低的限值,每个压缩的修正能量值的幂在扩展步骤46中升高到1.4次幂(即步骤41中压缩指数的反运算),以提供修正频带能量49。
再参照图1,将修正频带能量输入到唛耳(Mel)倒频谱系数计算处理5,它基于当前输入信号帧的修正频带能量49计算当前输入信号帧的16个唛耳倒频谱系数。
在取对数处理6中,进行与处理31所进行的操作相似的操作,即基于修正频带能量49提供对数修正频带能量69。
使用全连接多层感知算法来进行分类处理7。在该算法中所使用的权重是使用以动量(α=100,ε=0.05)的反向传播算法示教该算法获得的,其中使用了6545帧,其一半帧为噪音帧,另一半帧为语音帧。在每权重更新前产生了一百个示教采样数据及示教数据将通过二百次。
参照图4,多层感知结构具有48个输入节点71。在输入到相应的输入切点前,使用未示出的方式对16个唛耳倒频谱系数59及32个对数修正频带能量69标称化,以使它们位于0和1之间。每个输入节点71通过连接线72(图中仅一个有标号)连接到二十个初级节点73(图中仅一个有标号)。每个连接线72具有通过训练处理过程设定的相关权重系数X。每个初级节点上的值是通过对每个输入节点值与相关权重系数的积求和来算出。通过对初级节点值进行非线性函数修正获得每个初级节点输出的值。在本例中,该非线性函数是S形函数。
每个初级节点73的输出通过连接线74(每个也具有相关的权重系数)连接到8个次级节点75的每一个上。使用与基于输入节点值计算初级节点值相似的方法,基于初级节点值来计算次级节点值。次级节点输出也使用S形函数来修正。8个次级节点75的每个经过相应的连接线76连接到输出节点77。使用与基于初级节点的输出值计算次级节点值相似的方法,基于二次节点75的输出值来计算输出节点上的值。输出节点上的值是位于0和1之间的单浮点值。如果该值大于0.5,则由语音活动检测器输出的判定79指示当前输入信号帧包括语音,否则,判定39指示该输入信号帧仅由噪音组成。可以理解,判定76形成了主语音活动检测器(图1)的输出。
在另外一个实施例中,多层感知结构设有第二输出节点,它指示输入信号帧是否包含信息语音(例如拨号音、预定音或DTMF信号音调)。
为了减少语音衰减,输出判定可仅指示当对于当前输入信号帧输出节点值超过0.5及对于在先输入信号帧也超过0.5时,输入信号帧由噪音组成。
在一些实施例中,可在最初的短时期内(如1s),禁止语音活动检测器对输入的信号帧包含有噪声的判定输出。本发明的第二实施例提供了一种改进型的符合标准文件“欧洲数字蜂窝通信(阶段2)”语音活动检测器(VAD)(GSM06.32)ETS300580-6”规定的辅助语音检测器。它对应于在我们的欧洲专利0335521中所述的语音活动检测器,并表示在图5中。
在输入端601上接收带噪音的语音信号。存储器602包含规定噪音频谱估值或模型的数据;在该数据与当前信号的频谱之间作出比较(603)以获得相似性测量值,后者再与一个阈值相比较(604)。为了跟踪噪音分量中的变化,仅在无语音时从输入端更新噪音模型。并且,阈值可以做相应调整以达到适配效果(适配器606)。
为了保证在仅有噪音的期间达到适配效果,而不会因错误的判定而引起逐渐不正确的适配危险,在辅助检测器607的控制下执行适配,该辅助检测器包括一个清音语音检测器608及一个浊音语音检测器609;如果有一个检测器识别出语音,则检测器607认为语音存在,并抑制更新及主检测器阈值的适配。清音语音检测器608获得一组信号的LPC系数并比较相继帧周期间这些系数的自相关函数,而浊音语音检测器609检验LPC余项自相关性的变化。
在清音语音检测器608中,使用信号频谱稳定性的测量值来形成判定,即输入信号是否包括清音语音的判定。更具体地,即输入信号是否包括清音语音的判定。更具体地,将输入信号相邻80ms组之间频谱差的测量值中的帧间变化与一阈值相比较,以产生一个稳定性判定的布尔值。所使用的频谱差测量是Itakura-Saito失真测量的变型,每个80ms组的频谱表示是由多个20ms帧的自相关函数的平均值获得的。本发明的第二实施例改善了判定的可靠性。
根据本发明的第二实施例,待分析的信号组被分成多个子组,例如160ms组被分成8个20ms子组。然后通过计算所有子组的任意两个之间的频谱距离测量值来判定清音语音/噪音(在该列中C28=28个比较对),并对各个距离测量值求和以形成单个量值。该稳定性测量值比以上参照的GSM标准中所述者还要精确,因为它考虑了子组对之间的频谱相似性,相隔不同间隔的组分(20ms,40ms,60ms…140ms),而非只是相邻组之间的相似性。该方法能容易地结合进上述GSMVAD中,因为可由对每一个20ms信号帧得到的自相关函数来计算Itakura-Saito失真测量的变化,本领域中熟练技术人员可以理解,也可使用另外的频谱测量如基于FFT的方法。并且在求上述单量值时可使用失真测量的加权组合。例如,对失真测量值可采用求解它们时使用的与子组之间的间隔成比例地加权。
权利要求
1.一种语音活动检测器,包括在操作中计算至少一个第一频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;在操作中计算至少一个第二频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;操作中基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值的装置;及在操作中将所述频谱不规则性测量值与一个阈值相比较的装置。
2.根据权利要求1的语音活动检测器,其中所述预定时间长度在80ms至1s的范围中。
3.根据权利要求1或2的语音活动检测器,其中所述频谱不规则性测量值计算装置被设置用来在操作中计算所述频谱差测量值加权的和。
4.一种语音活动检测器,包括根据以上任一权利要求的可作为辅助语音活动检测器工作的语音活动检测器。
5.根据权利要求4的语音活动检测器,还包括在操作中基于从被所述辅助语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
6.一种噪音抑制装置,包括根据权利要求1至3中任一项的语音活动检测器;在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
7.一种语音活动检测器,包括在操作中从输入信号提取特征值的装置;及在操作中处理多个所述特征值以输出一个值指示所述输入信号是否由噪音组成的神经网装置。
8.根据权利要求7的语音活动检测器,其中所述提取装置包括滤波器组,在工作中该滤波器组产生多个滤波器组值,表示在所述信号频谱内每一个频带的功率。
9.根据权利要求8的语音活动检测器,其中所述提取装置还包括在操作中处理所述滤波器组值以获得包括反频谱系数的特征值的装置。
10.根据权利要求8或9的语音活动检测器,其中所述提取装置还包括处理所述滤波器组值以获得含有滤波器组值的对数的特征值的装置。
11.根据权利要求7至10中任一项的语音活动检测器,其中所述神经网装置具有另一输出,它的值指示所述信号是否是信息音调。
12.根据权利要求7至11中任一项的语音活动检测器,还包括根据权利要求1至3中任一项的可作为辅助语音活动检测器工作的语音活动检测器;及在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
13.一种具有符合任一上述权利要求的语音活动检测器的移动无线电装置。
14.一种语音活动检测方法,包括以下步骤计算至少一个第一频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;计算至少一个第二频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值;及将所述频谱不规则性测量值与一个阈值相比较,及基于该比较确定所述信号是否由噪音组成。
15.根据权利要求14的方法,其中所述预定时间长度在80ms至1s的范围中。
16.根据权利要求14或15的方法,其中所述频谱不规则性测量值计算步骤包括对所述频谱差测量值做加权求和。
17.一种增强频谱的方法,该频谱代表一系列预定频率的预定的频谱特征值,增强过程包括以下几步对每一个预定频率,将所述频率上所述频谱特性值与在相邻频率上的所述特性值相比较及计算针对所述预定频谱值的调节值,所述计算是这样的,即,当所述的预定频谱值大于相邻频谱的任一频谱值时,增大调节值,当所述的预定频谱值小于相邻频谱的任一频谱值时,减小调节值;及在频谱内根据所述计算调节值调节每个所述频谱值。
18.根据权利要求17的方法,其中所述比较包括获得所述预定频谱值;在相邻的较低频率上获得所述特性值;在相邻的较高频率上获得所述特性值;对超过所述较低频谱值的所述预定频谱值计算向下的减少量;对超过所述较高频谱值的所述预定频谱值计算向上的减少量;对小于所述较低频谱值的所述预定频谱值计算向下的增加量;对小于所述较高频谱值的所述预定频谱值计算向上的增加量;所述的调节值计算是这样的,即,基于任何计算的减少量所述调节值增加,和/或基于任何计算的增加量所述调节值下降。
19.根据权利要求18的方法,其中所述调节步骤包括将所述预定频率值增加一个线性比例于计算出的任何减少量的值;和/或将所述预定频率值减少一个线性比例于计算的任何增加量的值。
20.根据权利要求17至19中任一项的方法,包括多次地重复权利要求17、18和19的方法。
21.一种语音活动检测方法,包括根据权利要求17至20中任一项的频谱增强。
22.一种语音活动检测器,包括基于信号的时间区段计算频谱的装置,它在操作中基于信号的第一时间区段计算第一频谱及基于信号的第二时间区段计算第二频谱,所述第二区段滞后所述第一区段一个预定的时间长度;计算频谱之间频谱差测量值的装置,它在操作中计算指示所述第一及第二频谱之间频谱差的频谱差测量值;频谱不规则性测量值计算装置,它在操作中基于至少所述频谱差测量值计算频谱不规则性测量值;用于将所述频谱不规则性测量值与阈值相比较的装置;及基于所述比较确定所述信号是否由噪音组成的装置;其中所述预定时间长度足够地大,以便展示语音信号频谱的时间变化特性;所述频谱计算装置还在操作中基于落在所述预定时间长度内的所述信号时间区段计算一个或多个中间频谱;所述频谱差计算装置还在操作中计算某些或所有所述中间频谱及所述第一及第二频谱之间的中间频谱差测量值;及所述频谱不规则性测量值计算装置在操作中基于所述频谱差测量值及所述中间频谱差测量值计算频谱不规则性测量值。
22.一种语音活动检测器,它基本上如前参照图1所述并如图1中所示。
23.一种语音活动检测方法,它实质上如前所述。
全文摘要
公开了一种适用于移动电话机中的语音活动检测器。该语音活动检测器的优点是能更好地判定(79)输入信号(19)是由噪音(不需要被发送)组成还是包括语音或信息音调(需要被发送)(79),尤其适用于噪音环境中。该语音活动检测器包括多个部件,尤其是辅助语音活动检测器(3)。辅助语音活动检测器(3)基于语音频谱比噪音频谱变化快的特征区分噪音及语音。这使得辅助检测器(3)几乎不会将语音信号错认为噪音信号。因此,获得了非常可靠的噪音模板(421)。为此,辅助检测器(3)也可用于降低噪音的应用。该语音活动检测器也使用神经网分类器(7)。
文档编号G10L25/78GK1225736SQ97196590
公开日1999年8月11日 申请日期1997年7月2日 优先权日1996年7月3日
发明者尼尔·罗伯特·加纳, 保罗·亚历山大·巴雷特 申请人:英国电讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1