用于分析包含脉冲的信号的方法

文档序号：2834642阅读：244来源：国知局

专利名称：用于分析包含脉冲的信号的方法
技术领域：
本发明涉及脉冲信号的分析，例如语音信号、人体或动物体内的生理信号例如神经信号以及工业产品中的信号，目的在于确定信号的质量(quality)，例如识别语音信号中的元音。
背景技术：
数十年来，评估听觉的基础一直假定是短时傅立叶变换。之所以如此是因为耳蜗的构造是符合这种假设的。但这种假设已引起数种无法解释的现象。其中包括，从未揭示过人类的听觉如何感知元音，以及如何总体感知声音“画面”。
耳朵最初是作为警告系统进化的，它警告有敌人试图偷袭你，并且通常是小树枝断裂的声音给了你这种警告。这种声音是一个脉冲，且具有非常短的持续时间，其不适合于用傅立叶变换来分析，因为脉冲所含的信息会通过分析被平均。而且信号的频谱具有如下弱点频谱中的明显频率可能来自无法说清的不同来源。在语音识别中分析元音是个大问题，此时背景噪声可能被解释成假共振峰。
傅立叶变换是一个消除时间维度的数学工具，所以本来就不适合于脉冲分析。由于脉冲非常重要，因此信号的动态特性就非常重要，且分析方法必须基于反映耳蜗物理特性的工具。本发明提供了模拟人耳行为的时间和频率分析。
本发明方法是为语音分析而开发的，但该方法也适用于其它目的。所以，本发明方法的结果可用来识别声音或振动或语音，或在声音或振动揭示产品质量时产品的质量测量。本发明方法还可在窄带通信中与语音识别或语音编码和解码一起使用。在最广义方面，本发明的结果可用于识别或表示人或动物耳朵能感知的特性，但不限于此。
振荡分析是一种通用分析，也可在人或动物耳朵能感知的频率范围之外使用，例如高频电信。

发明内容
本发明提供一种用于分析具有输入频带宽度的输入信号的方法。该方法包括提供输入信号的至少一个频带宽度受限部分。对于输入信号的每个频带宽度受限部分，确定预定个半周期的持续时间以及在各个半周期期间的信号偏移。基于信号偏移和相应的半周期，确定输入信号的质量。信号偏移可确定为在输入信号的全波或半波整流频带宽度受限部分的两个连续零点之间的峰峰值或信号偏移。所确定的信号质量可以是语音信号中的元音、或人体或动物体内的生理信号例如神经信号、或与工业产品状况有关的质量。该方法提供了与说话人无关的元音识别，甚至低声说的元音也能识别。

附图包括图150ms的元音“:”，如由男性和女性在“had”中的发音；图210ms(一个脉冲)的元音“:”(男性)，并从四个听觉频道输出；图310ms(两个脉冲)的元音“:”(女性)，并从四个听觉频道输出；图4约10ms(两个脉冲)的元音“a:”(男性)，并从四个听觉频道输出；图5约10ms(两个脉冲)的元音“a:”(女性)，并从四个听觉频道输出；图6女性说的元音“i:”的振荡分析；图7男性说的元音“i:”的振荡分析；
图8女性说的元音“a:”的振荡分析；图9男性说的元音“a:”的振荡分析；图10女性说的元音“u:”的振荡分析；图11男性说的元音“u:”的振荡分析；图1210ms(一个脉冲)的元音“:”(男性)，加有5dB的白噪声；图13元音“:”的振荡分析，没有白噪声；图14元音“:”的振荡分析，加有5dB的白噪声；图1510ms的元音“:”(男性)，低语；图16低语的元音“:”的振荡分析；以及图17APPA框图。
具体实施例方式
脉冲通常由一突发力撞击系统而产生。它可以是齿轮箱或其它工业产品中齿轮上的故障，并且每当齿轮上的故障被啮合时，由故障引起的力就产生脉冲。或者，它可以是有声语音中由声带产生的压力爆发。作为突发力的力是指，系统的瞬时响应非常重要，且它常常是非线性的。
通过傅立叶变换，时域被消除，所以傅立叶变换在描述信号中动态条件方面不是最佳的。较好的方法是，利用带通滤波器的滤波器组将听觉频率间隔分成听觉频道。宽频带的带通滤波器具有短脉冲响应，故时间分辨率就会相应地高。
多年来一直假定耳朵的耳蜗被分成对信号进行分析的许多听觉频道〔Zwicker 1961〕。但所使用的方法仍集中在准稳态频率分析，其中能够跟踪语音信号中的共振峰。一个例外是考虑到能量突变，由F.Leonhard〔Leonhard 1993〕和〔Leonhard 2002〕描述的，但却未说明与如何感知声音画面(sound picture)的密切关系。
理想情况是，脉冲是系统的脉冲响应，并含有阻尼的本征频率，它可用系统的极点来描述，并且事实上是系统的一种指纹。脉冲分析的目的是要从脉冲中获得尽可能准确和多的信息，并且对于听觉也是这种情况。下面将集中在分析声音画面或元音的“色彩”，元音可以认为是声音的特殊“色彩”。
图1示出50ms的元音“:”，如男性(上面的信号)或女性(下面的信号)在“had”中的发音。可看出，信号含有阻尼频率-男性最明显。也可清楚看出，脉冲之间的间隔男性大约为女性的两倍长。
为了具有高时间分辨率，听觉频道中的带通滤波器必须具有宽频带。图2示出约10ms的元音“:”，由男性说出(一个脉冲)，并从四个听觉频道输出。低频道的频率范围达600Hz，并且一个频道在600-1400Hz范围内，一个频道的频率范围从1400-2800Hz，以及一个频道从2000-4000Hz。该元音主要出现在第三频道。
图3示出约10ms(两个脉冲)的元音“:”，由女性说出，并从四个听觉频道输出。与男性说的该元音相比，脉冲之间的周期仅为一半，即女性约为5ms，而男性约为10ms。但在中间频道中的振荡周期非常类似。换句话说，振荡与音调(pitch)周期无关。四个频道中的增益对较高频率范围中耳朵的较高灵敏度作了补偿。如果在低频道中有振荡，则它在声音画面中给出更好的音量。
根据此背景，有三种现象是对脉冲应关注的。一个是振荡特性、周期和幅度。振荡的时间周期看来对声音画面非常重要。第二是在脉冲持续时间期间瞬时能量的进展。第三是脉冲的周期。在较长期间，周期是恒定的还是随机的。利用傅立叶变换进行频率分析来分析振荡是很吸引人的，但它们通常由不止一个频率组成，这就影响了它们的时间周期。所以，较好的方法是在振荡分析中测量振荡的时间周期。
图4示出约10ms的元音“a:”的语音和四个频道的输出，如由男性在“hod”中所说的。该元音由第二频道中的振荡表示。
图5示出由女性发音的元音“a:”。也可以看出，女声的音调大约为男声的两倍，但在第二频道中主要的振荡周期是相同的。
对于识别元音，频道中的振荡是最重要的，特别在上面的三个频道中。由图2可见，频道的输出是相当周期性的。这就可以得出振荡仅由一种频率组成的假定。但带通滤波器是非常宽带的(通常是一或二倍频程)，且脉冲是瞬时响应。这意味着，振荡经常由不止一种频率形成。对于元音，通常是第二共振峰为主，但也受其它频率的影响。
在一个时帧期间，从上到下和从下到上直接测量振荡，即，测量半周期或预定数量的半周期。在这两种情况下，在上/下和下/上之间的周期之后，即在许多有限间隔(也称为“仓(bin)”)内，连续或离散地测量并分类峰峰值，并作数字上的累加。
另一种方法是对带通滤波信号进行整流(例如全波或半波整流)并测量顶部之间的周期，这是未整流信号的半周期。
为显示频道的重要性，现分析在不同频道中识别的三个元音的振荡。为显示振荡分析与说话人无关，对随机选择的男性和女性所说的元音进行分析。元音是如“heed”中的“i:”，如“hod”中的“a:”，以及如“who’d”中的“u:”。
低频道具有的总时间间隔从1到2ms，而其它频道的间隔从0.16到1.2ms。所有频道都分成20个时间仓，且各仓的标度都是对数的。在30ms的时帧中，在持续时间之后对振荡的半周期进行分类，并将峰峰值累加在相应的仓中。
图6到11示出结果图。图6和7示出元音“i:”，并且男性和女性在高频道中的仓2都有明显的反射，这对应于从0.17到0.19ms的时间间隔。这就是振荡的半周期。然后振荡周期在从0.34到38ms的时间间隔内，并与音调无关。女声在低频道的仓14和19也有反射。就是说，语音的声音画面比男性有更大的音量。
图8和9示出男性和女性说的元音“a:”的结果，并且它们在第二频道的仓13都有明显的反射，对应于从0.54到0.59ms的时间间隔，且振荡周期在1.08和1.18ms之间。
图10和11示出男性和女性说的元音“u:”的结果，并且它们在第一频道都有明显的反射。女性的反射在仓11，而男性在仓12。它对应于3.4到3.9ms之间的时间周期。“u:”是最深沉的元音，并且事实上，周期长于约2.5ms的振荡听起来就像“u:”。对应于1.5和1.8ms之间周期的仓16和17处第二频道中的反射对于元音“u:”也非常重要，特别是如果通过电话来识别的话。
这两种发音非常不同，且结果如此明显，使得此技术非常有可能导致与说话人无关的语音识别。
APPA的原理本质上强抗噪声，因为它是基于振荡的时间分析。为说明这一点，将男性说的元音“:”加上5dB的白噪声(WN)。对干净信号和有噪声信号进行分析。图12示出图2所示相同语音信号，但加有5dB的白噪声。
图13示出干净信号的振荡分析，而图14示出加有5dB白噪声的相同信号的分析。所加5dB白噪声是非常重的噪声，并且试图列于信号之中。从图13可见，此结果在频道3的仓6处有明显反射，对应于0.53和0.59ms之间的振荡周期。在图14上可见，所加5dB白噪声将反射移到仓5，对应于0.48和0.53ms之间的周期，这可能是因为周期是在两个仓间的边界上。对于噪声信号，反射仍很明显。
看来即使在元音是低声说出时，APPA也能够识别它们。图15示出男性低声说的元音“:”。两个不同人发出此有声但低声的元音。
从图15可见，没有音调，因为是低声说出的。图16示出振荡分析，并且在仓5有明显反射，对应于0.48和0.56ms之间的周期，这与图14所示的有声版本非常对应。
以上可以看出，信号中的振荡对于听觉至关重要，特别是在较高的听觉频道。当然，所有参数都可用来分析声音画面，但例如在语音识别中，具有较少的参数则是有利的。所以建议用参数子集。
振荡的累加峰峰值的最大幅度以及其出现的仓是非常重要的。
不用幅度具有最大值的仓作为特征，而使用每个频道所有幅度的中心点可能较为有利。所以，本发明方法最好计算该特征。
本发明基于以下假设耳蜗在放松时是非常宽带的，并且如果由正弦波激励，则它具有自适应特性，并在这些频率周围变为较窄带。
在图17中，框“听觉频道低”包括一个或多个频道，每个频道有一个从50Hz到例如600Hz的低听觉频率范围的带通滤波器。通常使用两个频道，例如50-200Hz和200-600Hz，每个覆盖不止一个倍频程，可能多于两个倍频程。在每个频道中，检测预定数量的半周期振荡，最好是1个半周期，并且相应的信号偏移或幅度，例如半周期峰峰值，按照它们的半周期持续时间进行分类。该分类可以是连续的或离散的，利用有限间隔或“仓”，即总时间间隔的部分间隔。最好，使用对数时标进行分类。从50-600Hz的低听觉频率范围对应于时间间隔0.7-10ms的半周期振荡。
相应地，框“听觉频道中(Mid)”包括一个或多个频道，每个频道有一个从600到例如4000Hz的中听觉频率范围的带通滤波器。通常使用三个频道，例如600-1400Hz、1400-2800Hz和2000-4000Hz，每个覆盖一个倍频程或更多。在每个频道中，检测预定个半周期振荡，最好是1个半周期，并且相应的信号幅度，例如半周期峰峰值，按照它们的半周期持续时间进行分类。该分类可以是连续的或离散的，利用具有总时间间隔的部分间隔的“仓”。最好使用对数时标进行分类。从600-4000Hz的中间听觉频率范围对应于时间间隔从0.12-1.2ms的半周期振荡。
本发明还可有框“听觉频道高”(未示出)，它是含有也在范围4-18kHz内的带通滤波器的滤波器组，对应于时间间隔从0.01到0.14ms的半周期振荡。
对于某些应用，有一个适当频带宽度的带通滤波器就足够了。
振荡分析器的输出用来翻译“声音画面”，即语音中的元音识别。
用于其它目的时，该方法可包括适于该目的的其它频率范围。
参考[Leonhard 1993]Frank U.Leonhard，“检测和生成听觉信号中瞬态状况的方法和系统(Method and System for Detecting and GeneratingTransient Conditions in Auditory Signals)”，EP 0737351，April 1993. E.Zwicker，“将可听频率范围分成临界频带(Subdivision of the audible frequency range into critical bands)”，Journal of the Acoustical Society ofAmerica，33，page 248-249，1961. Stephanie Seneff，“听觉语音处理的接合同时性/平均速率模型(A joint synchrony/mean-rate model of auditory speechprocessing)″，Journal of Phonetics(1988)16，55-76. Nina Thorsen & Oluf Thorsen，″Fonetik forsprogstuderende″，Institut for Fonetik，Kφbenhavns Universitet，3.reviderede udgave，1978. Frank Uldall Leonhard，“电声转换器的质量控制(Quality Control of Electro-acoustic Transducers)”，WO 0225997，March 2002.
权利要求
1.一种用于分析具有输入频带宽度的输入信号的方法，所述方法包括-提供所述输入信号的至少一个频带宽度受限部分；-对于所述输入信号的每个所述至少一个频带宽度受限部分，确定预定个半周期的持续时间以及各个预定个确定的半周期期间的信号偏移；以及-基于所述信号偏移和相应的半周期，确定所述输入信号的质量。
2.如权利要求1所述的方法，其中所述信号偏移确定为峰峰值。
3.如权利要求1所述的方法，包括对所述输入信号的每个所述至少一个频带宽度受限部分进行整流，并将所述信号偏移确定为两个连续零点之间的信号偏移。
4.如权利要求1所述的方法，其中所述输入信号是语音信号，且所述质量是元音。
5.如权利要求1所述的方法，其中所述输入信号由工业产品产生，并且所述质量与所述工业产品的状况有关。
6.如权利要求1所述的方法，其中所述输入信号是人体或动物体内的生理信号，例如神经信号。
7.如权利要求1所述的方法，其中所述预定个半周期是1个半周期。
全文摘要
本发明提供一种用于分析具有输入频带宽度的输入信号的方法。该方法包括提供输入信号的至少一个频带宽度受限部分。对于输入信号的每个频带宽度受限部分，确定半周期持续时间以及各个半周期期间的信号偏移。基于信号偏移和相应的半周期，确定输入信号的质量。所确定的信号质量可以是10个语音信号中的元音或与工业产品状况有关的质量。该方法提供了与说话人无关的元音识别，甚至低声说的元音也能识别。
文档编号G10L25/00GK1864201SQ200480029106
公开日2006年11月15日申请日期2004年8月6日优先权日2003年8月6日
发明者弗兰克·乌达尔·莱昂哈德申请人:弗兰克·乌达尔·莱昂哈德

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：弗兰克.乌达尔.莱昂哈德
技术所有人：弗兰克.乌达尔.莱昂哈德
我是此专利的发明人

上一篇：语音识别系统的环境失配的自适应的制作方法
上一篇：数据处理单元和数据处理单元控制程序的制作方法