强健型知觉语音处理系统及方法

文档序号:2837161阅读:361来源:国知局
专利名称:强健型知觉语音处理系统及方法
技术领域
本发明关于一种自动语音辨识系统,尤其是关于一种能够改善自动语音辨识系统的强健度的知觉语音处理系统。
背景技术
自动语音辨识(ASR)系统已发展超过了三十年以上,并且已能于实验室中经由诸项受控设定来实现高度的辨识准确率。然而,在实际谈话环境中针对不利状况的强健度问题仍然存在,因为在真实的谈话环境的中包含有背景的噪音、语音失真、以及个人特殊发音等特征的缘故。来自于人们说话与移动、器械、机器、交通等等的背景噪音存在于几乎是任何环境之中,例如在家中、办公室中、车内、或者是在公共场所之中。语音频谱的失真则可能起因于频率响应、麦克风的安装位置、以及麦克风的传感器品质等等,并且可能起因于信号传输线路的干扰。再者,每个说话人具有其自身独特的发音习惯,甚至在针对同一说话人的情况下,由于该语音当时的情绪反应而将可能会造成声调变化的发生(伦巴效应)。因此,自动语音辨识系统必须足够强健来对抗不利的说话环境,以便能够实现高度正确的语音辨识。
传统式自动语音辨识系统已通过使用具有相同的噪声成份且从语音训练所得的参考样本,来尝试解决强健度的问题,但此方式无法处理不同的不利环境,因此其并不实用。改善强健度的其他方法包括有信号增强的预先处理,此通过在辨识处理前进行噪音的抑制;例如是使用两个信号源来进行噪音消除。然而,此一方法所需要的是在不良信号中的噪声成份以及基准噪声中必须具有一种高度的相关性,举例来说,为了抑制汽车的引擎噪音,用于这两个信号源的麦克风无法分离超过5公分以上,因此无法防止语音本身被包括在基准噪声之中。另一种方法为使用例如是噪声功率以及/或者信噪比SNR等噪声特征的估算,并将其加至一个清晰的语音资料库中,用以建构出一种能够使一噪声频谱成份对应至噪声抑制数值的函数(复合模型频谱)。然而,该方法受限于一种对于噪声估算的良好假设的需求(因而降低了处理不可预期的噪音环境的能力)以及高度的计算复杂性。
噪声消除用麦克风(隔膜两侧暴露于声域之中)以及多感应器配置能够提升SNR,不过麦克风以及感应器必须被精确地加以定位,并且操作算法需要特定适合的训练,因此其一般性的使用受到了限制。
对于宽波段噪音环境而言,较低波段的语音区域将更容易受到噪音的影响。经由滤波器组分析器所进行的噪音屏蔽针对滤波器的每一个波道输出而将屏蔽噪音度选定作为在基准信号中以及在测试信号中噪音度较大者。如果该波道输出低于相应的屏蔽级,则该波道输出接着会由屏蔽值所取代,因此避免了寄生失真的叠加,此因为这些被决定受到噪音不良影响的波道将在训练及测试的语音样本中具有相同的频谱值的缘故。然而,当两个将要进行比较的样本具有非常不同的噪声级,并且测试样本具有较高的噪音度之时,此方法将会造成具有较噪音为低的噪音度的所有基准样本噪声具有同等小的差异,因而使得这样的比较变得没有意义。
不同于上述的单纯机器语音辨识,人类对于语音的知觉就强健得多,其能够在不利的环境中达成相当高的辨识正确率。举例来说,在输入SNR低于20分贝的情况下,传统ASR系统的辨识正确率会大大的退化,然而人类却能够轻易地辨识甚至信号品质低到相当于0分贝SNR的语音。信号失真虽然扰人,但其却很少能够造成人类发生严重的语音辨识错误(除非在信号本身的振幅过低的情况下),并且每一个说话人的发音特征(至少针对本国说话人而言)并不会导致重大知觉问题的发生。因此,我们尝试发展一种类似于人类语音知觉的语音辨识系统。这种方法基本上能够分成两种类型第一种类型建立出一种具人类听觉系统的机能的模型(例如耳膜以及耳蜗),但是这种系统会由于许多来自神经系统以及听觉单元间所产生的未知互动的许多反馈路径而将变得相当复杂,而使得这种尝试在理论上可行、然在实际运作上却受到相当的限制。第二种类型则利用人工神经网络(ANN)用以获取语音特点、用以处理动态与非线性语音信号、或者是用以与统计辨识器相组合。但是,人工神经系统具有繁重计算需求的缺点,使得具有相当大词汇的辨识系统变为不切实际。
所有ASR系统都需要使用一个频谱分析模型来使这个声音信号参数化,如此才能够为语音辨识进行与参考频谱信号的比较。线性预测编码(LPC)经由一种所谓的全极模型化条件(all-pole modelingconstraints)而在语音帧上执行频谱分析。这也就是说,一种典型由Xn(ejω)所给定的频谱表示方式被限制为σ/A(ejω)的形式,其中A(ejω)为一个z变换形式的pth次方多项式,由以下方程式所给定A(z)=1+a1z-1+a2z-2+a1z-1+……+apz-pLPC频谱分析组的输出为一系数向量(LPC参数),其是以参量方式指明全极模型在语音样本帧的时间期间上能够最佳配合信号频谱的频谱。传统语音辨识系统典型经由全极模型化条件来利用LPC。然而,在全极频谱中的极点位置典型地受到在波谷部分中所出现噪音的影响,而此造成语音辨识的强健度受到严重地退化。
发明概述因此,一种能够在不利环境中进行正确辨识的语音辨识系统为我们所需求的。本发明为针对语音傅立叶频谱所采用的三种知觉处理技术的应用,用以在一知觉语音处理器中体现人类听觉的知觉频谱,其中该知觉语音处理器包括有一个利用一屏蔽胜者全取(winner-take-all)电路的噪音屏蔽罩、一个用于将客观信号振幅转换为主观最小可听的响度的振幅重正规化器(renormalizer)、以及一个用于将信号的物理赫兹频率调整为知觉美(mel)标度频率的美-标度频率调整器。
附图的简单说明

图1显示出由一个1千赫兹、80分贝纯音所产生屏蔽音于振幅与频率的关系图;图2显示出一个屏蔽音以及一个由该屏蔽音所产生的屏蔽罩于振幅与时间的关系图3为最小可听区(MAF)曲线及等音量线于振幅与频率的关系图;图4为一个显示出频率标度与美-标度间关系的图表;图5为一个流程图,其显示本发明用于产生一知觉频谱的知觉特征的次序及操作;图6中(a)根据本发明中文母音‘i’的傅立叶频谱,(b)显示了屏蔽效应的结果,(c)显示了MAF操作的结果,而(d)则为美-标度重新取样的结果;图7显示出在本发明中实验测量辨识率与SNR关系的图表;图8说明了根据本发明的屏蔽胜者全取电路的实施例;图9为一个说明由根据本发明的分段(piecewise)线性电阻器PWLn所产生电流与电压差关系的图表;图10为根据本发明的屏蔽罩电流输出的图表;图11为在本发明中通过描绘相应于不同PWL的节点电压来说明包络提取的一个图表;图12为一个根据本发明实施例的单一屏蔽胜者全取(WTA)单元的表示图。
具体实施例方式
自动语音辨识系统针对用以进行语音信号波成份振幅的离散傅立叶转换计算来取样诸点。由麦克风所产生语音信号波形的参数化基于以下事实而定任何信号波能够通过简单正弦与余弦波的组合来加以表示;信号波的组合可以通过傅立叶逆变换所给定g(t)=∫-∞∝G(t)ei2πftdf]]>其中,傅立叶系数是通过以下傅立叶变换所给定G(t)=∫-∞∝g(t)ei2πftdf]]>其是给定信号波的成份(振幅)于频率f(信号波于频率空间中的频谱)时的相对振幅。由于向量亦具有能够由正弦及余弦函数所表示的成份,因此语音信号亦能够通过频谱向量来加以描述。对于实际的计算而言,在其他的方法之中,一种离散傅立叶变换是可以被使用G(nτN)=Σk=0N-1[τ·g(kτ)e-i2πknN]]]>其中,k是所采用之每一样本数值的位置次序,τ是所读取数值间的间隔,以及N是所读取数值的总数。计算效率能够通过利用快速傅立叶变换(FFT)而达成,其使用一连串基于三角函数成圆率(circularity)的捷径来执行离散傅立叶变换计算。
屏蔽效应是某一声音于其附近发生有更大声音的情况下,而变得无法为人所听见的现象。屏蔽效应可以通过人类主观反应的实验来进行测量。图1显示出由一个1千赫兹、80分贝纯音100所产生屏蔽音的振幅与频率间的关系。任何在实线101下方的信号将无法为人所听见,并且如果频率是接近的屏蔽音,则其将会被严重地抑制,而这种抑制现象在高频率区会更加明显。图2说明了一个屏蔽音200以及由该屏蔽音所产生的屏蔽罩201的振幅与时间的关系。屏蔽罩201不仅发生在与屏蔽音同时,其亦会向前与向后地延伸。发生在与屏蔽音同时(亦即于区域202处)、之前(亦即于区域204处)、以及之后(亦即于区域203处)的屏蔽效应分别被称之为同时屏蔽、前方屏蔽、以及后方屏蔽。这也就是说,屏蔽效应不仅会发生在区域202处,其亦会发生在区域203以及区域204处。在熟知技术中为我们所知的是,‘响度’不仅取决信号振幅而定,其亦取决于频率而定。图3是最小可听区(MAF)曲线300以及等音量线301、302、303、304、以及305的振幅与频率的关系图,其中,在MAF曲线300下方的声音信号是过度衰弱而无法为人类所察觉。为了将客观声音信号振幅转换为人类主观响度,信号的一特定频率成份的振幅必须根据MAF曲线来加以重正规化L(in dB)=M(in dB)-MAF其中,L与M分别为声音信号的频率成份的响度及振幅,并且MAF是MAF于该频率的数值。在本发明的一个实施例之中,一个给定频率成份的振幅可以依据所有的等音量线301、302、303、304、以及305来进行更进一步的重正规化。为了描述人类的主观音感,频率标度被调整为一种被称之为美-标度的知觉频率标度。图4是一个显示出赫兹标度与美-标度间的关系的图表,其中美-标度是通过以下方程式所给定的mel=2595×Log(1+f/700)其中,f是信号频率。
在上述本发明较佳实施例中,用以产生一知觉频谱的知觉特征的次序及操作被显示在图5的流程图中。步骤501是将被输入至步骤502中的快速傅立叶变换(FFT),步骤502根据在语音信号的先前与目前帧中的最后屏蔽罩,而将受到附近较大声音所屏蔽的声音信号的所有频率成份移除。步骤503根据MAF曲线而将声音信号的每一频率成份的振幅进行重正规化,而步骤504是通过重新取样而将频率成份转换为美-标度。这种步骤次序是针对计算效率所安排的,然而,对于听觉传导路径而言并非必须与此次序相同。熟习此技述的人能够了解到的是,步骤501、502、503、以及504的任何次序均落于本发明的考虑之中。步骤501、502、503、以及504的结果被显示在图6之中,其中(a)是中文母音‘i’的傅立叶频谱,(b)是步骤502屏蔽效应的结果,(c)是步骤503进行MAF处理的结果,而(d)是美-标度重新取样的结果。在图6中(b)所显示的是,本发明的屏蔽效应消除了大部分介于400赫兹与2千赫兹间的频率成份,而大大地降低了必须进行处理的信息量并移除了重大的背景噪声。图6中(c)所显示的是低频率成份以及高频率成份被相当地减弱,而图6中(d)所显示的则是根据本发明较佳实施例的示范性母音i的知觉频谱。在另一个实施例之中,低频率成份(其包含大部分的母音信息)与其他频率相较之下被更精细地进行取样。最终知觉频谱仅保存了一个频谱包络,而其能够独自表达相关于发音部份的形状的重大信息。由于音调(pitch)信息对于母音辨识并非为必要的,因此其亦被有利地移除。步骤502(屏蔽效应)与传统式全极频谱模型有明显的不同。全极模型会在频谱中产生兀凹形平滑化波谷,反之本发明却产生急转陡峻的边缘。当频谱受到噪声的污染之时,在全极频谱中的极点位置会典型地受到在波谷区段中所出现噪声的影响。在本发明之中,大部分的波谷噪声被屏蔽罩所移除,因此能够达成较清晰的信号以及增大的强健度。
图7是实验测量辨识率相关于SNR的图表。知觉频谱曲线(PS)在与FFT频谱包络曲线(SE)相较之下会造成较低的SNR以及较高的辨识率。屏蔽效应(MASK)以及MAF重正规化化与MASK本身在与SE相较之下亦能够显著地增强辨识率并降低噪声。
屏蔽效应就是指在较微弱声音的附近存在有较大声的声音之时而无法听见该较微弱声音的现象。我们已知道听觉神经元被安排按其各自的谐振频率(按音调主题组织(tonotopic organization))的顺序,如此,抑制附近频率成份的知觉相应于侧向听觉神经元的抑制。神经元的活动取决于神经元的输入,以及来自附近神经元的抑制与刺激。带有较强输出的神经元将会经由突触连接而限制侧向神经元。假设一个神经元具有最强的输入刺激,神经元i将接着以最大程度来限制或刺激其附近的神经元。因为在区域中的其他神经元对于神经元i而言是非竞争性(无声)的,因此仅有神经元i会产生输出。此残留神经元i是在所谓胜者全取(WTA)神经元网络中的胜者,其在对于离开较远神经元的互动变得较弱之时仅会合理地延伸至局部区域。WTA网络的一种总体模型是一个具有n个神经元的电子电路,而每一个神经元通过两个nMOS晶体管来代表,而其在一节点处被连接在一起。当一输入脉冲使用一针对以并联方式相连的晶体管的电流来加以模拟之时,节点的电压取决于具有最高电流输入的晶体管(神经元)。在平衡的情况下,一个偏流会流经胜者神经元而有效地抑制其他所有神经元的输出电流。通过使晶体管与串联的电阻器分离,并且使每一个晶体管偏流(bias),电流亦可以被局部化。
图8说明了根据本发明的屏蔽胜者全取电路800的一个实施例。电流源Ik将电流输入至nMOS晶体管对T1k,T2k之中,而产生了晶体管电压Vk以及节点电压Vck。分段线性电阻器PWLn以串联方式被连接在节点801,802,803之间,而这些节点被连接至二极管连接式nMOS晶体管T3k。分段线性电阻器PWLn所产生电流与电压差的关系显示在图9中,并且分段线性电阻器PWLn会产生在图1中所观察到屏蔽效应的不对称抑制特征。所进行的实验利用一256个单元(神经元/晶体管对)的SPICE模拟。图10是根据本发明的屏蔽罩的电流输出图表,其是通过一个纯音输入所产生的,其中,神经元30的输入是700nA,而其他神经元的输入是100nA。在图10中能够观察到屏蔽效应的不对称情况。输入至本发明中的母音频谱会产生优胜频谱成份(最高输出电流),而此不仅会抑制附近的频谱成份,同样亦会吸收附近的偏流,从而提升了胜者自身的输出电流,并且提升了共振峰提取的有效性。共振峰是定义特征(在声音频谱中的尖峰),并因此发音次数越多则会达成更好的语音辨识。此外,诸成份被明确地量化,而每一个成份是基本频率的一个谐波。辨别不同音素的信息呈现在语音频谱的包络之中。本发明的屏蔽用WTA系统更进一步地将频谱包络从所输入的语音中分离出来。在图8中的节点电压Vck显示出输入电流Ik的一种平滑化频谱包络。如果所讨论的神经元相应于一个频谱的波谷,则该神经元的电流输出将会被其附近的尖峰所抑制,但是节点电压亦将会提升(如同在上文中已然叙述的),于是得以实现一个相应于输入频谱的包络的平顺节点电压。图11显示出本发明所产生的包络提取。实曲线是相应于不同PWL电阻(50k-0.5k,100k-1k,and 500k-5k)的节点电压,而点曲线则是不具有电阻之处。
图12是根据本发明实施例的一个单一屏蔽用WTA单元,其包括有三个nMOS晶体管(M1、M2、以及M3)、一个PWL R电阻器、一个电压缓冲器、MOS电容器M5、以及两个电流反射镜MI1与MI2。在编程阶段,一个输入电压被储存在MOS电容器M5处;M4将电压转换为用经由电流反射镜MI1所输入的电流。在操作中,电压输出通过一个单位增益(unity-gain)缓冲器来进行缓冲,并接着被连接至一个输出总线。输出电流被电流反射镜MI2所复制,并且被传送至一个电流输出总线。输出电流接着通过一个线性接地式电阻器PWL R而被换为电压。PWL R能够抵制对于电流方向改变(参见图9)以及知觉屏蔽曲线(参见图1)的敏感性,并且左侧电阻比上右侧电阻的比率可以大到100。这两个nMnos晶体管M1与M2用作为对于两个电流流动方向的被动电阻,其带有一个在M1与M2之间随著电压降(电阻会通过闸电压所调整)的标示来进行切换的比较器COMP。本发明的此一实施例经由在UMCTM0.5微米双极双金属CMOS程序中的保持电路(用于稳定性、信号增益、以及防止漏泄)而被实现。电压输出会产生频谱包络,而电流输出会产生频谱的共振峰。利用本发明的屏蔽用WTA电路,母音ai的共振峰能够在频谱图中清楚地看见,甚至是在输入信号中存在有噪声的情况下亦然。
在本发明屏蔽用WTA网络的较佳实施例之中,一种类比式平行处理系统被有利地使用来与ASR系统的其他部件相整合。举例来说,一种带通滤波器组能够被连接至其上游处,用以提供输入至屏蔽用WTA网络之中。
尽管以上内容是本发明特定实施例的完整描述,但不同的变化样式、替代结构、以及均等物均能够被加以使用。举例来说,虽然在此所显示的某些实施例是针对中文所建构的,但在本发明中所述的观念确能够适用于任何的语言。此外,无论是类比或是数位、数值或硬体处理器的任何施现技术均能够被有利地利用。因此,本发明于随附申请专利范围中所界定的范围并未受限于以上描述与举例说明的内容。
权利要求
1.一种知觉语音处理器,包括一个用于模拟噪声的屏蔽效应的噪音屏蔽罩,该噪音屏蔽罩包括屏蔽胜者全取电路,其包含有多对晶体管,每一对晶体管被连接至一个电流源,并且以并联方式被连接至总线;多个分段线性电阻器,每一个分段线性电阻器对应于多对晶体管中的一对晶体管,并且以串联方式被连接至该总线;以及多个二极管连接式晶体管,每一个二极管连接式晶体管被连接至该多对晶体管中相应的一对晶体管,并且被连接至该总线。
2.根据权利要求第1项所述的知觉语音处理器,其中,该多个分段线性电阻器会响应于电压降的符号的变化而改变电阻。
3.根据权利要求第1项所述的知觉语音处理器,其中,该多个分段线性电阻器具有范围介于50-100且从左至右的电流阻抗。
4.一种知觉语音处理器,包括一个用于在语音频域上将客观信号振幅转换为主观响度最小可听场的振幅重正规化器。
5.一种知觉语音处理器,包括有一个用于将信号的物理赫兹频率调整为同一信号的知觉美-标度频率的美-标度频率调整器。
6.一种知觉语音处理器,包括有噪音屏蔽罩,用于模拟噪音声的效应;振幅重正规化器,被连接至该噪音屏蔽罩,用于在语音频率域上将客观信号振幅转换为主观响度最小可听场;以及美-标度频率转换器,被连接至该振幅重正规化器,用于将一信号的物理赫兹频率调整为知觉美-标度频率,从而产生出一个知觉频谱。
7.一种用于辨识傅立叶频谱语音输入信号的方法,包括有以下步骤(a)删除被较大声附近成份所屏蔽的信号的频率成份;(b)根据最小幅度区(MAF)曲线来重正规化信号中每个频率成份的振幅;以及(c)通过重新取样来将该信号的每个频率成份转换为美-标度。
8.根据权利要求第7项所述的方法,其中,步骤(a)还包括有以下步骤经由电子方式来模拟屏蔽罩,以决定将被删除的受屏蔽频率。
9.根据权利要求第8项所述的方法,其中,该电子模拟利用一种具有多个分段线性电阻器的屏蔽式胜者全取电路来模型化不对称屏蔽。
10.根据权利要求第7项所述的方法,其中,步骤(b)尚包括有以下步骤根据所有等音量线来重正规化每个频率的振幅。
11.根据权利要求第7项所述的方法,其中,步骤(c)尚包括有利用以下方程式来计算美-标度的步骤美=2595×log(1+f/700)其中f为频率。
全文摘要
本发明是针对语音傅立叶频谱所应用的知觉处理技术的系统及方法,用以在一知觉语音处理器中体现人类听觉的知觉频谱,其中该知觉语音处理处理器包括有一个利用一屏蔽胜者全取电路的噪音屏蔽罩、一个用于将客观信号振幅转换为主观最小可听的响度的振幅重正规化器、以及一个用于将信号的物理赫兹频率调整为知觉美-标度频率的美-标度频率调整器。
文档编号G10L15/20GK1400585SQ01124049
公开日2003年3月5日 申请日期2001年8月8日 优先权日2001年8月8日
发明者卜令楷, 阙志达 申请人:韦尔博泰克公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1