声音识别系统的制作方法

文档序号:2837691阅读:277来源:国知局
专利名称:声音识别系统的制作方法
技术领域
本发明涉及一种声音识别系统,具体地说,涉及一种具有改善了声音部分检测精度的声音识别系统。
背景技术
当例如识别在其中存在噪声等的环境中发出的声音本身时,由于所述噪声等的干扰,声音的识别率将会失真。因此,用于声音识别的声音识别系统的基本出发点就是要正确地检测声音部分。
使用用于检测声音部分的剩余功率法或子空间法的声音识别系统是已知的。
图6示出了传统的使用剩余功率法的声音识别系统的结构。在这个声音识别系统中,使用Hidden Markov Model s(HMM海登.马尔可夫模型)准备位于字或子字(例如音素、音节)单元中的声模型(声音HMM),当发出需要识别的声音时,建立是所述输入信号频谱的时间序列的观测值序列,针对所述声音HMM检查所述观测值序列,选择具有最大可能性的声音HMM并将其作为识别结果输出。
具体地说,将被收集和存储在声音数据库中的大量声音数据Sm分配到每一延长为一个预定时间周期(近似10-20毫秒)的多个帧中,以帧为单位分配的该数据各个被依序进行倒频谱计算,借此以计算倒频谱时间序列。然后,经过训练处理将所述倒频谱时间序列处理成表示声音和所述声模型(声HNN)在参数方面反映的特征量,从而可以建立以字或子字为单位的声音HMM。
当声音被实际发出时,当声音以和上述类似方式以帧为单位的分配时,输入输入数据Sa。在以帧为单位的每段输入信号数据的基础上,使用剩余功率法构成的声音部分检测部件检测声音部分τ,切割被检测声音部分τ中的输入声音数据Svc,将所述输入声音数据Svc倒频谱时间序列的观测值序列与以字或子字为单位的声音HNN相比较,借此以实现声音识别。
所述声音部分检测部件包括一个LPC分析部件1、阈值建立部件2、比较部件3以及转换部件4和5。
LPC分析部件1对以帧为单位输入信号数据Sa执行线性预测编码(LPC)分析,借此计算预测剩余功率ε。转换部件4在例如由于发言者接通所述声音识别系统的一个发言开始开关(未示出)直到发言者实际开始发言为止的一个预定时间周期(无声周期)中将所述预测剩余功率ε提供给阈值建立部件2,但在所述无声周期结束之后,转换部件4将预测剩余功率ε提供给比较部件3。
阈值建立部件2计算在无声周期中建立的所述预测剩余功率ε的平均ε’,并将一个预先确定的预定值α加到它上面,借此计算阈值THD(=ε’+α),然后将所述阈值THD提供给比较部件3。
比较部件3将所述阈值THD与在所述无声周期结束之后经过所述转换部件4提供的所述预测剩余功率ε进行比较,当判断的结果是THD≤ε并因此表明它是一个声音部分时,转换部件5被接通(使所述转换部件5导通),而当判断的结果是THD>ε并因此表明它是一个无声部分时,转换部件5被关断(使转换部件5截止)。
转换部件5在比较部件3的控制下执行上述通/断操作。因此,在被确定为声音部分的时间周期内,需要被识别的输入声音数据以帧为单位从输入信号数据Sa中被切割,在所述输入声音数据Svc的基础上执行上述倒频谱计算,建立将被针对声音HMM进行检查的观测值序列。
在类似的方式下,在使用剩余功率法检测声音部分的传统声音识别系统中,在无声周期中建立的预测声音能量ε的平均ε’的基础上确定用于检测声音部分的阈值THD,并判断在所述无声周期之后输入的输入信号数据Sa的所述预测剩余功率ε是否是大于所述阈值THD的一个值,借此检测声音部分。
图7示出了一个使用子空间方法的声音部分检测部件的结构。这个声音部分检测部件将一个输入信号的特征矢量投影倒表示预先从大量声音数据中训练的声音特征的一个空间(子空间)上,并当投影量很大时识别声音部分。
换言之,经过预先收集的用于训练的声音数据Sm(训练数据)被以预定帧数为单位进行听觉分析,借此计算M-维特征矢量Xn=[Xn1Xn2Xn3...XnM]。变量M表示所述矢量的维数,变量n表示帧数(n≤N),和符号T表示转置。
根据这个M-维特征矢量Xn,存在由下述公式(1)表示的相关矩阵R。此外,提供了下述公式(2),借此获得本征值扩展的相关矩阵R,并计算M段本征值λs和本征矢量VK。R=1NΣn=1NxnxnT---(1)]]>(RλKI)VK=0(2)其中,K=1、2、3、…M;I表示一个单元矩阵;0表示一个零矢量。
接着,选择m段(m<M)具有较大本征值的本正矢量V1、V2、…Vm,并建立其中所选择的本征值是列向量的矩阵V=[V1、V2、…Vm]。换言之,由m段本正矢量V1、V2、…Vm所规定的空间被假设为最能够表示经过训练获得的一个声音特征的子空间。
然后利用下述公式(3)计算投影矩阵P。P=VVT=Σk=1mVKVKT---(3)]]>投影矩阵P在以这种方式预先建立的。当输入输入信号数据Sa时,与对训练数据Sm的处理方式类似,以预定帧数为单位对输入信号数据Sa进行听觉分析,借此计算所述输入信号数据Sa的特征矢量a。此后计算所述投影矩阵P和所述特征矢量a的乘积,从而计算由公式(4)表示的投影矢量Pa的平方模(square norm)||Pa||2。
||Pa||2=(Pa)TPa=aTpTpa=aTpa....(4)在这个公式中,使用了投影矩阵PTP=P的能量等式。
将预先确定的阈值θ与上述平方模相比较,当θ<||Pa||2时,判断的结果是这是一个声音部分,在这个声音部分内的输入信号数据Sa被切割并在被如此切割的声音数据Svc的基础上识别所述声音。
但是,当SN比值变低时使用剩余功率法的声音部分的上述传统检测存在一个问题,即噪声和原始声音之间预测剩余功率的差别变小,因此,检测声音部分的检测精度变低。具体地说,问题在于很难检测能量很小的清音的声音部分。
另外,在使用子空间法检测声音部分的上述传统方法表示在声音(发声的声音和清音的声音)频谱和噪声频谱之间的差异的同时,由于它不能彼此清楚地鉴别这些频谱,所以就存在一个问题,即不能改善检测声音部分的检测精度。
下面参照图8A到图8C详细描述在试图识别发自汽车内部声音的情况下利用子空间法存在的问题。所述问题如下。图8A示出了表示典型发声声音“a”、“i”、“u”、“e”和“o”的频谱的包络,图8B示出了表示多种典型清音类型的频谱的包络,和图8C示出了表示运行汽车噪声的频谱的包络,所述运行噪声被包围在其引擎排量彼此互不相同的多个汽车内部。
作为所示出的这些频谱包络,问题在于由于发声声音和运行汽车噪声的频谱彼此类似,所以,很难彼此鉴别所述发声声音和运行汽车噪声。
此外,由于元音声音和辅音声音等导致特征矢量的模变化,因此,即使当这些矢量与所述子空间相互匹配时,如果在它们被投影之前的矢量很小,那么,在它们被投影之后的矢量模就变得很小。特别是,由于辅音具有较小的特征矢量模,所以就存在一个问题,即,将所述辅音作为声音部分检测将会失败。
此外,在低频区域内表示发声声音的频谱很大,而在高频区域内表示清音的频谱很大。由于这个原因,其中全部训练发声声音和清音传统方法存在一个问题,即很难获得适当的子空间。

发明内容
本发明的一个目的是提供一种解决了上述使用传统技术的传统声音识别系统存在的问题并改善了检测声音精度的声音识别系统。
为了实现上述目的,本发明直接提供了一种包括用于检测作为声音识别目标的声音部分的声音部分检测部件的声音识别系统。
其特征在于所述声音部分检测部件包括一个训练矢量建立部件,用于预先将一个声音的特征建立为训练矢量;一个内部乘积值判断部件,用于计算包括声音的发出和所述训练矢量的输入信号的特征矢量的内部乘积,并判断所述内部乘积值等于或大于一个预定值的部分是一个声音部分;和在由所述内部乘积值判断部件判断的声音部分期间内的所述输入声音是声音识别的目标。
根据这个结构,计算包括实际发出声音的输入信号的清音和特征矢量的基础上预先准备的一个训练矢量的内部乘积,将所计算的内部乘积值大于一个预定阈值的点判断为清音。在上述判断结果的基础上建立所述输入信号的声音部分,借此适当发现需要被识别的声音。
此外,为了实现上述目的,本发明直接提供了一种声音识别系统,该系统包括一个声音部分检测部件,用于检测作为声音识别目标的声音部分,其特征是所述声音部分检测部件包括训练矢量建立部件,用于将一个声音的特征预先建立为训练矢量;阈值建立部件,用于在不发声周期内建立的输入信号的线性预测剩余功率的基础上从噪声中鉴别一个声音的阈值;内部乘积值判断部件,用于计算包括声音的发出与所述训练矢量的一个输入信号的特征矢量的内部乘积,并判断所述内部乘积值等于或大于一个预定值的点是一个声音部分;和线性预测剩余功率判断部件,用于判断包括所述声音的发出的所述输入信号的线性预测剩余功率大于由所述阈值建立部件建立的所述阈值的点是一个声音部分,和在由所述内部乘积值判断部件和所述线性预测剩余功率判断部件判断的所述声音周期内的输入信号是声音识别的目标。
根据这个结构,计算在清音基础上预先准备的训练矢量与包括声音实际发出的输入信号的特征矢量的内部乘积,所计算的内部乘积值大于所述预定阈值的点被判断为清音部分。另外,在无声周期中在预测剩余功率基础上计算的阈值与包括实际发出所述声音的输入信号的预测剩余功率进行比较,其中这个预测剩余功率大于所述阈值的点被判断为发声声音的部分。在上述判断结果的基础上建立所述输入信号的声音部分,借此正确地找到需要被识别的声音。
此外,为了实现上述目的,本发明的特征在于包括一个错误判断控制部件,用于计算在无声周期内建立的所述输入信号的特征矢量与所述训练矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时利用所述内部乘积值判断部件停止所述判断处理。
根据这个结构,计算一个训练矢量和在实际发出一个声音之前的无声周期、即只存在背景声音的周期中获得的特征矢量的内部乘积,当所述内部乘积值等于或大于所述预定值时停止所述内部乘积值判断部件的判断处理。这可以避免在高频范围内,在SN比值很高和背景声音的频谱也很高的背景中将背景声音作为辅音的错误检测。
此外,为了实现上述目的,本发明的特征在于包括一个计算部件,用于计算包括声音发出的输入信号的线性预测剩余功率;和一个错误判断控制部件,用于当由所述计算部件计算的线性预测剩余功率等于或小于一个预定值时停止由所述内部乘积值判断部件执行的判断处理。
根据这个结构,当在实际发出声音之前的一个无声周期、即只存在背景声音的周期中获得的预测剩余功率等于或小于所述预定值时,停止由所述线性预测剩余功率判断部件执行的判断处理。这可以避免在高频范围内在SN比值很高和背景声音的频谱也很高的背景中错误地将背景声音作为一个辅音检测。
此外,为了实现上述目的,本发明的特征在于包括一个计算部件,用于计算包括一个声音发出的所述输入信号的线性预测剩余功率;和一个错误判断控制部件,该部件在无声周期期间建立的所述输入信号的特征矢量和所述训练矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时或当在所述无声周期中建立的所述输入信号的线性预测剩余功率等于或小于一个预定值时停止所由所述内部乘积值判断部件执行的判断处理。
根据这个结构,当所述训练矢量和在实际发出声音之前的一个无声周期、即只存在背景声音的一个周期内获得的特征矢量的内部乘积等于或大于所述预定值或当在所述无声周期内建立的所述输入信号的预测剩余功率等于或小于所述预定值时,停止由所述内部乘积值判断部件执行的判断处理。这可以避免在高频范围内,在SN比值很高和所述背景声音的频谱也很高的背景中将背景声音作为辅音的错误检测。


图1的框图示出了根据第一实施例的声音识别系统的结构;图2的框图示出了根据第二实施例的声音识别系统的结构;图3的框图示出了根据第三实施例的声音识别系统的结构;图4的框图示出了根据第四实施例的声音识别系统的结构;图5的特征曲线示出了从表示清音数据的训练矢量中获得的一个频谱包络;图6的框图示出了使用传统剩余功率法的声音部分检测部件的结构;图7的框图示出了使用传统的子空间法的声音部分检测部件的结构;加图8A到图8C的每一个示出了声音和运行汽车噪声的频谱包络。
具体实施例方式
下面,结合附图描述本发明的最佳实施例。图1的框图示出了根据本发明声音识别系统第一最佳实施例的结构,图2的框图示出了根据第二最佳实施例的结构,图3的框图示出了根据第三最佳实施例的结构,图4的框图示出了根据第四最佳实施例的结构。
第一实施例该实施例通常直接指向一种借助于HMM方法识别一个声音并包括用于为声音识别目的而切割声音的一个部件的声音识别系统。
在图1中,第一最佳实施例的声音识别系统包括一个使用海登.马尔可夫模型以字或子字为单位建立的声模型(声HMM)10、一个识别部件11和一个倒频谱计算部件12。识别部件11针对声HMM10检查一个是由所述倒频谱计算部件12建立的输入声音倒频谱时间序列的观测值序列,选择提供具有最大可能的声音HMM,并将其作为识别结果输出。
换言之,帧部件7将已经收集和存储在声音数据库6中的声音数据Sm分配给预定的帧,倒频谱计算部件8然后计算现在以帧为单位的声音数据的倒频谱并借此获得倒频谱时间序列。然后,训练部件9将由训练处理的倒频谱时间序列处理为特征数量,借此预先建立以字或子字为单位的声音HMM10。
倒频谱计算部件12倒频谱计算将响应一个声音部分的检测而切割(它将在后面描述)的实际输入声音数据Svc的倒频谱,从而建立上述观测值序列。识别部件11以字或子字为单位针对声HMM10检查所述观测值序列,并椐此执行声音识别。
此外,所述声音识别系统包括一个声音部分检测部件,该部件检测实际发出声音(输入信号)Sa的声音部分并切割其上是声音识别目标的所述输入声音数据Svc。所述声音部分检测部件包括第一检测部件100、第二检测部件200、声音部分确定部件300和声音切割部件400。
第一检测部件100包括一个用于存储已经预先收集声音的清音部分的数据(清音数据)Sc的清音数据库13,和LPC倒频谱计算部件14以及训练矢量建立部件15。
LPC倒频谱计算部件14对存储在清音数据库13中的清音数据Sc以帧为单位进行LPC分析,借此计算倒频谱区域中的M-维特性矢量Cn=[C1、C2、…、CnM]T。
训练矢量建立部件15根据所述M-维特征矢量Cn计算由下述公式(5)表示的相关矩阵R并进一步本征扩展所述相关矩阵R,借此获得M段本征值λK和本征矢量VK以及与所述M段本征值λK当中的最大本征值对应的本征矢量被设置为训练矢量V。在公式(5)中,变量n表示帧数,符号T表示转。R=1NΣn=1NCnCnT---(5)]]>作为LPC倒频谱计算部件14和训练矢量建立部件15进行处理的结果,获得表示清音特征的训练矢量V。图5示出了根据所述训练矢量V获得的频谱包络。级别是用于LPC分析的级别(第3阶、第8阶、第16阶)。由于图5所示频谱的包络与图8B所示表示实际清音的频谱包络极为相似,因此,可以确认能够获得将表示一个清音特征的训练矢量V。
此外,第一检测部件100包括一个帧部件16,用于将输入信号的数据Sa以和上述类似的方式分配到帧中;一个LPC倒频谱计算部件17,用于通过对以帧为单位的输入信号数据Saf执行LPC分析计算倒频谱区域中的M-维特征矢量A和预测剩余功率ε;一个内部乘积计算部件18,用于计算所述训练矢量V和所述特征矢量A的内部乘积VTA;和一个第一阈值判断部件19,用于将所述内部乘积VTA与一个预定阈值θ进行比较,并且,如果θ≤VTA,则判断它是一个声音部分。因此,由所述第一阈值判断部件19产生的判断结果D1被提供给声音部分确定部件300。
所述内部乘积VTA是一个保持考虑到所述训练矢量V和所述特征矢量A的方向信息的标量、即是具有一个正值或负值的标量。当特征矢量A与特征矢量V的方向相同(0≤VTA)时,所述标量具有正值,但当所述特征矢量A与特征矢量V的方向相反(0>VTA)时,所述标量具有一个负值。由于这个原因,在这个实施例中,θ=0。
第二检测部件200包括一个阈值建立部件20和一个第二阈值判断部件21。
在一个预定时间周期(无声周期)中,由于发言者接通所述声音识别系统的一个发言开始开关(未示出),直到发言者实际发言为止,阈值建立部件20计算由所述LPC倒频谱计算部件17计算的预测剩余功率ε的平均ε’,然后将所述平均ε’加到一个预定阈值α上,借此获得阈值THD=(ε’+α)。
在所述无声周期过后,第二阈值判断部件21将由LPC倒频谱计算部件17计算的预测剩余功率ε与所述阈值THD进行比较。当THD≤ε时,第二阈值判断部件21判断它是一个声音部分并将这个判断结果D2提供给声音部分确定部件300。
声音部分确定部件300将从第一检测部件提供的判断结果D1的点和从第二检测部件200提供的所述判断结果D2的点确定为所述输入信号Sa的声音部分τ。简言之,声音部分确定部件300将满足θ≤VTA或THD≤ε条件的点确定为所述声音部分τ,改变处于无声部分到无声部分之间的短声音部分,改变处于声音部分到声音部分之间的短无声部分,和将这个判定D3提供给声音切割部件400。
在上述判定D3的基础上,声音切割部件400把将从输入信号数据Saf识别的输入声音数据Svc切割,该输入信号数据Saf是以帧为单位并由帧部件16提供的,并该声音切割部件将所述输入声音数据Svc提供给倒频谱计算部件12。
倒频谱计算部件12根据以帧为单位切割的输入声音数据Svc建立倒频谱区域中的观测值序列,识别部件11针对所述声音HMM10检查所述观测值序列,借此实现声音识别。
利用这种方式,在根据该实施例的声音识别系统中,所述第一检测部件100正确地检测清音的声音部分和第二检测部件200正确地检测发声声音的声音部分。
具体地说,第一检测部件100计算在用于训练的清音数据Sc基础上预先建立的一个清音的训练矢量和包括实际发出声音的输入信号数据Sa的特征矢量的内部乘积,判断所获得的内部乘积具有大于阈值θ=0的值(即正值)的点是输入信号数据Sa中的清音部分。第二检测部件200比较在无声周期的预测剩余功率基础上预先计算的阈值THD和包括实际发出所述声音的输入信号数据Sa的预测剩余功率ε,判断满足THD≤ε条件的点是输入信号数据Sa中的发声声音部分。
换言之,由第一检测部件100执行的处理使得可以高精度检测其能量相对较小的清音,和由第二检测部件200执行的处理使得可以高精度检测其能量相对较大的发声声音。
所述声音部分确定部件在由第一和第二检测部件100和200作出的判断结果D1和D2的基础上最终确定一个声音部分(是发声声音或清音的一部分),和将被识别的输入声音数据Svc根据这个判定D3进行切割。因此,可以增强声音识别的精度。
在根据图1所述实施例的结构中,在由第一阈值判断部件19作出的判断结果D1和由第二阈值判断部件21作出的判断结果D2的基础上,声音部分确定部件300输出指出声音部分的判定D3。
但是,本发明并不局限于此。在包括其中内部乘积部件18和阈值判断部件19判断一个声音部分的第一检测部件100的同时,所述结构可以省略第二检测部件200,从而所述声音部分确定部件300在所述判断结果D1的基础上输出指出声音部分的判定D3。
第二实施例下面,结合图2描述根据第二最佳实施例的声音识别系统。在图2中,与图1所示相同或相对应的部分以相同的标号表示。
图2所示与第一最佳实施例的区别在于根据第二最佳实施例的声识别系统包括一个错误判断控制部件500,该部件500包括一个内部乘积计算部件22和第三阈值判断部件23。
在由于发言者接通所述声音识别系统的发言开始开关(未示出)直到发言者实际开始发言为止的一个无声周期期间内,所述内部乘积计算部件22计算由LPC倒频谱计算部件17计算的所述特征矢量A和由训练矢量建立部件15预先计算的清音的所述训练矢量V的内部乘积。即,在实际发声之前的所述无声周期期间内,内部乘积计算部件22计算训练矢量V和特征矢量A的内部乘积VTA。
第三阈值判断部件23将一个预先确定的阈值θ’(=0)与由所述内部乘积计算部件22计算的所述内部乘积VTA进行比较,和当即便仅仅是一帧满足θ’<VTA时,向内部乘积计算部件18提供一个用于停止内部乘积计算的控制信号CNT。换言之,如果在所述无声周期期间计算的训练矢量V和特征矢量A的内部乘积VTA是一个大于所述阈值θ’的较大值(正值),那么,即使当在所述无声周期之后一个发言者实际发出声音时,第三阈值判断部件23也禁止内部乘积计算部件18执行计算内部乘积的处理。
当内部乘积计算部件18响应所述控制信号CNT而停止计算所述内部乘积的处理时,第一阈值判断部件19也基本上停止检测声音部分的处理,因此,判断结果D1不被提供给声音部分确定部件300。即,声音部分确定部件300在从第二检测部件200提供的判断结果D2的基础上最终判断一个声音部分。
具有这种结构的实施例具有如下效果。在表示清音的频谱在高频区变高和表示背景噪声的频谱在低频区变高的前提下,第一检测部件100检测一个声音部分。因此,即使是在不使用上述错误判断控制部件500而仅由第一检测部件100单独执行计算内部乘积的处理的场合,例如如在汽车内的SN比值较低和运行汽车噪声占主导地位的背景中,也能够改善检测精度。
但是,在一个SN比值很高和表示背景噪声的频谱因此在高频区域中很高的背景中,利用仅仅由所述内部乘积计算部件18执行的处理,就存在一个问题,即,将噪声部分错误地判断为声音部分的可能性很高。
相反,在错误判断控制部件500中,内部乘积计算部件22计算清音的训练矢量V和仅在实际发声之前的无声周期、即仅仅存在背景噪声的周期内获得的特征矢量A的内部乘积VTA,第三阈值判断部件23检查如果保持θ′<VTA关系并椐此判断表示背景噪声的频谱是否在高频区域中是高的。当它判断表示背景噪声的频谱在所述高频区域中是高时,停止由第一内部乘积计算部件18执行的处理。
因此,使用错误判断控制部件500的这个实施例建立了一种效果,即在其中所述SN比值很高和表示背景噪声的频谱因此在高频区域中是高的背景中,可以避免导致与辅音相关的检测误差(错误检测)。这使得可以以改善声音识别速率的方式检测声音部分。
根据在图2所示实施例的结构中,声音部分确定部件300在由阈值判断部件19作出的判断结果D1和由阈值判断部件21作出的判断结果D2的基础上输出指出一个声音部分的判定D3。
但是,本发明并不局限于此。可以省略第二检测部件200,这样,声音部分确定部件300在由第一检测部件100和错误判断控制部件500作出的判断结果D1的基础上输出指出一个声音部分的判定D3。
第三实施例下面结合图3描述根据本发明第三最佳实施例的声音识别系统。在图3中,与图2所示相同或相对应的部分使用相同的标号。
图3所示实施例和图2所示第二实施例的区别在于如图2所示,在根据第二最佳实施例的声音识别系统中,计算训练矢量V和在实际发出声音之前的无声周期内由LPC倒频谱计算部件17计算的特征矢量A的内部乘积VTA,当所计算的内部乘积值满足ε’<VTA时停止内部乘积计算部件18的处理,借此避免声音部分的错误判断。
相反,如图3所示,所述第三实施例提供了一种结构,在这种结构中,提供了一个错误判断控制部件600和所述错误判断控制部件600中的第三阈值判断部件24在由LPC倒频谱计算部件17在实际发声之前的一个无声周期中计算的预测剩余功率ε的基础上执行一个用于避免声音部分错误判断的判断处理,并且在所述控制信号CNT的基础上控制所述内部乘积计算部件18。
即,当由于所述发言者接通一个发言开始开关(未示出)而使所述LPC倒频谱计算部件17直到该发言者实际发言为止的一个无声周期中计算背景声音的预测剩余功率ε时,所述第三阈值判断部件24计算所述预测剩余功率ε的平均ε’,将所述平均ε’与一个预先确定的阈值THD’进行比较,如果ε’<THD’,则向内部乘积计算部件18提供用于停止所述内部乘积计算的控制信号CNT。换言之,当ε’<THD’时,即使是在所述无声周期过去之后发言者实际发出声音的情况下,第三阈值判断部件24也禁止内部乘积计算部件18执行计算内部乘积的处理。
在相对安静环境下获得的预测剩余功率ε0被用做基准(0dB),高于它的0dB到50dB的值被设置为上述的阈值THD’。
使用这种结构的第三最佳实施例与和上述第二最佳实施例的情况相同允许即使是在SN比值很高和表示背景噪声的频谱也因此在一个高频区域中是高的背景中保持声音检测的检测精度,因此,可以以改善声音识别速度的方式检测声音部分。
在图3所示实施例的结构中,声音部分确定部件300在由阈值判断部件19作出的判断结果D1和由阈值判断部件21作出的判断结果D2的基础上输出指出声音部分的判定D3。
但是,本发明并不仅仅局限于此。所述第二检测部件200可以省略,由此,所述声音部分确定部件300在由第一检测部件100和错误判断控制部件600作出的判断结果D1的基础上输出指出一个声音部分的判定D3。
第四实施例下面结合图4描述本发明第四最佳实施例的声音识别系统。在图4中,与图2所示相同或相对应的部分使用相同的标号。
图4所示的实施例使用错误判断控制部件700,该部件700的功能与和第二最佳实施例(图2)相关描述的错误判断控制部件500以及和第三最佳实施例(图3)相关描述的错误判断控制部件600的功能相同,并且错误判断控制部件700包括内部乘积计算部件25、阈值判断部件26和28以及转换判断部件27。
在由于所述发言者接通所述声音识别系统的一个发言开始开关(未示出)直到所述发言者实际发言为止的一个无声周期中,内部乘积计算部件25计算由LPC倒频谱计算部件17计算的特征矢量A和由所述训练矢量建立部件15预先计算的清音的训练矢量V的内部乘积VTA。
阈值判断部件26将一个预先确定的阈值θ’(=0)与由所述内部乘积计算部件25计算的所述内部乘积VTA进行比较,当即便仅一帧满足θ’<VTA时,建立一个用于停止内部乘积计算的控制信号CNT1,并将所述控制信号CNT1输出给内部乘积计算部件18。
在由于一个发言者接通所述声音识别系统的一个发言开始开关(未示出)而直到所述发言者实际发言为止的一个无声周期中,当LPC倒频谱计算部件17计算背景声音的预测剩余功率ε时,阈值判断部件28计算所述预测剩余功率ε的平均ε’,比较所述平均ε’和预先确定的阈值THD’,当ε’<THD’时,建立用于停止计算内部乘积的控制信号CNT2,并将该控制信号CNT2输出给内部乘积计算部件18。
在从阈值判断部件26或27接收上述控制信号CNT1或控制信号CNT2的基础上,转换判断部件27向第一内部乘积计算部件18提供作为控制信号CNT的控制信号CNT1或CNT2,借此停止计算所述内部乘积的处理。
因此,当在所述无声周期中计算的所述训练矢量V和特征矢量A的内部乘积VTA即使是一帧满足θ’<VTA时,或者当在所述无声周期中计算的预测剩余功率ε的平均ε’保持ε’<THD’的关系时,即使是在所述无声周期过去之后一个发言者实际发出声音,所述内部乘积计算部件18也将禁止计算内部乘积的处理。
在相对安静环境下获得的预测剩余功率ε0被用做基准(0dB),高于它的从0dB到50dB的值被设置为上述阈值THD’。所述阈值θ’被设置为θ’=0。
第四最佳实施例提供了这样一种结构,即,如在上述第二和第三最佳实施例的情况下,即使是在其中SN比值很高和因此表示背景噪声的频谱也在高频区域是高的背景中,该结构也允许保持高精度检测声音部分,并因此以改善声音识别速率的方式检测一个声音部分。
在根据图4所示这个实施例的结构中,声音部分确定部件300在由阈值判断部件19作出的判断结果D1和由阈值判断部件21作出的判断结果D2的基础上输出指出一个声音部分的判定D3。
但是,本发明并不仅仅局限于此。第二检测部件200可以被省略,这样,所述声音部分确定部件300在由第一检测部件100和错误判断控制部件700作出的判断结果D1的基础上输出指出一个声音部分的判定D3。
上述第一到第四最佳实施例的声音识别系统,如图1所示元件8到12,使用一种方法,在该方法中,以用于识别声音的马尔可夫模型的形式描述声音的特征(即HMM方法)。
但是,根据各最佳实施例由元件100、200、300、400、500、600和700形成的声音切割部件、即用于以帧为单位从输入信号数据Saf切割作为一个目标的输入声音数据Svc的部件不仅适用于HMM方法,也适用于用于声音识别的其他处理方法。例如,可以被应用于使用动态编程(DP)方法的DP匹配方法。
如上所述,利用根据本发明的声音识别系统,一个声音部分被确定为一个点,在该点处,在清音基础上预先建立的训练矢量和表示包括实际发声的一个输入信号的特征矢量的内部乘积值具有等于或大于一个预定阈值的值,或一个点,在该点处,包括实际发声的一个输入信号的预测剩余功率与在无声周期的预测剩余功率基础上计算的一个阈值进行比较并找出大于该阈值的输入信号的预测剩余功率。因此,它可以适当鉴别发声声音和清音,而这就是声音识别的目标。
此外,当在无声周期中建立的背景声音的特征矢量与训练矢量的内部乘积值等于或大于一个预定值时,或者当在无声周期中建立的所述信号的线性预测剩余功率等于或小于一个预定阈值时,或者当这两种情况都发生时,不进行在输入信号特征矢量的内部乘积值基础上的声音部分检测。代替的是将其中包括实际发声的所述输入信号的预测剩余功率等于或大于一个预定阈值的点用做一个声音部分。因此,可以改善在其中SN比值很高和因此表示背景噪声的频谱也在高频区域中是高的背景中检测声音部分的检测精度。
权利要求
1.一种声音识别系统,包括一个声音部分检测部件,包括训练矢量建立部件,用于预先将一个声音的特征建立为训练矢量;和内部乘积值判断部件,用于计算所述训练矢量与包括发声的输入信号特征矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时判断将是声音部分的输入信号;其中,在所述声音部分期间的输入信号是声音识别的一个目标。
2.一种声音识别系统,包括训练矢量建立部件,用于将一个声音的特征预先建立为训练矢量;阈值建立部件,用于在无声周期中建立的输入信号的线性预测剩余功率的基础上从噪声中鉴别一个声音的阈值;内部乘积值判断部件,用于计算所述训练矢量与包括发声的输入声音的特征矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时判断所述声音是第一声音部分;和线性预测剩余功率判断部件,用于当所述输入信号的线性预测剩余功率大于由所述阈值建立部件建立的所述阈值时判断所述输入信号是第二声音部分,其中,在所述第一声音部分和所述第二声音部分期间的输入信号是声音识别的目标。
3.根据权利要求2所述的声音识别系统,还包括一个错误判断控制部件,用于计算所述训练矢量与一个在无声周期中建立的输入信号的特征矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时停止所述内部乘积值判断部件的判断处理。
4.根据权利要求2所述的声音识别系统,还包括计算部件,用于计算在无声周期中建立的所述输入信号的线性预测剩余功率;和错误判断控制部件,用于当由所述计算部件计算的线性预测剩余功率等于或小于一个预定值时停止由所述内部乘积值判断部件执行的判断处理。
5.根据权利要求2所述的声音识别系统,还包括计算部件,用于计算在无声周期中建立的所述输入信号的线性预测剩余功率;和错误判断控制部件,用于计算所述训练矢量与在所述无声周期中建立的所述输入信号的一个特征矢量的内部乘积,并当所述内部乘积值等于或大于一个预定值时或当在所述无声周期中建立的所述输入信号的线性预测剩余功率等于或小于一个预定值时停止所述内部乘积值判断部件的判断处理。
全文摘要
训练矢量建立部件15将清音的一个特征预先建立为训练矢量V。同时,在无声周期期间建立的一个声音的预测剩余功率ε的基础上建立用于从背景声音中鉴别一个声音的阈值THD。当实际发出声音时,内部乘积计算部件18计算输入信号Sa的特征矢量A与训练矢量V的内部乘积,当所述内部乘积的值等于或大于一个预定之θ时,第一阈值判断部件19判断是一个声音部分,当所述输入信号Sa的预测剩余功率ε大于阈值THD时,第二阈值判断部件21判断是一个声音部分。当所述第一阈值判断部件19和所述第二阈值判断部件21中的至少一个判断它是一个声音部分时,声音部分确定部件300最终判断它是一个声音部分,并将以帧为单位且和这个声音部分对应的输入声音Saf切割成将被识别的声音Svc。
文档编号G10L15/02GK1343966SQ0113287
公开日2002年4月10日 申请日期2001年9月12日 优先权日2000年9月12日
发明者小林载, 驹村光弥, 外山聪一 申请人:日本先锋公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1