识别系统的制作方法

文档序号：2820732阅读：252来源：国知局

专利名称：识别系统的制作方法
技术领域：
本发明涉及一种识别系统和识别方法，这种识别系统通过使数据矢量与预定模型相关联来进行数据的识别，而这种识别方法包括使这些矢量与模型相关，本发明尤其涉及出现失真之后执行识别过程的语音和图案识别。
语音识别系统是一种识别系统的范例，这种识别系统中，数据或者关注信号在被识别之前具有某种形式的失真。特别是在电话应用中，语音识别系统的性能经常被因电话听筒位置而导致的语音信号变化大大降低，或者被电话听筒、电话线和交换机的特性大大降低。一个特别的问题与由听筒位置引起的语音位准(speech level)变化有关。对该问题所进行的更复杂的检查表明频率平衡(frequencybalance)的变化也很明显。对于平均信号电平变化的补偿常通过利用某种形式的自动增益控制(AGC)来进行。令人遗憾的是，可能很难提供有效的AGC；例如，在两线制电话系统结构中，在参与电话交谈的人的语音强度位准(intensity level)之间常常存在基本差异。在四线制电路结构中可能会有很难处理的显著的反信道回音(reversechannel echo)。这是由交谈一方的语音与交谈另一方的语音相干扰(contamination)所引起的。
一种处理失真问题的方法是利用借助许多种听筒和讲话人位置所采集的训练数据(training data)，训练一语音识别系统。该方法存在两个问题。首先，在全球电话网络中，有非常多可能的麦克风种类和讲话人位置；结果使所需的训练数据量过大而不实用，并且系统无法根据未知的麦克风优化其性能。其次，在识别的过程中，只能有效地利用很少部分的训练数据。
一种用来改善识别性能的方法是应用某种形式的补偿以处理失真。在用有时称为“滤波器组分析(filterbank analysis)”的方法过程中，目前的语音识别系统将输入信号从时域波形转换成频域内的连续矢量。可以对这些矢量进行某种形式的补偿。有许多方法可以用来确定适当的补偿。一种这样的方法披露于Sadaoki Furui所著的“Cepstral Analysis Technique for Automatic Speaker Verification”，IEEE Trans Acoustics，Speech and signal processing，29(2)254-272，April 1981中。它包括对整个交谈的滤波器组分析器(analyser)输出求均值，以得到该信号的长期频谱特性；在第二次经过该数据期间对失真进行补偿。然后，把所补偿的数据传送给语音识别装置。就该方法来说，有两个问题。首先，由于对整个交谈进行单一校正，所以它很不适于失真快速变化的交谈。这可能发生于来自蜂窝电话、无绳电话或者无线电话的交谈中。第二，由于必需在识别开始之前处理整个交谈以得到适当校正，所以它不适于实时应用。
更可取的方法是采用有时称作频谱形状适应(spectral shapeadaptation)(SSA)的技术。采用这种技术的识别系统提供关于将在每个即时时间受到识别的信号预期频谱特性信息，将其与实际出现在该信号中的等同信息相比较以提供差分项(difference term)。然后就许多连续信号对该差分项求均值(按时间求均值)以提供一校正项(correction term)。这种系统已由Yunxin Zhao在“IterativeSelf-Learning Speaker and Channel Adaptation under Various InitialConditions”，Proc IEEE ICASSP[11]pp712-715中进行了描述。这里，在逐句的基础上处理数据。一输入信号受到滤波器组分析，从而创建连续的矢量，每个矢量表示许多频段范围内信号能量的变化。通过匹配语音模型状态(model state)来处理这些矢量。已匹配有一个矢量的模型其状态参数用来预测根据模型预期的矢量的值。用从语句中对早期矢量得到的差值计算矢量与预测值之间的差并且按时间求均值，以确定每个语句受到的平均失真。然后，把对一个语句所确定的SSA参数用来处理下一语句。
遗憾的是，由于以下原因，Zhao的方法无法在更复杂的语音识别系统中工作。这些系统中，把从滤波器组分析中得到的(在频率空间内表示的)数据矢量从频域变换成某种抽象的特征空间。当正确地应用了这种变换时，它改进了识别精度，原因在于它减少了信息形式语音信号的多余量，同时保存了所说单词特性这样的特征，其中所说的信息是讲话人的特征。在与矢量所变换到的空间相同的特征空间内表示模型状态。通常，舍去从频率空间向特征空间变换中的高阶项，以改进如上所述的识别精度，这意味着减少了维数；即，特征空间矢量的维数或者矢量元素比频率空间矢量少。也就是说，在从频率空间向特征空间的变换中，损失了信息，因此不再可能用模型参数来提供对频率空间内预期值的唯一估计值(unique estimate)，原因在于它们所含关于此用途的信息不够。这意味着频域中的补偿无法如上述Zhao的参考资料中所述的那样实现。
本发明的目的在于提供一种具有失真补偿的识别系统。
本发明提供一种用来使多维数据矢量与较少维数预定模型相关联的识别系统，该系统包括a)补偿装置，用来补偿数据矢量中的失真，b)变换装置，用来在失真补偿之后对数据矢量进行变换，用以将它们的维数降低到模型的维数，c)匹配装置，用来使每个变换数据矢量与一适当模型相关联，d)逆变换装置，用来通过对所述变换进行逆变换而从相关模型中得到一数据矢量估计值，和e)推导装置，用来从数据矢量估计值和其对应的数据矢量中得出补偿量，以用于补偿装置所进行的失真补偿中。
本发明的优点在于，尽管维数减少了，但是它在模型匹配的基础上提供失真补偿。根据本发明发现，尽管在匹配之前有信息丢失，但是它可以提供数据矢量估计值用于补偿。
在一优选实施例中，逆变换装置设置成能够实现所述变换的伪逆，并且能够通过包含一种方式下的信息而将模型维数增加到数据矢量维数，所述方式是，变换装置根据数据矢量估计值进行工作以降低其会导致这种信息丢失的维数。该实施例具有比较易于估计的优点，即，发现当信息为此以一种方式包含在内时，伪逆模型变换进行可以接受的估计，其中所述的方式是，在变换装置接下来的操作中删除此信息。
变换装置可以设置成能够把函数A()所代表的变换应用于数据矢量，逆变换装置可以设置成能够实现函数A-()所代表的伪逆模型变换，函数A()和A-()满足以下关系A(A-(A(q)))＝A(q)，其中q是某个任意矢量。
推导装置可以设置成能够从数据矢量估计值和数据矢量以及类似种类的在前估计值和矢量中得到一个补偿量。它可以包括一个无限冲激响应滤波器，该滤波器以指数时间窗口进行低通滤波。
在一优选实施例中，设置本发明的系统用于语音识别，每个数据矢量具有代表各个频率间隔中语音信号能量的元素。推导装置可以设置成能够产生用于失真补偿的补偿矢量，补偿装置可以设置成能够将数据矢量元素的对数加到各个补偿矢量元素的对数上。变换装置优选设置成能够将矩阵变换和匹配装置用来执行隐含Markov模型匹配；逆变换装置可以设置成能够从与变换数据矢量相关且有高斯分布的模型状态中产生数据矢量估计值。匹配装置可以采用高斯分布混合形式的模型状态，而逆变换装置可以设置成能够从其中产生数据矢量估计值。
另一方面，补偿装置可以进行矩阵乘法运算以补偿频率空间中的移动。推导装置可以是一Kalman滤波器。
匹配装置可以设置成能够进行分段隐含Markov模型匹配。
数据矢量可以至少部分包括从讲话人嘴中得到的图像信息，补偿装置可以对阐述程度(illumination level)、方向和图像的几何失真中的至少一个进行补偿。
变换装置优选设置成能够应用一余弦变换，其中舍去某些系数以降低数据矢量维数。
本发明用于存在失真时语音识别的系统优选包括逆变换装置和推导装置，这些装置设置成能够对以下部分中的至少一个提供补偿a)变化的语音信号电平，b)麦克风位置的变化，c)麦克风类型的变化，d)语音信号线特性的变化，e)背景杂音水平，f)频移，g)讲话人阐述音量，h)阐述方向，i)讲话人特征的几何失真。
另一方面，本发明可以对信号的失真而不是语音的失真提供补偿。它可以对一识别系统中的阐述程度和视角提供补偿，在该识别系统中，信息组成从一电视摄像机指在例如人脸上的一部分部分或者全部图像信息。
推导装置可以采用一个无限冲激响应滤波器或者一Kalman滤波器，用来结合来自多个数据矢量估计值的量，从而得到对数据矢量中失真的补偿。
在本发明的一个优选实施例中，匹配装置设置成能够指出多个模型状态和模型类别中哪一个与每个变换数据矢量相关联，推导装置设置成能够得到每个数据矢量的各自补偿量，而补偿装置设置成能够根据匹配装置所指出的模型类别有选择地应用补偿。匹配装置可以设置成能够进行部分追溯，并且能够指出可能在某个晚些时间受到校正的匹配模型状态；匹配装置与逆变换装置和推导装置相结合，就可以对在这些匹配基础上产生的补偿提供校正。
另一方面，本发明提供一种使预定多维模型与比模型维数更高的数据矢量相关联的方法，该方法包括以下步骤a)补偿数据矢量中的失真，b)在失真补偿之后对数据矢量进行变换，用以将它们的维数减少到模型的维数，c)使每个变换数据矢量与各个模型相关联，d)对所述变换进行逆变换，从而从相关的模型中得到一个数据矢量估计值，以及e)从该数据矢量估计值及其对应的矢量中得到一个补偿量，并且用该补偿量对失真补偿数据矢量。
优选借助所述变换的伪逆实现步骤(d)中的逆变换，该逆变换通过包含一种方式下的信息使模型维数增加到一数据矢量的维数，所述方式是，对该数据矢量估计值进行变换以降低导致这种信息丢失的维数。
在其中变换装置和逆变换装置并不必要的另一方面中，本发明提供一种用来使数据矢量与预定模型相关联的识别系统，该系统包括a)补偿装置，用来补偿对应于多种不同类型数据的数据矢量中的失真，该补偿装置设置成能够对每个数据矢量进行与各个数据类型相关的补偿，以产生多个补偿矢量，b)匹配装置，设置成能够使补偿数据矢量与模型相关联，并且能够为每个数据矢量指示出一个适当的模型和对应于各个数据类型的模型类另，和
c)推导装置，用来从匹配装置所指示出的模型和与其相关联的数据矢量中得到一个补偿量，该补偿量被补偿装置用来对与模型类别相关的各个数据类型进行失真补偿。
为了可以更完整地理解本发明，现在参照附图仅借助实例来描述其实施例，在这些附图中

图1是本发明一识别系统的方框图，其形式是一语音识别系统；图2以图线的形式示出用于图1系统内语音识别中的语音模型状态；图3和4以图线的形式示出两个不同麦克风的频谱形状适应过程；图5以图线的形式示出涉及两个讲话人时语音识别中语音模型状态的应用；图6是本发明另一语音识别系统的方框图，设置它用来补偿模型与讲话人之间的频率差。
参见图1，语音识别系统形式的本发明实施例一般由10表示。系统10包括接至模/数(A/D)转换器14的电话12，模/数转换器14本身接至滤波器组分析器16。分析器16利用20mS Hamming窗口执行四百点离散傅里叶变换(DFT)，用以处理非无穷(non-infinite)信号采样的一般问题。它把如此得到的傅里叶分量组合为二十六个子集(subset)，在此范围内得到二十六个频率间隔中每一个的均值，或者在近似一唛刻度上分配(bins)，并且产生对数幅值。因此，它模拟了具有二十六个频道(channel)中对数输出的一组带通滤波器。来自分析器16的输出既传至提供频谱形状适应(SSA)的补偿单元18，又传至缓冲存储器20。SSA补偿单元18是数字加法器。它接至变换装置22，从变换装置22出来的输出传至模型匹配计算机24，模型匹配计算机24在26提供系统输出。
计算机24还接至匹配逆变换器或者“取消(undo)装置”28，取消装置28向差分计算器30提供输入，该计算器接收来自缓冲存储器20的第二输入，缓冲存储器20本身通过线32接收来自匹配装置24的时序信息。从差分计算器30出来的输出通过线34作为去复用器36的第一输入，去复用器36通过线38从匹配装置24接收模型类别的第二输入。去复用器36的两个输出40和42接至一组无限冲激响应(IIR)滤波器44的非语音和语音部分44a和44b。每个部分是二十六个IIR滤波器阵列。线46将滤波器语音部分44b接至SSA参数存储器48，参数存储器48接着接至SSA补偿单元18。
识另系统10如下工作。通过(A/D)转换器14把来自电话12的模拟语音信号变换成数字信号，(A/D)转换器14对该信号采样并且提供速率为20KHz的数字输出信号。滤波器组分析器16利用这些数字信号计算连续的四百点离散傅里叶变换(DFT)。然后，把每个变换的DFT所输出的二百点“分配”或者分离成各个分组，相加，取其对数以在二十六个频率间隔的对数刻度上提供平均能量。分析器16是一组二十六个模拟带通滤波器的数字等效物。从分析器16出来的每个输出变换量是具有二十六个分量的矢量，每个分量代表各自频率间隔中能量的对数，各自频率间隔是通过在相关傅里叶变换系数范围内求均值得到的。
从分析器16中每隔10mS连续输出各个矢量，每个矢量代表前20mS内语音信号中能量的均值。在时间ti时从分析器输出的ith矢量定义为Oi。将其存入缓冲存储器20，缓冲存储器20存储500个最近得到的矢量，每个矢量位于与其产生(production)时间ti相对应的各个地址。
还把每个矢量Oi传至补偿单元18，补偿单元18用存储于SSA参数存储器48中的一组二十六个参数pj(j=0到25)进行变换。以下将解释这些参数的产生。单元18把存储器48的内容加到矢量Oi上。该变换与该矢量频谱形状的适应相对应以补偿失真。该变换向平均信号电平的变化和由信道或者麦克风特性所引起的线性失真提供补偿。
在单元18中进行补偿之后，把每个矢量(现在称为Oicorr)传至变换装置22，变换装置22将其从频域或者频率空间变换成特征空间中的矢量Yi，特征空间具有更少的维数。装置22为每个得到补偿的矢量产生余弦变换量，并且切去其顶部(truncate it)，以便只保留该变换的前十二项。在本领域中众所周知，将余弦变换用作改进识别精度的一种手段，这是通过减少数据中多余的相互关系来实现的。切去余弦变换量的顶部也是不依赖讲话人系统(speaker independentsystem)设计领域中公知的，原因在于它去除了多余的依赖讲话人(speaker-dependent)的不精确之处。将该变换作为矩阵乘法进行，其中变换矩阵的系数由所需余弦变换的特性所确定。它把矢量的维数从二十六减小到十二。
本例中，由单元22执行的余弦变换包括计算特征矢量的分量。下式(1.a，b)表示对矩阵运算求值y0=126Σm=025omcorr---(1.a)]]>yk=113Σm=025omcorrcos((2m+1)kπ/52)k=1,...11---(1.b)]]>其中，yk是矢量Yi的kth分量，Omcorr是得到补偿的矢量Oicorr的mth分量；对于滤波器组输出的二十六个频道来说，m的值为0到25；而对于余弦变换的前十二项来说，k的值为0到11。
把受到变换、补偿的矢量Yi传至模型匹配计算机24。该计算机执行将参照图2描述的过程，图2表示出更简单的二维特征空间(对照本例中的十二维)。模型匹配计算机24进行本领域公知类型的传统隐含Markov模型匹配算法。见例如关于语音识别的标准课本“Speech Synthesis and Recognition”，J N holmes，Van NostrandReinhold(UK)1988，尤其是Chapter7和Chapter8。计算机24应用了电话语音的传统隐含Markov模型。每个模型对应于一个单词或者一个单词的一部分(子单词)；每个模型具有很多状态并且对应于一个声音序列。例如，在数单词0～9的数单词识别器中，可以采用每个模型十个状态。一个状态由单一分量高斯概率分布表示，该分布具有特征空间的维数；即，该分布的形式为Csexp(-((x0-μs，0)/2σs，0)2-((x1-μs，1)/2σs，1)2Λ((xn-μs，11)/2σs，11)2) (2)其中，CS是模型状态常数，μs，k和σS，k(k＝0..11)是12维特征空间中模型状态S的概率分布均差与标准差的12个分量，xk是定义12维特征矢量空间的变量。
已有技术匹配过程包括在考虑早期矢量/模型匹配的结果情况下，使矢量与模型相匹配，从而在一系列输入范围内把识别正确性的概率扩大到最大。这是通过动态程序设计来实现的。
图2是具有三个模型状态S1、S2和S3的模型图，椭圆代表概率分布轮廓线。图中还示出受到变换、校正的特征矢量Yi的二维等效图。计算机24用一模型匹配算法判定哪个模型状态最适于匹配给矢量Yi。矢量与模型状态之间的匹配概率由模型状态在一位置处的概率分布大小表示，该位置是矢量受到早期匹配历史所加约束的位置。在图2所示简化的二维情况下，概率条件可以表示如下情况矢量Yi应当匹配给模型状态S1。除非偶然有完全相同的匹配，否则根据可能匹配的模型状态S1所预期的这样一个矢量值不会等于Yi。该预期或者估算的值由S1的概率分布均值得到，并且由某个特征矢量μs1表示。在26输出模型状态均值，把该模型状态均值传至匹配逆变换器28，匹配逆变换器28进行这里称为“取消”操作的操作过程。
取消操作的目的在于，对照与Yi的不正确关联，使确定μs1正确对应的频率空间中一矢量成为可能，以便如以后所描述的那样，将该矢量用于在SSA补偿单元18中生成应用的频谱形状适应参数。
取消操作包括一个计算操作，该计算在数学上等同于装置22中所执行的从频率空间(Oi)到特征空间(Yi)的伪逆变换；即，它是从特征空间(Yi)到频率空间(Oi)的变换。若从频率空间到特征空间的变换由某个矩阵A表示，则该伪逆变换为满足以下关系的任意A-AA-A＝A (3)若A是一方阵且是一非奇异矩阵，则只有一个矩阵A-是A的常规逆矩阵。在本发明所建议的这种识别系统中，特征空间的维数少于频率空间，原因在于需要如前所述处理多余的量(contribution)。结果舍去了某些信息，矩阵A为矩形。矩形矩阵没有唯一的逆矩阵，因此不可能得到矩阵A的唯一逆矩阵。
不过，根据本发明，已有惊人的发现，即，在没有令人难以接受的副作用影响识别过程的情况下，可以和益于采用矩阵A的任意伪逆矩阵A-。
本实施例中，矩阵A是12×26元素矩阵，矩阵A-是26×12元素矩阵。计算矩阵A的系数以得到受到切去顶部的余弦变换。可以通过把26元素余弦变换的真逆矩阵看作26×26矩阵并且舍去列元素以得到26×12元素矩阵来计算合适的伪逆矩阵A-。若采用除简单的余弦变换之外的其他变换，则可以通过标准的数值方法得到伪逆矩阵。
若Y是特征空间中的某个点(等同于μs1)，而是频率空间中相应的点，其中在乘以矩阵A时变换为Y，则可以用A-取消该变换以得到＝A-Y (4)由于在从频率空间向特征空间变换中丢失有信息，所以有无穷个矩阵A-和相应的值。但是，所有这些矩阵必须满足下式A＝AA-Y＝AA-AO＝AO＝Y (5)公式(5)表明当乘以矩阵A时，为了用匹配计算机24识别，和O都变成特征空间内的Y，因此，用伪逆法产生对匹配过程并没有不利影响。也就是说，以后在把受到补偿的矢量从频率空间向特征空间变换中，加入伪逆过程中的任意信息被消除。结果，可以取消从频率空间向特征空间的映射，随后“重做”该步骤。匹配逆变换器28通过数单词矩阵/矢量乘法运算执行‘取消’操作。另一方面，也可以在计算机24内的软件中执行。
匹配逆变换器28把受到匹配的模型状态S1均值的分量μS1从特征空间变换回频率空间，用以得到频率空间内相应的点。用矩阵A-乘计算机24输出的矢量μS1。通过应用下式6所示的加法运算来进行矩阵运算om^=μS1,0+Σk=111μS1,kcos((2m+1)kπ/52)m=0,...25(6)]]>其中，m(m＝0～25)是输出矢量i的二十六各分量，μS1，0～μS1，11是μS1的十二个分量；这里，i是根据匹配的模型和所选的矩阵A-而对数据矢量Oi预测的值。
将值i传至差分计算器30。同时，缓冲存储器20从计算机24中接收时序信息，时序信息的形式是Oi值的存储器地址。响应于该地址，它把Oi输出给差分计算器30，用来与i相比较。差分计算器30计算这些预测矢量与观测矢量之间的差，用以产生一个差值矢量。该差值矢量在频率空间中代表语音信号所遭受的失真过程的瞬时估计值。把该估计值传至去复用器36，去复用器36同时接收数字1或0形式的模型类别信息；在这些数字中，1表示模型匹配计算机24识别出了语音，0代表它识别出了杂音。根据从计算机24接收到的是1还是0，去复用器36把差分计算器输出传递给语音IIR滤波部分44a或者非语音IIR滤波部分44b。
借助去复用器36在语音与噪声之间求微分的目的是要处理一个问题，该问题是，对于长期没有语音的交谈来说，补偿项可能因杂音和干扰的影响有失真。英国专利GB2 137 791A描述了一种方法，该方法用一语音识别系统来确定信号的哪些部分对应于噪声，而哪些部分对应于语音。尽管该已有技术方法的目的在于确定背景杂音的频谱特性，不过业已发现，可以用一类似的方法来标记系统10中的语音区和杂音区，用以分别从语音信号和杂音中导出补偿的估计值。这使得系统10更适于处理长期无语音的电话交谈。它还能得到更快的输出和更快的适应时间。
被认为是与杂音或者干扰相对的语音的矢量在从去复用器36出来的40处产生一差值矢量输出。将该差值传至语音滤波部分44b，如前所述，语音滤波部分44b是二十六个无穷脉冲响应滤波器阵列。滤波部分44b包括差值矢量二十六个分量中每一个各自的滤波器。单元30所计算的差值矢量基于单一数据矢量，它代表可校正失真的瞬时估计值，这归因于麦克风和线的特性，这些特性与因语音类声音的随机性而引起的差别相结合。
语音滤波部分44b的时间常数为0.5秒。它提供几个单词范围内的短期平均法(例如三个单词左右或者1.5秒)，这抵消了单词识别的随机变化和错误所产生的影响，同时跟踪因可校正失真引起的更长期变化。响应于收到每个输入差值矢量，它产生一输出矢量，该输出矢量是输入矢量与来自早期输入矢量的作用范围内的均值，这些作用随时间变化以指数形式减少；对输出矢量的作用主要来自于最近50各差值矢量。
来自语音滤波部分44b的输出矢量提供新一组参数，将这些参数装入SSA参数存储器48以替换其现有内容。如前所述，新一组参数用来适应来自滤波器组分析器16的当前输出频谱形状，响应于每个数据矢量向语音模型状态的匹配，更新该参数组。在产生该匹配的过程中有一短时延迟。在其中集中由一个计算机使部件18～48生效的本发明一个实施例中，所需用来从语音信号中得到更新参数的时间间隔为0.5秒，或者是大约一个平均单词的持续时间。结果，它对影响逐单词变化的失真进行了补偿。较之此系统来说，典型的已有技术系统提供补偿更慢，并且无法处理较短期的失真。前面提到的Zhao的参考资料要求有一句完整的话用于分析。本实例中，所采用的变换向平均信号电平的变化和信道或者麦克风特性引起的线性失真提供补偿。
在本发明的前述实施例中，非语音IIR滤波部分44a是多余的，原因在于其输出未被采用。现在将在本发明的另一实例中描述其应用，实例包括SSA补偿单元18和存储器48的另一种实现方式。该实例中，存储器48含有五十二个参数pj(j＝0～51)，其下标数0～25对应于对如上所述多重失真(平均信号电平和线性失真)的补偿，而下标数26～51对应于对在一线性刻度上呈累加的失真(例如频道杂音)的补偿。SSA补偿单元18通过添加前二十六个参数pj(j＝0～25)对Oi对数形式的矢量元素进行乘法校正。它还包括将数据矢量元素从对数转换到线性标度并且对其求逆。它把Oi受到校正的矢量元素从对数转换到线性标度，并且通过添加第二组二十六个参数pj(j＝26～51)进行线性校正。然后，它将结果转换回对数标度。另一方面，单元18可以通过增加杂音校正和增加失真校正而在线性域内进行两个校正。该变换向背景杂音和平均信号电平的变化以及信道或者麦克风特性所引起的线性失真提供补偿。为了得到对多重失真的参数估计值，如前所述使用语音滤波部分44b。为了得到对附加杂音的参数估计值，以一模拟方式使用非语音滤波部分44a。
为了证明该识别系统10的性能，曾用两个不同的麦克风A和B代替电话12进行试验。用空中侦察任务过程中产生的口头报告进行了测试。对模型匹配计算机24进行编程，用以利用基于三态单一混合分量送受话器的标准隐含Markov模型。根据三十六个空中侦察任务报告训练这些模型，其中这些报告由同一个讲话人利用麦克风A记录。每个报告持续近30秒。计算机24使用了518个单词的句子结构，其中认为每一个单词具有同样的可能性；即，词汇量近518个单词。这些试验中，讲话人同时对着两个麦克风A和B讲话。用一立体声磁带录音机对各种麦克风位置进行记录。然后，用一模/数转换器对记录结果进行数字化处理，并且转移给一计算机硬盘。之后，由一计算机程序分析该数据，该计算机程序实现滤波器组分析器16。然后，用实现单元18、20、22、24、28、30、36、44和48的第二程序处理数据。将输出26记录到磁盘上用于分析。在第二段分析中，禁止SSA补偿单元18、缓冲器20、匹配逆变换器28、差分计算器30、去复用器36、无穷脉冲响应滤波器44和SSA参数存储器48工作。采用以下的麦克风位置标准与嘴角齐平中央嘴的前部中央低嘴角下一英寸处颏与颏齐平下面列出的表格示出单词识别的出错率，这些出错率是用麦克风(Mic)A和B针对三个空中侦察任务报告得到的，并依次对配有频谱形状适应(SSA)的系统10和不具有SSA而具其他等同功能的可比系统处理这些任务报告。该表说明了利用根据本发明的SSA的单词出错率的效果。在所有这四个麦克风位置中，利用根据本发明的具有‘取消’操作的SSA，改善了出错率。对于麦克风B来说，改善程度多于2倍，一种情况下多于3倍
为了监视本发明的工作，在处理的过程中，在近半秒间隔之处记录了SSA参数存储器48的内容(表达为一个补偿矢量)。图3和4分别示出作为麦克风A和B时间函数的SSA参数。这些参数(均差矢量元素)对应于各个滤波器组频道数并且依据这些频道数画出参数的曲线。方框中标有“图例”的标记表示帧数或者以10秒为单位表达的产生时间ti。前60秒期间(ti＜6,000)，这些值迅速变化并且向一固定轮廓曲线聚集。麦克风B在高频处的输出更大，而图3中频道24处的最小值是系统对此的补偿。系统10还对整个语音功率级进行了显著的校正，该校正可与自动增益控制相比。与其说是平滑的，不如说图3和4二者都显示出校正项中值得注意的“纹波”。这是基于伪逆而不是真逆操作的‘取消’操作结果；即，纹波对应于该操作产生的信息。但是，如式(3)所示，当在装置22中将频域数据从频率空间(Oi)变换到特征空间(Yi)时，丢失了这些纹波，特征空间是模型域。因此，纹波及其对应的信息基本上对模型匹配计算机24所执行的识别操作没有影响。
对系统10的改进可以用来减小滤波器组分析器16输出的数据矢量与其估计值之间的延迟，其估计值用来更新存储器48中的SSA参数。系统10中，每次匹配计算机24输出一特征矢量与一模型状态之间的匹配时，都更新补偿参数。当在匹配计算机24中进行称为‘部分追溯’的过程时，产生输出。部分追溯的过程在前述Holmes的参考资料第7.11节中有述。由于隐含Markov模型匹配算法的运算，当部分追溯进行时，一般在匹配计算机24中有许多最新的特征矢量，它们不能明确地与一模型状态相关联。也就是说，尽管匹配计算机24可能可以“猜测”出最新的特征矢量与哪一个模型状态相关联，不过，对后来特征矢量的处理可能引起所猜测的模型状态被校正。例如，当处理短语“recognise speech(识别语音)”时，模型匹配计算机24可能需要处理‘recognise(识别)’中“g”声的特征矢量，之后它能够确认来自“recognise”中“r”而不是象在“wreck a nice beach(毁坏美丽的海滩)”中“wr”的“r”声。该延迟可能约为50个矢量或者0.5秒。为了使该延迟的影响最小，在每一部分追溯阶段，可以将匹配计算机24修改为输出特征矢量的“最佳猜测”匹配，但仍未完全为这些特征矢量确认该匹配。然后，可以修改去复用器36和滤波部分44，以便在某个晚些的时间，如果当匹配计算机24确认“最佳猜测”的身份时，对所匹配的模型状态有所改变(例如，如果当某个晚些的时间所确认的匹配输出是“wr”时，“最佳猜测”输出是“r”)，那么就可以应用一个很小的校正。
另一方面，若不是马上需要识别结果，则可能如此安排系统10，即在整个单词或者短语第一次通过该系统的过程中如上所述截取它，然后在第二次通过的过程中，用第一次通过过程中计算出的校正项重新处理该单词或者短语。如果对于处理(例如单个单词)来说只有非常少量的语音，那么这可能是有利的。
系统10可能适于与双向交谈一起使用，或者与具有反向信道回声的单向电话连接一起使用。这示于图5中，与图2相类似，图5示出匹配操作的二维等效图。如前所述，图中示出三个模型状态S1、S2和S3，椭圆代表概率分布的轮廓曲线。图中还示出两个变换校正特征矢量Yi1和Yi2。在双向交谈中，矢量Oi可以由两个讲话人中的任何一个产生，或者可以对应于背景杂音。此外，由于麦克风和频道特性在两个讲话人之间不同，所以保持两组SSA参数，每组参数用于一个讲话人。当滤波器组输出受到补偿时，产生两个校正参数，每个参数使用各自那组参数。变换这两个校正矢量以得到Yi1和Yi2，并且将其传至匹配计算机24，匹配计算机24配置成只匹配这些矢量中的一个矢量，该矢量最适合一个模型。匹配识别出是两个讲话人还是背景杂音与相应的矢量相关联。只有在已经把两组SSA参数中每组的相关讲话人或者杂音识别为对一矢量起作用时，才更新该组参数，该矢量已经匹配并且用来产生校正。实现此功能的修改系统把两组SSA参数保持在两个类似存储器48的存储器中，每个存储器用于一个讲话人/麦克风组合。如涉及解双工器36所述的那样，用计算机24控制下的去复用器来实现从IIR滤波部分44到这些存储器以及从这些存储器到SSA单元18的接通联系。该方法可以扩大到任意个数组的SSA参数和相关的语音源与杂音源，可以安排计算机24为这些源提供模型。它可以用于识别一些系统中的许多源或者数据类型，这些系统不包括如上所述的从频率空间向特征空间的变换或者逆变换操作或者“取消”操作；即模型可以存在于与数据矢量相同的空间和维数。通常，它涉及一个识别系统，该识别系统产生多个差值补偿，根据用匹配计算机识别的是模型类别还是源还是识别数据类型(例如讲话人A、讲话人B或者杂音)来区分这些补偿。当用匹配计算机把一数据矢量识别为属于一特定模型类别时，其中将该特定模型类别匹配给该类别的模型，如此得到的模型用来获得与该类别相关的补偿的更新值。为每个模型类别保持当前补偿值。每个数据矢量受到每个当前补偿值的补偿，为匹配计算机产生多个补偿矢量用以尝试匹配。如果首先一个补偿数据矢量所匹配的相关模型对于该矢量所对应的数据源或数据类型来说是合适的类别，那么该矢量一般只提供一个良好的匹配，而其次如果加到该矢量上的补偿适于抵消失真，那么它受到补偿。不适当补偿的数据矢量不应匹配合适类型的模型，而适当补偿的数据矢量不应匹配不合适类型的模型。然后，(未补偿)数据矢量及其相关模型用来得到相应数据源或数据类型的修正补偿，所说数据源或数据类型由如上所述的模型类别表示。
可以将系统10修改为能够对语音信号的变化提供补偿，这些变化的形式为频移。这些可能作为具有不同声道长度的讲话人之间差别的结果出现，例如儿童与成人相比或者女性与男性相比。众所周知，对于人的语音来说，4kHz左右频率范围内滤波器组输出的各种频道内的能量来自声道中的共鸣。由于嘴、嘴唇、舌和声道的其他部分中肌肉关节(articulation)的变化，这些共鸣的位置(称为峰段(formants))在语音产生的过程中改变。
不同讲话人之间的声道大小不同，因此，不同讲话人之间的共鸣位置以一系统的方式变化。例如，在“Control methods used in a studyof vowels”，Journal of the Acoustic Society of America，24(1952)中所阐述的由Peterson和Barney进行的测量中，元音[a]中F1峰段的正常频率在普通成年男性的730Hz与儿童的1030Hz之间变化。类似地，Denes和Pinson所著的“The Speech ChainThe physics andbiology of spoken language”，Anchor Books(1973)pp153中指出，对于10个英语纯元音声音(pure vowel sounds)来说，4,000Hz范围内女性讲话人的平均峰段频率明显高于男性。对于约4,000Hz以上的频率来说，声音主要由其他机构产生，而声道长度的差别较不明显。
如果已经专门用一成人男性的语音来训练识别系统的语音模型组，而该系统试图识别一女性或者儿童的语音，那么会由从一个滤波器组输出频道到更低频道的牵引能量产生改善的性能。可以通过用带状矩阵B乘来自滤波器组的数据矢量输出而对这种形式的失真提供补偿，选择B的元素以提供适当的频移。需要时，这些元素可以同时对多重形式的失真提供补偿。
虽然系统100采用单一高斯分布形式的模型状态，但是还可以采用这些分布的混合形式，原因在于可以体现出这能导致匹配性能方面的改善。那么，安排匹配逆变换器28从这些混合形式中得到数据矢量估计值。两个高斯分布混合形式的分布具有如下形式Cs，0exp(-((x0-μs，0，0)/2σs，0，0)2-((x1-μs，0，1)/2σs，0，1)2…((xn-μs，0，11)/2σs，0，11)2)+Cs，1exp(-((x0-μs，1，0)/2σs，1，0)2-((x1-μs，1，1)/2σs，1，1)2…((xn-μs，1，11)/2σs，1，11)2)其中，CS，0和CS，1是模型状态S的常数；μs，0，k、μs，1，k、σs，0，k和σs，1，k(k＝0..11)是该模型状态两个高斯概率分布的平均标准偏差的12个分量，xk是定义12维特征矢量空间的变量。
可以对匹配计算机24装置编程，以执行分段隐含Markov模型匹配法，该方法如例如Wendy Holmes在“Speech recognition using alinear dynamic segmental HMM”，Proceedings of Eurospeech‘95，pp1611-1614(1995)中所述的那样。这样，匹配逆变换器28从根据分段轨迹预测的值中产生数据矢量估计值。
参见图6，图中，等同于前面描述的那些部件类似地以称谓100参照，一系统总地由100表示，该系统实现上面提到的频移。系统100的工作结构和模式类似于系统10的工作结构和模式，对前者的描述将大量涉及二者的不同方面。用单元114和116对一输入语音信号进行数单词化处理和进行滤波器组分析。然后用补偿单元118处理滤波器组输出，该单元118用带状矩阵B乘滤波器组数据矢量，矩阵B的矩阵元素存储于存储器148中。带状矩阵是一个在对角线区域中具有非零矩阵元素而其他矩阵元素为零的矩阵。变换装置122把补偿矢量从频域变换到维数更少的特征域或者模型域。变换之后，用匹配计算机124匹配这些矢量，匹配计算机24输出根据匹配模型与模型类别信息所预期的矢量值。把预期值传至用来变换到频率空间的匹配逆变换器128，从而变成估计矢量。通过去复用器136把该估计矢量传至Kalman滤波器137，以后将详细描述其作用。
设置带状矩阵B中的矩阵元素，使其能对来自一个滤波器组频道的移动能量(shift energy)进行校正，从而它可能在另一频率处产生。例如，当处理由具有适于成人模型的儿童所发出的语音时，滤波器组分析器116的频道8和9至频道6和7的移动能量近乎对应于对元音[a]中F1峰段内差别的补偿。另一方面，就下表中给出的B的非零系数来说，当采用适于男性讲话人的语音模型时，补偿单元118会做适于识别来自女性语音的系统的补偿
现在说明Kalman滤波器137的作用。Kalman滤波在电子工程的许多领域尤其是雷达系统的设计领域中众所周知；它可以用来确定线性系统的系数(如矩阵)，其中观测结果形成一时间顺序，并且受到某些随机扰动。将系统100实现的补偿参数或者矩阵元素表达为26×26的方阵B，方阵B的参数由Kalman滤波器估计。解双工器136的语音输出用来提供对根据匹配模型状态所预期的滤波器组输出的估计值，而缓冲器120包括实际观测到的存储值。用Kalman滤波器比较这两个值以更新矩阵B的元素。
Kalman滤波器的设计和实施在数单词信号处理的许多领域中众所周知，例如，其设计和实施在Athanasios Papoulis所著的“Probability，Random Variables and Stochastic Processes”，McGraw-Hill series in Electrical Engineering，1984，pp458ff中有述。Kalman滤波器137更新存储在存储器148中矩阵B的元素。这对不同滤波器组频道之间如发生在不同声道长度讲话人之间的能量系统移动提供补偿，并且对如前所述的麦克风和频道影响提供补偿。补偿单元118可以添加一个矢量，而且除了提供频移之外，还执行矩阵乘法运算以补偿附加的杂音。
另一方面，对频移的补偿可以通过改变滤波器组分析中所执行的分配操作(binning operation)(求频率均值)来应用。
在系统10或100中，计算机24或124所实现的模型参数可以适于例如改进对讲话人所说口音或方言的建模。
本发明还可以用于其他识别技术。它可以用来识别来自麦克风的非语音声音，以检测预定的结果。另一方面，它可以补偿来自电视摄像机的数据中的阐述程度，例如在Brooke，Tomlinson和Moore于“Automatic Speech Recognition that Includes Visual Speech Cues”inProc.Inst.Acoustics.1994 Autumn Conference，Windemere，pp15-22中所公开的唇读中那样。它还可以用于一些技术，在这些技术中，将数据映射到维数减少的特征空间内，以使杂音或者其他多余量的影响最小。特别是这些技术用于处理雷达数据。对系统失真过程的补偿常常可能存在于数据域中而不易于用在模型域中。
本发明尤其可以用于一种雷达成像传感器中，这种传感器的波长为毫米级。数据矢量代表一个场景的二维图像。数据矢量的变换可以是二维、切去顶部的快速傅里叶变换，从而能够匹配给目标对象的模型。然后可以对雷达图像平面内的失真进行补偿。
权利要求
1.一种用来使多维数据矢量与预定模型相关联的识别系统，包括a)补偿装置(18)，用来补偿数据矢量中的失真，b)匹配装置(24)，用来使每个补偿数据矢量与一适当模型相关联，其特征在于c)模型的维数比数据矢量的维数少，d)匹配装置(24)包括变换装置(22)，变换装置(22)用来在失真补偿之后对数据矢量进行变换，用以将它们的维数降低到模型的维数，e)该系统(10)包括逆变换装置(28)，逆变换装置(28)通过对所述变换进行逆变换而从相关模型中得到一数据矢量估计值，并且f)该系统(10)还包括推导装置(30)，推导装置(30)用来从数据矢量估计值和其对应的数据矢量中得出补偿量，以用于补偿装置所进行的失真补偿中。
2.根据权利要求1的系统，其特征在于，逆变换装置(28)设置成能够实现所述变换的伪逆，并且能够通过包含一种方式下的信息而将模型维数增加到数据矢量维数，所述方式是，变换装置(22)根据数据矢量估计值进行工作以降低其会导致这种信息丢失的维数。
3.根据权利要求2的系统，其特征在于，变换装置(22)设置成能够把矩阵A所代表的变换应用于数据矢量，逆变换装置(28)设置成能够实现矩阵A-所代表的伪逆模型变换，矩阵A和A-满足以下关系AA-A＝A。
4.根据权利要求2的系统，其特征在于，推导装置(30)设置成能够通过在一个作用范围内求均值而从数据矢量估计值和数据矢量以及一个以上类似种类的在前各量中得到一个补偿量。
5.根据权利要求2的系统，设置该系统用于语音识别，其特征在于，这些数据矢量代表作为频率函数的语音信号。
6.根据权利要求2的系统，其特征在于，这些数据矢量组成至少一部分视频图像数据。
7.根据权利要求6的系统，设置该系统用于语音识别，其特征在于，这些数据矢量代表一语音信号的一部分和讲话人的部分特征。
8.根据权利要求2的系统，设置该系统用于语音识别，其特征在于，这些数据矢量代表一语音信号，匹配装置(24)设置成能够实现隐含Markov模型匹配，而逆变换装置(28)设置成能够根据与变换数据矢量相关的模型概率分布计算出的数据产生矢量估计值。
9.根据权利要求8的系统，其特征在于，匹配装置(24)设置成能够实现分段隐含Markov模型匹配，而逆变换装置(28)设置成能够根据对匹配装置(24)所计算出的分段轨迹的估计产生数据矢量估计值。
10.根据权利要求2的系统，其特征在于，匹配装置(24)设置成能够指出多个模型类别中哪一个与每个变换数据矢量相关联。
11.根据权利要求10的系统，其特征在于，匹配装置(24)设置成能够实现每个模型类别的各自那组模型，推导装置(30)设置成能够得到每个模型类别的各自补偿量，而补偿装置(18)设置成能够根据模型类别有选择地应用补偿。
12.根据权利要求11的系统，其特征在于，匹配装置(24)设置成能够实现两个讲话人中每一个的各自那组模型。
13.根据权利要求2的系统，其特征在于，变换装置(22)设置成能够实现一频移，以抵消观测数据矢量与匹配装置(24)采用模型所对应的数据矢量之间的差。
14.根据权利要求2的系统，其特征在于，变换装置(22)设置成能够借助一带状矩阵实现补偿。
15.根据权利要求2的系统，其特征在于，推导装置(30)设置成能够根据Kalman滤波法更新补偿值。
16.根据权利要求2的系统，其特征在于，变换装置(22)设置成能够应用一余弦变换，在该余弦变换中，舍去了某些系数以减少数据矢量维数。
17.根据权利要求2的系统，设置该系统用于存在失真时的语音识别，其特征在于，逆变换装置(28)和推导装置(30)设置成能够对以下部分中至少一个提供补偿a)变化的语音信号电平，b)麦克风位置的变化，c)麦克风类型的变化，d)语音信号线特性的变化，e)背景杂音水平，f)频移，g)讲话人阐述音量h)阐述方向，i)讲话人特征的几何失真。
18.根据权利要求2的系统，其特征在于，推导装置(30)设置成能够抵消可能以其他方式影响补偿的数据矢量所表现出的随机变化。
19.根据权利要求2的系统，设置该系统用来通过每一个数据矢量提供该系统的双路传输，其特征在于，补偿装置设置成能够以第二个这样的传输进行工作并且提供待加到一数据矢量上的补偿量，该补偿量是从该数据矢量中得到的。
20.根据权利要求2的系统，其特征在于，匹配装置(24)设置成能够对识别误差的校正执行部分追溯，而且，它与逆变换装置(28)和推导装置(30)相结合，就能够对在这些误差基础上产生的补偿提供校正。
21.根据权利要求1的系统，其特征在于a)补偿装置设置成能够通过修改具有多个补偿量的每个数据矢量来补偿多种形式的失真，从而提供各组修改的数据矢量，这些矢量对与各个数据源相关的各种形式失真进行补偿，b)变换装置设置成能够变换每组修改的数据矢量，以提供各自的变换数据矢量，c)匹配装置设置成能够确定每组中哪个变换数据矢量最适合一个模型，并且为该变换数据矢量指示出一个相应的数据源，d)推导装置设置成能够根据确定的最佳适合量得到补偿量，所述确定的最佳适合量用于补偿与匹配装置所指示数据源相关的失真形式。
22.一种使预定多维模型与数据矢量相关联的方法，包括以下步骤a)补偿数据矢量中的失真，b)在失真补偿之后对数据矢量进行变换，用以将它们的维数减少到模型的维数，c)使每个变换数据矢量与各个模型相关联，其特征在于，这些数据矢量的维数比模型的维数高，该方法还包括d)使所述变换逆变换，从而从相关的模型中得到一个数据矢量估计值，e)从该数据矢量估计值及其对应的矢量中得到一个补偿量，并且用该补偿量对失真补偿数据矢量。
23.根据权利要求22的方法，其特征在于，借助所述变换的伪逆实现步骤(d)中的逆变换，该逆变换通过包含一种方式下的信息使模型维数增加到一数据矢量的维数，所述方式是，对该数据矢量估计值进行变换以降低导致这种信息丢失的维数。
全文摘要
一种识别系统(10)包括一滤波器组分析器(16),该分析器(16)在一语音信号中产生二十六个频率间隔的能量值的连续数据矢量。单元(18)对每个矢量中的频谱失真进行补偿。补偿矢量被变换为十二维的特征矢量,并且在一计算机(24)中匹配有隐含Markov模型状态。每个匹配模型状态都有一均值,该值是语音特征矢量的估计值。一匹配逆变换器(28)通过一伪逆变换在频率空间内产生语音数据矢量的估计值。它包括将在以后向频率空间变换时丢失的信息。将该估计数据矢量与它的相关语音信号数据矢量相比较,无限冲激响应滤波器(44)对它们与其他矢量之间的差求均值。如此产生的均差值矢量被单元(18)用于补偿语音数据矢量。
文档编号G10L15/065GK1251194SQ9880364
公开日2000年4月19日申请日期1998年2月24日优先权日1997年3月25日
发明者K·M·庞廷, R·W·瑟里斯, M·J·汤姆林森申请人:英国国防部

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K.M.庞廷;R.W.瑟里斯;M.J.汤姆林森
技术所有人：英国国防部
我是此专利的发明人

上一篇：话音信道上用话音表示事件的方法与装置的制作方法
上一篇：语音分析系统的制作方法