语音识别计算机模块及基于音素的数字语音信号变换方法

文档序号:2820287阅读:308来源:国知局
专利名称:语音识别计算机模块及基于音素的数字语音信号变换方法
技术领域
本发明涉及语音识别领域。迄今为止,在语音识别领域中,有两种原理上不同的识别讲话语音的解决方案是公知的。第一个原理以讲话者非相关型语音识别为基础。在这种语音识别方案中使用的词汇完全由是设计者确定的单词组成的。文献[1]中公开了一种基于这一原理的语音识别计算机模块以及相应的讲话者非相关型语音识别方法。这种解决方案的基础例如是音素识别,并结合使用Hidden-Markov模拟计算法。根据该方案,首先从用户录入的数字语音信号中得出特征向量,它应包含对语音识别而言是重要的语音信号信息。然后将所求得的特征向量与该音素片段所对应的典型原型特征向量进行比较,所述原型特征向量例如可存储在一个为此而设置的ROM存储器(只读存储器)中。由于对所识别词汇中的每个单词都必须设置这个单词的音素表达的存储位置,因而这种讲话者非相关型语音识别方案所需的存储器总容量主要由ROM存储器的容量决定。然后,将前面提到的比较运算的结果在检索中相互组合,以便从预存的词汇中确定出以最高概率被讲到的单词。在这种解决方案中,词汇必须以各自的语音音素原型特征向量形式存储。因为讲话者非相关型语音识别方案具有基于音素识别的特性,对用户自定义的那部分词汇的识别只能在下述前提条件才能实现,即对词汇内收入的每一个单词均能实现用户输入音素的写入方法。
由于这个原因,以上解决方案有一个缺点,即每一个用户自定义的那部分词汇的语音表示法,对于用户而言,都要支出一笔额外的开销,另外这还导致该解决方案产生人机工程学上的缺点。
此外,这种解决方案的一个重大缺点是,作为键盘形式的必要附加入机接口是可观的系统开销。再者用户必须自己以音素来划分各个新单词,致使这种解决方案很容易出错。
第二种解决方案是基于讲话者相关型的语音识别法。这种解决方案的原理是,在录入的数字语音信号与训练阶段录入并为了进行讲话者相关型语音识别而存储的语音试样(模板)之间进行全字比较。文献[2]公开了一种实现讲话者相关型语音识别的方法以及这种解决方案的例子。
这种解决方案的一个重大缺点是,必须采用静态存储方式存储语音试样(模板)。这是必要的,因为在每个″语音识别会议″开始时,一个总是重复的训练阶段对每个用户来说是不合理的。由此产生的静态RAM存储器容量的需求是与每个单词暂时存储的模板数量、用户定义的单词数量以及用户数目成正比的,而所述的用户必须能同时使用讲话者相关型语音识别法。因此,从上述参数的某个特定数值的组合起,不仅静态存储器的存储总量会大于讲话者非相关型语音识别装置中的存储总量,而且还由于使用了静态存储方式,造成损耗功率升高,阻碍了低耗电运行方式的实现。
此外这种解决方案的另一个缺点是制造成本很高,特别是由于静态RAM存储器相对于ROM存储器存在不利的面积比例关系。
此外,由文献[3]可知,为进行讲话者非相关型和讲话者相关型语音识别,可将其算法固化在数个芯片中。这个公知的计算机模块包括一个型号为DVC306的专用处理器、一个微控制器以及容量总计为16MB的若干S-RAM存储芯片。
这个公知的语音识别计算机模块有多个严重缺点。由于既使用讲话者非相关型语音识别算法,又使用讲话者相关型语音识别算法,所以必须将数种算法固化在一个ROM存储器中。
此外,讲话者相关型算法的缺点例如是对静态RAM存储器的需要量很高,以及与此相关的很高的算法固化费用。
另外,文献[1]公开了一种称为Viterbi的算法。
同样出自文献[1]的称为动态程序设计的方法(DP-算法)也是公知的。
因此本发明的任务是,提供一种语音识别计算机模块,它可避免上面提到的缺点。此外本发明的另一个任务是,提供一种语音识别方法,用此种方法可避免上面提到的公知方法的缺点。
以上任务的解决方案是,提供一种语音识别计算机模块,它包括一种讲话者非相关型语音识别方法;一个音素存储器,用以存储音素的音素特征向量和/或包括任意数量音节的音素,其中的音素特征向量表述相应音素的特性;一个用户存储器,用以存储数字化单词的音素序列和/或由用户录入计算机模块中的数字化单词。其中用所述方法对用户特征向量与已存储的音素特征向量比较求得音素序列;并且使用所述方法将一部分描述了数字语音信号部分特征的数字语音信号用户特征向量与已存储的音素特征向量进行比较。该解决方案还包括一种计算机支持的基于音素的数字语音信号的变换方法,其特征是,所述音素划分成任意数量的片段,并给音素各分配一个描述各个音素或音素片段特性的音素特征向量,其中的数字语音信号划分成任意数量的数字语音信号节;为对每一个语音信号节预先给定语音信号节数量,进行以下步骤为语音信号节求得一个表述语音信号节特性的用户特征向量,从用户特征向量与至少是任意数量的音素特征向量之间的比较中,各求得一个用户特征向量同各个音素特征向量的相似值,将这个相似值存储起来,并且借助于这个相似值求得描述数字语音信号的数字语音信号音素序列。
在这个语音识别计算机模块中,除了包括与讲话者非相关型语音识别方法以及具有至少一个存储音素特征向量的存储器之外,还包括一种比较方法,这种方法是将表述数字语音信号部分特性的数字语音信号的一部分的用户特征向量同所存储的音素特征向量进行比较。通过从用户录入的数字语音信号变换到已存储的音素特征向量,使以下方案成为可能,即完全使用讲话者非相关型语音识别的解决原理。
讲话者相关型语音识别的算法在这个计算机模块中已不在ROM存储器中存储,由此大大节省了所需的ROM存储器容量。
此外还避免了一个极大的缺点,即避免了讲话者相关型解决方案中很高的RAM存储器需要量,因为在已存储音素的基础上变换用户新录入的单词,并以已知的音素形式存储新单词的表达。这就极大减少了对RAM存储器的需求,并在计算机模块的生产制造中极大地降低了成本。使用本发明所述计算机模块,可大大减小实现语音识别的过程中所必需的损耗功率。
按照本发明所述方法的一个方案,用户新录入的数字语音信号以任意节数的语音信号来划分。然后对预先设定的语音信号节数每次求得一个特征向量,再同已存储的音素特征向量进行比较。从这种比较中每次确定一个相似值,这个值说明了语音信号节与每次比较的音素特征向量的相似性。这个相似值被存储起来,并且借助这个相似值,在最后一步求得一个数字语音信号的音素序列。通过这个序列描述的数字语音信号可以以音素表示法存储。
通过前述方式使以下方案成为可能,即在减少存储单元需求量情况下,把讲话者非相关型算法应用到新的原来讲话者相关型的单词中去。必须看到,本发明所述方法的优点在于,在计算机模块的制造中能实现有利的成本开销。此外本发明所述方法还可做到,对外语单词,尽管其音素尚未存储在音素存储器中,然而仍会以良好的识别率进行处理。
本发明其他有利构成见以下所述。
可将所述计算机模块的至少两部分或者所有部分制在同一个芯片上,这就极大降低了计算机模块生产费用。
在本发明所述方法中,还同已存储的、由用户预先给定的、数字化单词语音特征向量进行比较,所述语音特征向量各表述部分数字化单词的特征;从而进一步改进了本发明所述方法的语音识别效果,因为在特征向量的比较中,不仅考虑到被存储的音素特征向量,而且也考虑到已经由用户事先录入的语音特征向量。
求取加权值时,在相似值序列中考虑每次音素的相关序列各个长度,从而对数字语音信号可以获得一个简单而精确的音素序列的解算。因而在计算机模块上实施本发明所述方法的速度很快。
对音素相似值,只有其序列长度大于一个预先给定的界限时才予以考虑。因此由于考虑到在相似值序列中音素相关序列长度,从而能实现由相似值的短序列引起的语音识别中的随机命中,也就是说避免了基于长序列相似值而不能识别的爆破音。
作为描述一个单词的开始的第一个语音信号节是带有最大相似值的语音信号节。从而能进一步减少所需的计算时间,因为通过检测词汇的开始或者词汇的结束,实施本方法过程中不必要的噪声并不以语音信号节的形式考虑,由此就减少了必需的语音信号节数以及因此而必需的比较数目。此外本发明所述方法还显著降低了出错率。
按照本发明所述方法,继续减少出错率是通过数字语音信号节相互重叠实现的。在这种方法中,数字语音信号节每次能相互重叠。通过由此而形成的语音信号的冗余信息使本发明所述方法的结果更加“可靠”。
此外,本发明所述方法的一个有利特性是,通过获得相似值,可以由一个在已经存储在特征区域内的单词确定一个特征区域内的数字语音信号的间隔的关系加权,因此可拒绝存储某些在特征区域内的音素表达和已经存储的单词非常近似的单词,这样可避免语音识别中由于特征区域内存在过于相似的单词而造成的出错率的升高。
通过不但对于已经存储的特征向量而且对用户定义的特征向量仅使用一种加权值类型,可实现对讲话者相关型和讲话者非相关型方法产生的结果进行相互比较。
本发明所述方法的另外一个有利的特性是讲话者非相关型语音识别所用的词汇能与用户录入的新单词混合起来。
下面对照附图,对本发明所述的一个实施例作如下详细说明

图1以示意图形式表示一种系统配置,描述了以这种系统配置通过计算机接收用户语音信号。
图2a和图2b表示在时间范围内的语音信号具有单个语音信号节(图2a)以及具有重叠语音信号节(图2b)。
图3表示本发明所述语音识别计算机模块的程序框图。
图4表示本发明所述方法的各个步骤的程序框图。
图5表示在用户特征向量与暂时存储的音素特征向量的比较中形成相似值的若干可供选择的程序框图。
图6表示一个示意图,是以表格的形式借助于相似值确定一个音素序列的简单例子。
图1中的B表示一个用户,他用麦克风MIK录入一个语音信号。这个麦克风MIK是同语音识别计算机模块RE相连接的。在计算机模块RE中录入的语音信号S被数字化,并且按照本发明所述方法继续处理加工。此外还在计算机模块RE中实施语音识别方法,其结构将在下面加以说明。
这个计算机模块RE同荧光屏BSC和/或打印机DR和/或者其他的输出设备相连接。借助于这些外设,用户B可以得到这种方法的显示结果。此外,在这个系统中还配置了键盘TA和/或鼠标MA,以输入数据。
图2a和图2b分别描述的是在时间T内出现的数字语音信号S。为了简化下面的说明,但不影响理解,假定语音信号S是以一个单词的形式存在,包括单词的开始WA和单词的结束WE,这个语音信号S如图2a描述的那样,被划分成单个语音信号节,其中的第一个下标j单义地表示出各个语音信号节STj,并且它是1和1之间的自然数,其中的1确定了语音信号节STj的数量。
图2b描述的是本发明所述方法的进一步改进,其中各语音信号节STj如下所述可相互重叠。
图3表示的是本发明所述计算机模块RE。
这个计算机模块RE至少具有以下部分-一种讲话者非相关型语音识别方法MUS,-一个音素存储器PS,-一个用户存储器BS,-一种将语音信号节STj的用户特征向量与在音素存储器PS中存储的音素特征向量进行比较的方法MV。
借助于讲话者非相关型语音识别方法MUS可以实施文献[1]所公开的讲话者非相关型语音识别方法。对其他的讲话者非相关型语音识别方法,专业人员非常熟悉的。这样可以轻而易举地采用MUS方法进行讲话者非相关型语音识别。
制造商在音素存储器PS中以音素表达的形式固定存储了每个词汇。此外,在音素存储器PS中还借助于音素所对应的音素特征向量存储的单个音素。
在用户存储器BS中,由用户B录入并且已经按本发明所述方法处理过的数字语音信号S以单个词汇方式存储,该词汇以音素表示法存在。此外在用户存储器BS中,单个的由用户录入的以及已经″处理″过的语音信号S的音素序列也能被存储。
单个的特征向量、音素特征向量或者用户特征向量中含有各自语音信号S的信息,它对于语音识别是重要的按照本发明所述方法,采用方法MV能将数字语音信号S的各自的语音信号节STj的用户特征向量同音素特征向量和/或同已″处理″过的并且在用户存储器BS中已被暂时存储的数字化单词的语音特征向量进行比较(参见图3)。该方法的进一步说明如下。
图4以流程图的形式描述了本发明所述方法的各个步骤。
在第一步401中,由用户B录入的被计算机模块RE数字化的语音信号S,被划分成任意数目的语音信号节STj。步骤401对于预先给定的语音信号节STj数目,每次进行以下步骤借助被存储的音素特征向量求得一个对于各个的语音信号节STj的相似值。步骤402对于每一个预先能给定的语音信号节STj数目的语音信号节STj求得一个用户特征向量,它对于语音识别显示出重要信息。步骤403然后,将这个用户特征向量同所存储的表示各个存储音素特征的音素特征向量的任意数比较。这种比较能以各种方式进行,后面将对一个简单例子作详细解释。通过比较,每次能对每对用户特征向量和音素特征向量求得一个相似值Ak。步骤404这个相似值Ak每次都被存储起来。步骤405这种方法的结果是,对于预先能给出的语音信号节STj数目,对于同相应的音素特征向量比较的用户特征向量,每次可支配一个相似值Ak,它说明了用户特征向量与音素特征向量的相似性以及语音信号节STj与所考虑到的音素的相似性。
在最后一步406,借助于这个相似值Ak确定对应于数字语音信号S的音素序列。以这个音素序列描述录入的数字语音信号S。
这时,在这个音素表示法中,数字语音信号S被作为词汇的新单词存储在用户存储器中。在本发明所述方法的另一个方案中,除了数字语音信号S的音素表示法,另外还有所属的语音特征向量被存储。
数字语音信号按语音信号节STj的分配,步骤401,或者例如可将语音信号S划分成任意数目的不相重叠的语音信号节STj,或者按照本发明所述方法的另一个方案,使各个语音信号节STj相互重叠。通过各个语音信号节STj的重叠,能更好地将语音信号S的时间分布纳入识别过程。
相似值Ak能够以不同的方式求得,如图5所示。
相似值Ak每次例如能够通过步骤501形成-所谓动态程序设计算法,步骤502,文献[1],
-通过Viterbi算法,步骤503,文献[1],-其他专业人员所熟悉的方法,步骤504。
由相似值Ak形成的一个间隔大小AG能够按下面两个步骤之一求得AG=Σi=1n(ai-bi)m]]>这里i单义表示特征向量分量的第一下标。
n表示特征向量分量的数目。
ai各表示一个用户特征向量分量。
bi各表示一个音素特征向量分量和/或语音特征向量分量。AG=Σi=1n|ai-bi|m]]>这里i单义表示特征向量分量的第一下标。
n表示特征向量分量的数目。
ai各表示一个用户特征向量分量。
bi各表示一个音素特征向量分量和/或语音特征向量分量。
对于形成间隔大小AG的其他方法是专业人员所熟知的,并可不受限制地用于本发明所述方法。
相似值Ak的形成可使用一种专业人员熟悉的方法。通过相似值Ak确定一个对应于音素的发生概率。
相似值的形成仅用于在特征区域确定用户特征向量与音素特征向量或与语音特征向量之间间隔的大小。
下面就一个简单的例子加以简要说明,如何借助于相似值Ak形成数字语音信号S的音素序列。这个简单的方法对本发明并不构成限制性理解。原则上可达到同一个目标的方案或者方法,即借助于相似值Ak求得音素序列,由此尽可能的正确接近数字语音信号的方法,可按专业人员熟知的方式用于本发明。
此外需着重指出的是,音素特征向量不必直接涉及到整个音素,而是规定音素可以划分成任意数目的片段。例如分成一个开始片段,一个所谓的稳态片段,以及各个音素的结束片段。然而原则上各自的音素的片段数量以及对于相应的音素的音素特征向量数量是任意的,并且一方面仅取决于所提供的计算机能力,另一方面取决于所希望的语音识别精度。在所述方法的另一种构成中规定,对每一个音素或音素片段能存储及处理数个音素特征向量。从而可以建立一个单词的各种不同的发音变化的模型。
在下面的说明中,为简化起见,从一个第一方案出发加以说明,其中将整个音素特性作为各个音素特征向量。图6以表格形式按表格的各行描述了语音信号节STj,从语音信号单词S的词开始WA直到语音信号单词S的词结束WE。表中的各栏表示的是对各个语音信号节STj求得的各种不同的相似值Ak,相似值的下标表示1到P之间一个任意的数,并且单义地标出每一个相似值Ak。因此各个相似值Ak说明了语音信号节STj同每次所比较的音素特征向量之间的相似性。
为说明此方法,这个表格的相似值Ak的各栏中直接表示出与各个语音信号节STj进行比较的音素。为进一步说明此实例,假定对于每一个语音信号片段所描述的音素序列按照递减相似值Ak排列。位于表格左栏的音素是参照所应用的相似值Ak的构成规则,其音素特征向量同相应语音信号节STj能最佳吻合的音素。
此时,按照音素的″命中概率″,该各个被“识别”出来的音素分配一个任意的加权,各个音素的排列顺序相当于相似值Ak在表中从左到右的顺序。其方式例如可以是,给具有第一相似值A1的“最相似的”音素分配一个很高的加权值,例如一个自然数p,这个数与所考虑的相似值Ak的数目一致。相应地例如将加权值p-1分配给第二相似值。这种原则可继续进行到p-ten的相似值Ap,将0值分配给它。例如在这个表中,第一个语音信号节STj的加权P分配给所识别的带有第一相似值A1的音素b。
此时在这个表格里求得了相等音素的Fb,Fp,Ft的相关序列。这是一个对音素b从第一个语音信号节STj出发查找到j-ten语音信号节STj的例子。这个序列以Fb为标志。对于音素t例如可求得相等音素Ft的另一个序列。在这个简单的实例中还可产生其他序列,例如对于音素p产生一个以Fp为标记的另一个相等音素序列。
对于各个序列每次求得一个序列加权值,例如通过对各个语音信号节STj中的音素的各个加权值求和。例如,对于音素b的序列Fb有下式例如Fb=p+p-1+p-1+p-1=4p-3对于音素t的序列Ft有下式Ft=3p-8这个对应于相似值Ak的音素序列的组成方式例如是,每次求得最大加权值,并在考虑相应语音信号节STj的情况下,以一个合适的选择方法从中求得各个音素的排列顺序。这个排列顺序以音素表示法给出相应的语音信号S。
为对这种方式进一步细化,根据本方法所述的另一种构成,在求得数字语音信号S音素序列的全部过程中,还必须考虑各个音素序列的长度。考虑每个音素的相应序列长度的优点在于,如果一个序列过短,会造成对不必要的随机命中分类,而序列过长则例如将导致不能可靠地发现某些种类的子音。
对以上这两种极限情况,理想的方式应该是结合起来综合考虑。这种折衷例如在于使音素各个序列长度上单个加权值的总和标准化,因此这使得每个语音信号节STj产生一个加权。
对于音素b的序列Fb,长度为4的序列Fb是4P-3/4。
在这个例子里,每个语音信号节STj的加权作为加权值使用。如果某个音素特征向量描述的不是整个的音素,而仅仅是一个音素的单个片段,并且与此相应的语音信号节STj每次也仅以它的用户特征向量与表述了音素的部分特性的音素特征向量进行比较,则对这种情况原则上采用同样的处理方式。
此外,按照本发明所述方法的变化可提供各种不同的可能,以音素或者音素片段占用单词开始WA与单词结束WE之间的时间段。例如单词开始WA能通过某种单词检测方法确定。此外还规定,在本方法的一个方案中使用其每个窗口的加权值或者其加权值是最大的语音信号节STj作为单词开始WA。
此外,在所述求取音素序列方法的另一个方案中规定,音素序列也可通过预定数量的、可能存在于语音信号节STj中的间隔生成。通过这种方案提高了本方法的可靠性,并因此而降低了出错率。
本说明书中引用的已有技术文献是[1]G.Ruske,《自动化语音识别(Automatische Spracherkennung)》,Oldenbourg出版社,第2版,ISBN3-48622794-7,172-195页,1992年。K.Zünkler,《(使用不同相关特征的Hidden-Markov模式语音识别(Spracherkennung mit Hidden-Markov Modellen unter Nutzung vonunterscheidungsrelevanten Merkmalen))》,幕尼黑工业大学博士论文集,22-25页,1991年。《产品概要-进展信息,DVC先进语音命令处理器(ProductOverview-Advance Information,DVC Advanced Voice CommandProcessor)》,DSP Communications,Inc.,Cupertino,CA,USA,1995年。
权利要求
1.语音识别计算机模块,其特征是,包括-一种讲话者非相关型语音识别方法(MUS),-一个音素存储器(PS),用以存储音素的音素特征向量和/或包括任意数量音节的音素,其中的音素特征向量表述相应音素的特性,-一个用户存储器(BS),用以存储数字化单词的音素序列和/或由用户录入计算机模块中的数字化单词。其中由方法(MV)对用户特征向量与已存储的音素特征向量比较求得音素序列,-并且使用方法(MV)将一部分描述了数字语音信号部分特征的数字语音信号用户特征向量与已存储的音素特征向量进行比较。
2.按照权利要求1所述的计算机模块,其特征是,在一块芯片上实现以下组成部分中的至少两个-讲话者非相关型语音识别方法(MUS),-音素存储器(PS),-用户存储器(BS),-用户特征向量比较方法(MV)。
3.计算机支持的基于音素的数字语音信号(S)的变换方法,其特征是,所述音素划分成任意数量的片段,并给音素各分配一个描述各个音素或音素片段特性的音素特征向量,-所述的数字语音信号(S)划分成任意数量的数字语音信号节(STj,j=1...1)(401),-为对每一个语音信号节(Stj)预先给定语音信号节STj数量,进行以下步骤(402)1为语音信号节(STj)求得一个表述语音信号节(STj)特性的用户特征向量(403),1从用户特征向量与至少是任意数量的音素特征向量之间的比较中,各求得一个用户特征向量同各个音素特征向量的相似值(Ak)(404),1将这个相似值(Ak)存储起来(405),并且-借助于这个相似值(Ak)求得描述数字语音信号的数字语音信号音素序列(406)。
4.按照权利要求3所述的方法,其特征是,还同已存储的、由用户(B)预先给定的、数字化单词语音特征向量进行比较,所述语音特征向量各表述部分数字化单词的特征。
5.按照权利要求3或4所述的方法,其特征是,使用动态程序设计方法产生相似值(Ak)(502)。
6.按照权利要求3或4所述方法,其特征是,使用Viterbi方法产生相似值(Ak)(503)。
7.按照权利要求3至6之中任何一项所述的方法,其特征是,求取数字语音信号(S)的音素序列(Fb,Ft,Fp)按以下步骤进行-对每个数字语音信号节(STj)至少存储2个相似值(Ak),-对至少2个语音信号节(STj)求得一个与相同音素有关的相似值(Ak)序列,以及求得一个加权值,-从语音信号节(STj)内选择出其加权值呈一个最大值的音素。
8.按照权利要求7所述的方法,其特征是,在求取加权值时,在相似值序列(Ak)中考虑每次音素的相关序列(Fb,Ft,Fp)各个长度。
9.按照权利要求8所述的方法,其特征是,对音素相似值(Ak)只有其序列长度大于一个预先给定的界限时才予以考虑。
10.按照权利要求3到9之中任何一项所述的方法,其特征是,对数字语音信号(S)检测单词开始(WA)和/或者单词结束(WE)。
11.按照权利要求8到10之中任何一项所述的方法,其特征是,作为描述一个单词的开始(WA)的第一个语音信号节(STj)是带有最大相似值(Ak)语音信号节(STj)。
12.按照权利要求3到11之中任何一项所述的方法,其特征是,数字语音信号节(STj)相互重叠。
全文摘要
语音识别计算机模块以及计算机支持的基于音素的数字语音信号变换方法。本发明所述的计算机模块(RE)借助于讲话者非相关型语音识别方法,使用户新补充的语音信号(SS)的语音识别成为可能。其方案是,通过对每一个新接收的语音信号(SS)在已存储的音素特征向量基础上完成语音信号的变换。有多种相互比较变换的可能性,并且对新单词使用“最佳”的变换音素表述作为音素的表示。所述语音信号(SS)以音素表示方式存储在用户存储器(BS)中。
文档编号G10L15/06GK1167950SQ9711162
公开日1997年12月17日 申请日期1997年3月19日 优先权日1996年3月19日
发明者L·迪沃斯 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1