声音识别系统的制作方法

文档序号:2830368阅读:427来源:国知局
专利名称:声音识别系统的制作方法
技术领域
本发明涉及传输系统等中抗噪声和失真干扰的声音识别系统。
背景技术
在传统技术中,在例如包含在汽车中的导航仪器等那样的电子设备中,能够进行人机通信的声音识别系统已经引起人们注意。如图3所示,根据信息处理算法构成的声音识别系统是众所周知的。
声音识别系统首先利用隐式马尔可夫模型(Hidden Markov Model,HMM)生成由字或子字(音素、音节等)组成的声学模型(声音HMM),当发出要识别的声音Ra时生成相对于讲话声音Ra而言是倒频谱的时间序列的观察值序列Ra(cep),将观察值序列Ra(cep)与声音HMM相对照,选择给出最大似然的声音HMM,并输出它作为识别结果。
更详细地说,声音识别系统配置了遵照HMM方法生成上述声音HMM的声音HMM生成部分5,该声音HMM生成部分5包括声音数据库1、逐帧分割单元2、倒频谱运算单元3、和练习(training)单元4。
逐帧分割单元2将已经经过实验采集的和存储在声音数据库1中的、测试对象的大量声音数据划分成每一个由10至20msec左右组成的帧,倒频谱运算单元3运算各个用倒频谱表示的逐帧数据,从而获得倒频谱的时间序列Rm(cep)。
接着,练习单元4进行处理,以练习作为声音的特征(特征矢量)的倒频谱的时间序列Rm(cep),并使其反映到声学模型(声音HMM)的参数上,从而事先生成由字或子字组成的声音HMM6。
当真正进行讲话时,逐帧分割单元7象逐帧分割单元2那样,将讲话声音的数据Ra划分成供输入用的帧,倒频谱运算单元8一个接着一个地运算各个逐帧讲话声音数据,从而生成作为倒频谱时间序列的观察值序列Ra(cep)。
并且,对照单元9将观察值序列Ra(cep)与用字或子字表示的声音HMM相对照,输出与观察值序列Ra(cep)相比具有最大似然的声音HMM,作为声音识别的结果。
然而,在图3所示的声音识别系统中,当采集声音数据Rm以生成声音HMM6时,会采集已经受到麦克风和电子传输系统中受可积性失真影响的声音数据Rm,而其中的问题在于,难以满意地生成准确的声音HMM6。
另外,当发出要识别的讲话声音Ra时,诸如室内噪声、背景噪声等的可加性噪声,和诸如从嘴巴到麦克风的空间传输特性、麦克风和电子传输系统中的传输特性等的可积性失真,都对观察值序列Ra(cep)产生负面影响,其中,这样的问题在于声音识别率降低了。
为了解决这些和其它问题,构筑几乎不受可加性噪声和可积性失真影响的声音识别系统,即,抗干扰声音识别系统是基本课题。
为了对付上述题目,本发明已经作了尝试,通过将HMM合成法应用于可加性噪声和将倒频谱平均归一化法(cepstrum means normalization method,CMN)应用于可积性失真,实现抗干扰声音识别系统。
图4是显示声音识别系统结构的方块图。声音识别系统配置了声音HMM10、初始噪声HMM17、初始合成HMM16和自适应HMM26,其中,当发出要识别的声音时,由对照单元29以字或子字为单位将已经通过发出的声音获得的、作为倒频谱时间序列的观察值序列RNa(cep)与自适应HMM26相互对照,并输出相对于观察值序列RNa(cep)具有最大似然的自适应HMM,作为声音识别的结果。
并且,由于如果应用HMM合成法的话,就会增加计算量,因此,为了通过减少运算量而实现高速处理,应用基于泰勒展开的模型自适应法。也就是说,通过提供雅可比矩阵计算单元19来试图减少运算量,雅可比矩阵计算单元19计算所谓“雅可比矩阵J”的泰勒展开一阶导数矩阵。
上述声音HMM10是通过HMM方法,利用采集的并不包括任何可加性噪声的讲话声音Rm事先生成的声学模型。也就是说,声音HMM10是通过根据与图3所示的声音HMM生成部分5的方法相似的HMM方法进行处理事先生成的。
此外,通过实验采集消声室中测试对象的讲话声音Rm,生成不受可加性噪声影响的声音HMM10。但是,由于无法消除麦克风和电子传输系统等中可积性失真带来的影响,声音HMM10成为可积性失真带来的影响仍然存在的声学模型。
因此,在假定经实验采集的讲话声音Rm由纯声音Sm(不包含任何可加性噪声和可积性失真的声音)和可积性失真Hm组成的情况下,如果用线性谱域(lin)表示讲话声音Rm,那么,它可以用纯声音Sm与可积性失真Hm相乘所得的线性谱积来表示,即,Rm(lin)=Sm(lin)Hm(lin)。此外,如果用倒频谱域(cep)表示讲话声音Rm,那么,它可以用纯声音Sm与可积性失真Hm相加所得的倒频谱和来表示,即,Rm(cep)=Sm(cep)+Hm(cep)。
并且,如果用线性谱域(lin)表示声音HMM10,那么,它可以用Rm(lin)=Sm(lin)Hm(lin)来表示。而如果用倒频谱域(cep)表示声音HMM10,那么,它可以用Rm(cep)=Sm(cep)+Hm(cep)来表示。
上述初始噪声HMM17是将非讲话期间的声音(对应于可加性噪声)收集起来作为初始噪声数据Nm,并利用初始噪声数据Nm练习的声学模型,初始噪声HMM17是通过与图3所示的声音HMM生成部分5中的处理相似的处理事先生成的。因此,如果用线性谱域(lin)表示初始噪声HMM17,它就变成Nm(lin),而如果用倒频谱域(cep)表示初始噪声HMM17,它就变成Nm(cep)。
初始合成HMM16是通过下列处理生成的。
将倒频谱域(cep)中的声音(声学模型)Rm(cep)=Sm(cep)+Hm(cep)从声音HMM10提供到平均计算单元11和减法器12,平均计算单元11通过对用于练习声学模型的声音数据库中的特征矢量求平均,和利用CMN法对声音HMM的平均矢量求平均,获得可积性失真的估计值Hm^(cep),并将其提供给减法器12。因此,在减法器12中进行Rm(cep)-Hm^(cep)的运算,减法器12输出消除了可积性失真的估计值Hm^(cep)的声音Sm′(cep)。
这里,通过进行估计值Hm^(cep)几乎等于可积性失真Hm(cep)的近似,假设已经获得了排除了任何可积性失真干扰的声音Sm′(cep)。
接着,倒频谱逆变换单元13将倒频谱域中的声音Sm′(cep)变换成线性谱域中的声音Sm′(lin),并将其提供给加法器14,同时,倒频谱逆变换单元13将从初始噪声HMM17中输出的、倒频谱域中的初始噪声Nm(cep)变换成线性谱域中的初始声音Nm(lin),并将其提供给加法器14,因而,加法器14通过将声音Sm′(lin)与线性谱域中的初始噪声Nm(lin)相加,生成叠加了可加性噪声的声音Rm′(lin)=Sm′(lin)+Hm′(lin),并将其提供给倒频谱变换单元15。
并且,倒频谱变换单元15将附加了可加性噪声的声音Rm′(lin)变换成倒频谱域中的附加了可加性噪声的声音Rm′(cep),并生成初始合成HMM16。
于是,使初始合成HMM16变成具有附加了可加性噪声的声音Rm′(cep)的特征的声学模型。该声学模型表示如下Rm′(cep)=cep[cep-1[Sm(cep)+Hm(cep)-Hm^(cep)]+Nm(lin)]=cep[Sm′(lin)+Nm(lin)]cep[Sm(lin)+Nm(lin)]……(1)此外,在上述表达式中,cep[]表示在倒频谱变换单元15中实现的倒频谱变换,和cep-1[]表示由倒频谱逆变换单元13和18实现的倒频谱逆变换。
接着,对雅可比矩阵计算单元19加以描述。如上所述,提供雅可比矩阵计算单元19是为了减少计算量。在假设实际使用环境中的可加性噪声Na(cep)与初始噪声HMM17中的初始噪声Nm(cep)之间的变化量ΔNm(cep)=Na(cep)-Nm(cep)很微小的情况下,通过泰勒展开获得合成模型与噪声谱的变化量ΔNm(cep)相对应的变化量,其中,依照获得的变化量来补偿初始合成模型16。并且,使通过补偿获得的声学模型变成自适应HMM26。
更详细地说,线性谱表示如下Rm(lin)=Sm(lin)+Nm(lin) ……(2)此处,Sm(lin)是不包括可积性失真和可加性噪声的纯声音Sm的线性谱;Rm(lin)是不包括可积性失真,但包括可加性噪声的声音Rm的线性谱;和Nm(lin)是可加性噪声Nm的线性谱。
此外,如果用倒频谱域中的术语表示包括可加性噪声的声音Rm,那么,下列表达式成立Rm(cep)=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Nm(cep)]))]……(3)其中,IDCT[]是离散余弦逆变换,DCT[]是离散余弦变换,log()是对数变换,和exp()是指数变换。
假设纯声音Sm不变化而在实际讲话环境中可加性噪声在Nm到Na范围内变化,初始合成模型ΔRm(cep)中的变化量,即作为包括Na的声音的Rmc(cep)和作为包括倒频谱域中Nm的声音的Rm(cep)之间的差值,能够近似地从表达式(3)的泰勒展开的一阶导数项得到,如下面的表达式(4)所示。ΔRm(cep)=∂Rm(cep)∂Nm(cep)ΔNm(cep)=J(ΔNm(cep))......(4)]]>其中Rm(cep)/Nm(cep)是雅可比矩阵,并且ΔNm(cep)=Na(cep)-Nm(cep)是在实际讲话环境中的可加性噪声与在倒频谱域中的初始噪声中的可加性噪声之间的差值。
表达式(4)还可以如下面的表达式(5)所示来表达。Rmc(cep)=Rm(cep)+∂Rm(cep)∂Nm(cep)(Na(cep)-Nm(cep))]]>=IDCT[log(exp(DCT[Sm(cep)])+exp(DCT[Na(cep)]))] ……(5)雅可比矩阵的第I行和第J列的元素通过下面的表达式(6)来计算。[J]ij=Σk=1pRm'(cep)kNm(cep)kFik-1Fkj......(6)]]>其中Fkj是余弦变换矩阵的第k行第j列的元素,而Fik-1是余弦逆变换矩阵的第i行第k列的元素。
因此,雅可比矩阵计算单元19能够通过利用从加法器14中接收的在线性谱域中的叠加了可加性噪声的声音Rm(lin)和从倒频谱逆变换单元18接收的在线性谱域中的初始噪声Nm(lin),依照表达式(6)事先计算出雅可比矩阵。
根据在实际讲话环境中生成的可加性噪声可以自适应地补偿初始合成HMM16。初始合成模型的变化量能够通过将可加性噪声之间的变化量ΔNm(cep)与雅可比矩阵J相乘而获得。因此,可以通过将合成模型中的变化量附加到初始合成模型中生成自适应模型。
接着,对生成自适应HMM26的处理加以描述。
随着用户打开配备在声音识别系统中的讲话开始开关(未示出),麦克风(未示出)采集讲话声音,并且逐帧分割单元20以指定的时间间隔为单位分割讲话声音的数据Ra。进一步,倒频谱运算单元21将数据Ra变成倒频谱域(cep)中的讲话声音数据Ra(cep)。
首先,随着用户打开上述讲话开始开关,转换单元22在实际开始讲话之前的非讲话期间内切换到触点“a”一侧。因此,在用户试图讲话的环境中背景噪声(可加性噪声)Na的倒频谱Na(cep)通过转换单元22提供给减法器23。
减法器23从背景噪声Na的倒频谱Na(cep)中减去初始噪声Nm的倒频谱Nm(cep),并将相减的结果Na(cep)-Nm(cep)提供给乘法器24,其中乘法器24将上述相减结果Na(cep)-Nm(cep)与雅可比矩阵J相乘,并将相乘结果J[Na(cep)-Nm(cep)]提供给加法器25。加法器25以字或子字为单位将相乘结果J[Na(cep)-Nm(cep)]加入初始合成HMM16的声学模型Rm^(cep)中,从而,生成已经得到实际讲话环境中的背景噪声Na自适应补偿的自适应HMM26。也就是说,如果用倒频谱域(cep)中的术语表示自适应HMM26,那么,下列表达式成立Radp(cep)=Rm′(cep)+J[Na(cep)-Nm(cep)]cep[Sm(lin)+Na(lin)] ……(7)此外,在表达式(7)中,cep[]表示倒频谱变换。
因此,当生成自适应HMM26生成时,转换单元22切换到触点“b”一侧,并输入要识别的讲话声音Ra,作为倒频谱域中的讲话声音Ra(cep)。这里,如果假设讲话声音Ra(cep)包含纯声音Sa、可积性失真Ha、和可加性噪声Na的线性谱的Sa(lin)、Ha(lin)和Na(lin),那么,倒频谱域中的讲话声音Ra(cep)表示成Ra(cep)=cep[Sa(lin)Ha(lin)+Na(lin)]
因此,平均计算单元27通过CMN法获得可积性失真Ha(cep)的估计值Ha^(cep),减法器28从讲话声音Ra(cep)中减去估计值Ha^(cep),其中,将相减的结果Ra(cep)-Ha^(cep)提供给对照单元29,作为观察值序列RNa(cep)。
并且,对照单元29以字或子字为单位将观察值序列RNa(cep)与自适应HMM26相对照,并输出相对于观察值序列RNa(cep)具有最大似然的自适应HMM,作为识别的结果。也就是说,观察值序列RNa(cep)可以用下列表达式来表示。
RNa(cep)=Ra(cep)-Ha^(cep)=cep[sa(lin)Ha(lin)Ha^(lin)+Na(lin)Ha^(lin)]]]> 通过将上述表达式(8)所表示的、观察值序列的特征矢量RNa(cep)与上述表达式(7)所示的自适应HMM26 Radp(cep)的那些特征矢量相对照,实现声音识别。
但是,在如图4所示的、本发明人提出的声音识别系统中,通过将自适应HMM26与讲话声音的观察值序列Radp(cep)相对照,实现声音识别。然而,问题在于还没有建立起作为对应观察值序列RNa(cep)的充分模型的自适应HMM26。
也就是说,在将上述表达式(7)与上述表达式(8)相比较的情况下,自适应HMM 26的特征在于,将可加性噪声的线性谱Na(lin)加入纯声音的线性谱Sm(lin)当中,并将其转换成倒频谱。但是,观察值序列RNa(cep)的特征在于,将可加性噪声的线性谱Na(lin)与可积性失真的线性谱Ha^(lin)之比Na(lin)/Ha^(lin)加入纯声音的线性谱Sm(lin)当中,并将其变换倒倒频谱域中。
因此,自适应HMM26不是那种可以完全消除可积性失真带来的影响的模型。这样,在对照单元29将自适应HMM26与观察值序列RNa(cep)相对照的情况下,会出现自适应HMM26不能完全模仿观察值序列RNa(cep)的情况。最后,存在着无法提高声音识别率的问题。

发明内容
本发明的目的是克服这些和其它问题,为此,提供一种抗可加性噪声和可积性失真干扰的声音识别系统。
为了实现上述目的,根据本发明的声音识别系统包括声音模型,从事先采集的和包含可积性失真的声音中生成;噪声模型,从事先采集的可加性噪声中生成;第一估计单元,估计包含在声音模型中的可积性失真;合成声音模型,根据附加了噪声的声音生成,所述附加了噪声的声音是通过将声音模型、第一估计单元估计的可积性失真的第一估计值和噪声模型的可加性噪声合成在一起的处理获得的;计算单元,根据噪声模型的可加性噪声和附加了噪声的声音计算雅可比矩阵;第二估计单元,估计包含在讲话声音中的可积性失真;第一运算单元,通过将在非讲话期间生成的可加性噪声、噪声模型的可加性噪声和第二估计单元估计的可积性失真的第二估计值合成在一起的处理,获得噪声变化量,同时将噪声变化量与计算单元计算的雅可比矩阵相乘;自适应模型,通过将第一运算单元获得的相乘结果与合成声音模型合成在一起的处理生成;和第二运算单元,通过将讲话声音、第二估计单元估计的可积性失真的第二估计值合成在一起的处理,生成观察值序列;其中,声音识别是通过将观察值序列与自适应模型相对照实现的。
根据如上所述构成的声音识别系统,通过将含有可积性失真的声音模型、由第一估计单元估计的可积性失真的第一估计值和噪声模型的可加性噪声合成在一起的处理,生成附加了噪声的声音,并从附加了噪声的声音中生成合成声音模型。
此外,通过将在非讲话期间生成的可加性噪声、噪声模型的可加性噪声和第二估计单元估计的噪声(可积性失真)的第二估计值合成在一起的处理,生成噪声变化量。
此外,从噪声模型的可加性噪声和附加了噪声的声音(即,通过将含有可积性失真的声音模型、由第一估计单元估计的可积性失真的第一估计值和噪声模型的可加性噪声合成在一起的处理获得的声音)中计算出雅可比矩阵。
通过将噪声变化量与雅可比矩阵相乘的结果与合成声音模型合成在一起的处理,生成自适应模型。也就是说,自适应模型成为含有合成声音模型以及噪声变化量和雅可比矩阵的信息的模型。
当发出声音时,第二运算单元通过将由第二估计单元估计的可积性失真的第二估计值与包括可积性失真和可加性噪声的讲话声音合成在一起的处理,生成观察值序列。
并且,通过将观察值序列与自适应模型相对照,实现声音识别。
这里,与观察值序列相对照的自适应模型包括与包含在观察值序列中的噪声成分相匹配的噪声成分。因此,如果将上述观察值序列与自适应模型相对照,则可以抵消由噪声成分带来的影响,和能产生与将声音模型的纯声音与发出的纯声音相对照所得的效果几乎相同的效果。因此,可以实现抗可积性失真和可加性噪声干扰的合适声音识别系统。
此外,为了实现上述目的,根据本发明的声音识别系统包括声音模型,从事先采集的包含可积性失真的声音中生成;噪声模型,从事先采集的可加性噪声中生成;第一估计单元,估计包含在声音模型中的可积性失真;第二估计单元,根据识别结果,估计包括在声音模型中的包含根据讲话声音变化的误差的可积性失真;第一运算单元,将噪声模型的可加性噪声与第一估计单元估计的可积性失真的第一估计值合成在一起;合成声音模型,根据通过将第一运算单元的合成结果与声音模型合成在一起的处理所得的附加了噪声的声音生成;计算单元,从第一运算单元所得的合成结果和附加了噪声的声音中计算雅可比矩阵;第三估计单元,估计包括在讲话声音中的包含根据讲话声音变化的误差的可积性失真;第二运算单元,通过将在非讲话期间生成的可加性噪声、第一运算单元所得的合成结果、第二估计单元估计的包含根据讲话声音变化的误差的可积性失真的第二估计值和第三估计单元估计的包含根据讲话声音变化的误差的可积性失真的第三估计值合成在一起的处理,获取噪声变化量,同时通过计算单元将噪声变化量与雅可比矩阵相乘;自适应模型,通过将第二运算单元获得的相乘结果与合成声音模型合成在一起的处理生成;和第三运算单元,通过将讲话声音与第三估计单元估计的包含根据讲话声音变化的误差的可积性失真的第三估计值合成在一起的处理,生成观察值序列;其中,声音识别是通过将观察值序列与自适应模型相对照实现的。
根据如上所述构成的声音识别系统,通过将噪声变化量与雅可比矩阵相乘的结果与合成声音模型合成在一起的处理,生成自适应模型。也就是说,自适应模型成为包括合成声音模型、噪声变化量和雅可比矩阵的信息的模型。
并且,当发出声音时,第三估计单元通过将由第二估计单元估计的可积性失真的第三估计值、由第三估计单元估计的可积性失真的第三估计值和包括可积性失真和可加性噪声的讲话声音合成在一起的处理,生成观察值序列,通过将观察值序列与自适应模型相对照,实现声音识别。
这里,与观察值序列相对照的自适应模型包括与包含在观察值序列中的噪声成分相匹配的噪声成分。因此,如果将上述观察值序列与自适应模型相对照,则可以抵消由噪声成分带来的影响,和能产生与将声音模型的纯声音与发出的纯声音相对照所得的效果几乎相同的效果。因此,可以实现抗可积性失真和可加性噪声干扰的合适声音识别系统。


图1是显示根据第一实施例的声音识别系统的结构的方块图;图2是显示根据第二实施例的声音识别系统的结构的方块图;图3是显示传统技术中的声音识别系统的结构的方块图;和图4是显示当开发本发明的声音识别系统时,本发明人设计和研究的声音识别系统的结构的方块图。
具体实施例方式
下面参照附图,对本发明的实施例加以描述。此外,图1是显示根据本发明的声音识别系统的第一实施例的结构的方块图,和图2是显示第二实施例的结构的方块图。
首先,在描述第一和第二实施例之前,对参考符号加以描述。
假设用于生成如后所述的声音HMM10、时间域中的声音是Rm,用于生成初始噪声HMM17的在时间域中的可加性噪声是Nm,和在实际发出声音中的时间域中的讲话声音是Ra。
另外,上述声音Rm是事先采集的,并由可积性失真Hm和不包括噪声的纯声音Sm组成。此外,讲话声音是Ra由可积性失真Ha、可加性噪声Na和不包括噪声的纯声音Sa组成。另外,当不发出声音时的,诸如室内噪声之类的背景噪声被称为Na。
并且,线性谱域中的信息用(lin)表示,倒频谱域中的信息用(cep)表示。例如,倒频谱域中初始噪声HMM17的声学模型的标记被称为Nm(cep),线性谱域中初始噪声HMM17的声学模型的标记被称为Nm(lin)。第一实施例现在参照图1,对第一实施例加以描述。另外,在图1中,与图4中相应部分相同或相似的那些部分给予相同的标号。
声音识别系统配置了声音HMM10、初始噪声HMM17、初始合成HMM16、用于当产生时显著减少运算或计算量的雅可比矩阵计算单元19和自适应HMM26,其中,当发出要识别的声音时,由对照单元29以字或子字为单位将从发出的声音获得的、作为倒频谱时间序列的观察值序列RNa(cep)与自适应HMM26相对照,并输出相对于观察值序列RNa(cep)具有最大似然的自适应HMM,作为声音识别的结果。
声音HMM10是通过HMM方法,利用经过实验采集的和不包括可加性噪声的声音Rm事先生成的声学模型。但是,虽然通过实验采集消声室中测试对象的声音Rm,生成不受可加性噪声带来的影响的声音HMM10,但由于无法消除麦克风和电子传输系统等中可积性失真带来的影响,因此,声音HMM10是可积性失真带来的影响仍然存在的那一种。
因此,如果用线性谱域(lin)表示声音HMM10,那么,它可以用纯声音Sm和可积性失真Hm的线性谱Sm(lin)和Hm(lin)的乘积Rm(lin)=Sm(lin)Hm(lin)来表示,并且如果用倒频谱域(cep)表示声音HMM10,那么,它可以用纯声音Sm和可积性失真Hm的倒频谱Sm(cep)和Hm(cep)的和Rm(cep)=Sm(cep)+Hm(cep)来表示。
初始噪声HMM17是通过上述实验将非讲话期间的声音(相当于可加性噪声)收集起来作为初始噪声数据Nm,并利用初始噪声数据Nm事先练习的声学模型。因此,如果用线性谱域(lin)表示初始噪声HMM17,它就变成Nm(lin),而如果用倒频谱域(cep)表示初始噪声HMM17,它就变成Nm(cep)。
初始合成HMM16是通过将线性谱域中声音HMM10的声学模型和初始噪声HMM17的声学模型相加,并将相加结果变换成倒频谱域中的声学模型事先生成的。
也就是说,在发出实际要识别的声音之前,将声音(声学模型)Rm(cep)=Sm(cep)+Hm(cep)从声音HMM10提供到平均计算单元11和减法器12。平均计算单元11利用CMN方法获得可积性失真Hm(cep)的估计值Hm^(cep),接着,减法器12进行Rm(cep)-Hm^(cep)的运算,从而生成从中消除了可积性失真的估计值Hm^(cep)的声音Sm′。另外,倒频谱逆变换单元13将倒频谱域中的声音Sm′(cep)变换成线性谱域中的声音Sm′(lin),同时,倒频谱逆变换单元18将来自初始噪声HMM17的、倒频谱域中的初始噪声Nm(cep)(初始噪声的声学模型)变换成线性谱域中的初始声音Nm(lin),和加法器14将线性谱域中的声音Sm′(lin)与初始噪声Nm(lin)相加,从而生成附加了可加性噪声的声音Rm′(lin)=Sm′(lin)+Nm(lin)。并且,倒频谱变换单元15将附加了可加性噪声的声音Rm′(lin)变换成倒频谱域中的附加了可加性噪声的声音Rm′(cep),其中生成初始合成HMM16。
因此,使初始合成HMM16变成了具有如上述表达式(1)所表示的附加了可加性噪声的声音Rm′(cep)的特征的声学模型。
雅可比矩阵计算单元19输入由倒频谱逆变换单元18生成的初始噪声Nm(lin)和由加法器14生成的附加了可加性噪声的声音Rm′(lin),并将这些线性谱域中的初始噪声Nm(lin)和附加了可加性噪声的声音Rm′(lin)变换成倒频谱域中的那些相应量。通过将这些量引入上述表达式(6)中,每个用于子字的合成HMM事先生成作为泰勒展开的一阶导数矩阵的雅可比矩阵J=Rm′(cep)/Nm(cep)。
自适应HMM26是通过响应于用户打开配备在声音识别系统中的讲话开始开关(未示出),在真正开始讲话之前经麦克风(未示出)采集的并与可加性噪声相对应的背景噪声,自适应地补偿初始合成HMM16而生成的声学模型,其中自适应HMM26是在开始真正的讲话之前事先生成的。
另外,声音识别系统配置了逐帧分割单元20、倒频谱运算单元21、转换单元22、加法器和减法器23、乘法器24、加法器25、平均计算单元27、和减法器28。
当通过打开上述讲话开始开关使麦克风进入声音收集状态时,逐帧分割单元20接收从麦克风输出的并经过模拟-数字转换的背景噪声Na(对应于可加性噪声)和讲话声音Ra的输入,并在逐帧地分割它们之后,按照指定的间隔输出。
倒频谱运算单元21将逐帧背景噪声Na和讲话声音Ra变换成倒频谱,生成和输出背景噪声Na和讲话声音Ra的倒频谱Na(cep)和Ra(cep)。
转换单元22在打开上述讲话开始开关真正开始讲话之前的非讲话期间内切换到触点“a”一侧,从而,将背景噪声的倒频谱Na(cep)提供给加法器和减法器23一侧。并且,转换单元22在真正开始讲话期间切换到触点“b”一侧,从而将讲话声音的倒频谱Ra(cep)提供给平均计算单元27和加法器28一侧。
平均计算单元27通过CMN方法运算几种讲话声音的倒频谱Ra(cep)以便获得平均值,并获得包含在倒频谱Ra(cep)中的可积性失真Ha的估计值Ha^(cep)。
此外,平均计算单元27配置了诸如半导体存储器之类的存储估计值Ha^(cep)的存储单元(未示出),和每当操作讲话开始开关时,存储单元输出在最后一次发出声音时已经获得的估计值Ha^(cep),并且利用此时的讲话声音将估计值Ha^(cep)更新和存储新的估计值Ha^(cep)。
加法器和减法器23通过在倒频谱域中进行运算,从背景噪声Na(cep)中减去可积性失真Ha的估计值Ha^(cep)和初始噪声Nm(cep),从而获得由下列表达式表示的可加性噪声倒频谱变化量Namh(cep),将其提供给乘法器24。Namh(cep)=Na(cep)-Ha^(cep)-Nm(cep) ……(9)乘法器24将可加性噪声倒频谱变化量Namh(cep)与雅可比矩阵J相乘,将相乘结果J[Namh(cep)]=J[Na(cep)-Ha^(cep)-Nm(cep)]提供给加法器25。
加法器25以字或子字为单位将上述相乘结果J[Namh(cep)]与初始合成HMM16的声学模型Rm′(cep)相加,从而生成已经通过在实际讲话环境中背景噪声Na自适应补偿的自适应HMM16。也就是说,如果用倒频谱域(cep)中的术语表示自适应HMM16,那么,下列表达式成立Radp′(cep)=Rm′(cep)+J[Namh(cep)]=Rm′(cep)+J[Na(cep)-Ha^(cep)-Nm(cep)]=cep[Sm(lin)+Na(lin)Na^(lin)]......(10)]]>此外,上面表达式(10)中的cep[]表示倒频谱变换。
接着,对这样的声音识别系统的操作加以描述。
首先,如上所述,在开始真正的声音识别之前,事先准备好声音HMM10、初始噪声HMM17和初始合成HMM16,并且,由雅可比矩阵计算单元19准备雅可比矩阵J。
接着,随着用户打开讲话开始开关,麦克风(未示出)进入声音收集状态,转换单元22在开始真正讲话之前的非讲话期间内切换到触点“a”一侧,其中输入背景噪声Na。因此,背景噪声Na的倒频谱Na(cep)通过逐帧分割单元20、倒频谱运算单元21和转换单元22提供给加法器和减法器23。进一步,将来自平均计算单元27的、在最后一次讲话中已经获得的、可积性失真的估计值Ha^(cep)给予加法器和减法器23,并且从初始噪声HMM17提供初始噪声Nm(cep)。
而且,加法器和减法器23获取上述表达式(9)所表示的可加性噪声倒频谱变化量Namh(cep),乘法器24将这个可加性噪声倒频谱变化量Namh(cep)与雅可比矩阵J相乘。接着,加法器25以字或子字为单位将相乘结果J[Namh(cep)]与初始合成HMM16相加,从而生成自适应HMM26。
然后,当自适应HMM26的生成已完成时,转换单元22切换到触点“b”一侧。随着用户真正发出声音,逐帧分割单元20和倒频谱运算单元21使讲话声音Ra变成倒频谱域中的讲话声音Ra(cep),并通过转换单元22将其提供给平均计算单元27。
从而,平均计算单元27通过CMN方法,重新生成包含在讲话声音Ra(cep)中的可积性失真Ha在倒频谱域中的估计值Ha^(cep),并存储它。同时,将重新生成的估计值Ha^(cep)提供给加法器和减法器28。
而且加法器和减法器28通过从讲话声音Ra(cep)中减去估计值Ha^(cep),生成消除了可积性失真的观察值序列RNa(cep)=Ra(cep)-Ha^(cep),对照单元29以字或子字为单元将观察值序列RNa(cep)与自适应HMM26相对照,其中输出获得了最大似然的自适应HMM,作为声音识别的结果。
这里,正如上述表达式(8)所示的,观察值序列RNa(cep)的特征在于,将可加性噪声的线性谱Na(lin)与可积性失真的线性谱Ha^(lin)之比Na(lin)/Ha^(lin)加入纯声音的线性谱Sa(lin)当中,并将其转换成倒频谱。另一方面,正如上述表达式(10)所示的,自适应HMM26的特征在于,将可加性噪声的线性谱Na(lin)与可积性失真的线性谱Ha^(lin)之比Na(lin)/Ha^(lin)加入纯声音的线性谱Sm(lin)当中,并将其转换成倒频谱。
也就是说,由于使自适应HMM26的噪声谱和观察值序列RNa(cep)的噪声谱两者都变成了Na(lin)/Ha^(lin),因此,自适应HMM26变成与观察值序列RNa(cep)相匹配的声学模型。
此外,由于当对照单元29将观察值序列RNa(cep)与自适应HMM26相对照时,两个噪声谱都是Na(lin)/Ha^(lin),因此,自适应HMM26和观察值序列RNa(cep)的噪声(可加性噪声和可积性失真)所带来的影响基本上相互抵消,可以将纯声音Sm(cep)与纯讲话声音Sa(cep)相对照,其中声音识别率可以得到进一步的提高。
因此,根据本实施例的声音识别系统,可以使自适应HMM26变成与当真正讲话出现时获得的观察值序列RNa(cep)相匹配的声学模型,并将其构造成能够对付可加性噪声和可积性失真。因此,这种声音识别系统是抗可加性噪声和可积性失真干扰的,并且可以提高声音识别率。此外,由于已经实现了足以应用雅可比矩阵的配置,因此,可以显著地缩短声音识别所需的时间。第二实施例下面参照图2,对根据第二实施例的声音识别系统加以描述。此外,在图2中,给予与图1中相应部分相同或相似的那些部分以相同的标号。
在图2中,对与第一实施例不同的那些点作如下描述。根据第二实施例的声音识别系统配置了两个平均计算单元11a和11b、加法器12a、加法器和减法器23a、和加法器30。
另外,没有提供图1所示的减法器12。因此,声音HMM10在倒频谱域中的声音Rm(cep)被直接提供给倒频谱逆变换单元13。
第一平均计算单元11a通过获取声音HMM10的平均矢量的总平均值,获得大量声音HMM的平均值,并获得可积性失真的估计值Hm1^(cep)。
通过对在最后一次讲话中进行Ha^估计(如后所述)用的讲话声音的范围(相当于过去数次讲话)内的与识别结果相对应的子字声音HMM的平均矢量求平均,第二平均计算单元11b生成包括真正可积性失真Hm(cep)和根据讲话声音变化的可积性失真的误差Hme(cep)的可积性失真的新估计值Hm2^(cep)=Hm(cep)+Hme(cep)。
加法器12a将来自初始噪声HMM17的初始噪声Nm(cep)与来自第一平均计算单元11a的估计值Hm1^(cep)相加,并将相加结果Nmb(cep)=Nm(cep)+Hm1^(cep)提供给加法器和减法器23a和倒频谱逆变换单元18。
除了来自上述加法器12a的相加结果Nmh(cep)之外,还将来自第二平均计算单元11b的估计值Hm2^(cep)给予加法器和减法器23a。并且,还将来自平均计算单元27的估计值Ha^(cep)、和非讲话期间的背景噪声Na(cep)给予加法器和减法器23a,从而,加法器和减法器23a生成如下列表达式(11)所表示的、用于生成自适应HMM26的可加性噪声倒频谱变化量Namh′(cep)。
Namh′(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nmh(cep)=Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep) ……(11)如上所示,本实施例的初始合成HMM16是通过由加法器12a已经生成的相加结果Nmh(cep)、和还没有消除来自声音HMM10的可积性失真Hm的声音Rm(cep)事先生成的。也就是说,倒频谱逆变换单元13将还没有消除可积性失真Hm的声音Rm(cep)变换成线性谱域中的声音Rm(lin),和倒频谱逆变换单元18将上述相加结果Nmh(cep)变换成线性谱域中的相加结果Nmh(lin)。并且,加法器14将Rm(lin)与Nmh(lin)彼此相加。倒频谱变换单元15将通过加法器14生成的附加了可加性噪声的声音Rmh(lin)=Rm(lin)+Nmh(lin)变换成倒频谱域中的附加了可加性噪声的声音Rmh(cep),从而生成初始合成HMM16。
因此,初始合成HMM16由下列表达式(12)表示。
Rmh(cep)=Rm(cep)+Nm(cep)+Hm1^(cep)=Sn(cep)+Hm(cep)+Nm(cep)+Hm1^(cep)=cep[Rmh(lin)]=cep[Sm(lin)Hm(lin)+Nm(lin)Hm1^(lin)] ……(12)
此外,表达式(12)中的cep[]表示倒频谱变换。
在根据本实施例的平均计算单元27中,如果讲话声音Ra的倒频谱Ra(cep)是在讲话期间通过转换单元22的触点“b”提供的,那么,随讲话声音变化的可积性失真的误差Hae(cep)包括在附加到Ra(cep)中的真正可积性失真Ha(cep)中,可积性失真的估计值由Ha^(cep)=Ha(cep)+Hae(cep)表示。
因此,图2所示的平均计算单元27与图1所示的第一实施例的平均计算单元27不同之处在于,假设上面的Ha^(cep)等于Ha(cep),而假设本实施例的Ha^(cep)等于Ha(cep)+Hqe(cep),其中Hae是随讲话的内容而改变的可积性失真的估计值的误差。如果识别结果是正确的,则使讲话的内容与识别结果相同。当估计Hm2^时,通过利用识别结果,用于估计Ha^的讲话内容被使用。因此,建立了HaeHme,并且从而随讲话声音而变化的可积性失真中的误差能够假设等同于Hm2^和Ha^。
根据本发明的雅可比矩阵计算单元19接收由倒频谱逆变换单元18生成的噪声Nmh(lin)和加法器14生成的附加了可加性噪声的声音Rmh(lin),并将其引入到上述表达式(6)中,其中泰勒展开的一阶导数J=Rm(cep)/Nm(cep)是作为雅可比矩阵J事先产生的。
并且,乘法器24将雅可比矩阵J与来自加法器和减法器23a的可加性噪声的倒频谱变化量Namh′(cep)相乘,并将相乘结果J[Namh′(cep)]提供给加法器25。进一步,加法器25将相乘结果J[Namh′(cep)]与初始合成HMM16相加,从而生成自适应HMM26。
此外,根据上述表达式(11),使相乘结果J[Namh′(cep)]变成J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)],于是,自适应HMM 26成为Radp′(cep)=Rmh(cep)+J[Na(cep)+Hm2^(cep)-Ha^(cep)-Nm(cep)-Hm1^(cep)]=ecp[Sm(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(13)]]>加法器30将来自第二平均计算单元11b的估计值Hm2^(cep)与由加法器和减法器28提供的讲话声音Ra(cep)与估计值Ha^(cep)之间的差值Ra(cep)-Ha^(cep)相加,生成观察值序列RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep),并将其提供给对照单元29。
因此,如表达式(14)所示,观察值序列RNah(cep)成为RNah(cep)=Ra(cep)-Ha^(cep)+Hm2^(cep)=cep[Sa(lin)Ha(lin)Hm2^(lin)Ha^(lin)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Ha(lin)Hm(lin)Hae(cep)Ha(lin)Hme(cep)+Na(lin)Hm2^(lin)Ha^(lin)]]]>=cep[Sa(lin)Hm(lin)+Na(lin)Hm2^(lin)Ha^(lin)]......(14)]]>下面对如上所述构成的声音识别系统的操作加以描述。
首先,如上所述,在开始真正的声音识别之前,事先准备好声音HMM10、初始噪声HMM17和初始合成HMM16,并且,由雅可比矩阵计算单元19准备雅可比矩阵J。
随着用户打开讲话开始开关,麦克风(未示出)进入声音收集状态,转换单元22在开始真正讲话之前的非讲话期间内切换到触点“a”一侧,其中输入背景噪声Na。因此,背景噪声Na的倒频谱Na(cep)通过逐帧分割单元20、倒频谱运算单元21和转换单元22提供给加法器和减法器23a。进一步,将平均计算单元27在最后一次讲话中已经获得的可积性失真的估计值Ha^(cep)提供给加法器和减法器23a。同时,将来自加法器12a的噪声Nmh(cep)和来自第二平均计算单元11b的估计值Hm2^(cep)也提供给它。通过对在最后一次讲话中进行Ha^估计(如后所述)用的讲话声音范围(相当于过去数次讲话)内的与识别结果相对应的子字声音HMM的平均矢量求平均,可以估计出HM2^(cep)。
并且,加法器和减法器23a获取上述表达式(11)所表示的可加性噪声的倒频谱变化量Namh′(cep),乘法器24将这个可加性噪声的倒频谱变化量Namh′(cep)与雅可比矩阵J相乘。接着,加法器25以字或子字为单位将相乘结果J[Namh′(cep)]与初始合成HMM16相加,生成自适应HMM26。
然后,当自适应HMM26的生成已完成时,转换单元22切换到触点“b”一侧。随着用户真正发出声音,逐帧分割单元20将讲话声音Ra分割成帧,并且倒频谱运算单元21使讲话声音Ra变成倒频谱域中的讲话声音Ra(cep),其中通过转换单元22将其提供给平均计算单元27和减法器28。
从而,平均计算单元27更新和存储可积性失真Ha在倒频谱域中的估计值Ha^(cep)。在更新之前,将最后一次讲话中估计出来的Ha^(cep)提供给加法器和减法器28。
加法器和减法器28通过从讲话声音Ra(cep)中减去估计值Ha^(cep),生成消除了可积性失真的观察值序列RNah(cep)=Ra(cep)-Ha^(cep),对照单元29以字或子字为单元将观察值序列RNah(cep)与自适应HMM26相对照,其中输出具有最大似然的自适应HMM,作为声音识别的结果。
这里,观察值序列RNah(cep)由上述表达式(14)来表示,和自适应HMM26由上述表达式(13)来表示。也就是说,由于观察值序列RNah(cep)的噪声谱和自适应HMM 26的噪声谱变成了Na(lin)Hm2^(lin)/Ha^(lin),因此,自适应HMM26变成与观察值序列RNa(cep)相匹配的声学模型。
此外,当对照单元29将观察值序列RNa(cep)与自适应HMM26相对照时,由于噪声谱Na(lin)Hm2^(lin)/Ha^(lin)对于RNa(cep)与自适应HMM26是相同的,所以,可积性失真Hm(cep)叠加在纯声音Sm(cep)上面的声音Sm(cep)Hm(cep)与可积性失真Ha(cep)叠加在纯声音Sa(cep)上面的声音Sa(cep)Ha(cep)相互对照。因此,可以通过基本抵消Na(lin)Hm2^(lin)/Ha^(lin)的影响来对它们加以对照,并且,可以通过基本抵消由于可积性失真Hm(cep)和Ha(cep)带来的影响来对它们加以对照。也就是说,可以基本抵消可加性噪声和可积性失真两者带来的影响,其中,由于可以将纯声音Sm(cep)与纯声音Sa(cep)相互对照,因此,可以进一步提高声音识别率。
因此,根据本实施例的声音识别系统,可以使自适应HMM26变成与在真正讲话时获得的观察值序列RNah(cep)相匹配的声学模型,同时,由于系统被构造成足以对付可加性噪声和可积性失真,因此,这种声音识别系统是抗可加性噪声和可积性失真干扰的,其中声音识别率可以得到提高。此外,由于实现了足以应用雅可比矩阵的配置,因此,可以显著缩短声音识别所需的时间。
在上述第一和第二实施例的描述中,诸如声音与噪声相加和声音与噪声相减之类的运算是在线性谱域和倒频谱域中实现的,在本说明书中,术语“合成”指的是加法和减法的运算。因此,例如,即使在图2中的减法器28中的Ha^(cep)与Ra(cep)相减也可以描述为“Ra(cep)和Ha^(cep)的合成”或“合成Ra(cep)和Ha^(cep)”。
如上所述,本发明的声音识别系统被构造成能从声音模型和噪声模型中生成合成声音模型,同时,根据用作参考模型的合成声音模型生成事先包括可积性失真和可加性噪声的信息的自适应模型,其中,当真正开始讲话时,通过将从讲话声音中生成的观察值序列和自适应模型相对照来实现声音识别,和把自适应模型构造成能与观察值序列相匹配。因此,可以提供抗可积性失真和可加性噪声干扰的和能够充分进行声音识别的声音识别系统。
此外,可以提供最好被构造成通过利用雅可比矩阵在运算量或计算量方面显著减少的声音识别系统,从而可以提供高速声音识别系统。
权利要求
1.一种声音识别系统,包括声音模型,从事先采集的、包含可积性失真的声音中生成;噪声模型,从事先采集的可加性噪声中生成;第一估计单元,估计包含在声音模型中的可积性失真的第一估计值;合成声音模型,根据附加了噪声的声音生成,所述声音是通过合成声音模型、可积性失真的第一估计值和噪声模型的可加性噪声进行处理而得到的;计算单元,根据噪声模型的可加性噪声和附加了噪声的声音计算雅可比矩阵;第二估计单元,估计包含在讲话声音中的可积性失真的第二估计值;第一运算单元,通过将在非讲话期间生成的可加性噪声、噪声模型的可加性噪声、和第二估计单元估计的可积性失真的第二估计值合成在一起的处理,获得噪声变化量,所述第一运算单元同时将噪声变化量与计算单元计算的雅可比矩阵相乘;自适应模型,通过将第一运算单元获得的相乘结果与合成声音模型合成在一起的处理生成;和第二运算单元,通过将讲话声音与第二估计单元估计的可积性失真的第二估计值合成在一起的处理,生成观察值序列;其中,声音识别是通过将观察值序列与自适应模型相对照实现的。
2.根据权利要求1所述的声音识别系统,其中,第一估计单元通过从倒频谱域中非讲话期间生成的可加性噪声中减去噪声模型的可加性噪声和由第二估计单元估计的可积性失真的第二估计值,实现合成处理。
3.一种声音识别系统,包括声音模型,从事先采集的、包含可积性失真的声音中生成;噪声模型,从事先采集的可加性噪声中生成;第一估计单元,估计包含在声音模型中的可积性失真的第一估计值;第二估计单元,根据识别结果,估计声音模型中包含随讲话声音变化的误差的可积性失真的第二估计值;第一运算单元,将噪声模型的可加性噪声与第一估计单元估计的可积性失真值合成在一起;合成声音模型,根据通过将第一运算单元的合成结果与声音模型合成在一起的处理所得的附加了噪声的声音生成;计算单元,从第一运算单元所得的合成结果和附加了噪声的声音中计算雅可比矩阵;第三估计单元,估计真正讲话声音中包含随真正讲话声音变化的误差的可积性失真的第三估计值;第二运算单元,通过将在非讲话期间生成的可加性噪声、第一运算单元所得的合成结果、第二估计单元估计的第二估计值、和第三估计单元估计的的第三估计值合成在一起的处理,获取噪声变化量,同时第二运算单元将噪声变化量与计算单元计算的雅可比矩阵相乘;自适应模型,通过将第二运算单元获得的相乘结果与合成声音模型合成在一起的处理生成;和第三运算单元,通过将真正讲话声音与第二估计单元估计的第二估计值和第三估计单元估计的第三估计值合成在一起的处理,生成观察值序列;其中,声音识别是通过将观察值序列与自适应模型相对照实现的。
4.根据权利要求3所述的声音识别系统,其中,第二运算单元通过从倒频谱域中非讲话期间生成的可加性噪声中加上第二估计单元估计的第二估计值,减去第一运算单元产生的合成结果以及第三估计单元估计的第三估计值,实现合成处理。
5.一种声音识别方法,包括下列步骤从事先采集的和包含可积性失真的声音中生成声音模型;从事先采集的可加性噪声中生成噪声模型;估计包含在声音模型中的可积性失真的第一估计值;将声音模型、可积性失真的第一估计值和噪声模型的可加性噪声合成在一起,以从附加了噪声的声音中生成合成声音模型;根据噪声模型的可加性噪声和附加了噪声的声音,计算雅可比矩阵;估计包含在讲话声音中的可积性失真的第二估计值;将在非讲话期间生成的可加性噪声、噪声模型的可加性噪声、和第二估计值合成在一起,获得噪声变化量,将噪声变化量与雅可比矩阵相乘;将在相乘步骤中获得的相乘结果与合成声音模型合成在一起,生成自适应模型;和将讲话声音与第二估计值合成在一起,生成观察值序列;将观察值序列与自适应模型相对照,以实现声音识别。
6.根据权利要求5所述的声音识别方法,其中,合成步骤从倒频谱域中非讲话期间产生的可加性噪声中减去噪声模型的可加性噪声和由第二估计单元估计的可积性失真的第二估计值。
7.一种声音识别方法,包括下列步骤从事先采集的和包含可积性失真的声音中生成声音模型;从事先采集的可加性噪声中生成噪声模型;估计包含在声音模型中的可积性失真的第一估计值;根据识别结果,估计声音模型中包含随讲话声音变化的误差的可积性失真的第二估计值;将噪声模型的可加性噪声与可积性失真的第一估计值合成在一起;将第一合成步骤中所得的合成结果与声音模型合成在一起,以从附加了噪声的声音中生成合成声音模型;从第一合成步骤中所得的合成结果和附加了噪声的声音中计算雅可比矩阵;估计真正讲话声音中包含随真正讲话声音变化的误差的可积性失真的第三估计值;将在非讲话期间生成的可加性噪声、第一运算步骤所得的合成结果、第二估计值、和第三估计值合成在一起,获取噪声变化量,将噪声变化量与雅可比矩阵相乘;将在相乘步骤中所得的相乘结果与合成声音模型合成在一起,生成自适应模型;和将真正讲话声音、第二估计值和第三估计值合成在一起,生成观察值序列;将观察值序列与自适应模型相对照,实现声音识别。
8.根据权利要求3所述的声音识别方法,其中,第三合成步骤通过从倒频谱域中非讲话期间生成的可加性噪声中加上第二估计值,减去第一合成结果以及第三估计值。
全文摘要
从含有可积性失真和可加性噪声的初始噪声HMM的声音HMM10中生成初始合成HMM16,同时由雅可比矩阵计算单元19计算雅可比矩阵J。将可积性失真的估计值Ha^(cep)、可加性噪声Na(cep)和初始噪声HMM17的可加性噪声Nm(cep)合成所得的噪声变化量Namh(cep)与雅可比矩阵相乘,其中将相乘结果和初始合成HMM16进行合成,并生成自适应HMM26。从而可以事先生成与从真正讲话声音中生成的观察值序列RNa(cep)相匹配的自适应HMM26。当通过将观察值序列RNa(cep)与自适应HMM26对照进行声音识别时,抵消了可积性失真和可加性噪声的影响,其中可以获得与利用纯声音实现声音识别的情况等效的效果,并可以实现抗干扰的声音识别系统。
文档编号G10L15/06GK1345030SQ0114061
公开日2002年4月17日 申请日期2001年9月18日 优先权日2000年9月18日
发明者濑尾寻, 驹村光弥, 外山聪一 申请人:日本先锋公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1