噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置的制作方法

文档序号:2829690阅读:345来源:国知局
专利名称:噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置的制作方法
技术领域
本发明总体涉及语音识别技术,具体地,涉及语音谱的噪声抑制技术。
技术背景目前流行的语音识别系统对纯净语音能够获得非常高的识别精度,但 由于噪声带来声学模型和声学特征之间的失配,在噪声环境下现有的语音 识别系统的性能会急剧下降。在噪声稳健性方面的工作主要集中在前端设计,目的是减少噪声带来的在语音特征空间的失配。最小均方误差(Minimum Mean-Square Error, MMSE)估计是一种语音增强算法,其能够有效地抑制背景噪声,从而提 高输入信号的信噪比(Signal-to-Noise Ratio, SNR)。对于最小均方误差 估计,在Y. Ephraim和D. Malah的文献"Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-32, pp.ll09-1121, 1984中进行了详细的描述,其全部内容以引用方式包含于 此,以供参考(下文中称为文献l)。在该文献中,利用MMSE估计对短 时谦幅度(Short-Time Spectral Amplitude, STSA)进行了估计,并提出 了利用MMSE STSA估计的系统,以及将该系统与广泛使用的基于Wiener 滤波和减谦算法(Spectral Subtraction Algorithm)的系统进行了比较。尽管在Y. Ephraim和D. Malah的文献中使用的镨的均方误差的失真 测量在数学上易处理,并获得了很好的结果,但是它不是最理想的方式。 众所周知,基于对数谦的均方误差的失真测量更适合于语音处理,例如在 R. M. Gray, A. Buzo, A. H. Gray, Jr.和Y. Matsuyama的文献"Distortion measures for speech processing," IEEE Trans. Acoust., Speech, Signal processing, vol. ASSP-28, pp. 367-376, Aug. 1980中进行了详细的描迷,其 全部内容以引用方式包含于此,以供参考。因此,该失真测量广泛地用于 语音分析和识别。对于对数谱最小均方误差(LogMMSE)估计,在Y. Ephrahn和D. Malah的文献"Speech enhancement using a minimum mean-square error log-spectral amplitude estimator", IEEE Trans. Acoustic, Speech, and Signal Processing, Vol. ASSP-33, pp.443-445, 1985中进行了详细的描述, 其全部内容以引用方式包含于此,以供参考(下文中称为文献2)。 LogMMSE优于MMSE,因为它能够获得更小的剩余噪声水平,同时不影 响语音本身的质量。在LogMMSE增强算法中,采用泰勒级数累加或者数 值积分来计算增益函数。然而,在此构架中,存在以下两个问题1. 泰勒级数累加只有当输入数值较小时计算精确,而数值积分只有在 输入数值较大时计算精确。2. 利用泰勒级数累加或者数值积分计算增益函数的计算量很大。发明内容为了解决上述现有技术中存在的问题,本发明提供了噪声抑制方法, 提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑 制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方 法,包括根据噪声估计语,对所述含噪声语音谱进行对数谱最小均方误 差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替增 益函数来进行所述对数谱最小均方误差估计。根据本发明的另 一个方面,提供了 一种用于含噪声语音谱的噪声抑制 方法,包括根据噪声估计镨,对所述含噪声语音谱进行对数谱最小均方
误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步稞计算增 益函数来进行所迷对数谱最小均方误差估计利用泰勒级数累加计算所述 增益函数;利用数值积分计算所迷增益函数;以及合并所述泰勒级数累加 的结果和所述数值积分的结果。根据本发明的另一个方面,提供了一种用于提取语音特征的方法,包 括将含噪声语音变换成含噪声语音谱;利用上述的噪声抑制方法,降低 所述含噪声语音镨的噪音;以及从所述噪声降低的语音谱提取语音特征。根据本发明的另一个方面,提供了一种语音识别方法,包括利用上 述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特 征,识别语音。根据本发明的另一个方面,提供了一种训练语音模型的方法,包括 利用上述的提取语音特征的方法,提取语音特征;以及根据所述提取出的 语音特征,训练所述语音模型。根据本发明的另 一个方面,提供了 一种用于含噪声语音谱的噪声抑制 装置,包括估计单元(estimation unit),根据噪声估计谱,对所述含噪 声语音谱进行对数谗最小均方误差估计,以降低所述含噪声语音语的噪声; 其中,所述估计单元使用分段线性函数代替增益函数来进行所述对数傳最 小均方误差估计。根据本发明的另 一个方面,提供了 一种用于含噪声语音谱的噪声抑制 装置,包括估计单元(estimation unit),根据噪声估计谱,对所述含噪 声语音谦进行对数镨最小均方误差估计,以降低所述含噪声语音谙的噪声; 其中,所述估计单元包括泰勒级数累加计算单元(Taylor series accumulation calculation unit),利用泰勒级数累加计算所述增益函数; 数值积、分i十算单元(numeric integration calculation unit),利用lt值积分 计算所迷增益函数;以及合并单元(combination unit),用于合并所述泰 勒级数累加计算单元计算的结果和所述数值积分计算单元计算的结杲。根据本发明的另一个方面,提供了一种用于提取语音特征的装置,包 括变换单元(transforming unit),将含噪声语音变换成含噪声语音语;
根据上述的噪声抑制装置,用于降低所述含噪声语音谱的噪音;以及提取 单元(extracting unit),从所述噪声降低的语音谱提取所述语音特征。根据本发明的另一个方面,提供了一种语音识别装置,包括根据上 述的提取语音特征的装置,用于提取语音特征;以及语音识别单元(speech recognition unit),根据所述提取出的语音特征,识别语音。根据本发明的另一个方面,提供了一种训练语音模型的装置,包括 根据上述的提取语音特征的装置,用于提取语音特征;以及模型训练单元 (model-training unit),根据所述提取出的语音特征,训练所述语音模型。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。图l是才艮据本发明的一个实施例的噪声抑制方法的流程图;图2A-2D示出了设置分段线性函数的分割点的过程的一个实例,其中图2A示出了一个增益函数的曲线,图2B示出了增益函数的导数的曲线,图2C示出了增益函数和分段线性函数之间的差别的曲线,以及图2D示出了分割后的分段线性函数的曲线;图3是根据本发明的另一个实施例的噪声抑制方法的流程图;图4A-4C示出了对泰勒级数累加和数值积分进行合并的一个实例,其中图4A示出了通辻秦勒级数累加获得的增益函数,图4B示出了通过数值积分获得的增益函数,以及图4C示出了通过合并上述两种计算方法获得的增益函数;图5示出了计算合并阈值的一个实例;图6是根据本发明的另 一个实施例的提取语音特征的方法的流程图; 图7是根据本发明的另 一个实施例的语音识别方法的流程图; 图8是根据本发明的另一个实施例的训练语音模型的方法的流程图; 图9是根据本发明的另一个实施例的噪声抑制装置的方框图; 图IO是根据本发明的另一个实施例的噪声抑制装置的方框图;图11是根据本发明的另一个实施例的提取语音特征的装置的方框图; 图12是#^据本发明的另一个实施例的语音识别装置的方框图;以及 图13是根据本发明的另 一个实施例的训练语音模型的装置的方框囝。
具体实施方式
为了便于后面实施例的理解,首先简要介绍一下最小均方误差 (MMSE)估计以及对数诿最小均方误差(LogMMSE)估计的原理。MMSE估计是一种语音增强算法,它利用背景噪声的估计谙,对含噪 声语音谱中的噪声进行抑制,获得噪声得到抑制的语音谱。具体地,最小均方误差估计通过以下公式进行力)=+ ,,o s " r (1)i一klW),os"r} (2)其中,y(t)表示包含语音信号x(t)和噪声信号d(t)的信号,為表示语音信号x(t)的笫*个谦分量的振幅,^4表示通过^t的MMSE估计得到的语音谱。通过推导得到1二cAmoa)凡 (3)其中v4表示噪声得到抑制的语音谱,及A表示含噪声语音谱,c是常数, &是根据噪声估计谦获得的先验信噪比,yA是根据噪声估计谱和含噪声语 音谱获得的后验信噪比,M(^)是合流超几何函数,以及*表示第*个谱分量。具体细节参见上述Y. Ephraim和D. Malah的文献1。LogMMSE估计也是一种语音增强算法,它能够获得更小的剩余噪声 水平,同时不影响语音本身的质量。具体地,LogMMSE估计通过以下公 式进行4 = exp帥n ^ I別, 0 s " T]} ( 5 )其中w
其中,与进行MMSE估计时使用的公式(1)不同的是,对语音信号 x(t)的第A个镨分量的振幅A取对数。通过推导得到<formula>formula see original document page 12</formula>(6 )l + ^ 卞4 f J 如下定义增益函数Gfi^:<formula>formula see original document page 12</formula>(7)从而得到噪声得到抑制的语音谦为(8)具体细节参见上述Y. Ephraim和D. Malah的文献2。下面就结合附图对本发明的各个实施例进行详细的说明。 图l是才艮据本发明的一个实施例的噪声抑制方法的流程图。如图1所 示,首先,在步骤101,输入含噪声语音谱。含噪声语音谱是根据包含背 景噪声和语音的声音数据,例如利用快速傅里叶变换得到的语音谱,因此 是背景噪声和语音叠加在一起的语音谱。接着,在步骤105,根据预先估计的噪声估计语,对含噪声语音进行 对数语最小均方误差估计。噪声估计谱是对没有语音的背景噪声进行预先 估计得到的。获得噪声估计谱的方式很多,例如,对多次采集的背景噪声 谱进行平均等等,本发明对此并没有特别的限制。具体地,根据上迷公式 (8)进行对数谱最小均方误差估计,其中利用分段线性函数代替公式(8)中的增益函数(7(^),变换后的4^式为<formula>formula see original document page 12</formula>其中^表示噪声得到抑制的语音谙,A表示含噪声语音语,&是根据 噪声估计傳获得的先验信噪比,^是根据噪声估计谙和含噪声语音谱获得 的后验信噪比,i^t^是分段线性函数,以及it表示第A个谱分量。在本实施例中,可以利用预先设定分割点的分段线性函数^l^近似增益函数G^/j。例如,可以通过以下步骤进行分段线性函数Z/i^近似增益 函数G^"的过程。具体地,图2A-2D示出了设置分段线性函数的分割点的过程的一个实 例,其中图2A示出了一个增益函数G(vJ的曲线,图2B示出了增益函数的 导数的曲线,图2C示出了增益函数和分段线性函数之间的差别的曲线, 以及图2D示出了分割后的分段线性函数丄W的曲线。具体的分割过程如 下。首先,计算增益函数G"6^的导数,如图2B所述。为了方便,在本实 例中,只取导数值在0.05-0.50范围内的曲线作为示例。接着,设定分段线性函数丄W的初始分割点,如图2B所述。例如在 本实例中,初始分割点设在导数值为0.10、 1.15、 0.20、 0.25、 0.30、 0.35、 0.40、 0.45处。接着,计算在初始分割点的每两个连续分割点之间的分段线性函数/: 和增益函数C (^之间的差别,如图2C所示。接着,将计算出的每两个连续分割点之间的函数值的差别与预先设定的阈值进行比较,例如,在本实例中,阈值设定为0.037。通过比较,如果 差别大于0.037,则在两个连续分割点之间插入一个新的分割点,例如,在 分割点0.10和0.15之间,例如在它们的中点处插入一个新的分割点。重复上述计算差别的步骤及其之后的步骤,直到没有所述差别大于所 述阈值。从而,得到如图2D所示的分段线性函数。返回到图1,在利用分段线性函数丄(^)代替增益函数GT"ft)进行对数谱 最小均方误差估计之后,在步骤110,输出通过对数谱最小均方误差估计 降低噪声的语音i普。通过本实施例的噪声抑制方法,利用分段线性函数代替增益函数,极 大地降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。
在同一发明构思下,图3是4艮据本发明的另一个实施例的噪声抑制方 法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实 施例相同的部分,适当省略其说明。如图3所示,首先,在步骤301,输入含噪声语音谱。含噪声语音谱 是根据包含背景噪声和语音的声音数据,例如利用快速傅里叶变换得到的 语音谱,因此是背景噪声和语音叠加在一起的语音谱。接着,在步骤305,对含噪声语音进行对数镨最小均方误差估计。具 体地,在该步骤中,利用公式(8),通过泰勒级数累加计算增益函数来进 行对数谦最小均方误差估计,得到如图4A所示的曲线。本实施例中釆用 的泰勒级数累加方法可以是本领域的技术人员公知的任何方法,本发明对 此并没有限制,在此不再赘述。在图4A中可以看出,在输入变量较小时,通#勒级数累加获得的 增益函数值很精确,而在输入变量较大时,计算出的增益函数值不精确。接着,在步骤310,根据噪声估计谱,利用公式(8),通过数值积分 计算增益函数来进行对数诿最小均方误差估计,得到如图4B所示的曲线。 本实施例中采用的数值积分方法可以是本领域的技术人员公知的任何方 法,本发明对此并没有限制,在此不再赘述。在图4B中可以看出,与泰勒级数累加方法计算的结果相反,在输入 变量较大时,通过数值积分获得的增益函数值很精确,而在输入变量较小 时,计算出的增益函数值不精确。接着,在步骤315,合并通过泰勒级数累加方法计算的结果和数值积 分方法计算的结果。具体地,可以将图4A中通过泰勒级数累加获得的增益函数值中不精 确的部分利用通过数值积分获得的增益函数值替换,或者将图4B中通过 数值积分获得的增益函数值中不精确的部分利用通过泰勒级数累加获得的 增益函数值替换。此外,也可以在泰勒级数累加方法和数值积分方法都精 确的范围内任意取一点(例如图4A和图4B中两条曲线的最接近处),作 为合并阈值,将小于合并阈值的通过泰勒级数累加方法计算得到的增益函
数值和大于合并阈值的通过数值积分方法计算得到的增益函数值合并。 优选,可以通过如下方法确定上述合并阈值。首先,将通过泰勒级数累加方法计算的增益函数值和通过数值积分方 法计算的增益函数值进行相减,然后可选地对相减得到的结果取绝对值并可选地作对数变换,得到如图3所示的曲线。然后,选择图3的曲线的最 小值处对应的输入变量作为上述合并阈值。在确定合并阈值后,将小于合并阈值的通过泰勒级数累加方法计算得值合并,如图4A-4C所示,从而得到精确的增益函数值。返回到图3,在通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方误差估计之后,在步骤320,输出通过对数谱最小均方误差估计降低噪声的语音语。通过本实施例的噪声抑制方法,通过合并泰勒级数累加方法和数值积分方法进行对数i瞽最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。在同一发明构思下,图6是根据本发明的另一个实施例的提取语音特 征的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相同的部分,适当省略其说明。如图6所示,首先,在步骤601,输入含噪声语音,该含噪声语音包 括说话人说出的语音和背景噪声。接着,在步骤605,将所述含噪声语音变换成含噪声语音谱,例如通 过快速傅立叶变换(Fast Fourier Transform, FFT)将时域上的语音变换 成频域上的语音语。接着,在步骤610,利用上面根据图1和图2的实施例所述的噪声抑 制方法,降低所述含噪声语音谦的噪音。所述噪声抑制方法是根据上述公 式(9)进行对数语最小均方误差估计,其中,利用分段线性函数代替了增 益函数。具体的降噪过程与上述实施例中的相同,在此不再赘述。
此夕卜,也可以利用上面冲艮据图3至图5的实施例所述的噪声抑制方法, 降低所述含噪声语音谱的噪音。所述噪声抑制方法是根据上述公式(8)进 行对数诿最小均方误差估计,其中,通过合并泰勒级数累加方法和数值积 分方法进行对数语最小均方误差估计。具体的降噪过程与上述实施例中的 相同,在此不再赘述。最后,在步骤615,从噪声降低的语音谱中提取语音特征。具体地, 可以通过Mel频率倒谱系数(Mel Frequency c印tral Coefficient, MFCC ) 或线性预测倒谦系数(Linear Predictive C印stral Coefficient, LPCC )等 常规方法提取语音特征,本发明对此没有特别限制。通过以上的说明可知,本实施例的提取语音特征的方法可以在从含噪 声语音谱中提取语音特征之前,通过上述公式(9)进行对数镨最小均方误 差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了 对数i普最小均方误差估计的计算量,同时保持了噪声抑制性能。因此,可 以提高语音特征的质量。此外,本实施例的提取语音特征的方法也可以在从含噪声语音谱中提 取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降低 噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均 方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使 用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高 语音特征的质量。在同一发明构思下,图7是根据本发明的另一个实施例的语音识别方 法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实 施例相同的部分,适当省略其说明。如图7所示,首先,在步骤701,利用上面参考图6的实施例所述的 提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的 相同,在此不再赘述。然后,在步骤705,根据所述提取出的语音特征,进行语音识别。具 体地,例如,将提取出的语音特征和预先训练好的模板进行比较,从而识别出所述语音的内容信息,本发明对此没有特別限制。通过以上的说明可知,本实施例的语音识别方法可以在从含噪声语音谱中提取语音特征之前,通过上迷公式(9)进行对数谱最小均方误差估计 来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对数谱 最小均方误差估计的计算量,同时保持了噪声抑制性能,从而可以提高语 音特征的质量。因此,可以提高语音识别的性能。此外,可选地,本实施例的语音识别方法也可以在从含噪声语音镨中 提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来降 低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小 均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独 使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提 高语音识别的性能。在同一发明构思下,图8;^才艮据本发明的另一个实施例的训练语音模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相同的部分,适当省略其说明。如图8所示,首先,在步骤801,利用上面参考图6的实施例所述的 提取语音特征的方法,提取语音特征。具体的提取过程与上述实施例中的 相同,在此不再赘述。然后,在步骤805,根据所述提取出的语音特征,训练所迷语音模型。通过以上的说明可知,在本实施例的训练语音模型的方法中,可以在 从含噪声语音语中提取语音特征之前,通过上述公式(9)进行对数语最小 均方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地 降低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能,从 而可以提高语音特征的质量。因此,可以提高训练出的模型的质量。此外,可选地,本实施例的训练语音模型的方法也可以在从含噪声语 音谱中提取语音特征之前,通过上述公式(8)进行对数语最小均方误差估 计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数 谱最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥 补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此, 可以提高训练出的模型的质量。在同一发明构思下,图9是才艮据本发明的一个实施例的噪声抑制装置 的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施 例相同的部分,适当省略其说明。如图9所示,本实施例的用于含噪声语音谱的噪声抑制装置900包括 对数语最小均方误差估计单元(log-spectral minimum mean-square error estimation unit)卯l,其根据噪声估计谱,对所述含噪声语音镨进行对数 镨最小均方误差估计,以降低所述含噪声语音谱的噪声。所述对数谱最小 均方误差估计单元900利用分段线性函数代替增益函数,根据上述公式(9 ) 进行对数镨最小均方误差估计,具体细节与上述参考图1和2的实施例中 关于噪声抑制方法的描述相同,在此不再赘述。本实施例的噪声抑制装置900还可以包括分割点保存单元905,用于 保存所述分段线性函数的分割点;以及噪声估计保存单元910,用于保存 对背景噪声进行预先估计获得的噪声估计。此外,所述噪声估计也可以从 外部输入所述对数谦最小均方误差估计单元901。通过以上的说明可知,由于本实施例的噪声抑制装置卯0利用分段线 性函数代替增益函数,极大地降低了对数谱最小均方误差估计的计算量, 同时保持了噪声抑制性能。在同一发明构思下,图IO是才艮据本发明的另一个实施例的噪声抑制装 置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实 施例相同的部分,适当省略其说明。如图10所示,本实施例的用于含噪声语音谱的噪声抑制装置1000包 括对数谦最小均方误差估计单元(log-spectral minimum mean-square error estimation unit) 1001,其根据噪声估计谦,对所述含噪声语音谱进 行对数镨最小均方误差估计,以降低所述含噪声语音镨的噪声。具体细节 与上迷参考图3至图5的实施例中关于噪声抑制方法的描述相同,在 具体地,对数镨最小均方误差估计单元1001还包括泰勒级数累加计算 单元(Taylor series accumulation calculation unit) 10011 ,其利用公式(8 ), 通过泰勒级数累加计算增益函数来进行对数谱最小均方误差估计,得到如 图4A所示的曲线。本实施例中采用的泰勒级数累加计算单元10011可以 是本领域的技术人员公知的任何能够进行泰勒级数累加的装置,本发明对 此并没有限制,在此不再赘述。在图4A中可以看出,在输入变量较小时,由泰勒级数累加计算单元 10011计算出的增益函数值很精确,而在输入变量较大时,计算出的增益 函数值不精确。此外,对数谱最小均方误差估计单元1001还包括数值积分计算单元 (numeric integration calculation unit) 10012,其利用乂〉式(8),通过数 值积分计算增益函数来进行对数语最小均方误差估计,得到如图4B所示 的曲线。本实施例中采用的数值积分计算单元10012可以是本领域的技术 人员公知的任何能够进行数值积分的装置,本发明对此并没有限制,在此 不再赘述。在图4B中可以看出,与由泰勒级数累加计算单元10011计算出的结 果相反,在输入变量较大时,由数值积分计算单元10012计算出的增益函 数值4艮精确,而在输入变量较小时,计算出的增益函数值不精确。此外,对数谱最小均方误差估计单元1001还包括合并单元 (combination unit) 10013,用于合并由泰勒级数累加计算单元10011计 算出的结果和由数值积分计算单元10012计算出的结果。具体地,可以将图4A中由泰勒级数累加计算单元10011计算出的增 益函数值中不精确的部分利用由数值积分计算单元10012计算出的增益函 数值替换,或者将图4B中由数值积分计算单元10012计算出的增益函数 值中不精确的部分利用由泰勒级数累加计算单元10011计算出的增益函数 值替换。此外,也可以在泰勒级数累加计算单元10011和数值积分计算单 元10012都精确的范围内任意取一点(例如图4A和图4B中两条曲线的最 接近处),作为合并阈值,将小于合并阈值的由泰勒级数累加计算单元
10011计算出的增益函数值和大于合并阈值的由数值积分计算羊元10012 计算出的增益函数值合并。优选,合并单元100U包括减法羊元(subtraction unit),其将由泰 勒级数累加计算单元10011计算出的增益函数值和由数值积分计算单元 10012计算出的增益函数值进行相减;可选的绝对值运算单元(absolute operation unit),对减法单元得到的结果取绝对值;可选的对数运算单元 (logarithmic operation unit),对绝对值运算单元得到的结果进行对数变 换,得到如图3所示的曲线;以及选择单元(selection unit),选择图3 的曲线的最小值处对应的输入变量作为上述合并阈值。在确定合并阈值后,合并单元10013将小于合并阈值的由泰勒级数累 加计算单元10011计算出的增益函数值和大于合并阈值的由数值积分计算 单元10012计算出的增益函数值合并,如图4A-4C所示,从而得到精确的 增益函数值。通过本实施例的噪声抑制装置1000,通过泰勒级数累加计算单元 10011、数值积分计算单元10012和合并单元10013合并泰勒级数累加方法 和数值积分方法进行对数谦最小均方误差估计,能够得到理论上所预期的 去除噪声的性能,从而弥补单独使用泰勒级数累加方法或数值积分方法计 算不精确的缺点。在同一发明构思下,图ll是根据本发明的另一个实施例的提取语音特 征的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相同的部分,适当省略其说明。如图11所示,本实施例的用于提取语音特征的装置1100包括输入 单元(inputting unit )1501,输入含噪声语音;变换单元(transforming unit) 1105,将所述含噪声语音变换成含噪声语音谙;上面所述的噪声抑制装置 卯O或噪声抑制装置1000,用于降低所述含噪声语音镨的噪音;以及提取 单元(extracting unit )1110,从所述噪声降低的语音语提取所述语音特征。 具体细节与上述参考图6的实施例中关于提取语音特征的方法的描述相 同,在此不再赘述。
通过以上的i兌明可知,本实施例的提取语音特征的装置1100可以在从 含噪声语音谱中提取语音特征之前,通过上述公式(9)进行对数谱最小均 方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降 低了对数"^普最小均方误差估计的计算量,同时保持了噪声抑制性能。因此, 可以提高语音特征的质量。此夕卜,本实施例的提取语音特征的装置1100也可以在从含噪声语音谱 中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误差估计来 降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行对数i普最 小均方误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单 独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以 提高语音特征的质量。在同一发明构思下,图12是才艮据本发明的另一个实施例的语音识别装 置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实 施例相同的部分,适当省略其说明。如图12所示,本实施例的语音识别装置1200包括上面所述的提取 语音特征的装置1100,用于提取语音特征;以及语音识别单元(speech recognition unit) 1201,根据所述提取出的语音特征,进行语音识别。具 体细节与上述参考图7的实施例中关于语音识别方法的描述相同,在此不 再赘述。通过以上的i兌明可知,本实施例的语音识别装置1200可以在从含噪声 语音谱中提取语音特征之前,通过上述公式(9)进行对数镨最小均方误差 估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降低了对 数谱最小均方误差估计的计算量,同时保持了噪声抑制性能。因此,可以 提高语音识别的性能。此外,本实施例的语音识别装置1200也可以在从含噪声语音i普中提取 语音特征之前,通过上述公式(8)进行对数谦最小均方误差估计来降低噪 声,其中通过合并泰勒级数累加方法和数值积分方法进行对数谱最小均方 误差估计,能够得到理论上所预期的去除噪声的性能,从而弥补单独使用
泰勒级数累加方法或数值积分方法计算不精确的缺点。因此,可以提高语 音识别的性能。在同一发明构思下,图13是根据本发明的另一个实施例的训练语音模 型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与 前面实施例相同的部分,适当省略其说明。如图13所示,本实施例的训练语音模型的装置1300包括上面所述 的提取语音特征的装置1100,用于提取语音特征;以及模型训练单元 (model-trainingunit) 1301,根据所述提取出的语音特征,训练所述语音 模型。具体细节与上述参考图8的实施例中关于训练语音模型的方法的描 述相同,在此不再赘述。通过以上的说明可知,本实施例的训练语音模型的装置1300可以在从 含噪声语音镨中提取语音特征之前,通过上述公式(9)进行对数谦最小均 方误差估计来降低噪声,其中利用分段线性函数代替增益函数,极大地降 低了对数谱最小均方误差估计的计算量,同时保持了噪声抑制性能,从而 可以提高语音特征的质量。因此,可以提高训练出的模型的质量。此外,可选地,本实施例的训练语音模型的装置1300也可以在从含噪 声语音镨中提取语音特征之前,通过上述公式(8)进行对数谱最小均方误 差估计来降低噪声,其中通过合并泰勒级数累加方法和数值积分方法进行 对数谦最小均方误差估计,能够得到理论上所预期的去除噪声的性能,从 而弥补单独使用泰勒级数累加方法或数值积分方法计算不精确的缺点。因 此,可以提高训练出的模型的质量。以上虽然通过一些示例性的实施例详细地描述了本发明的噪声抑制方 法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪 声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置, 但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神 和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发 明的范围仅由所附权利要求为准。
权利要求
1.一种用于含噪声语音谱的噪声抑制方法,包括根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,用分段线性函数代替增益函数来进行所述对数谱最小均方误差估计。
2. 根据权利要求1所述的噪声抑制方法,其中,利用预先设定的分 割点将所述增益函数变换为所述分段线性函数,进行所述对数镨最小均方 误差估计。
3. 根据权利要求2所述的噪声抑制方法,其中,所述分段线性函数 的所述预先设定的分割点通过以下步骤获得计算所述增益函数的导数; 设定所述分段线性函数的初始分割点;计算在所述初始分割点的每两个连续分割点之间的所述分段线性函数 和所述增益函数之间的差别;如果所述差别大于一阈值,在所述两个连续分割点之间插入一个新的 分割点;以及重复所述计算差别的步骤及其之后的步骤,直到没有所述差别大于所 述阈值。
4. 才艮据权利要求1-3中的任意一项所述的噪声抑制方法,其中,所 述对数谦最小均方误差估计通过以下公式进行其中A表示噪声得到抑制的语音谦,A表示含噪声语音谱,&是根据 噪声估计镨获得的先验信噪比,^是根据噪声估计谱和含噪声语音谱获得的后验信噪比,£(^)是分段线性函数,以及A:表示第A个镨分量。
5. —种用于含噪声语音谱的噪声抑制方法,包括 根据噪声估计镨,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计利用泰勒级数累加计算所述增益函数; 利用数值积分计算所述增益函数;以及 合并所述泰勒级数累加的结果和所述数值积分的结果。
6. 根据权利要求5所述的噪声抑制方法,其中,所述合并步骤包括 将所述泰勒级数累加的结果和所述数值积分的结果在它们之间的最接近处 合并。
7. 根据权利要求6所迷的噪声抑制方法,其中,所述合并步骤包括 将所述泰勒级数累加的结果和所述数值积分的结果相减; 选择上述相减的结果中绝对值最小处的值作为阈值;以及 根据所述阈值,合并所述泰勒级数累加的结果和所述数值积分的结果。
8. 根据权利要求7所述的噪声抑制方法,其中,所述合并步骤包括 将小于所述阈值的所述泰勒级数累加的结果和大于所述阈值的所述数值积 分的结果合并。
9. 一种用于提取语音特征的方法,包括 将含噪声语音变换成含噪声语音谙;利用上述权利要求1-8中的任意一项所述的噪声抑制方法,降低所述 含噪声语音镨的噪音;以及从所述噪声降低的语音谦提取语音特征。
10. 根悟权利要求9所述的提取语音特征的方法,其中,所述变换步 骤包括快速傅立叶变换。
11. 一种语音识别方法,包括利用上述权利要求9或10所述的提取语音特征的方法,提取语音特征;以及冲艮据所述提取出的语音特征,识别语音。
12. —种训练语音模型的方法,包括利用上述权利要求9或10所述的提取语音特征的方法,提取语音特征;以及根据所述提取出的语音特征,训练所述语音模型。
13. —种用于含噪声语音镨的噪声抑制装置,包括估计单元,根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均 方误差估计,以降低所述含噪声语音语的噪声;其中,所述估计单元使用分段线性函数代替增益函数来进行所述对数 谱最小均方误差估计。
14. 根据权利要求13所述的噪声抑制装置,其中,利用预先设定的 分割点将所述增益函数变换为所述分段线性函数,进行所述对数谱最小均 方误差估计。
15. 根据权利要求13或14所述的噪声抑制装置,其中,所述估计单 元通过以下公式进行对数谦最小均方误差估计其中A表示噪声得到抑制的语音谱,及/t表示含噪声语音谘,^是根据 噪声估计谱获得的先验信噪比,^是根据噪声估计谱和含噪声语音语获得的后验信噪比,Z^^是分段线性函数,以及ife表示第A个谱分量。
16. —种用于含噪声语音谱的噪声抑制装置,包括估计单元,根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均 方误差估计,以降低所述含噪声语音谱的噪声; 其中,所述估计单元包括泰勒级数累加计算单元,利用泰勒级数累加计算所述增益函数; 数值积分计算单元,利用数值积分计算所述增益函数;以及 合并单元,用于合并所述泰勒级数累加计算单元计算的结果和所述数 值积分计算单元计算的结果。
17. 根据权利要求16所述的噪声抑制装置,其中,所述合并单元将 所述泰勒級数累加计算羊元计算的结果和所述数值积分计算单元计算的结 果在它们之间的最接近处合并。
18. 根据权利要求17所述的噪声抑制装置,其中,所述合并单元包括减法单元,将所述泰勒级数累加计算单元计算的结果和所述数值积分 计算单元计算的结果相减;以及选择单元,用于选择上述减法单元获得的结果中绝对值最小处的值作 为阈值;其中所述合并单元根据所述阈值,合并所述泰勒级数累加计算单元计 算的结果和所述数值积分计算单元计算的结果。
19. 根据权利要求18所述的噪声抑制装置,其中,所述合并单元将 小于所述阈值的所述泰勒级数累加计算单元计算的结果和大于所述阈值的 所述数值积分计算单元计算的结果合并。
20. —种用于提取语音特征的装置,包括 变换单元,将含噪声语音变换成含噪声语音谱; 根据上述权利要求13-19中的任意一项所述的噪声抑制装置,用于降低所述含噪声语音谦的噪音;以及提取单元,从所述噪声降低的语音谱提取所述语音特征。
21. 根据权利要求20所述的提取语音特征的装置,其中,所述变换 单元配置为通过快速傅立叶变换进行变换。
22. —种语音识别装置,包括根据上述权利要求20或21所述的提取语音特征的装置,用于提取语 音特征;以及语音识别单元,根据所述提取出的语音特征,识别语音。
23. —种训练语音模型的装置,包括根据上述权利要求20或21所述的提取语音特征的装置,用于提取语 奩特征;以及模型训练单元,根据所述提取出的语音特征,训练所述语音模型
全文摘要
本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
文档编号G10L21/00GK101154383SQ200610141240
公开日2008年4月2日 申请日期2006年9月29日 优先权日2006年9月29日
发明者沛 丁, 磊 何, 蕤 赵, 杰 郝, 翔 鄢 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1