噪声除去装置、方法以及程序的制作方法

文档序号：2837237阅读：426来源：国知局

专利名称：噪声除去装置、方法以及程序的制作方法
技术领域：
本发明涉及从包含噪声的语音信号中除去噪声成分的噪声除去装置、方法以及程序。
背景技术：
利用电话、移动电话来输入语音的情况非常多。但是，由于包含噪声 (例如交叉路口的噪声、办公室的噪声等)，所以经常发生作为传达对象的语音的传达困难、或者造成语音识别装置的误识别的情况。因此，需要进行除去不需要的噪声的处理。而且，以往已经提出了噪声除去的方法。在非专利文献1中，作为以除去无相关性噪声为目的的语音处理方式，提出了 SPAC ( Speech Processing system by use of Autocorrelation function)方式。周期波的自相关函数甲由与原信号相同的频率成分构成，并且也容易进行周期的检测。另一方面，随机噪声的自相关函数Y，振幅成分集中在其原点附近。SPAC方式是，利用这样的自相关函数Y的性质，把语音的短时间自相关函数视为波形，将其1个周期的波形进行连接来再现语音信号的方式，其利用噪声与信号的相关函数的差异，能够实现噪声电平的降低和SN比的改善。如果对于量化的信号进行基于SPAC方式的噪声降低处理，则可大幅抑制停顿时的噪声，从而能够非常容易听清。非专利文献2记载了如下的方法，该方法把不存在语音的区间中的输入平均化，作为噪声的频镨来保持，并通it^在语音区间中所输入的包含噪声的语音的频镨中减去该噪声的频镨，作为语音的频镨。非专利文献1:高杉敏男、铃木诚史、田中良二，"利用自相关函数的语音处理方式(SPAC)的功能和基本特性"信学论，J62-A， No.3， pp.l75画182， 1979年3月非专利文献2: S.F.Boii."Suppression of Acoustic Noise in Speech Using Spectral Subtraction，，.IEEE Trans. ASSP-27，No.2，pp.ll3-120,1979但是，在非专利文献l的方法中，必须要求出需要大量运算的自相关函数。另外，由于使用自相关函数来生成语音，所以语音的频率特性成为原始语音的频率频镨的二次方，从而产生语音的失真。作为避免语音的频率特性变成二次方的对策，虽然提出有将语音分割成多个频带，分别对每个频带预先进行频率特性的根处理的方法，但是在用于分割成频带的处理、取得根的处理中需要大量的运算。在非专利文献2的方法中，假定周围的噪声是稳定的，虽然在稳定噪声的情况下，或者噪声较小的情况下具有一定的效果，但存在如下的缺点，即在具有比较大电平的非稳定噪声的环境下，不能适当地除去噪声成分。另外，作为噪声除去装置，还有一种装置是除了设置用于捕捉本来的语音的扩音器以外，还设置用于捕捉噪声成分的扩音器，从这2个扩音器的捕捉信号中除去噪声，但其处理量较大。发明内容因此，本发明提供一种能够以较少的运算量、处理量来适当地除去噪声成分的噪声除去装置、方法以及程序。本发明之1是一种噪声除去装置，从混入了噪声的语音信号中除去噪声成分，其特征在于，具有(l)峰值检测单元，从上述语音信号的频谱中检测出其峰值位置；(2)掩模(mask)处理单元，使用以上述峰值位置为变量的掩模函数，获得把频镨的值置换成更小值的噪声除去频谱。本发明之2是一种噪声除去方法，从混入了噪声的语音信号中除去噪声成分，其特征在于，(0)具有峰值检测步骤和掩模处理步骤，(l)上述峰值检测步g上述语音信号的频谱中检测出其峰值位置，(2)上述掩模处理步骤使用以上述峰值位置为变量的掩模函数，获得把频镨的值置换成更小值的噪声除去频镨。本发明之3是一种噪声除去程序，从混入了噪声的语音信号中除去噪声成分，其特征在于，使计算机作为如下单元而起作用(l)峰值检测单元，从上述语音信号的频镨中检测出其峰值位置；(2)掩模处理单元，使用以上述峰值位置为变量的掩模函数，获得把频镨的值置换成更小值的噪声除去频镨。根据本发明的噪声除去装置、方法以及程序，能够以较少的运算量、处理量，适当地除去噪声成分。

图l是表示实施方式涉及的噪声除去装置的整体构成的方框图。图2是表示实施方式涉及的噪声除去装置的各部分的详细构成的方框图。图3是表示实施方式的各部分的输出等的说明图。图4是表示实施方式的掩模函数的例的说明图。图中1-噪声除去装置；10-分析部；101 -窗处理部；102-FFT 处理部；20-噪声除去部；201-振幅特性计算处理部；202- ^值检测处理部；203-掩"模处理部；30-生成部；301-反FFT处理部；302-连接处理部。
具体实施方式
(A)主要实施方式以下，参照附图，对基于本发明的噪声除去装置、方法以及程序的一实施方式进行说明。本实施方式的噪声除去装置的用途没有被限定，但是，例如作为语音识别装置的前处理装置而设置噪声除去装置，或者设置于移动电话等的免提电话的捕捉语音的初始处理级中。(A-l)实施方式的构成图1是表示实施方式的噪声除去装置的全体构成的方框图，图2是表示其各部分的详细构成的方框图。此外，图2也可以被视为表示各部分的处理和处理流程的图。在图1中，本实施方式的噪声除去装置1概括地具有分析部10、噪声
除去部20、和生成部30。也可以将这些分析部IO、噪声除去部20和生成部30分别用专用的硬件(例如半导体芯片)构成，另外，也可以通过把用于使处理器执行作为分析部10、噪声除去部20以及生成部30的功能的程序安装在具有处理器(CPU)的装置中来实现。分析部10，输入混入了噪声的数字语音信号，通过FFT (高速傅立叶变换)处理来进行频率分析。噪声除去部20，以来自分析部10的输出为输入，除去噪声成分。生成部30,对来自噪声除去部20的输出进行反FFT 处理，生成输出语音。详细地如图2所示，分析部10具有窗处理部101和FFT处理部102。把输入分析部10的数字语音信号设为x (n )。其中n表示第n个数据 (抽样)。数字语音信号x (n)例如是通过将从扩音器等语音输入装置输入的模拟语音信号进行模拟/数字变换，并在每个抽样周期T进行抽样而得到的信号。抽样周期T通常是31.25微秒~ 125微秒左右。以N个连续的 x (n)为1个分析单位(帧)，进行各部分的处理。这里，作为一例，设 N=512。当完成了针对处理对象分析单位的该噪声除去装置10的一系列处理后，将x (n)的后半N/2个数据移位到前半部，重新输入连续的N/2个数据，并连接在后半部，由此生成新的N个连续的x (n )，作为1个分析单位进行新的处理，并且反复进行这样的处理对象分析单位的切换。此外，输入数字语音信号不限于由扩音器捕捉的并进行了模拟/数字变换的信号。例如，也可以是从记录介质等读出的信号，另外，也可以是从其他装置通过通信提供的信号。窗处理部101对N个连续的x (n )，为了提高分析精度而设置窗函数。如果把窗函数设为w (n )，则窗处理部101的输出b (n)可通过(1)式获得。此外，作为窗函数w(n)，可适用各种窗函数，例如，适用(2) 式所示那样的汉明(hamming)窗。窗处理是如后述那样考虑到生成部30 中的分析单位的连接处理而进行的处理。[算式l<formula>formula see original document page 7</formula>不过，虽然最好加窗函数，但不是必须的，可省略窗处理部101。FFT处理部102对来自窗处理部101的输出b (n)进行N点FFT处理。由(3 )式给出由FFT处理部102得到的频镨C (m )。[算式2<formula>formula see original document page 7</formula>此外，频率分析方法不限于FFT，也可使用DFT (离散傅立叶变换) 等其他频率分析方法。另外，才艮据安装了实施方式的噪声除去装置l的装置，也可以将其他目的的处理装置中的分析部构成作为该噪声除去装置1 的构成而转用。例如，在设置该噪声除去装置1的装置是IP电话的情况下，可进行这样的转用。在IP电话的情况下，在IPlt据包的有效载荷中插入将FFT输出编码后的信号，但是，能够将该FFT输出作为上述分析部IO 的输出而转用。详细地如图2所示，噪声除去部20具有振幅特性计算处理部201、峰值检测处理部202、和掩模处理部203。振幅特性计算处理部201，计算来自FFT处理部102的输出C (m) 的振幅特性。来自FFT处理部102的输出C (m)是复数，振幅特性计算处理部201针对该输出C (m)，如(4)式所示那样，进行绝对值运算和对数运算，由此得到振幅特性D(m)。对数运算处理是考虑到听觉上的线性度而进行的处理。[算式3<formula>formula see original document page 7</formula>噪声除去部20的处理，根据频谦C (m)的性质C (m) =C* (N-m) (其中，l舀m^N/2-l、 C* (N-m)表示C (N-m)的共轭复数)，只要在的范围内it:行即可。峰值检测处理部202检测振幅特性D (m)的峰值。即，峰值检测处理部202,检索振幅特性D ( m)相对m在局部成为最大的峰值点mp。为了减少噪声的影响，且强调振幅特性D (m)的峰值(极大值)，使用与一般的语音信号的频谦的峰值附近的平均形状接近的部分比较函数E(m )，按照(5 )式计算出振幅特性D ( m)与部分比较函数E ( m )之间的非相似度F (m)，将非相似度F (m)在阈值以下(换言之，相似程度较大)，且提供极小值的位置设为峰值点mp。部分比较函数E (m)由峰值检测处理部202预先保持。(5 )式中的Ml和M2，是部分比较函数E(m)具有值的范围的开始和结束。[算式4M2F(m) = Z ((D(m + k)-卿-(D(m) - E(O))) 2......( 5)k = _Ml掩模处理部203，在多个峰值点mp中，从提供较大的振幅特性D( mm) 的峰值点inm，按顺序进行如下的掩模处理。在掩模处理部203中，将预先考虑听觉的掩模特性而作成的掩模函数 M (s， mm， D (mm))表格化，并储存(参照后述的图4)。掩模处理部 203对于在振幅特性D (m)与掩模函数M (s, mm， D (mm))之间满足 (6)式的关系的点s (s为的范围)，进行把FFT处理部102 的输出C (m)置换为0的处理(掩模)。掩模处理部203对于全部的峰值点mp实施掩模处理。[算式5D(mm)-D(s) >M(S,mm,D(mm)) ……(6)对于在0^m^N/2的范围求出的噪声除去频镨G (m)，根据G (m)=G* (N-m)(其中N/2+l^m^N-l)，求出的范围的噪声除去频谱G (m )。然后把所得到的噪声除去频谙G (m)提供给生成部30。详细地如图2所示，生成部30具有反FFT处理部301和连接处理部302。反FFT处理部301 ，对噪声除去频镨G ( m)进行N点反FFT处理，得到噪声除去信号g (n)。此外，在取代上述的FFT处理部102而使用 DFT处理部的情况下，也把该反FFT处理部301置换成反DFT处理部。连接处理部302，如(7)式所示那样，将关于当前处理对象分析单位的噪声除去信号g (n)的前半部的N/2个数据、与关于前一个分析单位的噪声除去信号g， (n)的后半部的N/2个^:据相加，得到输出y (n)。[算式6= g(w)+容，("+ 7V7 2) …,"(7) 这里，以在互为前后的分析单位中使半数的数据(抽样)重复的方式，一边移位N/2个lt据，一边进行上述的处理，是为了圆滑地进行波形连接，该方法被普遍使用。对于l个分析单位，从分析部10到该生成部30为止的上述一系列处理所允许的时间为NT/2,此外，根据噪声除去装置的用途，可省略生成部30或转用其他装置所具有的生成部。例如，如果在噪声除去装置被使用在语音识别装置中的情况下，将噪声除去频谱G (m)作为识别用特征量使用，从而可省略生成部30。另外，例如如果在噪声除去装置被使用在IP电话机中的情况下，由于IP电话机具有生成部，所以也可以转用该生成部。(A-2)实施方式的动作下面，参照图3和图4，对具有上述构成的实施方式的噪声除去装置1 的动作(实施方式的噪声除去方法)进行说明。由窗处理部101对输入到分析部10的N个连续的HL据x (n)实施窗处理，由FFT处理部102对被实施窗处理后的数据b (n)执行N点FFT 在FFT处理部102中得到的频镨C (m)被提供给噪声除去部20。噪声除去部20的处理根据频镨C (m)的性质C (m) =C* (N-m)(其中， 1^m^N/2曙l， CMN-m)表示C(N-m)的共轭复数)，只要在0^m^N/2 的范围内进行即可.在噪声除去部20中，由振幅特性计算处理部201计算出频谱C (m) 的振幅特性。图3 (a)表示来自振幅特性计算处理部201的输出D (m) 的一例。在振幅特性D(m)中，包含大概30~100个左右的峰值点。然后，由峰值检测处理部202，利用图3 (b)所示那样的部分比较函数E (m)检测振幅特性D (m)的峰值。即，计算出图3 (a)所示的振幅特性D (m)与图3 (b)所示的部分比较函数E (m)之间的非相似度 F (m)，并且将该非相似度F (m)小于阈值、且提供极小值的位置作为峰值点mp检测出来，图3 (c)表示在对于图3 (a)所示的振幅特性D (m ) 应用了图3 (b )所示的部分比较函数E ( m)的情况下的非相似度F (m )，根据该非相似度F (m)检测出图3 (d)所示那样的峰值点mp。在^^模处理部203中，首先>^%值点mp中识别出提供最大振幅特性D (mm)的峰值点mm，从预先作成并保存的掩模函数M (s、 mm、 D ( mm )) 的表中，取出关于所识别的峰值点nv的掩模函数M(s、 mm、 D(mm))，对于在振幅特性D (m)与掩模函数m (s、 mm、 D (mm))之间满足(6) 式的关系的点s(s在0^s^N/2的范围)，将FFT处理部102的输出C(m) 置换成O。从峰值点mp的较大的一方开始，按顺序对4^P峰值点mp反复执行这样的处理。图4表示掩模函数M (s、 mm、 D (mm))的例.实线曲线(连结黑菱形的曲线)表示掩模函数M (s、 38、 100)，虚线曲线(连结黑四边形的曲线)表示掩模函数M (s、 28、 100)。频率越高的峰值点，越容易掩模，且附近范围变宽。图3 (e)表示从掩模处理部203输出的噪声除去频诿G (m )。噪声除去频镨G (m)如果与振幅特性D (m)比较，则强调了振幅特性D (m) 的峰值(极大值)的附近。可将在振幅特性D (m)中值较小的频率成分视为噪声成分，在本实施方式中将其除去。在振幅特性D (m)中值较大的频率成分是SN比非常好的成分，即使不进行噪声成分的排除，在听觉上也不会成问题.另外，即使除去被视为噪声成分的频率成分，由于人类具有良好的对频率进行连续处理的i/v知力，所以不会产生异样的感觉。在本实施方式中，基于这一点，通过以振幅特性D (m)中的峰值点为基准的掩模处理，来除去噪声。针对在0^m^N/2的范围内求出的噪声除去频谙G(m)，根据G(m) =G* (N-m)(其中N/2+l^m^N-l)，求出0刍m^N-l范围内的噪声除去频谱G (m )。对于噪声除去频谱G (m )，由生成部30的反FFT处理部301实施N 点反FFT处理，将其变换成噪声除去信号g (n )，进一步，由连接处理部 302将分析单位的噪声除去信号g (n)进行连接处理，从而得到输出信号 y (n)'(A-3)实施方式的效果根据上述实施方式，由于在频率特性上除去噪声，所以与其他方式比较，能够以极少的处理量、运算量来除去噪声。另外，与使用2个扩音器那样的以往装置比较，可简化构成或处理。(B)其他实施方式在上述实施方式的说明中，虽然也提到了各种变形实施方式，但$可以列举出以下所示的变形实施方式。在上述实施方式中，说明了互为前后的每个分析单位重叠数据的1/2 的情况，但也可以把互为前后的分析单位的数据完全切分.在这样做的情况下，即使是处理器的处理能力较低的情况，和希望另外地使用处理能力的等情况下，也可以进行噪声除去。此外，在这种情况下，最好不执行窗处理。作为与上迷实施方式相比将振幅特性计算处理部201中的运算更简化的方法，可列举出以下2种方法。
第1是在振幅特性计算处理部201中省略对数运算，利用(8)式计算出振幅特性D (m)的方法，可获得与上述实施方式基^目同的效果，第 2是在振幅特性计算处理部201中，省略对数运算和绝对值运算中需要的平方根处理，利用(9)式计算出振幅特性D (m)的方法，可获得与上述实施方式^M目同的效果。其中任意的方法，都需要将掩模函数M(s、 D (mm))与新的振幅特性D (m)相应进行变换。m.[算式71= {其中，表示绝对值 )(8)(其中，表示绝对值 )(9)另外，作为与上述实施方式相比将峰值检测处理部202的运算筒化的方法，可列举出将振幅特性D (m)在从m-K到B+K (K是任意数)的区间平均化来求出J^值的方法。进而，对于掩模函数M (s、 mm、 D (mm))，也可以取代使用实施方式那样的在频谱的全域具有有效值的函数，而使用如(10)式所示那样的非常简化的掩模函数M (s、 mm、 D(mm))。如果把P设为峰值点nip的平均间隔，贝，J (10)式所示的掩模函数具有对于在从峰值点mp到相隔P 的振幅特性上，将衰减H (H是预先设定的常数)以上的FFT处理部102 的输出C (s)进行掩模的作用。[算式81正的最大值S —W7」S尸时)^s-m》/5时)(10)另外，作为掩模函数M(s、 mm、 D(mm)),在参数s和mm相同的情况下，也可以使用相同曲线的掩模函数，根据D(mm)将其上下变动来使用。此外，通过掩模处理而置换的值不限于0。例如，也可以使用使振幅特性D (m)衰减的值。
另夕卜本发明的噪声除去装置也可以与其他噪声除去装置并用。例如，也可以在本发明的噪声除去装置的前级设置利用2个扩音器将多个说话者的语音分离的基于独立成分分冲斤(Independent Component Analysis : ICA)的音源分离装置，对分离后的语音信号，4吏用本发明的噪声除去装置除去残留的噪声。
权利要求
1.一种噪声除去装置，从混入了噪声的语音信号中除去噪声成分，其特征在于，具有峰值检测单元，从上述语音信号的频谱中检测出其峰值位置；和掩模处理单元，使用以上述峰值位置为变量的掩模函数，获得将频谱的值置换成更小值的噪声除去频谱。
2. 根据权利要求l所述的噪声除去装置，其特征在于，还具有频率分析单元，输入上述语音信号，获得其频谱。
3. 根据权利要求1或2所述的噪声除去装置，其特征在于，还具有信号生成处理单元，将上述噪声除去频镨变换成语音信号。
4. 一种噪声除去方法，从混入了噪声的语音信号中除去噪声成分，其特征在于，具有峰值检测步骤和掩模处理步骤，上述峰值检测步骤从上述语音信号的频镨中检测出其峰值位置，上述掩模处理步骤使用以上述峰值位置为变量的4^模函数，获得将频镨的值置换成更小值的噪声除去频镨。
5. 根据权利要求4所述的噪声除去方法，其特征在于，还具有频率分析步骤，该频率分析步骤获得被输入的上述语音信号的频语。
6. 根据权利要求4或5所述的噪声除去方法，其特征在于，还具有信号生成处理步骤，该信号生成处理步骤把上述噪声除去频镨变换成语音信号。
7. —种噪声除去程序，从混入了噪声的语音信号中除去噪声成分，其特征在于，使计算机作为以下单元而发挥功能峰值检测单元，从上述语音信号的频镨中检测出其峰值位置；和掩模处理单元，使用以上述峰值位置为变量的掩模函数，获得将频谱的值置换成更小值的噪声除去频谱。
全文摘要
本发明提供一种能够以较少的运算量、处理量，适当地除去噪声成分的噪声除去装置。本发明涉及从混入了噪声的语音信号中除去噪声成分的噪声除去装置。而且，其特征在于，具有峰值检测单元，从上述语音信号的频谱中检测出其峰值位置；掩模处理单元，使用以上述峰值位置为变量的掩模函数，获得将频谱的值置换成更小值的噪声除去频谱。
文档编号G10L15/00GK101131819SQ20071009735
公开日2008年2月27日申请日期2007年5月11日优先权日2006年8月25日
发明者森户诚申请人:冲电气工业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：森户诚
技术所有人：冲电气工业株式会社
我是此专利的发明人