声音处理装置及方法

文档序号：7755779阅读：125来源：国知局

专利名称：声音处理装置及方法
技术领域：
本发明涉及声音处理装置及方法，尤其涉及对麦克风进行灵敏度校正的声音处理
直O
背景技术：
麦克风阵列上用来处理声音信号的方法很多。举例而言，广义旁瓣对消法 (generalized sidelobe cancellation，GSC)艮口为一常见的方法。图1为使用GSC方法的传统声音处理装置示意图。声音处理装置100包括一主麦克风110、一参考麦克风120、一固定式声波束形成器130、一适应性闭塞滤波器(adaptive blocking filter) 140以及一适应性干扰消除器150。主麦克风110与参考麦克风120从一音源接收声音(图未示)，以及无可避免地从非音源处接收到噪音，其中声为理想信号，而噪音则不是。主麦克风110与参考麦克风120产生的输入信号会被进一步提供至该固定式声波束形成器130及该适应性闭塞滤波器140。该固定式声波束形成器130采用GSC方法以从混合的声音及噪音中撷取出理想信号，以产生对应至声音的主通道输出，而该适应性闭塞滤波器140从混合的声音与噪音中移除该理想信号，并产生对应至噪音的一参考通道输出。由于参考通道在各个频道上的遗漏使得主通道输出总有许多旁瓣产生，故将该适应性干扰消除器150耦接至该固定式声波束形成器130及适应性闭塞滤波器140以补偿主通道输出，进而取得最终输出。在声束形成之后，该最终输出被提供至一维纳后端滤波器 (Wiener post-filter)以进一步减低静态与非静态噪音。该GSC声波束形成器与维纳后端滤波器的效能必须依赖两麦克风110与参考麦克风120在灵敏度上的完美匹配。可在适应性闭塞滤波器140与适应性干扰消除器150中使用声音动态检测器(voice activity detectors, VAD)以避免误消到理想的声音。当麦克风欠缺可靠的灵敏度校正机制时，VAD即无法提供正确的信息。然而，麦克风之间的灵敏度不匹配始终存在。再者，由于GSC声束形成法是在时域中实施，而声音与噪音在接收时又是互相混合的，所以GSC声束形成法很难移除所有的即时杂讯。因此需要一种新方法处理前述问题。

发明内容
本发明提供一种声音处理装置。该声音处理装置包括一主麦克风，用以从一音源接收一声音并从一背景接收一噪音，并产生一主输入；一参考麦克风，用以接收该声音与该噪音并产生一参考输入；一短时傅立叶变换(short-time Fourier transformation, STFT)单元，用以利用短时傅立叶变换以将时域的该主输入变换成频域的一主信号，并将时域的该参考输入变换成频域的一参考信号；一灵敏度校正单元，用以对该主信号与该参考信号进行灵敏度校正，并产生一主校正信号与一参考校正信号；一声音动态检测器(voice active detector，VAD)，用以依据该主校正信号、该参考校正信号以及一波到达方向(direction of arrival，D0A)信号产生一声音动态信号；以及一声波束形成器(beamformer)，用以依据该声音动态信号将该主校正信号变换成一主通道，并将该参考校正信号变换成一参考通道。本发明还提供一声音处理方法。该声音处理方法包括从一音源接收一声音并从一背景接收一噪音，并产生一主输入；接收该声音与该噪音并产生一参考输入；利用短时傅立叶变换以将时域的该主输入变换成频域的一主信号，并将时域的该参考输入变换成频域的一参考信号；对该主信号与该参考信号进行灵敏度校正，并产生一主校正信号与一参考校正信号；依据该主校正信号、该参考校正信号以及一波到达方向(direction of arrival, D0A)信号产生一声音动态信号；以及依据该声音动态信号将该主校正信号变换成一主通道，并将该参考校正信号变换成一参考通道。

图1为使用GSC方法的传统声音处理装置示意图。
图2A为依照本发明一实施例的声音处理装置。
图2B为一实例中主麦克风与参考麦克风在移动电话上的位
图3A依照本发明一实施例为声音处理方法的流程图。
图3B为步骤S330的详细流程。
图3C为步骤S340的详细流程。
图3D为步骤S350的详细流程。
主要元件符号说明
100 声音处理装置；
110 主麦克风；
120 参考麦克风；
130 固定式声波束形成器；
140 适应性闭塞滤波器；
150 适应性干扰消除器；
200 声音处理装置；
202 主麦克风；
204 参考麦克风；
210 短时傅立叶变换单元；
220 灵敏度校正单元；
230 声音动态检测器；
222 空间谱估计器；
224 扩散噪音检测器；
226 灵敏度不匹配计算器；
228 灵敏度不匹配移除器；
240 声波束形成器；
250 噪音抑制单元；
260 反STFT单元；
Ml 乂输入；
M2 -、参考输入；
Sl -、主信号；
S2 -、参考信号；
Sl -、主信号；
S2 -、参考信号；
Cl -、主校正信号；
C2 -、参考校正信号。
具体实施例方式下文为介绍本发明的最佳实施例。各实施例用以说明本发明的原理，但非用以限制本发明。本发明的范围当以所附的权利要求书为准。图2A为依照本发明一实施例的声音处理装置。声音处理装置200包括一主麦克风202、一参考麦克风204、一短时傅立叶变换(STFT)单元210、一灵敏度校正单元220、一声音动态检测器(VAD) 230、一声波束形成器240、一噪音抑制单元250以及一反STFT单元 260。为方便说明，在本发明的实施例中声音处理装置200可为一移动电话，然而，本领域技术人员可了解到，本发明不必以此为限主麦克风202与参考麦克风204用以自一音源接收声音(图2中未示)并自一背景接收噪音，主麦克风202与参考麦克风204分别配置于移动电话的不同位置。图2B为一实例中主麦克风与参考麦克风在移动电话上的位置。在此实施例中，移动电话300包括一面板310与一背板1320，而该主麦克风202配置于前板 310的底部，而该参考麦克风204配置于该背板320的顶部(本发明不必以此为限。主麦克风202较参考麦克风204更靠近该音源，例如，说话者的口部。值得注意的是，由于前板310 与后板320间存在实体障碍，所以参考麦克风204自该音源所接收的声音会较主麦克风202 来得少。这两个麦克风的位置将有利于信号处理。在此实施例中，主麦克风202与参考麦克风204分别将混合的声音与噪音分别变换成一主输入Ml与参考输入M2，如图2所示。主输入Ml与参考输入M2为时域信号，并被提供至STFT单元210。STFT单元210 分别将时域的主输入Ml与参考输入M2变换成频域的主信号Sl与参考信号S2。灵敏度校正单元220接收主信号Sl与参考信号S2，并对主信号Sl与参考信号S2 进行灵敏度校正，以产生一主校正信号Cl与一参考校正信号C2。在本发明中，灵敏度校正单元220还包括一空间谱估计器222、一扩散噪音检测器224、一灵敏度不匹配计算器226 以及一灵敏度不匹配移除器228，用以消除灵敏度不匹配，进而使声音处理装置200取得较佳的信号。空间谱估计器222用以依据主信号Sl与参考信号S2产生空间谱。空间谱估计器222取得空间谱的方法很多，包括，Capon空间谱估计法、多重信号分类(multiple signal classification, MUSIC)空间谱估计法、GCC空间谱估计法以及相位变换(phase transfer,PHAT)空间谱估计法。在此实施例中，空间谱可指出主信号与参考信号的功率分布与入射角间的函数关系。空间谱显示了主麦克风202与参考麦克风204所接收声音与噪音的混合。如本领域技术人员所知，空间谱中大致平坦的曲线由远场(远场)噪音所造成，而空间谱中突出的主峰则是由近场(近场)声音，即说话者的声音及环境中的点源噪音所造成。本发明利用扩散噪音校正麦克风202与204间的灵敏度不匹配。扩散噪音检测器 224可用来检验空间谱，以指出是否存在扩散噪音。一般来说，扩散噪音会使空间谱中出现平坦的曲线，本领域技术人员可从中轻易分辨出何者为扩散噪音而何者为点源噪音。由于扩散噪音被视为远场噪音，因此被主麦克风202及参考麦克风204所感测到的功率都是相同的。灵敏度不匹配计算器226配置于本发明中，可用来在扩散噪音检测器224指出扩散噪音存在时，判断主信号Sl与参考信号S2间的灵敏度不匹配。接着，灵敏度不匹配移除器 228接收该主信号Sl与参考信号S2，并移除主信号Sl与参考信号S2之间的灵敏度不匹配，并产生主校正信号Cl与参考校正信号C2。接着将麦克风202与204的灵敏度校正成彼此相等，并进一步处理主校正信号Cl 与参考校正信号C2以取得更好的信号。声音处理装置200还包括一波到达方向(direction of arrival,D0A)估计器232，其用以检验空间谱并产生一 DOA信号Dl，其中DOA信号Dl指出空间谱是否存在主峰。VAD 230用以依据主校正信号Cl、参考校正信号C2以及DOA信号 Dl产生声音动态信号VI。更明确地说，VAD 230将主校正信号Cl与参考校正信号C2间的功率比一仓一仓地(bin by bin)与一预设临界值进行比较。举例而言，当一仓中的功率比小于预设临界值，则该仓的信号即被视为噪音而予以删除，并开启声音动态信号。然而，当一仓中的功率比大于该预设临界值，则该仓的信号将被视为理想信号而予以保留，并关闭声音动态信号。声波束形成器240用以依据the声音动态信号Vl将主校正信号Cl变换成一主通道Ni，并将参考校正信号C2变换成参考通道N2。声波束形成器240还包括一阵列流形矩阵辨识单元242、一主通道产生器244以及一参考通道产生器246。阵列流形矩阵辨识单元 242用以依据声音动态信号Vl追踪信号子空间，并产生一导引向量信号V2。阵列流形矩阵辨识单元242可采用的信号子空间追踪方法可为PAST演算法。导引向量信号V2可依据 VAD 230所提供的声音动态信号Vl指出各个频率仓中的方向向量。主通道产生器244用以接收该主校正信号Cl以及该参考校正信号C2，并依据该导引向量信号V2产生主通道Ni，其中主通道附对应至从音源上接收的声音。举例而言，主通道产生器244中可利用最小方差无失真口向应(minimum variance distortionless response,MVDR)演算法进行声束形成的处理。参考通道产生器246用以接收主校正信号Cl与参考校正信号C2，并依据导引向量信号V2产生参考通道N2，其中参考通道N2对应至从背景接收到的噪音。举例而言，参考通道产生器246可将理想信号(从音源接收的声音)消除以取得该参考通道N2。虽然在声波束形成器240处理之后可取得主通道m与参考通道N2，但仍可能存在部分非线性的噪音。噪音抑制单元250即用以依据声音动态信号Vl进一步抑制主通道 Nl与参考通道N2中的静态与非静态噪音，并将主通道m与参考通道N2整合成一最终信号 F1。举例而言，噪音抑制单元是一维纳后端滤波器。之后，反STFT单元260可利用反短时傅立叶变换将频率的最终信号Fl变换成时域的最终输出Pl。本发明还包括提供一声音处理方法。图3A依照本发明一实施例为声音处理方法的流程图。请参照图3A与图2A，本声音处理方法包括在步骤S310中，从音源接收一声音，从背景接收一噪音，并产生主输入M1，并产生一参考输入M2;在步骤S320中，利用短时傅立叶变换而将时域的主输入Ml变换成频域的主信号Si，并将时域的参考输入M2变换成频域
8的参考信号S2 ；在步骤S330中，对主信号Sl与参考信号S2进行灵敏度校正以产生一主校正信号Cl与一参考校正信号C2 ；在步骤S340中，依据主校正信号Cl、参考校正信号C2以及一波到达方向DOA信号Dl产生一声音动态信号Vl ；在步骤S350中，依据声音动态信号 V2将该主校正信号Cl变换成一主通道m，并将该参考校正信号C2变换成一参考通道N2 ；在步骤S360中，依据声音动态信号Vl抑制主通道附与参考通道N2中的静态与非静态噪音，并将主通道m与参考通道N2整合成一最终信号Fl ；而在步骤S370中，利用反短时傅立叶变换将该频域的最终信号Fl变换成时域的最终输出Pl。图3B为步骤S330的详细流程。请参照图3B与图2。步骤S330还包括在步骤 S331中，依据主信号Sl与参考信号S2产生一空间谱，其中空间谱指出主信号Sl与参考信号S2的功率分布与入射角之间的函数关系；在步骤S332中，检验空间谱以指出是否存在扩散噪音；在步骤S333中，当扩散噪音检测器指出扩散噪音存在时，计算主信号Sl与参考信号S2之间的灵敏度不匹配；在步骤S334中，移除主信号Sl与参考信号S2间的灵敏度不匹配，并产生主校正信号Cl与参考校正信号C2。图3C为步骤S340的详细流程。请参照图3C与图2。步骤S340还包括在步骤 S341中，检验空间谱，并产生DOA信号D1，其中DOA信号Dl指出该空间谱是否存在一主峰；而在步骤S342中，将主校正信号Cl与参考校正信号C2间的功率比与一预设临界值进行比较；其中当功率比大于一预设临界值时，开启该声音动态信号VI，而当功率比小于该预设临界值时，关闭声音动态信号V2。图3D为步骤S350的详细流程。请参照图3D与图2。步骤S350还包括在步骤 S351中，追踪信号子空间并依据声音动态信号Vl产生导引向量信号V2 ；在步骤S352中，接收主校正信号Cl与参考校正信号C2，并依据引向量信号V2产生主通道附与参考通道N2，其中主通道m对应至从音源接收的声音，而该参考通道N2对应至由背景接收到的噪音。本发明虽以优选实施例公开如上，然其并非用以限定本发明的范围，本领域技术人员在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视所附权利要求书所界定者为准。
权利要求
1.一种声音处理装置，包括一主麦克风，用以从一音源接收一声音并从一背景接收一噪音，并产生一主输入；一参考麦克风，用以接收该声音与该噪音并产生一参考输入；一短时傅立叶变换(short-time Fourier transformation,STFT)单元,用以利用短时傅立叶变换以将时域的该主输入变换成频域的一主信号，并将时域的该参考输入变换成频域的一参考信号；一灵敏度校正单元，用以对该主信号与该参考信号进行灵敏度校正，并产生一主校正信号与一参考校正信号；一声音动态检测器(voice active detector，VAD)，用以依据该主校正信号、该参考校正信号以及一波到达方向(direction of arrival, DOA)信号产生一声音动态信号；以及一声波束形成器(beamformer)，用以依据该声音动态信号将该主校正信号变换成一主通道，并将该参考校正信号变换成一参考通道。
2.如权利要求1所述的声音处理装置，其中该主麦克风被配置在较该参考麦克风更靠近该音源之处。
3.如权利要求1所述的声音处理装置，其中该灵敏度校正单元还包括一空间谱估计器，用以依据该主信号与该参考信号产生一空间谱，其中该空间谱指出该主信号与该参考信号在功率分布与入射角间的函数关系。
4.如权利要求3所述的声音处理装置，其中该灵敏度校正单元还包括一扩散噪音检测器，用以检验该空间谱以指出是否存在一扩散噪音。
5.如权利要求4所述的声音处理装置，其中该灵敏度校正单元还包括一灵敏度不匹配计算器，用以在该扩散噪音检测器指出该扩散噪音存在时，计算该主信号与参考信号间的灵敏度不匹配。
6.如权利要求5所述的声音处理装置，其中该灵敏度校正单元还包括一灵敏度不匹配移除器，用以接收该主信号与该参考信号，并移除该主信号与参考信号间的灵敏度不匹配，并产生该主校正信号与该参考校正信号。
7.如权利要求3所述的声音处理装置，还包括一DOA估计器，用以检验该空间谱，并产生该DOA信号，其中该DOA信号指出在该空间谱中是否存在一主峰。
8.如权利要求1所述的声音处理装置，其中该VAD将该主校正信号与该参考校正信号间的功率比与一预设临界值作比较；其中，当该功率比大于一该预设临界值时，该声音动态信号将被开启，而当该功率小于该预设临界值时，该声音动态信号将被关闭。
9.如权利要求1所述的声音处理装置，其中该声波束形成器还包括一阵列流形矩阵辨识单元，用以追踪一信号子空间并依据该声音动态信号产生一导引向量信号。
10.如权利要求9所述的声音处理装置，其中该声波束形成器还包括一主通道产生器，用以接收该主校正信号与该参考校正信号，并依据该导引向量信号产生该主通道，其中该主通道对应至从该音源接收的该声音；以及一参考通道产生器，用以接收该主校正信号与该参考校正信号，并依据该导引向量信号产生该参考通道，其中该参考通道对应至从该背景接收的该噪音。
11.如权利要求1所述的声音处理装置，还包括，一噪音抑制单元，用以依据该声音动态信号抑制该主通道与该参考通道中的静态与非静态噪音，并将该主通道与该参考通道整合成一最终信号。
12.如权利要求1所述的声音处理装置，还包括，一反STFT单元，用以利用反短时傅立叶变换以将频域的该最终信号变换成时域的一最终输出。
13.如权利要求9所述的声音处理装置，其中该阵列流形矩阵辨识单元利用一投影逼近子空间追踪(projection approximation subspace tracking，PAST)演算法。
14.如权利要求10所述的声音处理装置，其中该主通道产生器与该参考通道产生器利用一最小方差无失真口向应(minimum variance distortionless response，MVDR)声束形成方法以产生该主通道与该参考通道。
15.如权利要求11所述的声音处理装置，其中该噪音抑制单元是一维纳后端滤波器 (Wiener post filter)。
16.一声音处理方法，包括从一音源接收一声音并从一背景接收一噪音，并产生一主输入；接收该声音与该噪音并产生一参考输入；利用短时傅立叶变换以将时域的该主输入变换成频域的一主信号，并将时域的该参考输入变换成频域的一参考信号；对该主信号与该参考信号进行灵敏度校正，并产生一主校正信号与一参考校正信号；依据该主校正信号、该参考校正信号以及一波到达方向(direction of arrival,DOA) 信号产生一声音动态信号；以及依据该声音动态信号将该主校正信号变换成一主通道，并将该参考校正信号变换成一参考通道。
17.如权利要求16所述的声音处理方法，还包括依据该主信号与该参考信号产生一空间谱，其中该空间谱指出该主信号与该参考信号在功率分布与入射角间的函数关系。
18.如权利要求17所述的声音处理方法，还包括检验该空间谱以指出是否存在一扩散噪音。
19.如权利要求18所述的声音处理方法，还包括在该扩散噪音检测器指出该扩散噪音存在时，计算该主信号与参考信号间的灵敏度不匹配。
20.如权利要求19所述的声音处理方法，还包括移除该主信号与参考信号间的灵敏度不匹配，并产生该主校正信号与该参考校正信号。
21.如权利要求17所述的声音处理方法，还包括检验该空间谱，并产生该DOA信号，其中该DOA信号指出在该空间谱中是否存在一主峰。
22.如权利要求21所述的声音处理方法，还包括将该主校正信号与该参考校正信号间的功率比与一预设临界值作比较；其中，当该功率比大于一该预设临界值时，将该声音动态信号开启，而当该功率小于该预设临界值时，将该声音动态信号关闭。
23.如权利要求16所述的声音处理方法，还包括追踪一信号子空间并依据该声音动态信号产生一导引向量信号。
24.如权利要求23所述的声音处理方法，还包括接收该主校正信号与该参考校正信号，并依据该导引向量信号产生该主通道与该参考通道，其中该主通道对应至从该音源接收的该声音，而该参考通道对应至从该背景接收的该噪音。
25.如权利要求16所述的声音处理方法，还包括依据该声音动态信号抑制该主通道与该参考通道中的静态与非静态噪音，并将该主通道与该参考通道整合成一最终信号。
26.如权利要求16所述的声音处理方法，还包括利用反短时傅立叶变换以将频域的该最终信号变换成时域的一最终输出。
全文摘要
声音处理装置及方法。该声音处理装置包括一主麦克风及一参考麦克风，用以接收该声音与该噪音并产生一主输入及一参考输入；一STFT单元，用以利用短时傅立叶变换以将时域的该主输入变换成频域的一主信号，并将时域的该参考输入变换成频域的一参考信号；一灵敏度校正单元，用以对该主信号与该参考信号进行灵敏度校正，并产生一主校正信号与一参考校正信号；一VAD，用以依据该主校正信号、该参考校正信号以及一DOA信号产生一声音动态信号；以及一声波束形成器，用以依据该声音动态信号将该主校正信号变换成一主通道，并将该参考校正信号变换成一参考通道。
文档编号H04R29/00GK102348156SQ20101024176
公开日2012年2月8日申请日期2010年7月29日优先权日2010年7月29日
发明者刘胜, 李细林申请人:美商富迪科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李细林;刘胜
技术所有人：美商富迪科技股份有限公司
我是此专利的发明人

上一篇：移动通讯系统、基站装置及移动站装置的制作方法
上一篇：基于零检测和矢量滤波的帧频提升算法的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。