音频信号处理装置和方法

文档序号:7623242阅读:126来源:国知局
专利名称:音频信号处理装置和方法
技术领域
本发明涉及用于从包括来自多个声音源的音频信号的两个声道的输入时序音频信号中分离特定声音源的音频信号的音频信号处理装置和方法。
背景技术
通常,记录在盘、压缩盘等中的双声道(右声道和左声道)立体声音频信号包括来自多个声音源的音频信号。这种立体声音频信号通常水平有差异地记录在各个声道中,从而当利用两个扬声器再现立体声音频信号时,多个声音源的声像位于扬声器之间。
例如,五个声音源1到5的信号S1到S5被记录为左声道和右声道音频信号SL和SR,如下所示SL=S1+0.9S2+0.7S3+0.4S4SR=S5+0.4S2+0.7S3+0.9S4这种情况下,声音源1到5的信号S1到S5水平有差异地混合在左声道和右声道中,并且产生各个声道的音频信号。
当例如利用图19所示的两个扬声器1L和1R再现立体声音频信号(在该立体声音频信号中,声音源1到5的信号S1到S5水平有差异地分配到右声道和左声道中)时,听者2可以感觉到对应于声音源1、2、3、4和5的声像A、B、C、D和E。同样在本领域中所公知的,声像A、B、C、D和E位于扬声器1L和1R之间。
如图20所示,当佩戴着头戴耳机设备3的听者2再现来自头戴耳机设备3的右扬声器单元3R和左扬声器单元3L的右声道和左声道的立体声音频信号时,听者2可以感觉到在听者头脑内部的对应于声音源1、2、3、4和5的声像A、B、C、D和E。
一种用于从通常的双声道立体声音频信号中只分离并输出特定声音源的音频信号的机制允许只提取歌唱者的声音或只提取特定声音源(如小提琴)的声音,并且可以用于各种应用。
在图21中示出了一种用于从双声道立体声音频信号中分离并输出特定声音源的音频信号的已知方法(见PCT日本专利申请No.2003-515771)。在该方法中,对于要分离的期望声音源,提供了相应数目的带通滤波器,其中每个带通滤波器用于提取期望声音源的音频信号的高频能量分量,并且带通滤波器被用于从双声道立体声音频信号中分离期望声音源的音频信号。
在图21所示的示例中,从左声道音频信号SL中分离出声音源a的音频信号Sa和声音源b的音频信号Sb,从右声道音频信号SR中分离出声音源c的音频信号Sc和声音源d的音频信号Sd。声音源分离处理电路7包括对应于声音源a到d的四个带通滤波器3到6。
如图21所示,左声道音频信号SL被提供到带通滤波器3以提取构成音频信号Sa的声音源a的高频能量分量,还被提供到带通滤波器4以提取构成音频信号Sb的声音源b的高频能量分量。从带通滤波器3和4中分别获得了音频信号Sa和Sb。
右声道音频信号SR被提供到带通滤波器5以提取构成音频信号Sc的声音源c的高频能量分量,还被提供到带通滤波器6以提取构成音频信号Sd的声音源d的高频能量分量。从带通滤波器5和6中分别获得了音频信号Sc和Sd。

发明内容
然而,图21所示的方法有以下问题。可以在一定程度上分离具有不同频带内的中心频率的声音源(如低音吉他和铙钹);然而,难以分离共享许多频带的声音源的信号,包括存在于重叠频带中的波和带通滤波器所选频率范围外部的声音源的谐波。
因此,希望提供一种音频信号处理装置和方法,用于从包括来自多个声音源的音频信号的双声道音频信号中分离特定声音源的音频信号。
根据本发明一个实施例的音频信号处理装置包括以下元件。划分装置将两个音频信号中的每一个划分为多个频带。水平比较装置确定在划分装置划分的多个频带的每一个中,两个音频信号之间的水平比或水平差。输出控制装置根据水平比较装置确定的水平比或水平差,控制划分装置的输出。
根据本发明的一个实施例,利用了这样的特性,即,声音源的音频信号以预定水平比或水平差被混合在两个音频信号中。这种情况下,两个音频信号中的每一个被划分为多个频带。确定了每个频带中两个音频信号之间的水平比或水平差,并且从两个音频信号的至少一个中提取了频带中的提供预定水平比或水平差或者大约为预定水平比或水平差的信号分量。
如果预定水平比或水平差被设为一个水平比或水平差,其中特定声音源的音频信号以该水平比或水平差被混合在两个音频信号中,则从至少两个音频信号的至少一个中提取了构成特定声音源的音频信号的频率分量。从而,提取了特定声音源的音频信号。
根据本发明另一个实施例的音频信号处理装置包括以下元件。第一变换装置将两个时序音频信号中的第一时序音频信号变换为第一频域信号。第二变换装置将两个时序音频信号中的第二时序音频信号变换为第二频域信号。水平确定装置确定从第一变换装置获得的第一频域信号的频谱与从第二变换装置获得的第二频域信号的频谱之间的水平比或水平差。输出控制装置基于水平确定装置确定的水平比或水平差,控制并输出从第一变换装置和第二变换装置的至少一个获得的频谱的水平。
根据本发明的一个实施例,两个时序音频信号被第一和第二变换装置独立地变换为频域信号,每个频域信号都有多个频谱分量。
从第一变换装置获得的频谱与从第二变换装置获得的频谱之间的水平比或水平差被确定。基于所确定的水平比或水平差,从第一变换装置和第二变换装置的至少一个获得的频谱的水平被控制,并且提供了预定水平比或水平差或者大约为预定水平比或水平差的频率分量被提取并输出。
如果预定水平比或水平差被设为一个水平比或水平差,其中特定声音源的音频信号以该水平比或水平差被混合在两个音频信号中,则从至少两个音频信号的至少一个中提取了构成特定声音源的音频信号的频域分量。从而,提取了特定声音源的音频信号。
根据本发明的一个实施例,音频信号处理装置还包括相位差确定装置,用于确定从第一变换装置获得的第一频域信号的频谱与从第二变换装置获得的第二频域信号的频谱之间的相位差,并且,输出控制装置基于由水平确定装置确定的水平比或水平差以及由相位差确定装置确定的相位差,控制并输出从第一变换装置和第二变换装置的至少一个获得的频谱的水平。
根据本发明的一个实施例,两个时序音频信号被第一和第二变换装置独立地变换为频域信号,每个频域信号都有多个频谱分量。
从第一变换装置获得的频谱与从第二变换装置获得的频谱之间的相位差被确定。基于所确定的相位差,从第一变换装置和第二变换装置的至少一个获得的频谱的水平被控制,并且提供预定相位差或者大约为预定相位差的频率分量被提取并输出。
如果预定相位差被设为一个相位差,其中特定声音源的音频信号以该相位差被混合在两个音频信号中,则从至少两个音频信号的至少一个中提取了构成特定声音源的音频信号的频域分量。从而,提取了特定声音源的音频信号。
因此,根据本发明的实施例,可以从两个音频信号的至少一个中分离以预定水平比或水平差或者以预定相位差被混合在两个音频信号中的声音源的音频信号。


图1是根据本发明第一实施例的音频信号处理装置的框图;图2是图1所示音频信号处理装置中的频谱比较处理器的框图;图3是图1所示音频信号处理装置中的频谱控制处理器的框图;图4A-4E是示出了在频谱控制处理器内的乘法系数发生器中所用的函数的示图;图5是根据本发明第二实施例的音频信号处理装置的框图;图6是图5所示音频信号处理装置中的频谱比较处理器和频谱控制处理器的框图;图7是根据本发明第三实施例的音频信号处理装置的框图;图8A和8B是示出了在图7所示的音频信号处理装置内的乘法系数发生器中所用的函数的示图;图9是根据本发明第四实施例的音频信号处理装置的框图;图10是根据本发明第五实施例的音频信号处理装置的框图;图11是根据本发明第六实施例的音频信号处理装置的框图;图12是图11所示音频信号处理装置中的频谱比较处理器和频谱控制处理器的框图;图13A-13E是示出了在图12所示的频谱控制处理器内的乘法系数发生器中所用的函数的示图;图14是根据本发明第七实施例的音频信号处理装置的框图;图15是示出了根据本发明第八实施例的音频信号处理装置中的数据段的示图;图16是示出了根据本发明第八实施例的音频信号处理装置中的数据段的示图;图17是示出了根据本发明第九实施例的音频信号处理装置中的数据段的示图;图18是示出了根据本发明第九实施例的音频信号处理装置中的数据段的示图;图19是示出了来自多个声音源的双声道信号的听觉定位的示图;图20是示出了来自多个声音源的双声道信号的听觉定位的示图;以及图21是用于分离特定声音源的音频信号的相关技术的装置框图。
具体实施例方式
下面参考附图描述根据本发明实施例的音频信号处理装置和方法。
在下面的描述中,从立体声音频信号中分离出声音源,其中立体声音频信号包括左声道音频信号SL和右声道音频信号SR。
例如,来自声音源1到5的音频信号S1到S5通过下面等式(1)和(2)中定义的比率,水平有差异地分配在左声道音频信号SL和右声道音频信号SR中SL=S1+0.9S2+0.7S3+0.4S4等式(1)SR=S5+0.4S2+0.7S3+0.9S4等式(2)比较等式(1)和(2),声音源1到5的音频信号S1到S5以上述的水平差异分配在左声道音频信号SL和右声道音频信号SR中。从而,通过根据分配比率,重新分配声音源,可以从左声道音频信号SL和/或右声道音频信号SR中分离出初始声音源。
在下面的实施例中,利用了声音源通常具有不同的波谱分量的特性,并且利用高分辨率快速傅立叶变换(FFT)将每个右声道立体声音频信号和左声道立体声音频信号在频域上划分为多个频谱分量。然后,确定每个声道的音频信号中频谱分量之间的水平比(level ratio)或水平差(leveldifference),并且检测其水平比或水平差对应于等式(1)和(2)中定义的分配比率的频谱分量,然后分离所检测的频谱分量,其中期望声音源的音频信号按等式(1)和(2)分配。因此,可以分离声音源,而较少受其他声音源的干扰。
第一实施例图1是根据本发明第一实施例的音频信号处理装置10的框图。双声道立体声信号中的左声道音频信号SL被提供到充当正交变换器的FFT单元11。当信号SL是模拟信号时,将信号SL转换为数字信号,然后进行FFT处理,以将时序音频信号变换为频域数据。当信号SL是数字信号时,FFT单元11不必执行模数转换。
双声道立体声信号中的右声道音频信号SR被提供到充当正交变换器的FFT单元12。当信号SR是模拟信号时,将信号SR转换为数字信号,然后进行FFT处理,以将时序音频信号变换为频域数据。当信号SR是数字信号时,FFT单元12不必执行模数转换。
FFT单元11和12有类似的结构,并分别将时序信号SL和SR划分为具有多个不同频率的频谱分量。被划分以产生频谱的频率数取决于声音源分离的精确度,例如为500或更大,优选地为4000或更大。频率数取决于在FFT单元11和12中所用点的数目。
从FFT单元11和12输出的频谱F1和F2被提供到频谱比较处理器13和频谱控制处理器14。
频谱比较处理器13确定同一频率的来自FFT单元11和12的频谱分量F1和F2的水平比,并将水平比输出到频谱控制处理器14。当水平以对数表示为分贝(dB)时,水平比表示为水平差。
频谱控制处理器14基于来自频谱比较处理器13的水平比信息,从FFT单元11和12中的至少一个的输出中仅提取具有预定水平比的频谱分量,并将提取输出Fex输出到反FFT单元15。在图1所示的示例中,频谱控制处理器14从FFT单元11和12两者的输出中提取具有预定水平比的频谱分量,并将其作为提取输出Fex输出到反FFT单元15。
在频谱控制处理器14中,取决于要分离的声音源,用户预设要提取哪个水平比的频谱分量。因此,频谱控制处理器14只提取根据用户设置的用于分离的水平比而被分配到右声道和左声道的声音源的音频信号的频谱分量。
反FFT单元15将从频谱控制处理器14输出的所提取的频谱分量Fex变换为初始时序信号,并将所得到的信号输出作为要被用户分离的期望声音源的音频信号SO。为了输出模拟音频信号,在反FFT单元15的输出侧提供数模(D/A)转换器,以将信号转换为模拟音频信号。以下实施例相同。
下面将描述频谱比较处理器13的结构。
频谱比较处理器13在功能上有图2所示的结构。频谱比较处理器13包括水平检测器21和22、水平比计算器23和24,以及选择器25。
水平检测器21检测来自FFT单元11的频谱分量F1中的频率分量的水平,并输出所检测的水平D1。水平检测器22检测来自FFT单元12的频谱分量F2中的频率分量的水平,并输出所检测的水平D2。为了确定每个频谱的水平,以示例地方式检测幅度谱。也可以检测功率谱来确定每个频谱的水平。
水平比计算器23确定比率D2/D1。水平比计算器24确定反比率D1/D2。水平比计算器23和24所确定的水平比被提供到选择器25,并且从选择器25中提取其中一个水平比作为输出水平比r。
选择器25接收选择控制信号SEL,用于根据用户要分离的声音源和该声音源的水平比,控制水平比计算器23或24的输出的选择。从选择器25获得的输出水平比r被提供到频谱控制处理器14。
以示例的方式,频谱控制处理器14所使用的要分离的声音源的水平比具有恒定满足水平比≤1的值。即,通过将低水平的频谱的水平除以高水平的频谱的水平,来确定输入到频谱控制处理器14中的水平比r。
因此,频谱控制处理器14使用从水平比计算器23输出的水平比,以便分离以较高比率分配在左声道音频信号SL中的声音源信号,并使用从水平比计算器24输出的水平比,以便分离以较高比率分配在右声道音频信号SR中的声音源信号。
例如,假定信号分配到右声道和左声道的分配比率PR和PL被用户设置作为要分离的声音源的水平比,其中PL和PR为1或更小。如果分配比率PL和PR满足PR/PL≤1,则选择控制信号SEL被设为这样的选择控制信号,其用于控制选择器25选择水平比计算器23的输出(D2/D1)作为输出水平比r。如果分配比率PL和PR满足PR/PL≥1,则选择控制信号SEL被设为这样的选择控制信号,其用于控制选择器25选择水平比计算器24的输出(D1/D2)作为输出水平比r。
如果用户所设置的分配比率PL和PR彼此相等,即,水平比=1,则选择器25既可以选择水平比计算器23的输出,又可以选择水平比计算器24的输出。
下面将描述频谱控制处理器14的结构。
频谱控制处理器14在功能上有图3所示的结构。频谱控制处理器14包括乘法因子发生器31和源分离器32。源分离器32包括乘法器33和34以及加法器35。
乘法器33接收来自FFT单元11的频谱分量和来自乘法因子发生器31的乘法因子w,并将频谱分量和乘法因子w的相乘结果提供到加法器35。乘法器34接收来自FFT单元12的频谱分量和来自乘法因子发生器31的乘法因子w,并将频谱分量和乘法因子w的相乘结果提供到加法器35。加法器35的输出对应于频谱控制处理器14的输出Fex。
乘法因子发生器31接收来自频谱比较处理器13中的选择器25的输出水平比r,并生成对应于水平比r的乘法因子w。乘法因子发生器31可以是用于生成关于乘法因子w的函数的函数发生电路,其中水平比r是变量。乘法因子发生器31中所使用的函数取决于用户根据要分离的声音源而设置的分配比率PL和PR。
由于提供给乘法因子发生器31的水平比r以频谱的频率分量的单位变化,因此来自乘法因子发生器31的乘法因子w也以频谱的频率分量的单位变化。
因此,在乘法器33中,来自FFT单元11的频谱的水平由乘法因子w控制。在乘法器34中,来自FFT单元12的频谱的水平由乘法因子w控制。
图4A-4E示出了在充当乘法因子发生器31的函数发生电路中所使用的示例性函数。例如,当要从在等式(1)和(2)定义的左声道音频信号SL和右声道音频信号SR中分离出位于右声道声像和左声道声像中心部位的声音源的音频信号S3时,乘法因子发生器31可以是具有图4A所示特性的函数发生电路。
在图4A所示的函数特性中,相对于右声道和左声道之间的水平比r为1或接近1的频谱分量(右声道和左声道之间水平相同或基本相同的频谱分量),乘法因子w为1或约等于1。在右声道和左声道之间的水平比r约为0.6或更低的区域内,乘法因子w为0。
由于相对于从选择器25提供的水平比r为1或约等于1的频谱分量,乘法因子w为1或接近1,因此该频谱分量以基本相同的水平从乘法器33和34输出。另一方面,相对于从选择器25提供的水平比r约为0.6或更小的频谱分量,乘法因子w为0,因此,该频谱分量的输出水平为0。即,该频谱分量不从乘法器33和34输出。
从而,在多个频谱分量中,右声道和左声道之间具有相同或大约相同的水平的频谱分量以基本相同的水平从乘法器33和34输出,而右声道和左声道之间具有较大水平差的频谱分量的输出水平为0,因此不从乘法器33和34输出。因此,从加法器35中只获得了以相同水平分配在右声道音频信号SR和左声道音频信号SL中的声音源音频信号S3的频谱分量。
例如,当要从在等式(1)和(2)定义的左声道音频信号SL和右声道音频信号SR中分离出位于右声道或左声道中的声音源的音频信号S1或S5时,乘法因子发生器31可以是具有图4B所示特性的函数发生电路。
根据第一实施例,为了分离音频信号S1,用户对要分离的声音源设置左右分配比PL∶PR=1∶0。或者,用户可以设置PL=1且PR=0。响应于用户设置,用于控制选择来自水平比计算器23的水平比的选择控制信号SEL被提供到选择器25。
为了分离音频信号S5,用户对要分离的声音源设置左右分配比PLPR=0∶1。或者,用户可以设置PL=0且PR=1。响应于用户设置,用于控制选择来自水平比计算器24的水平比的选择控制信号SEL被提供到选择器25。
在图4B所示的函数特性中,相对于右声道和左声道之间的水平比r为0或接近0的频谱分量,乘法因子w为1或约等于1。在右声道和左声道之间的水平比r约为0.4或更高的区域内,乘法因子w为0。
由于相对于从选择器25提供的水平比r为1或约等于1的频谱分量,乘法因子w为0或接近0,因此该频谱分量以基本相同的水平从乘法器33和34输出。另一方面,相对于从选择器25提供的水平比r约为0.4或更高的频谱分量,乘法因子w为0,因此,该频谱分量的输出水平为0。即,该频谱分量不从乘法器33和34输出。
从而,在多个频谱分量中,右声道和左声道中的一个具有比另一个大的多的水平的频谱分量以基本相同的水平从乘法器33和34输出,而右声道和左声道之间的水平差较小的频谱分量的输出水平为0,因此不从乘法器33和34输出。因此,从加法器35中只获得了被分配在左声道音频信号SL或右声道音频信号SR中的声音源音频信号S1或S5的频谱分量。
例如,当要从在等式(1)和(2)定义的左声道音频信号SL和右声道音频信号SR中分离出位于左声道和右声道中的具有预定水平差的声音源的音频信号S2或S4时,乘法因子发生器31可以是具有图4C所示特性的函数发生电路。
音频信号S2以水平比D2/D1(=SR/SL)=0.4/0.9=0.44被分配到右声道和左声道。音频信号S4以水平比D1/D2(=SL/SR)=0.4/0.9=0.44被分配到右声道和左声道。
根据第一实施例,为了分离音频信号S2,用户对要分离的声音源设置左右分配比PL∶PR=0.9∶0.4。或者,用户可以设置PL=0.9且PR=0.4。由于满足PR/PL<1,因此用于控制选择来自水平比计算器23的水平比的选择控制信号SEL被提供到选择器25。
为了分离音频信号S4,用户对要分离的声音源设置左右分配比PL∶PR=0.4∶0.9。或者,用户可以设置PL=0.4且PR=0.9。由于满足PR/PL>1,因此用于控制选择来自水平比计算器24的水平比的选择控制信号SEL被提供到选择器25。
在图4C所示的函数特性中,相对于右声道和左声道之间的水平比r等于D2/D1(=PR/PL)=0.4/0.9=0.44的频谱分量,乘法因子w为1,或者相对于水平比r接近0.44的频谱分量,乘法因子w为1或约等于1。在右声道和左声道之间的水平比r不为约0.4的区域内,乘法因子w为0。
由于相对于从选择器25提供的水平比r为0.44或约等于0.44的频谱分量,乘法因子w为1或接近1,因此该频谱分量以基本相同的水平从乘法器33和34输出。另一方面,相对于从选择器25提供的水平比r低于或高于约0.44的频谱分量,乘法因子w为0,因此,该频谱分量的输出水平为0。即,该频谱分量不从乘法器33和34输出。
从而,在多个频谱分量中,右声道和左声道之间的水平比为0.44或约等于0.44的频谱分量以基本相同的水平从乘法器33和34输出,而右声道和左声道之间的水平比r低于或高于约0.44的频谱分量的输出水平为0,因此不从乘法器33和34输出。
因此,从加法器35中只获得了以水平比0.44被分配在右声道音频信号SR和左声道音频信号SL中的声音源音频信号S2或S4的频谱分量。
因此,根据第一实施例,根据某一预定的分配比率,可以从右声道和左声道的音频信号中分离出以该预定分配比率被分配到这两个声道中的声音源的音频信号。
在第一实施例中,从两个声道的音频信号中提取要分离的期望声音源的音频信号。然而,要分离的期望声音源的音频信号并非必须从两个声道中分离并提取,而是可以从其中一个声道中分离并提取。
在第一实施例中,声音源信号被分配到两个音频信号中的水平比被用来从两个音频信号中分离出声音源信号。然而,基于声音源信号和两个音频信号之间的水平差,可以从两个音频信号中的至少一个中分离并提取声音源信号。
尽管在左声道和右声道立体声信号的情况中(其中,声音源根据等式(1)和(2)中定义的比率被分配到左声道和右声道)描述了前述内容,但是通过选择图4A-4C中所示的函数特性,也可以将期望的声音源从通常有意未分配的立体声音乐信号中分离出来。
利用图4D和4E中所示的其他函数,可以改变或加宽或缩窄用于分离的水平比的范围,从而提供不同的声音源的选择性。
考虑到声音源波谱特性,大部分立体声音频信号从具有不同波谱的声音源中产生。这些声音源也可以以上述方式被分离。
此外,通过提高FFT单元11和12中的频率分辨率,例如使用具有4000或更多个的点的FFT电路,可以实现具有许多重叠波谱分量的声音源的高质量分离。
第二实施例在第一实施例中,从两个音频信号(具体地说,右声道和左声道立体声信号SL和SR)的至少一个中,分离并提取在两个音频信号中以预定水平比或水平差分配的单个声音源的音频信号。
根据本发明第二实施例的音频信号处理装置适用于从两个音频信号中一次分离并提取在两个音频信号中以预定水平比或水平差分配的多个声音源的音频信号,而不是单个声音源的音频信号。
图5示出了根据第二实施例的音频信号处理装置的结构。在图5中,与根据第一实施例的图1中所示的组件相对应的组件以相同的标号指示。图5中所示的频谱比较处理器13和频谱控制处理器14适用于分离多个声音源的音频信号,因而不同于图1中所示根据第一实施例的处理器。此外,反FFT单元151、152、...、15n的数目等于要分离并提取的输出的数目。
图6示出了根据第二实施例的频谱比较处理器13和频谱控制处理器14的内部结构。
如同第一实施例中那样,根据第二实施例的频谱比较处理器13也包括水平检测器21和22以及水平比计算器23和24,并检测来自FFT单元11和12的频谱分量的水平比D2/D1和D1/D2。从水平比计算器23和24输出的所检测的水平比被提供到多个选择器251、252、...、25n。选择器251、252、...、25n的数目对应于要分离的声音源数目。
多个选择器251、252、...、25n接收选择控制信号SEL1、SEL2、...、SELn,每个选择控制信号用于取决于分配比率来选择从水平比计算器23和24输出的检测的水平比中的一个,其中要分离的期望声音源的音频信号根据所述分配比率被分配到右声道和左声道。如上所述,每个选择控制信号SEL1、SEL2、...、SELn用于控制每个选择器251、252、...、25n选择这样的水平比,该水平比的分母是要分离的期望声音源的音频信号以较高比率被分配到的声道的水平。
频谱控制处理器14包括多个乘法因子发生器311、312、...、31n和源分离器321、322、...、32n。乘法因子发生器311、312、...、31n和源分离器321、322、...、32n的数目对应于要分离的声音源数目。水平比r1、r2、...、m从频谱比较处理器13中的多个选择器251、252、...、25n分别提供到乘法因子发生器311、312、...、31n。
如同第一实施例中那样,相对于在右声道和左声道音频信号中要分离的期望声音源的音频信号的分配水平比,每个乘法因子发生器311、312、...、31n设置乘法因子的函数(见图4中所示的函数)。
从而,乘法因子w1、w2、...、wn从乘法因子发生器311、312、...、31n提供到源分离器321、322、...、32n,其中,乘法因子w1、w2、...、wn对应于来自选择器251、252、...、25n的水平比r1、r2、...、rn,也对应于要分离的声音源的音频信号。
尽管在图6中未示出,但是如同图3所示的源分离器32中一样,每个源分离器321、322、...、32n包括用于将输出F1乘上乘法因子的乘法器33、用于将输出F2乘上乘法因子的乘法器34,以及用于将乘法器33和34的输出相加的加法器35。
具有等于或接近于分配比率(其中,要分离的期望声音源的音频信号根据该分配比率被分配到右声道和左声道音频信号中)的水平比的频谱分量以基本相同的水平从每个源分离器321、322、...、32n中的乘法器33和34输出。其他频谱分量的水平较低或为0。因此,从源分离器321、322、...、32n中分别获得了要分离的多个期望声音源的频谱分量的提取输出Fex1、Fex2、...、Fexn。
来自源分离器321、322、...、32n的提取输出Fex1、Fex2、...、Fexn分别被提供到反FFT单元151、152、...、15n,并且被变换回初始的时序音频信号。所得到的信号被输出作为分离的声音源的音频信号输出SO1、SO2、...、SOn。
第三实施例根据本发明第三实施例的音频信号处理装置适用于从右声道和左声道音频信号中的左声道音频信号SL和右声道音频信号SR中分离并提取同一声音源的音频信号或不同声音源的音频信号。
图7的框图示出了根据第三实施例的音频信号处理装置的结构。在图7所示的音频信号处理装置中,从FFT单元11和12输出的频谱分量F1和F2被提供到频谱比较处理器13和频谱控制处理器14。
如下所述,频谱控制处理器14输出从左声道音频信号SL中提取的预定声音源音频信号的频谱分量输出FexL和从右声道音频信号SR中提取的预定声音源音频信号的频谱分量输出FexR。频谱分量输出FexL和FexR分别被提供到反FFT单元15L和15R,并且被变换回初始的时序音频信号。从反FFT单元15L和15R得到的结果信号被输出作为预定声音源的输出音频信号SOL和SOR。
如同第一实施例中那样,根据第三实施例的频谱比较处理器13也包括水平检测器21和22以及水平比计算器23和24,并检测来自FFT单元11和12的频谱分量的水平比D2/D1和D1/D2。从水平比计算器23和24输出的所检测的水平比被提供到左声道选择器25L和右声道选择器25R。
选择器25L和25R接收选择控制信号SELL和SELR,每个选择控制信号用于取决于分配比率选择从水平比计算器23和24输出的所检测水平比中的一个,其中要从右声道和左声道的每一个中分离的期望声音源的音频信号根据所述分配比率被分配到右声道和左声道中。如上所述,每个选择控制信号SELL和SELR用于控制每个选择器25L和25R选择这样的水平比,该水平比的分母是要分离的期望声音源的音频信号以较高比率被分配到的声道的水平。
频谱控制处理器14包括左声道乘法因子发生器31L、右声道乘法因子发生器31R、左声道乘法器32L和右声道乘法器32R。水平比rL从频谱比较处理器13中的选择器25L被提供到乘法因子发生器31L,水平比rR从选择器25R被提供到乘法因子发生器31R。
如同第一实施例中那样,相对于在右声道和左声道音频信号中要分离的期望声音源的音频信号的分配水平比,每个乘法因子发生器31L和31R设置乘法因子函数(见图4中所示的函数)。
从而,乘法因子wL和wR分别从乘法因子发生器31L和31R被提供到乘法器32L和32R,其中,乘法因子wL和wR对应于来自选择器25L和25R的水平比rL和rR,也对应于要分离的期望声音源的音频信号。
具有等于或接近于分配比率(其中,要分离的期望声音源的音频信号根据该分配比率被分配到右声道和左声道音频信号中)的水平比的频谱分量以基本相同的水平从每个乘法器32L和32R输出。其他频谱分量的水平较低或为0。因此,从乘法器32L和32R中分别获得了要分离的期望声音源的频谱分量的提取输出FexL和FexR。
来自乘法器32L和32R的提取输出FexL和FexR分别被提供到反FFT单元15L和15R,并且被变换回初始的时序音频信号。所得到的信号被输出作为分离的声音源的音频信号输出SOL和SOR。
在第三实施例中,在乘法因子发生器31L和31R中设置的函数不仅可以适用于分离要从右声道和左声道中分离的不同声音源的音频信号,而且可以适用于分离根据预定水平比或水平差被分配到右声道和左声道中的同一声音源的音频信号。
在后者情况下,选择器25L和25R可以选择性地输出来自水平比计算器23和24的相同水平比,并且乘法因子发生器31L和31R可以使用相同函数。因此,例如可以从左声道和右声道音频信号SL和SR中分离并提取在等式(1)和(2)中定义的左声道和右声道立体声信号SL和SR中的信号S2或S4,并且可以信号S2或S4可以被获取作为输出SOL和SOR。
当要分离相同声音源时,在乘法因子发生器31L和31R中设置的水平比相对于乘法因子的函数可以具有不同的特性。例如,如图8A和8B所示,函数可以展现同位相似特性曲线,其相对于水平比r有不同的乘法因子w。
因此,例如以一定水平差被分配到右声道和左声道中的声音源音频信号可以以相同水平被输出,作为从左声道和右声道音频信号SL和SR中分离的音频信号SOL和SOR。
第四实施例图9示出了根据本发明第四实施例的自动音乐录制装置,作为对图7中所示根据第三实施例的音频信号处理装置的修改形式。
图9中所示的根据第四实施例的自动音乐录制装置包括位于频谱控制处理器14的输出侧的最大频谱水平检测器16L和16R,以替代图7中所示的反FFT单元15L和15R。
根据第四实施例,由于分离的声音源的波谱结构,具有最大幅度水平的频谱分量是该声音源的基频。从而,最大频谱水平检测器16L和16R从来自频谱控制处理器14的输出FexL和FexR中检测具有最大幅度水平的频谱分量的频率,并将所检测的频率f1和f2以及水平V1和V2输出作为数据。
尽管在图9中未示出,但是来自最大频谱水平检测器16L和16R的频率f1和f2以及水平V1和V2可以例如被提供到音调(pitch)检测器以检测声音的音调,并且可以将所检测的音调记录到记录介质上,或者利用乐谱写入装置(或音乐录制装置)写到音乐乐谱上。
因此,根据第四实施例,首先从立体声音频信号中分离出声音源,然后分析分离的声音源的波谱,以检测来自声音源的声音的音调。基于所检测的音调,执行自动音乐录制。因此,可以实现能够根据具有多个声音源组合的立体声声音源进行自动音乐录制的系统。
尽管图9所示的装置从右声道和左声道的每一个中分离声音源,并执行自动音乐录制,但是也可以将图5和6中所示根据第二实施例的装置(其从双声道音频信号的每一个中提取多个声音源的频谱分量)实现为自动音乐录制装置。这种情况下,图5中所示的所有反FFT单元151、152、...、15n被替代为最大频谱水平检测器,以获得具有最大水平的频谱的频率和水平,并且输出的频率和水平经由音调检测器被提供到音乐录制装置。
根据第四实施例的自动音乐录制装置也可以应用于根据第一实施例的音频信号处理装置。应当理解,根据第四实施例的自动音乐录制装置也可以应用于根据以下实施例的用于声音源分离的音频信号处理装置。
第五实施例根据本发明第五实施例的音频信号处理装置适用于允许用户动态地改变要从双声道音频信号中分离的声音源。
具体地说,根据第五实施例的音频信号处理装置被应用到根据第三实施例的音频信号处理装置,并且适用于如下情形在要从双声道音频信号SL和SR的每一个中分离出不同声音源的音频信号(或相同声音源的音频信号)时,允许用户动态地选择和改变要分离的一个或多个声音源。
参考图10,根据第五实施例,频谱控制处理器14包括多个左声道乘法因子发生器31L1、31L2、...、31Ln,以及切换电路36L。切换电路36L选择从多个乘法因子发生器31L1、31L2、...、31Ln中的任何一个生成的乘法因子,并将所选择的乘法因子提供到乘法器32L作为乘法因子wL。
频谱控制处理器14还包括多个右声道乘法因子发生器31R1、31R2、...、31Rn,以及切换电路36R。切换电路36R选择从多个乘法因子发生器31R1、31R2、...、31Rn中的任何一个生成的乘法因子,并将所选择的乘法因子提供到乘法器32R作为乘法因子wR。
例如,多个乘法因子发生器31L1、31L2、...、31Ln、31R1、31R2、...、31Rn中的每一个设置水平比相对于乘法因子的函数,其用来分离在右声道和左声道之间的具有各种值的水平比的声音源。
频谱比较处理器13包括选择和分配电路250。选择和分配电路250接收从水平比计算器23和24输出的水平比,并将任一个水平比输出提供到每一个乘法因子发生器31L1、31L2、...、31Ln、31R1、31R2、...、31Rn。
根据第五实施例的音频信号处理装置还包括源分离选择信号发生器17。源分离选择信号发生器17响应于用户利用选择操作单元(下面将描述)所操作的信号Ma,生成要被提供到选择和分配电路250的选择信号SELT,以选择要分离的声音源。源分离选择信号发生器17还生成用于控制切换电路36L的切换操作的信号SWL和用于控制切换电路36R的切换操作的信号SWR。
尽管在图10中未示出,但是根据第五实施例的音频信号处理装置接收用户例如使用选择操作杆或按钮或显示单元(如具有接触式面板的液晶显示器(LCD))上的图形用户界面的声音源选择操作。通过用户操作被选择的声音源是可由乘法因子发生器31L1、31L2、...、31Ln、31R1、31R2、...、31Rn中设置的函数分离的多个声音源。
例如,可被分离的多个声音源可以是其声像位置在左声道中的声像位置和右声道中的声像位置之间稍稍改变的声音源。
用户可以在右声道和左声道的每一个中独立指定期望的声音源。
例如,当用户使用选择操作杆或按钮或图形用户界面,选择可以利用来自左声道乘法因子发生器31L1的乘法因子从左声道音频信号SL中分离出的声音源时,源分离选择信号发生器17接收对应于选择操作的信号Ma,并根据信号Ma,生成切换控制信号SWL和选择信号SELT。
切换电路36L被来自源分离选择信号发生器17的切换控制信号SWL切换到选择乘法因子发生器31L1。选择和分配电路250被选择信号SELT控制为选择水平比计算器23或24(其输出的水平比为1或更低),并且所选择的水平比被提供到乘法因子发生器31L1。
从而,所选声音源的频谱分量FexL从乘法器32L中获得,并且被反FFT单元15L变换回初始的时序音频信号,然后被输出为SOL输出。
同样在右声道中,提取了用户所选择的要分离的期望声音源的音频信号。
根据图10所示的第五实施例,从双声道音频信号的每一个中分离并提取了预定声音源的音频信号(即,根据第五实施例的音频信号处理装置被应用于第三实施例)。根据第五实施例的音频信号处理装置也可应用于第一或第二实施例。
例如,当根据第五实施例的音频信号处理装置应用于第一实施例时,提供了多个乘法因子发生器以替代图3中所示的乘法因子发生器31,并且在多个乘法因子发生器和声音源分离器32之间提供了切换电路,以将来自多个乘法因子发生器的其中之一的乘法因子提供到声音源分离器32。还提供了源分离选择信号发生器,以响应于来自用户的选择操作信号Ma,控制切换电路的切换操作,并生成控制信号,以执行控制,将来自水平比计算器23和24的其中一个的合适的水平提供到乘法因子发生器。
例如,当根据第五实施例的音频信号处理装置应用于第二实施例时,提供了多个乘法因子发生器以替代图6中所示的乘法因子发生器311、312、...、31n中的每一个,并且在多个乘法因子发生器和每个声音源分离器321、322、...、32n之间提供了多个切换电路,以将来自多个乘法因子发生器的其中之一的乘法因子提供到每个声音源分离器321、322、...、32n。还提供了源分离选择信号发生器,以响应于来自用户的选择操作信号Ma,生成控制信号以控制每个切换电路的切换操作,并生成控制信号以执行控制,将来自水平比计算器23和24其中一个的合适的水平提供到每个乘法因子发生器。
第六实施例在前述实施例中,声音源的音频信号被同相分配到双声道音频信号中。声音源的音频信号也可以反相分配。例如,来自六个声音源MS1到MS6的音频信号S1到S6被分配到左声道和右声道,以产生如下等式(3)和(4)中所定义的立体声音频信号SL和SRSL=S1+0.9S2+0.7S3+0.4S4+0.7S6等式(3)SR=S5+0.4S2+0.7S3+0.9S4-0.7S6 等式(4)声音源MS3的音频信号S3和声音源MS6的音频信号S6以相同水平被分配到右声道和左声道中。然而,声音源MS3的音频信号S3被同相分配到右声道和左声道中,而声音源MS6的音频信号S6被反相分配到右声道和左声道中。
如果仅仅基于水平比或水平差,而不考虑相位,以前述实施例中所述的方式分离并提取声音源MS3的音频信号S3或声音源MS6的音频信号S6,则由于音频信号S3和S6以相同水平被分配到右声道和左声道中,因此很难分离并提取任何一个信号。
根据第六实施例,通过首先以与前述实施例类似的方式,利用水平比或水平差,然后利用相位差来分离音频分量,分离并输出声音源MS3的音频信号S3和声音源MS6的音频信号S6。
图11的框图示出了根据第六实施例的音频信号处理装置的结构。根据第六实施例的音频信号处理装置包括频谱比较处理器103,并且频谱比较处理器103包括水平比较处理器1031和相位比较处理器1032。
根据第六实施例的音频信号处理装置还包括频谱控制处理器104,并且频谱控制处理器104包括第一频谱控制处理器1041和第二频谱控制处理器1042,用于基于相位差的声音源分离。
图12的框图示出了根据第六实施例的频谱比较处理器103和频谱控制处理器104的结构细节。频谱比较处理器103中的水平比较处理器1031具有与根据第一实施例的频谱比较处理器13类似的结构,并且包括水平检测器21和22、水平比计算器23和24以及选择器25。
除了频谱控制处理器1041不包括加法器35之外,频谱控制处理器104中的第一频谱控制处理器1041具有与根据第一实施例的频谱控制处理器14类似的结构。第一频谱控制处理器1041包括乘法因子发生器31以及含有乘法器33和34的声音源分离器32。
如图11和12所示,来自水平比较处理器1031的水平比输出r以第一实施例中所述的方式被提供到第一频谱控制处理器1041中的乘法因子发生器31,并且乘法因子发生器31根据在乘法因子发生器31中设置的函数生成乘法因子wr。乘法因子wr被提供到乘法器33和34。
来自FFT单元11的频谱分量F1被提供到乘法器33,并且频谱分量F1和乘法因子wr的相乘结果从乘法器33提供。来自FFT单元12的频谱分量F2被提供到乘法器34,并且频谱分量F2和乘法因子wr的相乘结果从乘法器34提供。
即,从乘法器33和34输出来自FFT单元11和12的频谱分量F1和F2,其水平根据来自乘法因子发生器31的乘法因子wr而被控制。
如上所述,乘法因子发生器31可以是用于生成关于乘法因子wr的函数的函数发生电路,其中水平比r是变量。乘法因子发生器31中所用的函数取决于右声道和左声道音频信号中要分离的声音源的分配比率。
例如,乘法因子发生器31设置图4A-4E中所示的乘法因子wr相对于水平比的函数。例如,当如上所述地分离并提取以相同水平分配到右声道和左声道中的声音源音频信号时,乘法因子发生器31设置图4A中所示的特定函数。
根据第六实施例,乘法器33和34的输出被提供到频谱比较处理器103中的相位比较处理器1032和频谱控制处理器104中的第二频谱控制处理器1042。
如图12所示,相位比较处理器1032包括用于检测乘法器33和34的输出之间的相位差φ的相位差检测器26。相位差检测器26将关于相位差φ的信息提供到第二频谱控制处理器1042。
第二频谱控制处理器1042包括乘法因子发生器301和305、乘法器302、303、306和307,以及加法器304和308。
第一频谱控制处理器1041中的乘法器33的输出和来自乘法因子发生器301的乘法因子wp1被提供到乘法器302。乘法器302将乘法器33的输出乘上乘法因子wp1,并将相乘结果提供到加法器304。第一频谱控制处理器1041中的乘法器34的输出和来自乘法因子发生器301的乘法因子wp1被提供到乘法器303。乘法器303将乘法器34的输出乘上乘法因子wp1,并将相乘结果提供到加法器304。加法器304输出频谱控制处理器104的第一输出Fex1。
第一频谱控制处理器1041中的乘法器33的输出和来自乘法因子发生器305的乘法因子wp2被提供到乘法器306。乘法器306将乘法器33的输出乘上乘法因子wp2,并将相乘结果提供到加法器308。第一频谱控制处理器1041中的乘法器34的输出和来自乘法因子发生器305的乘法因子wp2被提供到乘法器307。乘法器307将乘法器34的输出乘上乘法因子wp2,并将相乘结果提供到加法器308。加法器308输出频谱控制处理器104的第二输出Fex2。
乘法因子发生器301和305从相位差检测器26接收关于相位差φ的信息,并基于相位差φ生成乘法因子wp1和wp2。乘法因子发生器301和305可以是用于生成关于乘法因子wp的函数的函数发生电路,其中相位差φ是变量。乘法因子发生器301和305中所用的函数由用户根据两个声道和要分离的声音源之间的相位差而确定。
被提供到乘法因子发生器301和305的相位差φ以频谱的频率分量的单位改变。从而,来自乘法因子发生器301和305的乘法因子wp1和wp2也以频谱的频率分量的单位而改变。
因此,在乘法器302和306中,来自乘法器33的频谱的水平由乘法因子wp1和wp2控制。在乘法器303和307中,来自乘法器34的频谱的水平由乘法因子wp1和wp2控制。
图13A-13E示出了在充当乘法因子发生器301和305的函数发生电路中所使用的示例性函数。
在图13A所示的函数特性中,相对于右声道和左声道之间的相位差φ为0或接近0的频谱分量(即,右声道和左声道同相或相位接近的频谱分量),乘法因子wp为1或约等于1。在右声道和左声道之间的相位差φ约为π/4或更高的区域内,乘法因子wp为0。
例如,当乘法因子发生器301设置具有图13A中所示特性的函数时,相对于从相位差检测器26提供的相位差φ为0或约等于0的频谱分量,乘法因子wp为1或约等于1。从而,该频谱分量以基本相同的水平从乘法器302和303输出。另一方面,相对于从相位差检测器26提供的相位差φ约为π/4或更高的频谱分量,乘法因子wp为0,因此,该频谱分量的输出水平为0。即,该频谱分量不从乘法器302和303输出。
从而,在多个频谱分量中,右声道和左声道同相或其相位差较小的频谱分量以基本相同的水平从乘法器302和303输出,而右声道和左声道之间具有较大相位差的频谱分量的输出水平为0,因此不从乘法器302和303输出。因此,从加法器304只获得了被同相分配到右声道和左声道音频信号SL和SR中的声音源音频信号的频谱分量。
因此,具有图13A中所示特性的函数用于提取被同相分配到右声道和左声道中的声音源信号。
在图13B所示的函数特性中,相对于右声道和左声道之间的相位差φ为π或接近π的频谱分量(即,右声道和左声道反相或接近反相的频谱分量),乘法因子wp为1或约等于1。在右声道和左声道之间的相位差φ约为3π/4或更低的区域内,乘法因子wp为0。
例如,当乘法因子发生器301设置具有图13B中所示特性的函数时,相对于从相位差检测器26提供的相位差φ为π或约等于π的频谱分量,乘法因子wp为1或约等于1。从而,该频谱分量以基本相同的水平从乘法器302和303输出。另一方面,相对于从相位差检测器26提供的相位差φ约为3π/4或更低的频谱分量,乘法因子wp为0,因此,该频谱分量的输出水平为0。即,该频谱分量不从乘法器302和303输出。
从而,在多个频谱分量中,右声道和左声道反相或其相位差较大的频谱分量以基本相同的水平从乘法器302和303输出,而右声道和左声道之间具有较小相位差的频谱分量的输出水平为0,因此不从乘法器302和303输出。因此,从加法器304只获得了被反相分配到右声道和左声道音频信号SL和SR中的声音源音频信号的频谱分量。
因此,具有图13B中所示特性的函数用于提取被反相分配到右声道和左声道中的声音源信号。
在具有图13C所示特性的函数中,相对于右声道和左声道之间的相位差φ约为π/2或接近于约π/2的频谱分量,乘法因子wp为1或约等于1。在相位差φ不为约π/2的区域内,乘法因子wp为0。因此,具有图13C中所示特性的函数用于提取以约π/2的相位差被分配到右声道和左声道中的声音源信号。
乘法因子发生器301和305可以取决于相位差,使用具有图13D或13E中所示特性的函数,其中要分离的声音源的音频信号根据该相位差被分配到两个声道中。
因此,从频谱控制处理器104获得的第一输出Fex1和第二输出Fex2分别被提供到反FFT单元1501和1502,并且被变换回初始的时序音频信号。所得到的信号被获取作为第一和第二输出信号SO10和SO20。当要获得模拟信号的第一和第二输出信号SO10和SO20时,在反FFT单元1501和1502的输出级提供了D/A转换器。
例如,在第六实施例中,当要从在等式(3)和(4)中定义的右声道和左声道音频信号SL和SR中分离出被同相分配到右声道和左声道中的声音源MS3的音频信号S3以及被反相分配到右声道和左声道中的声音源MS6的音频信号S6(其中音频信号S3和S6以相同的水平分配)时,乘法因子发生器31设置图4A中所示的特性函数,而乘法因子发生器301和305分别设置具有图13A和13B中所示特性的函数。
这种情况下,如图11和12所示,在频谱控制处理器104的第一频谱控制处理器1041中,乘法器33输出左声道音频信号SL中的FFT信号(频谱)的频谱分量(S3+S6),而乘法器34输出右声道音频信号SR中的FFT信号(频谱)的频谱分量(S3-S6)。即,由于信号S3和S6以相同水平被分配到右声道和左声道中,因此信号S3和S6不被分离地从第一频谱控制处理器1041中输出。
根据第六实施例,以下面的方式分离被反相分配到右声道和左声道中的信号S3和S6。
乘法器33和34的输出被提供到频谱比较处理器103内的相位比较处理器1032中的相位差检测器26,以检测乘法器33和34的输出之间的相位差φ。相位差检测器26所检测到的关于相位差φ的信息被提供到乘法因子发生器301和乘法因子发生器305。
在乘法因子发生器301中设置的具有图13A中所示特性的函数允许乘法器302和303提取被同相分配到右声道和左声道中的声音源的音频信号。从而,从每个乘法器302和303只获得了频谱分量(S3+S6)和(S3-S6)中同相的声音源MS3的音频信号S3的频谱分量,并且其被提供到加法器304。
因此,声音源MS3的音频信号S3的频谱分量被获得作为来自加法器304的输出信号Fex1,并且被提供到反FFT单元1501。分离的音频信号S3被反FFT单元1501变换回时序信号,然后输出为输出信号SO10。
在乘法因子发生器305中设置的具有图13B中所示特性的函数允许乘法器306和307提取被反相分配到右声道和左声道中的声音源的音频信号。从而,从每个乘法器306和307中只获得了频谱分量(S3+S6)和(S3-S6)中反相的声音源MS6的音频信号S6的频谱分量,并且其被提供到加法器308。
因此,声音源MS6的音频信号S6的频谱分量被获得作为来自加法器308的输出信号Fex2,并且被提供到反FFT单元1502。分离的音频信号S6被反FFT单元1502变换回时序信号,然后输出作为输出信号SO20。
在参考图11和12所述的第六实施例中,两个信号(如,同相信号S3和反相信号S6)是利用各个乘法因子和乘法器由第二频谱控制处理器1042分离的,而不是利用水平比由第一频谱控制处理器1041分离的。或者,不是利用水平比分离的两个信号中的一个信号可以利用相位差φ和乘法因子来分离,并且可以从来自第一频谱控制处理器1041的信号的和(或者来自乘法器33的输出和来自乘法器34的输出的和)中减去分离出的信号,以分离两个信号中的另一个信号。
尽管在参考图11和12所述的第六实施例中获得了两个分离的声音源信号,但是要输出的分离声音源信号的数目可以是1。根据第六实施例的音频信号处理装置也可应用于根据第二实施例的音频信号处理装置,以一次分离多个声音源的音频信号。
根据参考图11和12所述的第六实施例,基于两个频谱的水平比,提取了以相同水平被分配到两个音频信号中的声音源分量,其后,基于所提取的声音源分量的两个频谱之间的相位差,分离了期望的声音源。当输入音频信号是两个音频信号(如(S3+S6)和(S3-S6))时,应当理解,可以仅仅基于相位差而分离声音源。
根据第六实施例的音频信号处理装置也可应用于根据第四实施例的自动音乐录制装置。
第七实施例图14的框图示出了根据本发明第七实施例的音频信号处理装置的结构。图14中所示的音频信号处理装置适用于利用数字滤波器42,从左声道和右声道音频信号SL和SR的其中一个(如,在图14所示的示例中的左声道音频信号SL)中,分离以预定水平比或水平差被分配到右声道和左声道中的声音源的音频信号。
左声道音频信号(在本示例中是数字信号)SL经由定时调节延迟单元41被提供到数字滤波器42。数字滤波器42接收滤波系数(下面将描述),并且从数字滤波器42提取期望声音源的音频信号,其中滤波系数是基于水平比而生成的,要分离的期望声音源的音频信号以该水平比被分配到右声道和左声道中。
以下面方式生成滤波系数。首先,将左声道和右声道音频信号(数字信号)SL和SR分别提供到FFT单元43和44,并进行FFT处理,从而使时序音频信号被变换为频域数据。从每个FFT单元43和44中输出具有不同频率的多个频谱分量。
从FFT单元43和44输出的频谱分量分别被提供到水平检测器45和46,以检测频谱分量的幅度谱或功率谱,从而检测水平D1和D2。水平检测器45和46所检测的水平D1和D2被提供到水平比计算器47,以确定水平比D1/D2或D2/D1。
水平比计算器47所确定的水平比被提供到加权因子发生器48。加权因子发生器48对应于根据前述实施例的乘法因子发生器。加权因子发生器48相对于等于或接近于一个水平比的水平比输出较大的加权因子,而相对于其他的水平比输出较小的加权因子,其中,要分离的声音源的音频信号以所述这个水平比被混合在右声道和左声道音频信号中。对于从FFT单元43和44输出的频谱分量的每个频率,获得加权因子。
来自加权因子发生器48的频域加权因子被提供给滤波系数发生器49,并被变换为时域滤波系数。滤波系数发生器49对频域加权因子执行反FFT,以生成要提供给数字滤波器42的滤波系数。
来自滤波系数发生器49的滤波系数被提供给数字滤波器42。数字滤波器42分离并提取与加权因子发生器48中设置的函数相对应的声音源的音频信号分量,并将其作为输出SO输出。延迟单元41调节直到生成了要提供给数字滤波器42的滤波系数的处理延迟时间。
尽管在图14所示的示例中只考虑了水平比,但是也可以只考虑相位差或者考虑水平比和相位差的组合。例如,当考虑水平比和相位差的组合时,FFT单元43和44的输出也被提供给相位差检测器(未示出),并且相位差检测器所检测的相位差被提供给加权因子发生器。加权因子发生器是用于生成相对于可变水平差和可变相位差的加权因子的函数发生电路,其中要分离的声音源以该可变水平差和可变相位差被分配到右声道和左声道音频信号中。
因此,加权因子发生器设置一个函数,该函数被设计用来在相对于等于或接近于一个水平比的水平比以及相对于等于或接近于一个相位差的相位差时生成大的加权因子,而在其他情况下生成小的因子,其中,要分离的声音源的音频信号以所述这个水平比被分配到右声道和左声道中,并且要分离的声音源的音频信号以所述这个相位差被分配到右声道和左声道中。
对来自加权因子发生器的加权因子进行反FFT处理,以生成数字滤波器42的滤波系数。
尽管图14中只从左声道中分离出期望声音源的音频信号,但是通过分别地提供用于生成滤波系数的类似系统,也可以从右声道音频信号中分离出预定声音源的音频信号。
其他实施例在前述实施例中,由于难以对较长的时序信号(如音乐)的输入音频信号执行FFT处理,因此时序信号被分段为预定的分析帧,从而使对每个帧中的数据段执行FFT处理。
然而,如果时序数据被分段为具有某一特定长度的帧,并且在执行反FFT以组合帧之前进行声音源分离,则经历反FFT处理的时序数据的波形可能在帧边界处不连续,这导致听到噪声。
根据本发明的第八实施例,如图15所示,从数字音频信号中提取帧1、2、3、4...的数据段。帧1、2、3、4...是长度相同的单位帧,并且相邻的帧例如重叠半个单位的帧。在图15中,数字音频信号包括数据采样x0、x1、x2、x3、...、xn。
当对数字音频信号进行前述实施例中所述的声音源分离和反FFT处理时,图16中所示的得到的时序数据(y0、y1、y2、y3、...、yn)也具有重叠的帧,例如输出数据段1和2。
其后,根据第八实施例,如图16所示,图16中所示的三角形窗函数1和2被应用到帧彼此重叠的相邻输出数据段,例如输出数据段1和2,并且输出数据段1和2的重叠帧中的同步数据点被相加,以获得图16中所示的输出合成数据。所分离的输出音频信号在帧边界处无不连续的波形,或者说无噪声。
根据本发明的第九实施例,如图17所示,数据段被提取使得相邻数据段的预定帧(例如帧1、2、3和4)彼此重叠,并且在执行FFT处理之前,图17中所示的三角形窗函数1、2、3和4应用到帧1、2、3和4的所提取的数据段。
在施加图17中所示的窗函数1、2、3和4之后,执行FFT处理。当利用反FFT来变换经历合适声音源分离处理的信号时,产生图18中所示的输出数据段1和2。输出数据段1和2是已将窗函数施加到重叠的帧部分上的经窗处理后的数据段。因此,输出部分只需要将重叠的数据段相加,以产生无噪声的已分离音频信号,其波形在帧边界处无不连续。
除了三角形窗函数外,也可以使用其他窗函数,如Hanning窗函数、Hamming窗函数和Blackman窗函数。
在前述实施例中,利用正交变换将时间离散的信号变换为频域信号,并且比较立体声声道的频谱。原理上,可利用多个带通滤波器将信号在时域分段,并且对于每个频带可执行类似的处理。然而,前述实施例中的FFT处理更为实用,这是因为其易于增大频率分辨率并提高源分离性能。
尽管在将双声道立体声信号作为两个音频信号的情况中描述了前述实施例,但是也可以使用任何类型的两个音频信号,只要声音源的音频信号以预定水平比或水平差被分配到这两个音频信号中即可。对于相位差也是一样的。
在前述实施例中,确定了两个音频信号的频谱之间的水平比,并且乘法因子发生器设置水平比相对于乘法因子的函数。也可以确定两个音频信号的频谱之间的水平差,并且乘法因子发生器也可以使用水平差相对于乘法因子的函数。
用于将时序信号变换为频域信号的正交变换器并不限于FFT处理器,可以使用能够比较频谱的水平或相位的任何变换器。
本领域的技术人员应当理解,取决于设计需求和其他因素,可以进行各种修改、组合、子组合和替换,它们落在所附权利要求及其等同物的范围内。
本发明包含2004年9月8日向日本特许厅提交的日本专利申请JP2004-260397的相关主题,这里通过引用并入其全部内容。
权利要求
1.一种音频信号处理装置,包括划分装置,用于将两个音频信号中的每一个划分为多个频带;水平比较装置,用于确定在通过所述划分装置被划分的所述多个频带的每一个中,所述两个音频信号之间的水平比或水平差;和输出控制装置,用于根据通过所述水平比较装置确定的所述水平比或水平差,控制所述划分装置的输出。
2.一种音频信号处理装置,包括第一变换装置,用于将两个时序音频信号中的第一时序音频信号变换为第一频域信号;第二变换装置,用于将所述两个时序音频信号中的第二时序音频信号变换为第二频域信号;水平确定装置,用于确定从所述第一变换装置获得的所述第一频域信号的频谱与从所述第二变换装置获得的所述第二频域信号的频谱之间的水平比或水平差;和输出控制装置,用于基于通过所述水平确定装置确定的所述水平比或水平差,控制并输出从所述第一变换装置和所述第二变换装置的至少一个获得的频谱的水平。
3.根据权利要求2所述的音频信号处理装置,还包括反变换装置,用于将来自所述输出控制装置的频域信号变换为时序信号。
4.根据权利要求2所述的音频信号处理装置,还包括相位差确定装置,用于确定从所述第一变换装置获得的所述第一频域信号的频谱与从所述第二变换装置获得的所述第二频域信号的频谱之间的相位差,其中,所述输出控制装置基于通过所述水平确定装置确定的水平比或水平差以及通过所述相位差确定装置确定的相位差,控制并输出从所述第一变换装置和所述第二变换装置的至少一个获得的频谱的水平。
5.根据权利要求4所述的音频信号处理装置,还包括反变换装置,用于将来自所述输出控制装置的频域信号变换为时序信号。
6.根据权利要求2所述的音频信号处理装置,其中,所述输出控制装置包括乘法因子发生部分,所述乘法因子发生部分生成乘法因子,所述乘法因子被设置为通过所述水平确定装置确定的水平比或水平差的函数;和声音源分离部分,所述声音源分离部分将从所述第一变换装置和所述第二变换装置的至少一个获得的频谱乘上由所述乘法因子发生部分生成的乘法因子,并确定所述频谱的输出水平。
7.根据权利要求4所述的音频信号处理装置,其中,所述输出控制装置包括乘法因子发生部分,所述乘法因子发生部分生成乘法因子,所述乘法因子被设置为通过所述相位差确定装置确定的相位差的函数;和声音源分离部分,所述声音源分离部分将从所述第一变换装置和所述第二变换装置的至少一个获得的频谱乘上由所述乘法因子发生部分生成的乘法因子,并确定所述频谱的输出水平。
8.根据权利要求3所述的音频信号处理装置,其中,所述输出控制装置包括多个乘法因子发生部分,所述多个乘法因子发生部分生成乘法因子,所述乘法因子被设置为通过所述水平确定装置确定的水平比或水平差的函数;和多个声音源分离部分,各个所述声音源分离部分将从所述第一变换装置和所述第二变换装置的至少一个获得的频谱乘上由所述乘法因子发生部分生成的各个乘法因子,并确定所述频谱的输出水平,并且所述反变换装置包括多个反变换部分,所述多个反变换部分将来自所述多个声音源分离部分的输出变换为时序信号。
9.根据权利要求2所述的音频信号处理装置,其中,所述输出控制装置包括多个乘法因子发生部分,所述多个乘法因子发生部分生成乘法因子,所述乘法因子被设置为通过所述水平确定装置确定的水平比或水平差的函数;和选择部分,所述选择部分选择由所述多个乘法因子发生部分生成的乘法因子中的一个;和声音源分离部分,所述声音源分离部分将从所述第一变换装置和所述第二变换装置的至少一个获得的频谱乘上通过所述选择部分选择的乘法因子,并确定所述频谱的输出水平。
10.根据权利要求2所述的音频信号处理装置,还包括检测装置,用于检测来自所述输出控制装置的输出谱中的最大水平的频率,并将所检测出的频率输出为输出数据。
11.根据权利要求6所述的音频信号处理装置,其中,对于通过所述水平确定装置确定的水平比或水平差在预定范围外的频谱,乘法因子被设为0。
12.根据权利要求3所述的音频信号处理装置,还包括分段装置,用于将所述两个时序音频信号分段为预定的帧以产生数据段,使得相邻的数据段在所述帧的一部分上相互重叠,以及用于将所述数据段提供到所述第一变换装置和所述第二变换装置;和输出装置,用于将窗函数应用到与来自所述反变换装置的输出时序信号相对应的数据段,将所述输出时序信号中的同步数据段相加,并输出所得到的时序信号。
13.根据权利要求3所述的音频信号处理装置,还包括分段装置,用于将所述两个时序音频信号分段为预定的帧以产生数据段,使得相邻的数据段在所述帧的一部分上相互重叠,以及用于将窗函数应用到所述数据段,并将所述数据段提供到所述第一变换装置和所述第二变换装置;和输出装置,用于将来自所述反变换装置的输出时序信号中的同步数据段相加,并输出所得到的时序信号。
14.一种音频信号处理方法,包括以下步骤将两个音频信号中的每一个划分为多个频带;确定在所述多个划分出的频带的每一个中,所述两个音频信号之间的水平比或水平差;以及根据在所述确定水平比或水平差的步骤中确定的所述水平比或水平差,控制所述被划分的音频信号的输出。
15.一种音频信号处理方法,包括以下步骤将两个时序音频信号变换为频域信号,以产生两个频谱;确定在所述变换两个时序音频信号的步骤中产生的所述两个频谱之间的水平比或水平差;以及基于在所述确定水平比或水平差的步骤中确定的所述水平比或水平差,控制并输出在所述变换两个时序音频信号的步骤中产生的所述两个频谱中的至少一个频谱的水平。
16.根据权利要求15所述的音频信号处理方法,还包括以下步骤将在所述控制并输出水平的步骤中获得的所述频域信号变换为时序信号。
17.根据权利要求15所述的音频信号处理方法,还包括以下步骤确定在所述变换两个时序音频信号的步骤中产生的所述频谱之间的所述两个时序音频信号的相位差,其中,所述控制并输出水平的步骤基于在所述确定水平比或水平差的步骤中确定的所述水平比或水平差以及在所述确定相位差的步骤中确定的所述相位差,控制并输出在所述变换两个时序音频信号的步骤中产生的所述两个频谱中的至少一个频谱的水平。
18.根据权利要求17所述的音频信号处理方法,还包括以下步骤将在所述控制并输出水平的步骤中获得的所述频域信号变换为时序信号。
19.根据权利要求15所述的音频信号处理方法,还包括以下步骤检测在所述控制并输出水平的步骤中获得的所述输出谱中的最大水平的频率,以将所检测出的频率输出为输出数据。
20.一种音频信号处理装置,包括划分单元,所述划分单元将两个音频信号中的每一个划分为多个频带;水平比较单元,所述水平比较单元确定在通过所述划分单元被划分的所述多个频带的每一个中,所述两个音频信号之间的水平比或水平差;和输出控制单元,所述输出控制单元根据通过所述水平比较单元确定的所述水平比或水平差,控制所述划分单元的输出。
21.一种音频信号处理装置,包括第一变换单元,所述第一变换单元将两个时序音频信号中的第一时序音频信号变换为第一频域信号;第二变换单元,所述第二变换单元将所述两个时序音频信号中的第二时序音频信号变换为第二频域信号;水平确定单元,所述水平确定单元确定从所述第一变换单元获得的所述第一频域信号的频谱与从所述第二变换单元获得的所述第二频域信号的频谱之间的水平比或水平差;和输出控制单元,所述输出控制单元基于通过所述水平确定单元确定的所述水平比或水平差,控制并输出从所述第一变换单元和所述第二变换单元的至少一个获得的频谱的水平。
全文摘要
本发明公开了一种音频信号处理装置和方法。音频信号处理装置包括划分单元,用于将两个音频信号中的每一个划分为多个频带;水平比较单元,用于确定在划分单元划分的多个频带的每一个中,两个音频信号之间的水平比或水平差;以及输出控制单元,用于根据水平比较单元确定的水平比或水平差,控制划分单元的输出。
文档编号H04S7/00GK1747608SQ200510098788
公开日2006年3月15日 申请日期2005年9月7日 优先权日2004年9月8日
发明者山田裕司, 冲本越 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1