语音信号分离设备和方法

文档序号:2837322阅读:517来源:国知局
专利名称:语音信号分离设备和方法
技术领域
本发明涉及用于分离语音信号的语音信号分离设备和方法,利用独立的分量分析(ICA)把混合了多个信号的语音信号分离成单个信号。
背景技术
一种仅利用统计独立性从其中混合了原始信号与未知的系数线性的信号中分离和重构多个原始信号的独立分量分析(ICA)的技术在信号处理领域中引起注意。通过应用独立分量分析,即使在例如扬声器和麦克风位于彼此相距一定距离的位置、而且麦克风拾取了除了扬声器的语音之外的声音的情况下,也能分离和重构语音信号。
这里,研究在时间-频率域中利用独立的分量分析来将混合有多个信号语音信号分离成单独的信号。
如图7所示,假设从N个声源分别的发射不同的声音,并利用n个麦克风来监测(observe)。从声源发射的声音(原始信号)在它到达麦克风之前,经过时间延迟、反射等。因此,由第k个(1≤k≤n)麦克风k监测的信号(监测信号)xk(t)通过原始信号的卷积算术运算的结果和用于所有声源的转移函数的总和的表达式来表示,如下面给出的表达式(1)所示。此外,当通过单个表达式表示所有麦克风的监测信号时,给出为如下指定的表达式(2)。在表达式(1)和(2)中,x(t)和s(t)是列矢量,分别包括作为元素的xk(t)和sk(t),A表示n×N矩阵,其包括元素aij(t)。应该注意,在以下说明中,假设N=n。
xk(t)=Σj=1NΣτ=0∞akj(τ)sj(t-τ)=Σj=1N{akj*sj(t)}...(1)]]>x(t)=A*s(t)...(2)其中s(t)=s1(t)···sN(t)]]>
x(t)=x1(t)···xn(t)]]> 在时间-频率域的独立分量分析中,根据上面给出的表达式(2)的x(t)没有估算A和s(t),但x(t)被变换成时间-频率域的信号,并从时间-频率域的信号估算对应于A和s(t)的信号。在下文中,描述估算的方法。
当分别由X(ω,t)和S(ω,t)来表示通过长度L的窗口的信号矢量x(t)和s(t)的短时傅立叶变换的结果、并且由A(ω)表示矩阵A(t)的类似的短时傅立叶变换的结果时,时域的表达式(2)可以被表示成下面给出的时间-频率域的表达式(3)。应该注意,ω表示频率群(frequency bin)数(1≤ω≤M),而t表示帧数(1≤t≤T)。在时间-频率域的独立分量分析中,在时间-频率域中估算S(ω,t)和A(ω)。
X(ω,t)=A(ω)S(ω,t)...(3)其中X(ω,t)=X1(ω,t)···Xn(ω,t)]]>S(ω,t)=S1(ω,t)···Sn(ω,t)]]>应该注意的是,频率群数一开始等于窗口的长度L,而频率群分别表示频率分量,其中从-R/2至R/2的范围被分成L部分。这里,R是采样频率。注意的是,负的频率分量是正的频率分量的c共轭复数,并且可通过X(-ω)=conj X((ω))来表示(conj(·)是共轭复数)。因此,在本说明书中,只考虑从0-R/2的非负频率分量(频率群数是L/2+1),而且从1-M(M=L/2+1)的数被应用于频率分量。
为了估算时间-频率域中的S(ω,t)和A(ω),例如,考虑如下面表达式(4)的表达式。在表达式(4)中,Y(ω,t)表示列矢量,其包括通过长度L的窗口的、yk(t)的短时傅立叶的结果Yk(ω,t),并且W(ω)表示n×n矩阵(分离矩阵),其元素是Wij(ω)。
Y(ω,t)=W(ω)×(ω,t)...(4)其中Y(ω,t)=Y1(ω,t)···Yn(ω,t)]]> 接着,确定W(ω),其中当t变化而ω不变时,Y1(ω,t)-Yn(ω,t)变为彼此统计独立(实际上独立性为最大值)。如此后所述,由于时间-频率域中的独立分量分析呈现出置换不稳定性,所以除了W(ω)=A(ω)-1之外还存在一种解决方式。如果对于所有ω获得彼此统计独立的Y1(ω,t)-Yn(ω,t),则可以通过逆傅里叶变换它们来获得时域中的分离信号y(t)。
结合参考图8描述时间-频率域中传统的独立分量分析的概述。从n个声源发射的并彼此独立的原始信号通过s1到sn表示,并且由s表示包括原始信号s1到sn作为其元素的矢量。通过将上述表达式(2)的卷积和混合算法运算应用于原始信号s,来获得麦克风监测的监测信号x。在图9A中示出了监测信号x的例子,其中麦克风的数目n是2,也就是信道数是2。接着,短时傅立叶变换被应用到监测信号x,以获得时间-频率域中的信号X。当通过Xk(ω,t)表示信号X的元素时,Xk(ω,t)假设复数值。以颜色密度的形式表示Xk(ω,t)的绝对值|Xk(ω,t)|的图被称为频谱图。频谱图的例子如图9B所示。在图9B中,横坐标的轴表示t(帧数),纵坐标的轴表示ω(频率群数)。然后,信号X的每个频率群乘以W(ω)以获得如图9C所示的分离信号Y。接着,分离信号Y被逆傅里叶变换,以获得如图9D所示的时域中的分离信号y。
注意的是,在下述中,本身作为独立分量分析中的信号的Yk(ω,t)和Xk(ω,t)每个也都表示为“频谱图”。
这里,作为表示独立分量分析中的信号的独立性的尺度,可使用Kullback-Leibler信息量(此后称作“KL信息量”)、峭度(kurtosis)等等。然而,KL信息量在此被用作示例。
关注某一频率群,如图10所示。当帧数t在1到T的范围内变化时,Yk(ω,t)通过Yk(ω)表示,分离信号X1(ω)到Yn(ω)的独立性的尺度表示的KL信息量I(Xk(ω)如下面的表达式(5)所示来定义。具体地,当将所有信道的每个频率群(=ω)的同时(simultaneous)熵H(Yk(ω))从单独信道的频率群(=ω)的熵的总数和中减去时所获得的值被定义成KL信息量I(Y(ω))。图11示出了n=2时H(Yk(ω))和H(Y(ω))之间的关系。根据熵的定义,表达式(5)中的H(Yk(ω))被重写成下面的表达式(6)的第一项,而根据表达式(4),H(Y(ω))发展成表达式(6)的第二和第三项。在表达式(6)中,PYK(ω)(Yk(ω,t))表示Yk(ω,t)的概率密度函数(PDF),而H(X(ω))表示监测信号X(ω)的联立熵。
I(Y(ω))=Σk=1nH(Yn(ω))-H(Y(ω))...(5)]]>=Σk=1nEt[-logPYk(ω)(Yk(ω,t))]-log|det(W(ω))|-H(X(ω))]]>... (6)其中Yk(ω)=[Yk(ω,1)…Yk(ω,T)]Y(ω)=Y1(ω)···Yn(ω)]]>X(ω)=[X(ω,1)…X(ω,T)]由于KL信息量I(Y(ω))在Y1(ω)-Yn(ω)彼此独立时呈现出最小值(理论上零),分离处理确定使得KL信息量I(Y(ω))最小的分离矩阵W(ω)。
用于确定分离矩阵W(ω)的最基本的算法是基于自然梯度方法来更新分离矩阵,如下面给出的表达式(7)和(8)所示。在Noboru MURATA的“Introduction to the independent component analysis”,Tokyo DenkiUniversity Press(此后称作非专利文献1),特别在“3.3.1 Basic GradientMethod”中描述了表达式(7)和(8)的推导过程的细节。
ΔW(ω)={In+Et[φ(Y(ω,t))Y(ω,t)H]}W(ω)...(7)W(ω)←W(ω)+η·ΔW(ω)...(8)其中φ(Y(ω,t))=φ1(Y1(ω,t))···φn(Yn(ω,t))]]>φk(Yk(ω,t))=∂∂Yk(ω,t)logPYk(ω)(Yk(ω,t))]]>在上面的表达式(7)中,In表示n×n单元矩阵,和Et[·]表示帧方向上的平均。此外,上标H表示Hermitian反转(矢量被反转,并由共轭复数代替它的元素)。另外,函数是概率密度函数的算法的微分并被称作记分函数(或“激活函数”)。另外,上面表达式(6)中的η表示学习函数,具有很低的正值。
注意的是,已知用于上面表达式(7)中的概率密度函数不必真实反映Yk(ω,t)的分布,而可以是固定的。通过下列的表达式(10)和(12)来表示概率密度函数的例子,而且分别通过下列的表达式(11)和(13)表示该例中的记分函数。
PYk(ω)(Yk(ω,t))=1cosh(|Yk(ω,t)|)...(10)]]>φk(Yk(ω,t))=-tanh(|Yk(ω,t)|)Yk(ω,t)|Yk(ω,t)|...(11)]]>PYk(ω)(Yk(ω,t))=exp(-|Yk(ω,t)|)...(12)φk(Yk(w,t))=-Yk(ω,t)|Yk(ω,t)|...(13)]]>根据自然梯度方法,根据上面给出的表达式(7)中的分离矩阵W(ω)的修正值ΔW(ω),然后根据上述表达式(8)更新W(ω),之后,使用更新的分离矩阵W(ω)来根据表达式(9)产生分离信号。如果表达式(7)到(9)的环处理被重复许多次,则W(ω)的元素最终收敛到特定值,其产生分离矩阵的估算值。接着,利用分离矩阵执行分离处理时的结果产生最终的分离信号。
然而,如上所述的这种简单的自然梯度方法存在一个问题,即,直到W(ω)收敛为止,执行环处理的次数是巨大的。因此,为了减少执行环处理的次数,提出一种方法,其中将称作去相关化(non-correlating)的预处理(后面描述)应用于监测信号,并且从正交矩阵内搜索出分离矩阵。正交矩阵是满足下面的表达式(14)定义的条件的方矩阵。如果将正交性约束(满足条件,当W(ω)是正交矩阵时,W(ω)+η·ΔW(ω)也变为正交矩阵)应用于上面的表达式(7),则获得下面的表达式(15)。在非专利文献1中公开了表达式(15)的推导过程的细节,特别是在“3.3.2 Gradient method restricted to an orthogonalmatrix”。
W(ω)W(ω)H=In...(14)ΔW(w)=Et[φ(Y(ω,t))Y(ω,t)H-Y(ω,t)φ(Y(ω,t))H]W(ω)...(15)在具有正交性约束的梯度方法中,根据上面的表达式(15)来确定分离矩阵W(ω)的修正值ΔW(ω),并且根据表达式(8)更新W(ω)。如果表达式(15),(8)和(9)的环处理重复多次,则W(ω)的元素最终收敛到特定值,其产生分离矩阵的估算值。然后,利用分离矩阵执行分离处理时的结果产生最终的分离信号。在使用上面给出的表达式(15)的方法中,由于它包括正交性约束,所以通过小于使用上述表达式(7)时的次数的、执行环处理的次数而达到收敛。

发明内容
顺便说,在上述时间-频率域中的独立分量分析中,如上文结合图10所述,对每个频率群执行信号分离处理,但不考虑频率群之间的关系。因此,即使分离本身导致成功,但在频率群中可能会出现分离目标的不一致。分离目标的不一致性意味着如下现象,例如,当ω=1,从S1始发的信号出现在Y1,当ω=2,从S2始发的信号出现在Y1。这称作置换(permutation)问题。
在图12A和12B中示出了置换的例子。图12A示出了从网页(http://www.cnl.salk.edu/~tewon/Blind/blind_audo.html)中的两个文件“rsm2_mA.wav”和“rsm2_mB.wav”所产生的频谱图,并表示了其中混合了语音和音乐的监测信号的例子。通过利用512的窗口长度的Hanning窗口、对从具有128的平移宽度的文件的顶端的40000采样的数据进行傅立叶变换而产生每个频谱图。同时,图12B示出了当图12A的两个频谱图被用作监测信号、并且表达式(15)、(8)和(9)的算法操作被重复200次时的分离信号的频谱图。上文给出的表达式(13)被用作记分函数。从图12B能看出,在采用的箭头标记的位置附近明显地出现置换。
以此方式,传统的时间-频率域的独立分量分析受到置换问题的影响。注意的是,对于具有正交性约束的独立分量分析,除了上述表达式(14)和(15)所定义的梯度方法之外,使用固定点方法和Jacob方法的方法也是可用的。所提及的方法在上述非专利文献1的“3.4 Fixed point method”和“Jacobmethod”中公开。而且,例如在HOROSHI sawada,Ryo MUKAI,Akiko ARAKI和Shoji MAKINO的“Blind separation or three or more sound sources inan actual environment”,2003 Autumnal Meeting for Reading Papers ofthe Acoustical Society of Japan,pp.547-548(下文中称作非专利文献2)中,已知和公开了将方法应用于时间-频率域的独立分量分析的例子。然而,因为对每个频率群执行信号分离处理,所以两种方法都受到置换问题的影响。
传统地,为了消除置换的问题,一种已知方法是用后处理代替。在后处理中,在通过对每个频率群分离而获得图12B所示的频谱图之后,根据一些基准来在不同的信道之间执行分离信号的替换,以获得不包括置换的频谱图。作为用于替换的基准,可以采用(a)包络的相似性(参照非专利文献1)、(b)估算的声源方向(参照日本专利公开号No.2004-145172(此后称作专利文献1)的“现有技术”的说明)、以及(a)和(b)的组合(c)(参照专利文献1)。
然而,根据上述基准(a),如果出现包络之间的差异按照频率群而偶尔不清楚的情形,则在替换中出现错误。此外,如果错误替换出现一次,则分离目标在后面的所有频率群中都出错。同时,基准(b)在方向估算上具有准确性问题,并且还需要麦克风的位置信息。此外,尽管上述基准(c)的优点在于增强了替换的准确性,但与基准(b)类似,其需要麦克风的位置信息。另外,所有方法具有如下问题由于包括了分离和替换这两个步骤,所以处理时间长。从处理时间的角度来看,优选在完成分离的时间点处消除置换的问题。然而,对于使用后处理的方法来说,这是困难的。
因此,需要提供语音信号分离设备和方法,当利用独立分量分析来将混合了多个信号的语音信号分离成信号时,能消除置换的问题,而不在分离之后执行后处理。
根据本发明的一个实施例,提供了一种语音信号分离设备,用于利用独立分量分析来分离多个信道的时域的监测信号,以产生不同信道的多个分离信号,其中在所述多个信道中混合了包括语音信号的多个信号,该语音信号分离设备包括第一转换部分,被配置为将时域的监测信号转换为时间-频率域的监测信号;去相关化部分,被配置为在信道之间对时间-频率域的监测信号去相关化;分离部分,被配置为从时间-频率域的监测信号产生时间-频率域的分离信号;以及第二转换部分,被配置为将时间-频率域的分离信号转换为时域的分离信号;所述分离部分可操作为根据时间-频率域的监测信号和其中代入了初值的分离矩阵来产生时间-频率域的分离信号,利用时间-频率域的分离信号、使用多维概率密度函数的记分函数、以及分离矩阵来计算用于分离矩阵的修正值,利用修正值来修正分离矩阵直到分离矩阵基本收敛为止,并且利用基本收敛的分离矩阵产生时间-频率域的分离信号;包括初值的每个分离矩阵、以及包括修正值的修正后的分离矩阵是正规正交矩阵。
根据本发明的另一个实施例,提供了一种语音信号分离方法,用于利用独立分量分析来分离多个信道的时域的监测信号,以产生不同信道的多个分离信号,其中在所述多个信道中混合了包括语音信号的多个信号,该方法包括步骤将时域的监测信号转换为时间-频率域的监测信号;在信道之间对时间-频率域的监测信号去相关化;根据时间-频率域中的监测信号和其中代入了初值的分离矩阵,产生时间-频率域的分离信号;利用时间-频率域的分离信号、使用多维概率密度函数的记分函数、以及分离矩阵,来计算用于分离矩阵的修正值;利用修正值来修正分离矩阵,直到分离矩阵基本收敛为止;以及将利用基本收敛的分离矩阵而产生的时间-频率域的分离信号转换为时域的分离信号;包括初值的每个分离矩阵、以及包括修正值的修正后的分离矩阵是正规正交矩阵。
在该语音信号分离设备和方法中,为了利用独立分量分析来分离其中混合了包括语音信号的多个信号的多个信道的时域的监测信号,以产生不同信道的多个分离信号,从时间-频率域中的监测信号和代入初值的分离矩阵产生时间-频率域中的分离信号。接着,利用时间-频率域中的分离信号、使用多维概率密度函数的记分函数、以及分离矩阵来计算用于分离矩阵的修正值。此后,利用修正值修正分离矩阵,直到分离矩阵基本收敛为止。然后,利用基本收敛的分离矩阵产生的时间-频率域中的分离信号被转换为时域中的分离信号。因而,能够消除置换的问题而不用在分离之后执行后处理。此外,由于时间-频率域中的监测信号提前在信道之间去相关化,并且包括初值的每个分离矩阵和包括修正值的修正之后的分离矩阵是正规正交矩阵,分离矩阵通过执行相对的少量次数的环处理而收敛。
根据结合附图的以下描述和所附权利要求,本发明的上述和其他特征及优点将变得显而易见,附图中通过相同的附图标记表示相同的部分或元素。


图1是示出通过整个频谱图来执行信号分离处理的方式的视图;图2是示出了应用了本发明的熵和联立熵的视图;图3是示出应用了本发明的语音信号分离设备的总体配置的框图;图4是示出语音信号分离设备的处理的概要的流程图;图5是示出图4的处理的分离处理的细节的流程图;图6A和6B是示出通过整个频谱图来执行信号分离处理时的监测信号和分离信号的视图;图7是示出使用n个麦克风监测从N个声源输出的原始信号的情形的示意图;图8是示出传统的时间-频率域中的独立分量分析的概要的流程图;图9A到9D是监测信号和监测信号的频谱图以及分离信号和分离信号的频谱图;图10是示出对每个频率群执行信号分离处理的方式的视图;图11是示出传统的熵和联立熵的视图;以及图12A和12B是示出对每个频率群执行传统的信号分离处理时的监测信号和分离信号的例子的视图。
具体实施例方式
下面,参照附图,详细描述本发明的特定实施例。在本实施例中,本发明应用于语音信号分离设备,其利用独立分量分析来将混合了多个信号的语音信号分离成单独的信号。尽管如上所述,传统上使用分离矩阵W(ω)来对各个频率分离信号,但在本实施例中,使用分离矩阵W来在整个频谱图上分离信号,如图1所示。在下文中,描述了在本实施例中使用的具体计算表达式,并接着应用了本发明的语音信号分离设备的具体配置。
如果通过矩阵和矢量来表示用于每个频率群的传统的分离,则它能被表示成上述的表达式(9)。如果对于所有的ω(1≤ω≤M)发展表达式(9),并以矩阵和矢量的乘积的形式来表示,则获得下面给出的表达式(16)。表达式(16)表示用于分离整个频谱图的矩阵算术运算。如果表达式(16)的对边使用字符Y(t)、W和X(t)表示,则获得下述的表达式(17)。此外,如果表达式(16)的每个信道的分量每个都由一个字符表示,则获得下面的表达式(18)。在表达式(18)中,Yk(t)表示通过从信道号k的频谱图中去掉帧号t的频谱而产生的列矢量。
...(16)Y(t)=WX(t) ...(17) ...(18)其中Yk(t)=Yk(1,t)···Yk(M,t)]]>...(19)Wij=diag(wij(1)2…,wij(M))Xk(t)=Xk(1,t)···Xk(M,t)]]>在本实施例中,将进一步的正规正交性约束提供到上述表达式(17)的分离矩阵W。换句话说,通过下面给出的表达式(20)表示的约束被应用到分离矩阵W。在表达式(20)中,InM表示nM×nM的单元矩阵。然而,由于表达式(20)等效于下面给出的表达式(21),所以类似于现有技术,可以为每个频率群应用对分离矩阵W的约束。此外,由于表达式(20)和表达式(21)彼此等效,所以类似于现有技术,也可以对每个频率群执行提前应用于监测信号的相关性的预处理(此后描述)。
WWH=InM…(20)所有ωs对应于W(ω)W(ω)H=In...(21)此外,在本实施例中,也可从整个频谱图计算表示信号的独立性的尺度。如上所述,在独立分量分析中,尽管可使用KL信息量、峭度等作为表示信号的独立性的尺度,但在此,使用KL信息量作为示例。
在本实施例中,整个频谱图的KL信息量I(Y)由下面的表达式(22)所定义。具体地,通过从有关每个信道的熵H(Yk)的总数中减去有关所有信道的联立熵H(Y)而获得的值被定义为KL信息量I(Y)。图2中示出了n=2时的熵H(Yk)和联立熵H(Y)之间的关系。根据熵的定义,表达式(22)的H(Yk)被重写成下面给出的表达式(23)的第一项,而根据Y=WX的关系,同表达式(23)的第二和第三项一样展开H(Yk)。在表达式(23)中,PYk(Yk(t))表示Yk(t)的概率密度函数,而H(X)表示监测信号X的联立熵。
I(Y)=Σk=1nH(Yk)-H(Y)...(22)]]>=Σk=1nEt[-logPYk(Yk(t))]-log|det(W)|-H(X)...(23)]]>其中Yk=[Yk(1)…Yk(T)]Y=Y1···Yn]]>X=[X(1)…X(T)]由于KL信息量I(Y)在Y1-Yn彼此独立时呈现出最小值(理论上为0),所以在分离处理中,确定使得KL信息量I(Y)最小化并满足正规正交性约束的分离矩阵W。
在本实施例中,为了确定上述的分离矩阵W,使用具有由表达式(24)到(26)表示的正规正交性约束的梯度方法。在表达式(24)中,f(·)表示如下运算,通过该运算,当ΔW满足正规正交性约束时,即当W是正规正交矩阵时,W+η·ΔW也变为正规正交矩阵。
ΔW=f(-∂I(Y)∂WWHW)...(24)]]>W←W+η·ΔW...(25)Y=WX ...(26)在具有正规正交性约束的梯度方法中,根据上述的表达式(24)确定分离矩阵W的修正值ΔW,并且根据表达式(25)来更新分离矩阵W,然后,使用更新的分离矩阵W来根据表达式(26)产生分离信号。如果表达式(24)到(26)的环处理重复许多次,则分离矩阵W的元素最终收敛到特定值,其产生分离矩阵的估算值。然后,利用分离矩阵执行分离处理时的结果产生最终的分离信号。具体地,在本实施例中,从整个频谱图计算KL信息量,而且使用分离矩阵W来分离整个频谱图上的信号。因此,对于分离信号没有置换出现。
这里,由于矩阵ΔW是类似于分离矩阵W的离散矩阵,所以如果使用用于更新非零元素的表达式,则它具有相对高的效率。因此,如下述的表达式(27)和(28)所示,定义只包括第ω个频率群的元素的矩阵ΔW(ω)和W(ω),并根据下述的表达式(29)计算矩阵ΔW(ω)。如果针对所有ω定义此表达式(2),则它导致计算矩阵ΔW的所有非零元素。以此方式确定的W+η·ΔW具有正规正交矩阵的形式。
ΔW(ω)={Et[φω(Y(t))Y(ω,t)H-Y(ω,t)φω(Y(t))H]}W(ω)...(29)其中φω(Y(t))=φ1ω(Y1(t))···φnω(Yn(t))...(30)]]>φkω(Yk(t))=∂∂Yk(ω,t)logPYk(Yk(t))=∂∂Yk(ω,t)PYk(Yk(t))PYk(Yk(t))...(31)]]>在上面的表达式(30)中,如上述表达式(31),kω(Yk(t))是对第ω个自变量的概率密度函数的对数的偏微分,并被称作记分函数(或激活函数)。在本实施例中,由于使用了多维概率密度函数,记分函数也是多维(多变量)函数。
下面,描述记分函数的推导方法和记分函数的具体例子。
推导记分函数的方法之一是根据下述的表达式(32)构造多维概率密度函数并对多维概率密度函数的对数进行微分。在表达式(32)中,h是常数,用于把概率的总和调整到1。然而,由于h在记分函数的推导处理过程中通过减少而消失,所以不必把具体值代入h。此外,f(·)表示任意的标量函数。而且,||Yk(t)||2是Yk(t)的L2范数(norm),并是根据下述的表达式(33)在N=2时计算的LN范数。
PYk(Yk(t))=hf(K||Yk(t)||2)...(32)其中||Yk(t)||N={Σω=1M|Yk(ω,t)|N}1/N...(33)]]>表达式(34)和(36)给出了多维概率密度函数的例子,而且表达式(35)和(37)给出了该例中的记分函数。在该例中,通过表达式(38)定义复数的绝对值的微分。
PYk(Yk(t))=hcoshm(K||Yk(t)||2)...(34)]]>φkω(Yk(t))=-mKtanh(K||Yk(t)||2)Yk(ω,t)||Yk(t)||2...(35)]]>PYk(Yk(t))=hexp(-K||Yk(t)||2)...(36)φkω(Yk(t))=-KYk(ω,t)||Yk(t)||2...(37)]]>∂∂Yk(ω,t)|=Yk(ω,t)|Yk(ω,t)|Yk(ω,t)|...(38)]]>此外,可以直接构造记分函数,而不用插入多维概率密度函数,不用通过上述的多维概率密度函数的插入来推导记分函数。为此,可以构造记分函数以便满足下列的条件i)和ii)。注意的是,表达式(35)和(37)满足条件i)和ii)。
i)返回值是无量纲的量。
ii)返回值的相位(复数的相位)与第ω个自变量Yk(ω,t)的相位相反。
这里,记分函数kω(Yk(t))的返回值是无量纲的量,意味着,当由[x]表示kω(Yk(t))的单位时,[x]在记分函数的分子和分母之间约分,并且返回值不包括[x]的维数(其中n是实数,它的单位被描述成[xn])。
同时,函数kω(Yk(t))的返回值的相位与第ω自变量Yk(ω,t)的相位相反,这表示对任何的Yk(ω,t)满足arg{kω(Yk(t))}-arg{kω(Yk(ω,t))。注意的是,arg{z}表示复数z的相位分量。例如,其中复数z被表示成z=r·exp(iθ),使用幅值r和相位角θ,arg{z}=θ。
注意的是,由于在本实施例中,记分函数被定义成log PYk(Yk(t))的微分,所以返回值的相位与第ω个自变量的相位“相反”构成了记分函数的条件。然而,当记分函数被另外定义成log(1/PYk(Yk(t)))的微分时,返回值的相位与第ω自变量的相位“相同”构成了记分函数的条件。在任何情况下,记分函数只依赖于第ω自变量的相位。
通过下述的表达式(39)和(40)表示满足上述的条件i)和ii)这两者的记分函数的具体示例。表达式(39)是上述的表达式(35)对于N的广义形式,使得也可以以除了L2范数之外的任何范数执行分离而没有置换。此外,表达式(40)是表达式(37)对于N的广义形式。在表达式(39)和(40)中,L和m是正的常数并例如可以是1。同时,a是常数,用于防止除以零并具有非负值。
φkω(Yk(t))=-Klmtanh(K||Yk(t)||Nm)(|Yk(ω,t)|||Yk(t)||N+a)LYk(ω,t)|Yk(ω,t)|...(39)]]>(L>0,a≥0)φkω(Yk(t))=-K(|Yk(ω,t)|||Yk(t)||N+a)LYk(ω,t)|Yk(ω,t)|...(40)]]>(L>0)当表达式(39)和(40)中的Yk(ω,t)的单位是[x]时,具有[x]的量的相等的数(L+1)出现在分子和分母,并因此,单位[x]在它们之间约分。因此,整个记分函数提供无量纲的量(tanh被当作无量纲量)。此外,由于上述表达式的返回值的相位等于-Yk(ω,t)的相位(其他项对相位没有影响),返回值的相位具有与第ω自变量Yk(ω,t)相反的相位。
下述的表达式(41)给出了其他广义记分函数。在表达式(41)中,g(x)是满足下列条件iii)到vi)的函数。
iii)x≥0时,g(x)≥0。
iv)x≥0时,g(x)是常数,单调递增函数或单调递减函数。
v)当g(x)是单调递增函数或单调递减函数时,当x→∞时g(x)收敛到正值。
vi)g(x)是关于x的无量纲量。
φkω(Yk(t))=-mg(K||Yk(t)||N)(|Yk(ω,t)|+a2||Yk(t)||N+a1)LYk(ω,t)|Yk(ω,t)|+a3...(41)]]>(m>0,L,a1,a2,a3≥0)
下述的表达式(42)到(46)给出了提供成功分离的g(x)的例子。在表达式(42)到(46)中,确定常数项以便满足上述的条件iii)到v)。
g(x)=b±tanh(Kx) ...(42)g(x)=1...(43)g(x)=x+b2x+b1]]>(b1,b2≥0)...(44)g(x)=1±h exp(-Kx) (0<h<1) ...(45)g(x)=b±arctan(Kx)...(46)注意的是,在上面的表达式(41)中,m是的独立于信道号k和频率群号ω的常数,但是否则,可以随着k或ω变化。换句话说,如下面给出的表达式(4 7)中,m可以被mk(ω)所替代。当以此方式使用mk(ω)时,收敛时的Yk(ω,t)的尺度可以被调整到某一程度。
φkω(Yk(t))=-mk(ω)g(K||Yk(t)||N)(|Yk(ω,t)|+a2||Yk(t)||N+a1)LYk(ω,t)|Yk(ω,t)|+a3...(47)]]>(m>0,L,a1,a2,a3≥0)这里,当要计算表达式(39)到(41)和(47)中的Yk(t)的LN范数||Yk(t)||N时,需要确定复数的绝对值。然而,如表达式(48)或(49)所给出的,复数的绝对值另外可以近似于实部或虚部的绝对值,或如表达式(50)所给出的,可以近似于绝对值的和。
|Yk(ω,t)|≈|Re(Yk(ω,t))| ...(48)|Yk(ω,t)|≈|Im(Yk(ω,t))| ...(49)|Yk(ω,t)|≈|Re(Yk(ω,t))|+|Im(Yk(ω,t))| ...(50)在复数被分离地保留为实部和虚部的系统中,由z=x+iy(x和y是实数,i是虚数单位)表示的复数z的绝对值根据下述的表达式(51)计算。另一方面,由于根据下述的表达式(52)和(53)计算实部和虚部的绝对值,所以减少了计算量。具体地,在L1范数的情况下,由于只通过实数的绝对值的计算和总数来计算绝对值,而不使用平方或平方根,可以显著地简化计算。
|z|=x2+y2...(51)]]>|Re(z)|=|x| ...(52)|Im(z)|=|y| ...(53)
此外,由于LN范数的值几乎取决于具有高绝对值的Yk(t)的分量,所以在计算LN范数时,不是所有的Yk(t)的分量都可以被使用,而只可以使用高绝对值分量的相对高阶的x%。可以从监测信号的频谱图提前确定高阶x%。
下述的表达式(54)给出了另一广义记分函数。通过其中矢量Yk(t)是自变量的函数f(Yk(t))、其中Yk(ω,t)是自变量的另一函数g(Yk(ω,t))、以及用于确定返回值的相位的项-Yk(ω,t)的乘积来表示此记分函数(f(·)和g(·)不同于上述的函数)。注意的是,确定f(Yk(t))和g(Yk(ω,t)),使得它们的乘积对于任何的Yk(t)和Yk(ω,t)都满足下列的条件vii)和viii)。
vii)f(Yk(t))和g(Yk(ω,t))的乘积是非负的实数。
viii)f(Yk(t))和g(Yk(ω,t))的乘积的量纲是[1/x]。
(Yk(ω,t)的单位是[x])。
φkω(Yk(t))=-mk(ω)f(Yk(t))g(Yk(ω,t))Yk(ω,t)...(54)根据上面的条件vii),记分函数的相位变为与-Yk(ω,t)的相位相同,并且满足记分函数的返回值的相位与第ω自变量的相位相反的条件。此外,根据上面的条件viii),用Yk(ω,t)的量纲约分该量纲,而且满足记分函数的返回值是无量纲量的条件。
上面描述了在本实施例中使用的具体计算表达式。下面,描述根据本实施例的语音信号分离设备的具体配置。
图3显示了根据本实施例的语音信号分离设备的总体配置。参照图3,由1总体指示的语音信号分离设备包括用于监测从n个声源发射的独立的声音的n个麦克风101-10n、以及用于转换声音信号以获得监测信号的A/D(模拟/数字)转换器11。短时傅里叶变换(F/G)部分12对监测信号进行短时傅里叶变换,以产生监测信号的频谱图。标准化和去相关化部分13对监测信号的频谱图执行标准化处理(平均和方差的调整)和去相关化处理(信道之间的去相关化)。信号分离部分14使用在信号模型保留部分15中保留的信号模型,以将监测信号的频谱图分离成基于独立信号的频谱图。具体地,信号模型是如上所述的记分函数。
尺度改变(rescaling)部分16执行在分离信号的频谱图的频率群中调节尺度的处理。此外,尺度改变部分16在分离处理之前对监测信号执行取消标准化处理的效应的处理。逆傅里叶变换部分17执行逆傅里叶变换处理,以便把分离信号的频谱图变换成时域中的分离信号。D/A变换部分18D/A变换时域中的分离信号,并且n个扬声器191到19n再现彼此独立的声音。
参照图4的流程图描述语音信号分离设备的处理的概要。首先在步骤S1,通过麦克风监测声音信号,并在步骤S2,监测信号被短时傅里叶变换以获得频谱图。接着在步骤S3,对监测信号的频谱图执行标准化处理和去相关化处理。
这里的标准化处理是分别将频率群的平均和标准偏差调整为0和1的操作。对每个频率群减去平均值以将平均调整为0,并通过所得到的频谱图除以标准偏差来将标准偏差能被调整到1。其中标准化后的监测信号由X’表示,标准化的监测信号可被表示成X’=P(X-μ)。注意的是,P表示包括标准偏差的倒数的变分标准化矩阵,而μ表示从频率群的平均值形成的平均值矢量。
与此同时,去相关化也称作白化或球形化,并是一种把信道之间的相关性减少到0的操作。类似于现有技术,可以对每个频率群执行去相关化。
进一步描述去相关化。通过下述的表达式(55)来定义频率群=ω上的监测信号矢量X(ω,t)的方差-协方差矩阵∑(ω)。可由下面利用唯一矢量Pk(ω)和特征值λk(ω)的表达式(56)表示方差-协方差矩阵∑(ω)。其中由P(ω)表示包括唯一矢量Pk(ω)的矩阵,并由Λ(ω)表示包括特征值λk(ω)的对角矩阵,如果如由下面表达式(57)给出的那样变换X(ω,t),则作为变换结果的X’(ω,t)的元素彼此不相关。换句话说,满足Et[X′(ω,t)X′(ω,t)H]=In的条件。
∑(ω)=EtX(ω,t)X(ω,t)H...(55)∑(ω)pk(ω)=pk(ω)λk(ω)...(56)X′(ω,t)=P(ω)HΛ(ω)-1/2P(ω)X(ω,t)=U(ω)X(ω,t) ...(57)其中P(ω)=[p1(ω)…pn(ω)]Λ(ω)-1/2=diag(λ1(ω)-1/2,…,λn(ω)-1/2)Y(ω,t)=W(ω)X′(ω,t)=W(ω)U(ω)X(ω,t)然后在步骤S4,对标准化的和去相关化的监测信号执行分离处理。具体地,确定分离矩阵W和分离信号Y。注意的是,尽管把正规正交性约束应用到步骤S4处的处理,但在以后描述细节。步骤S4处获得的分离信号Y呈现出在不同的频率群中有所不同的尺度,但是它没有受到置换的影响。因此,在步骤S5,执行尺度改变处理以便调整频率群中的尺度。这里,还执行恢复已经由于标准化处理而改变的平均和标准偏差的处理。注意的是,以后描述步骤S5处的尺度改变处理的细节。然后在步骤S6,步骤S5处的尺度改变处理之后的分离信号被转换成时域中的分离信号,并在步骤S7,从扬声器再现时域中的分离信号。
下面参照图5的流程图描述上述步骤S4(图4)的分离处理的细节。注意的是,图5中的X(t)是标准化的和去相关化的监测信号并对应于图4的X’(t)。
首先在步骤S11,将初值代入分离矩阵W。为了满足正规正交性约束,该初值也是正规正交矩阵。此外,当在相同环境下执行分离处理许多次时,在前面的操作循环中收敛的值可以用作本操作循环中的初值。这能减少收敛之前的环处理的次数。
接着在步骤S12,确定W是否呈现收敛。如果W呈现收敛,则结束处理,而如果W不呈现收敛,则处理前进到步骤S13。
然后在步骤S13,计算时间点上的分离信号Y,并在步骤S14,根据上述的表达式(29)计算ΔW。由于对每个频率群计算ΔW,所以反复执行环处理,同时表达式(2)被应用到ω的每个值。在确定了ΔW之后,在步骤S15更新W,此后处理返回到步骤S12。
注意的是,尽管在前面的描述中,在频率群环的外侧上提供了步骤S13和S15,但类似于现有技术,可这些步骤上的处理替换到频率群环的内侧以便对每个频率群计算ΔW。在该例中,可以对ΔW(ω)的计算表达式和W(ω)的更新表达式积分,以便直接计算W(ω)而不用计算ΔW(ω)。
此外,尽管在图5中,执行W的更新处理直到W收敛为止,但相反地,也可以将W的更新处理重复足够大的预定次数。
现在,描述上述的步骤S5上(图4)的尺度改变处理的细节。对于尺度改变方法,可以使用下述的三种方法的任何一种。
根据尺度改变的第一种方法,从分离的结果(它的尺度是不统一的)产生SIMO(单输入多输出)格式的信号。该方法是在Noboru Murata和Shiro Ikeda的“An on-line algorithm for blind source separation on speed signals”,Proceeding of 1998 International Symposium on Nonlinear Theory and itsApplications(NOLTA’98),PP.923-926,Crans-Montana,Switzerland,1998年9月(http://www.ism.ac./jp-shiro/papers/conference/noltal1998.pdf)中所述的对每个频率群的尺度改变方法扩展到利用上述的表达式(17)的分离矩阵来缩放整个频谱图。
由XYk(t)表示从第k个声源始发的监测信号矢量X(t)的元素。可以通过假设只有第k个声源发出声音和将转移函数应用到第k个声源的状态来确定XYk(t)。如果使用独立分量分析的分离的结果,则通过将上述的表达式(19)的矢量除了Yk(t)外的元素设置为零,可表示出只有第k个声源发出声音的状态,并且,转移函数可以被表示成分离矩阵W的逆矩阵。因而,可以根据下述的表达式(58)确定XYk(t)。在表达式(58)中,Q是用于监测信号的标准化和去相关化的矩阵。此外,右侧的第二项是上述的表达式(19)的矢量,其中除了Yk(t)之外的元素被设置为零。以此方式确定的XYk(t)中,消除了尺度的不稳定性。
XYk(t)=(WQ)-10Yk(t)0...(58)]]>尺度改变的第二种方法基于最小失真原理。这是在K.Matuoka和S.Nakashima的”Minimal distortion principle for blind sourceseparation”,Proceeding of International Conference on INDEPENDENTCOMPONENT ANALYSIS and BLIND SIGNAL SEPARATION(ICA 2001),2001,pp.727-727(http://ica2001.ucsd/edu/index_files/pdfs/099-matauoka.pdf)中描述的用于每个频率群的尺度改变方法的扩展到利用上述的表达式(17)的分离矩阵尺度改变整个频谱图。
在基于最小失真原理的尺度改变中,根据下述的表达式(59)重新计算分离矩阵W。如果再次根据Y=WX而使用重新计算的分离矩阵W来计算分离信号,则尺度的的不稳定性从Y消失。
W←diag((WQ)-1)WQ...(59)尺度改变的第三种方法利用分离信号的独立性和残差信号,如下所述。
通过将信道号k和频率群号ω上的分离结果Yk(ω,t)乘以尺度系数αk(ω)获得信号αk(ω)Yk(ω,t),并假设监测信号中的分离结果Yk(ω,t)的残差的Xk(ω,t)-αk(ω)Yk(ω,t)。如果αk(ω)具有正确值,则因子Yk(ω,t)必须从残差Xk(ω,t)-αk(ω)Yk(ω,t)中完全消失。这样,此时的αk(ω)Yk(ω,t)表示通过包括该尺度的麦克风监测的原始信号之一的估算。
这里,如果引入了独立性的尺度,则元素完全消失可表示成{Xk(ω,t)-αk(ω)Yk(ω,t)}和{Yk(ω,t)}在时间方向上彼此独立。可利用任意的标量函数f(·)和g(·),通过下述的表达式(60)来表示此条件。注意的是,上划线表示共轭复数。因而,如果确定了满足下式(60)的尺度因子αk(ω)并且Yk(ω,t)乘以如此确定的尺度因子αk(ω),则尺度的不稳定性消失。
Et[f(Xk(ω,t)-ak(ω)Yk(ω,t))g(Yk(ω,t))‾]]]>-Et[f(Xk(ω,t)-ak(ω)Yk(ω,t))]Et[g(Yk(ω,t))‾]=0]]>...(60)如果f(x)=x的情况被考虑成上述表达式(60)的要求,则获得表达式(61),作为尺度因子αk(ω)应该满足条件。表达式(61)的g(x)可以是任意函数,而且,例如,下述表达式(62)到(65)的任一个可被用作g(x)。如果使用αk(ω)Yk(ω,t)代替Yk(ω,t)来作为分离结果,则消除了尺度的不稳定性。
g(x)=x ...(62)g(x)=x...(63)]]>g(x)=x3/2...(64)g(x)=tanh(|x|)x|x|...(65)]]>下面,描述具体分离结果。图6A示出从上述两个文件“rsm2_mA.wav”和“rsm2_mB.wav”所产生的频谱图并表示其中语音和音乐彼此混合的监测信号的例子。同时,图6B示出了结果,其中图6A的两个频谱图被用作监测信号,并且使用上面的表达式(29)给出的更新表达式以及上述表达式(37)的记分函数来执行分离。其它条件类似于参照图12所述的条件。从图6B能看出,尽管在使用传统方法时出现置换(图12B),但在使用根据本实施例的分离方法时没有出现置换。
如上详细描述的,通过根据本实施例的语音信号分离设备1,取代现有技术中使用分离矩阵W(ω)来分离各个频率群的信号,而使用分离矩阵W来在整个频谱图上分离信号。因而,可以消除置换的问题,而不在分离之后执行后处理。具体地,利用本实施例的语音信号分离设备1,由于使用了具有正规正交性约束的梯度方法,所以当与未提供正规正交性约束的替换情况相比较时,通过减少了执行环处理的次数,可确定分离矩阵W。
注意的是,本发明不限于上述的实施例,但在不脱离本发明的精神和范围的情况下可以作出各种修改和替换。
例如,尽管在上述的实施例中,上述的表达式(25)中的学习系数η是常数,但学习系数η的值可根据ΔW的值而适应性地改变。具体地,当ΔW的元素的绝对值较高时,η可被设置为低值以防止W的溢出,但当ΔW接近零矩阵时(其中W接近收敛点),η可被设置为高值以加速收敛到收敛点。
下面,描述学习系数η的值以此方式适应性地改变的计算方法。
例如,根据下述的表达式(68),作为矩阵ΔW的范数而计算||ΔW||N。学习系数η被表示成||ΔW||N的函数,如下述的表达式(66)所示。或者,除了ΔW之外,还类似地对于W来计算范数||W||N,而且它们之间的比率,也就是||ΔW||N/||W||N被确定为如以下表达式(67)所给出的f(·)的自变量。作为简单的例子,可以使用N=2。对于表达式(66)和(67)的f(·),例如,使用满足f(0)=η0和f(∞)→0的单调递减函数,如下述的表达式(69)到(71)所示。在表达式(69)到(71)中,a是任意的正值并是用于调整f(·)的下降程度的参数。同时,L是任意正实数。作为简单的例子,可使用a=1和L=2。
η=f(||ΔW||N) ...(66)η=f(||ΔW||N/||W||N)...(67)其中||ΔW||N={Σω=1MΣj=1nΣi=1n|Wij(ω)|N}1N...(68)]]>f(x)=η0axL+1...(69)]]>f(x)=η0cosh(axL)...(70)]]>f(x)=η0exp(-|axL|) ...(71)注意的是,尽管在表达式(66)和(67)中,对所有频率群使用共同的学习系数η,但可将不同的学习系数η用于各个频率群,如下述的表达式(72)所示。在该例中,例如,根据下述的表达式(74),计算ΔW(ω)的范数||ΔW(ω)||N,并且学习系数η(ω)被表示成||ΔW(ω)||N的函数,如下述的表达式(73)所示。在表达式(73)中,f(·)类似于表达式(66)和(67)的f(·)。此外,可以使用||ΔW(ω)||N/||W(ω)||N来代替||ΔW(ω)||N。
W(ω)←W(ω)+η(ω)·ΔW(ω)...(72)
η(ω)=f(||ΔW(ω)||N)...(73)||ΔW(ω)||N={Σj=1nΣi=1n|wij(ω)|N}1N...(74)]]>此外,在上述的实施例中,使用整个频谱图的信号,也就是频谱图的所有频率群的信号。然而,其中所有信道上存在少量信号的频率群(只有近似于零的分量存在)对时域中的分离信号具有很少的影响,不管分离导致成功还是失败。因此,如果移除这些频率群以退化频谱图,则可以减少计算量并可以提高分离的速度。
作为退化频谱图的方法,可使用下例。具体地,在产生监测信号的频谱图之后,确定信号的绝对值是否高于每个频率群的预定阈值。然后,将其中在所有帧和所有信道中信号低于阈值的频率群确定为其中没有信号存在的频率,并且从频谱图中移除该频率群。然而,为了允许后面的重构,记录移除了哪个编号的频率群。如果假设在m个频率群中没有信号存在,则移除后的频谱图具有M-m个频率群。
作为退化频谱图的另一例子,可使用例如根据下面对每个频率群给出的表达式(75)来计算信号的强度D(ω)、并采用呈现相对高的信号强度的M-m个频率群(移除呈现相对低的信号强度的m个频率群)的方法。
D(ω)=Σk=1nΣt=1T|Yk(ω,t)|2...(75)]]>在退化了频谱图之后,对退化的频谱图执行标准化和去相关化、分离和尺度改变处理。此外,插回以前移除的那些频率群。注意的是,元素都等于零的矢量可以被插入来代替移除的信号。如果结果信号被逆傅里叶变换,则可以获得时域中的分离信号。
此外,尽管在上述的实施例中,麦克风的数目和声源的数目彼此相等,但本发明还可以应用于另一种情形,其中麦克风数目大于声源数目。在此例中,例如,如果使用主分量分析(PCA),则可将麦克风数目减少到声源数目。
此外,尽管在上述的实施例中,通过扬声器再现声音,但可以另外输出分离信号以用于语音识别等。在此例中,可以适当地省略逆傅里叶变换处理。当分离信号被用于语音识别时,需要指定多个分离信号的哪一个表示语音。为此,例如,可以使用下述的方法之一。
(a)对于多个分离信号的每个,使用峭度等来指定最“像是语音”的一个信道,并且将分离信号用于语音识别。
(b)将多个分离信号并行地输入到多个语音识别设备,以便通过语音识别设备执行语音识别。然后,对于每个识别结果来计算诸如似然性或可靠性之类的尺度,而且采用识别结果中呈现出最高尺度的一个。
尽管已经利用特定术语描述了本发明的优选实施例,但应该明白,在不脱离下列权利要求的精神或范围的情况下,可以设置改变和变化。
相关申请的交叉引用本发明包含有关在2006年1月18日向日本专利局提交的日本专利申请JP2006-010277的主题,在此引用结合其全部内容。
权利要求
1.一种语音信号分离设备,用于利用独立分量分析来分离多个信道的时域的监测信号,以产生不同信道的多个分离信号,其中在所述多个信道中混合了包括语音信号的多个信号,该语音信号分离设备包括第一转换部分,被配置为将时域的监测信号转换为时间-频率域的监测信号;去相关化部分,被配置为在信道之间对时间-频率域的监测信号去相关化;分离部分,被配置为从时间-频率域的监测信号产生时间-频率域的分离信号;以及第二转换部分,被配置为将时间-频率域的分离信号转换为时域的分离信号;所述分离部分可操作为根据时间-频率域的监测信号和其中代入了初值的分离矩阵来产生时间-频率域的分离信号,利用时间-频率域的分离信号、使用多维概率密度函数的记分函数、以及分离矩阵来计算用于分离矩阵的修正值,利用修正值来修正分离矩阵直到分离矩阵基本收敛为止,并且利用基本收敛的分离矩阵产生时间-频率域的分离信号;包括初值的每个分离矩阵、以及包括修正值的修正后的分离矩阵是正规正交矩阵。
2.根据权利要求1的语音信号分离设备,其中记分函数返回无量纲量作为其返回值,该无量纲量具有只依赖于一个自变量的相位。
3.一种语音信号分离方法,用于利用独立分量分析来分离多个信道的时域的监测信号,以产生不同信道的多个分离信号,其中在所述多个信道中混合了包括语音信号的多个信号,该方法包括步骤将时域的监测信号转换为时间-频率域的监测信号;在信道之间对时间-频率域的监测信号去相关化;根据时间-频率域中的监测信号和其中代入了初值的分离矩阵,产生时间-频率域的分离信号;利用时间-频率域的分离信号、使用多维概率密度函数的记分函数、以及分离矩阵,来计算用于分离矩阵的修正值;利用修正值来修正分离矩阵,直到分离矩阵基本收敛为止;以及将利用基本收敛的分离矩阵而产生的时间-频率域的分离信号转换为时域的分离信号;包括初值的每个分离矩阵、以及包括修正值的修正后的分离矩阵是正规正交矩阵。
4.根据权利要求3的语音信号分离方法,其中记分函数返回无量纲量作为其返回值,该无量纲量具有只依赖于一个自变量的相位。
全文摘要
一种语音信号分离设备,用于利用独立分量分析来分离在其中混合了包括语音信号的多个信号的多个信道的时域的监测信号,以产生不同信道的多个分离信号,包括第一转换部分、去相关化部分、分离部分和第二转换部分。
文档编号G10L15/20GK101086846SQ20071012667
公开日2007年12月12日 申请日期2007年1月18日 优先权日2006年1月18日
发明者广江厚夫 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1