声音信号分离系统及方法

文档序号:2820173阅读:465来源:国知局
专利名称:声音信号分离系统及方法
技术领域
本发明是有关于一种信号分离系统及方法,特别是指一种声音信号分离系统及方法。
背景技术
盲信号源分离(Blind Source Separation,以下简称BSS)技术是在不确定信号源数目和信号信息内容的情形下,将接收到的由多个单一信号源所混合在一起的信号,分离出原来个别的单一信号源。
例如在鸡尾酒会上有许多人的讲话声、及背景音乐等多个声音信号源,透过许多的麦克风一起接收进来,该BSS技术即是要将背景音乐及每一人的讲话声音个别地还原出来。
由dx(dx为大于1的整数)个麦克风分别接收到声音信号x1(t),x2(t),...xdx(t),该多个接收到的声音信号x1(t),x2(t),...xdx(t)经过取样(sampling)后可成为离散形式(discrete)的混合声音信号(acousticmixture)x(n)=[x1(n)...xdx(n)]T,且x(n)可用式(1)表示x(n)=Σk=1rs(n-k)A(k)]]>式(1)其中,矩阵s(n)=[s1(n)...sds(n)]T为ds个独立的声音源,而A(k)代表各个独立的声音源到各个麦克风的传输环境的脉冲响应(impulse response),且A(k)的维数为ds×dx,而r表示该脉冲响应A(k)的阶数(order)。因此,由式(1)可知每一个混合声音信号是原来的声音源与该传输环境的脉冲响应作卷积运算(convolution)的结果。
而已知的BSS技术主要是利用该等混合声音信号x1(n)...xdx(n)去找到一个好的分离矩阵(separated matrix)W(k),并将该分离矩阵W(k)与该多个混合声音信号x1(n)...xdx(n)分别作卷积运算,以得到分离信号z(n)=[z1(n)...zds(n)],如式(2)。
z(n)=Σk=1rx(n-k)W(k)]]>式(2)且如果能正确的计算出最佳化的分离矩阵W(k),使该分离矩阵W(k)等于该脉冲响应A(k)的逆矩阵(inverse matrix),则该等分离声音z1(n)...zds(n)将分别与对应的该等声音源s1(n)...sds(n)完全相同。
而已知的BSS的技术是假设原来的每一个声音源s1(n)...sds(n)内的信号点彼此在统计上是相互独立,所以没有空间相关(spatial correlation),且计算出的分离矩阵W(k)也会使每一个分离声音z1(n)...zds(n)的信号点间没有空间相关和时间相关(temporal correlation)。但因为每一个原始声音源s1(n)...sds(n)内的信号点彼此间具有很大的时间相关,且每一个混合的声音信号内的信号点彼此间也有空间相关及时间相关。因此,已知的BBS技术直接使用该多个混合声音信号,将无法找出较佳的分离矩阵W(k),并且会使得每一个分离信号z1(n)...zds(n)的信号点间失去时间相关,而与原来声音源不相同,导致分离的效果不好。
已知的另一种BSS技术是K.Kokkinakis、V.Zarzoso及Asoke K.Nandi共同于2003年的期刊4th International Symposium on IndependentComponent Analysis and Blind Signal Separation提出的论文“基于线性预测分析的声音混合的盲分离(Blind Separation of Acoustic Mixtures Basedon Linear Prediction Analysis)”中所揭露。
参阅图1,该BSS技术包含下列步骤(T1)一个线性预测(Linear Prediction)处理步骤将该多个混合声音信号x1(n)...xdx(n)经由线性预测处理成为该多个余留信号r1(n)...rdx(n)。
该线性预测处理是要尽量地消除每一个混合声音信号x1(n)...xdx(n)的信号点间的时间相关,即使用式(3)分别对该等混合声音信号x1(n)...xdx(n)作处理ri(n)=xi(n)-Σk=1qxi(n-k)ai(k)]]>式(3)其中,i代表第i个麦克风11分别接收到且经过取样后的混合声音信号xi(n),而ai(k)是线性预测系数,q是阶数,且ai(k)的计算方法已于上述2003年K.Kokkinakis、V.Zarzoso及Asoke K.Nandi的论文中揭露。
并且值得注意的是,步骤(T1)仍无法完全或大幅消除每一个混合声音信号x1(n)...xdx(n)的信号点间的时间相关,故计算出的每一个余留信号r1(n)...rdx(n),其信号点彼此间虽然比混合声音信号x1(n)...xdx(n)的信号点彼此间的时间相关性低,但仍具有时间相关。
步骤(T2)对该多个余留信号做独立成份分析处理(IndependentComponent Analysis,以下简称ICA)。
该ICA处理为已知的技术,可参考由P.Common于1994年的期刊Signal Processing中提出的论文“独立成分分析,一种新概念?(IndependentComponent Analysis,a new concept?)”。
已知的ICA处理方法主要是从该多个余留信号r1(n)...rdx(n)去计算该分离矩阵W(k),且在计算该分离矩阵W(k)的过程中,该ICA处理方法可以有效地消除每一个余留信号r1(n)...rdx的信号点彼此间的空间相关。
而计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将此初始Wr(k)代入式(4)以得到信号m(n)m(n)=Σk=1ux(n-k)Wr(k)]]>式(4)其中,u为阶数。
然后再将该初始Wr(k)及式(4)计算出的信号m代入式(5)以得到一修正参数ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>式(5)其中,在式(5)中,a代表学习率(Learning Rate),off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为正整数且代表混合声音信号的信号点数目。
然后再根据式(6)将该修正参数ΔWτ(k)与一Wold(k)(即该初始Wr(k))相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k) 式(6)并将式(6)计算出的Wnew(k)当作另一个新的Wr(k)代回式(4)以更新该信号m的值,且将新的Wr(k)及更新后的m代入式(5)以得到更新后的修正参数ΔWτ(k),再根据式(6)得到更新后的Wnew(k)。并依此递归方式重复计算式(4)、式(5)及式(6),直到式(5)计算出的ΔWτ(k)趋近于0,此时由式(6)计算出的Wnew(k)即为该分离矩阵W(k)。
另外,在计算出分离矩阵W(k)后,步骤(T2)再根据式(2)将该多个混合声音信号x1(n)...xdx(n)与该分离矩阵W(k)作卷积运算即可得到该等分离信号z1(n),z2(n),...zds(n)。
已知该BSS技术在步骤(T1)时只消除了少数该多个混合声音信号的时间相关,而在音高(pitch)位置的时间相关并无法完全去除,且在步骤(T2)中,也无法进一步使每一个余留信号内的信号点彼此间的时间相关降至零。故在步骤(T2)中计算出的分离矩阵仍无法达到最佳化,所以分离出来的信号z1(n)...zds(n)仍无法与对应的原始的声音源s1(n)...sds(n)完全相同,造成分离信号的效果不佳。
此外,在步骤(T1)中,该线性预测的前置处理除了无法消除音高位置的时间相关外,另一个缺点是阶数q必须超过50,而使式(3)在计算上显得相当复杂及耗费时间。

发明内容
因此,本发明的目的是提供一种可以提高声音分离效果的声音信号分离系统。
本发明的另一个目的是提供一种声音信号分离方法,该方法可以从混合的声音信号较佳地分离出原来的声音源。
于是,本发明声音信号分离系统,适用于将复数混合声音信号分离出至少一个单一声音源。该声音信号分离系统包含音高预测模块,可根据下式消除每一个混合声音信号内的信号点彼此间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,而Dk是音高位置,并且βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
线性预测模块,与该音高预测模块电连接,以下式可进一步继续消除每一个前置信号y1(n)...ydx(n)之信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n)。
ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>
独立成份分析处理模块,与该线性预测模块电连接,并接收该等余留信号,且可从该等余留信号中计算出一分离矩阵,并可将该分离矩阵与该等混合声音信号作卷积运算以分离出至少一个该单一声音源。
于是,本发明声音信号分离方法,适用于将复数混合声音信号分离出至少一个单一声音源。该声音信号分离方法包含下列步骤(A)以下式消除每一个混合声音信号内的信号点间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
(B)进一步继续消除每一前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数。
(C)根据该等余留信号计算出一分离矩阵。
(D)以该分离矩阵与该等混合声音信号作卷积运算来分离出至少一个该单一声音源。
本发明的功效在于音高预测模块能大幅消除该等混合声音信号的时间相关,进而使该分离矩阵能够最佳化,因此能够提高声音信号的分离效果。


图1是已知的BSS技术的流程图,其中包括一线性预测处理步骤;图2是本发明的声音信号分离系统的优选实施例的系统方块图;及图3是本发明优选实施例的流程图。
具体实施例方式
有关本发明的前述及其它技术内容、特点与功效,在以下配合参考图式的一个优选实施例的详细说明中,将可清楚地理解。
参见图2,本发明声音信号分离系统的优选实施例包含声音接收模块1、音高预测模块2、线性预测模块3、独立成份分析处理模块4(以下简称ICA处理模块)及声音播放单元5。
该声音接收模块1包括dx个麦克风11及一个取样单元12。该等麦克风11可分别接收声音信号,且以下为了方便说明,将第i个麦克风11接收的声音信号以xi(t)表示,而xi(t)是连续性的声音信号。且值得注意的是,在本实施例中,该多个麦克风11的个数至少要有两个。
该取样单元12与该音高预测模块2电连接,且可对该对麦克风11接收到的声音信号x1(t)...xi(t)进行取样,并将取样后且呈离散形式的混合声音信号x1(n)...xdx(n)输入到该音高预测模块2中。在本实施例中,该取样单元12是以每秒8000次的取样频率(sampling rate)将连续的声音信号x1(t)...xdx(t)分别取样后成为离散形式的混合声音信号x1(n)...xdx(n)。因此每一混合声音信号x1(n)...xdx(n)每秒都有8000个取样点,而本发明的取样频率也可以不限于每秒8000次。
此外,在本实施例中,是将每30ms的混合声音信号x1(n)...xi(n)中的取样点当作一个音帧(frame)。而接收的声音信号xi(t)是经过该取样单元12以每秒8000次的取样频率取样后成为混合声音信号xi(n),因此一个音帧包括该混合声音信号xi(n)中的30/1000×8000=240个取样点。但一个音帧也可以是其它时间长度,而不限于30ms中的混合声音信号x1(n)...xi(n)的取样点,例如一个音帧也可以包括xi(n)中所有的取样点。
该音高预测模块2与该取样单元12及该线性预测模块3电连接,并且该音高预测模块2读进从该取样单元12输出的该音帧的混合声音信号x1(n)...xi(n),并根据式(7)消除每一个混合声音信号的信号点间的时间相关后成为前置信号y1(n)...yi(n),并且输出该等前置信号y1(n)...ydx(n)至该线性预测模块3。
yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>式(7)其中,在式(7)中,p是阶数,且βi(k)是音高预测系数(Pitch PredictionCoefficient),而Dk是音高位置(Pitch Position),且βi(k)及Dk的计算方式如式(8)βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>式(8)其中,L是音帧的长度,即是一个音帧中所包含的信号点数目。而D的值可为1到L的正整数,且将不同的D值代入式(8)中可得到不同的βi(D)的值。而在式(7)中,βi(k)是式(8)中βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D,即k=1时之βi(1)则是式(8)中βi(D)的最大值,且D1即是使βi(D)值最大的D。而k=2时的βi(2)则是式(8)中βi(D)的第二大值,且D2即是使βi(D)的值为第二大的D。
且值得注意的是,在式(7)中,阶数p只要算到p=1或是p=2就可以比已知技术大幅消去该多个混合声音信号的时间相关。
该线性预测模块3与该ICA处理模块4电连接,并且读进从该音高预测模块2输出的该音帧之前置信号y1(n)...ydx(n),并根据式(9)的线性预测法,消除该多个前置信号y1(n)...ydx(n)的信号点间的时间相关后成为余留信号r1(n)...rdx(n),并且输出该多个余留信号r1(n)...rdx(n)至该ICA处理模块4。
ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>式(9)其中,q是阶数,且线性预测系数ai(k)的计算方式为已知的技术,在此不再赘述。
该ICA处理模块4可接收该线性预测模块3处理后的余留信号r1(n)...rdx(n),并根据先前技术所述的式(4)、式(5)及式(6)消除其信号点间的空间相关后得到一个分离矩阵W(k)。且再依此分离矩阵并根据先前技术所述的式(2)计算出分离信号z1(n)...zds(n),并将该多个分离信号z1(n)...zds(n)输出至该声音播放单元5。而因为该ICA处理为已知的技术且在先前技术中已说明,故在此不再详细说明。
该声音播放单元5可接收从该ICA处理模块4输出的该音帧中的分离信号zi(n),并且可将该分离信号zi(n)播放出来。
本发明声音信号分离系统的一个优选实施例能够从dx个混合声音信号x1(n),x2(n),...xdx(n)分离出ds个分离信号z1(n),z2(n),...zds(n)。
参见图3,本发明的声音信号分离系统使用的方法包含下列步骤(S1)由dx个麦克风11分别接收dx个连续性的声音信号x1(t)...xi(t),其中每个xi(t)为时间的函数。
(S2)将dx个麦克风11接收的声音信号x1(t)...xdx(t)经该取样单元12以每秒8000次的取样频率分别取样后成为离散形式的dx个混合声音信号x1(n)...xdx(n)。
(S3)该音高预测模块2从该取样单元12读进一个音帧中该多个混合声音信号是所有取样点x1(n)...xdx(n),n=1...240。并根据式(7)、式(8)大幅消除每个混合声音信号是信号点间在音高位置的时间相关以得到该音帧中的前置信号y1(n)...ydx(n)。
(S4)该线性预测模块3根据式(9)更完全地消除该多个前置信号y1(n)...ydx(n)的信号点间的时间相关以得到该音帧中的余留信号r1(n)...rdx(n)。
(S5)该ICA处理模块4接收该多个余留信号r1(n)...rdx(n),并根据式(4)、式(5)及式(6)计算出该分离矩阵W(k)。
(S6)该ICA处理模块4以该分离矩阵W(k)及该音帧中的混合声音信号x1(n)...xdx(n),n=1...240的取样点,经由式(2)做卷积运算求取该音帧中相对应的分离信号zi(n),n=1...240的240个值。
(S7)将步骤(S6)得到的分离信号zi(n)用该声音播放单元5播出。并在执行完毕后跳到步骤(S3)。并继续针对下一音帧依序执行步骤(S3)~(S7)。并重复步骤(S3)~(S7)直到已处理完每一音帧。
值得注意的是,本发明也可只包含该音高预测模块2、该线性预测模块3及该ICA处理模块4,而不需包含该声音接收模块1及该声音播放单元5。即待分析的混合声音信号x1(n)...xdx(n)不一定需要透过麦克风11接收进来,也可透过网络下载、电性接口,或是储存媒体直接输入到该音高预测模块2中。例如可将外界数据库中的混合声音信号x1(n)...xdx(n)从一个通用串行总线(Universal Serial Bus,USB)接口输入,或是用光驱读取光盘上储存的该等混合声音信号x1(n)...xdx(n)的方式,将待处理的混合信号x1(n)...xdx(n)输入到该音高预测模块2中。而经由该ICA处理模块4处理完后的数据也可送至其它系统中进行后续的应用,并不一定要播放出来。
此外,本发明也可只包含该音高预测模块2及该ICA处理模块4,而不需包含该线性预测模块3。且即使移除该线性预测模块3仍可有效地改善已知技术的缺失,此外,由于该线性预测模块3计算的方式较为复杂且需耗费较多的计算时间,故移除该线性预测模块3则也可使本发明比已知技术节省计算时间。而此时,由该音高预测模块2输出的前置信号y1(n)...ydx(n)则直接送至该ICA处理模块4,而该ICA处理模块4此时则不再由该余留信号去计算出该分离矩阵W(k),而是直接根据前置信号y1(n)...ydx(n)来计算分离矩阵W(k)。且同时,本发明的声音信号分离方法则不需包括步骤(S4),且在步骤(S5)中,该ICA处理模块4则是根据该音高预测模块2处理完后的前置信号y1(n)...ydx(n)来计算分离矩阵W(k)。
综合上述,因为本发明的音高预测模块2可大幅消除每一个混合声音信号的信号点间在该音高位置的时间相关,故可使该分离矩阵达到最佳化,故分离出的该多个分离信号即可较不失真而能与原来的该多个声音源相同。而且,该音高预测模块2所使用的式(7)中,阶层p只要是1或是2就足够,故可以简化计算复杂度及节省计算时间。
以上所说明的仅是本发明的优选实施例,而不能以此限定本发明实施的范围,本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰,皆属于本发明涵盖的范围。
权利要求
1.一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含音高预测模块,可根据下式大幅消除每一个混合声音信号内的信号点彼此间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,Dk是音高位置,而βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可是1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;及独立成份分析处理模块,与该音高预测模块电连接,并接收该音高预测模块处理后的前置信号,且可根据该等前置信号计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。
2.根据权利要求1所述的声音信号分离系统,其中,该独立成份分析处理模块以独立成份分析法计算出该分离矩阵。
3.根据权利要求1所述的声音信号分离系统,其中,该独立成份分析处理模块根据下式分离出至少一个该单一声音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(s)]为ds个该多个分离出的单一声音源,而W(k)为分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
4.根据权利要求1所述的声音信号分离系统,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到一个Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以该Wnew(k)作为更新后的Wr((k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
5.根据权利要求1所述的声音信号分离系统,还包括多个麦克风及一个取样单元,且每一个麦克风与该取样单元电连接并可接收连续性的声音信号,而该取样单元则可对该多个麦克风接收到的声音信号取样以成为该多个离散形式的混合声音信号。
6.根据权利要求1所述的声音信号分离系统,还包括一个声音播放单元,该声音播放单元与该独立成份分析模块电连接,且可将该独立成份分析处理模块分析出的声音源播放出来。
7.一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含音高预测模块,可根据下式消除每一个混合声音信号内的信号点彼此间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,而Dk是音高位置,并且βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;线性预测模块,与该音高预测模块电连接,可进一步继续消除每一个前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数;及独立成份分析处理模块,与该线性预测模块电连接,并接收该多个余留信号,且可从该多个余留信号中计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。
8.根据权利要求7所述的声音信号分离系统,其中,该独立成份分析处理模块以独立成份分析法计算出该分离矩阵。
9.根据权利要求7所述的声音信号分离系统,其中,该独立成份分析处理模块根据下式分离出至少一个该单一声音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
10.根据权利要求7所述的声音信号分离系统,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数(n)=Σk=1ux(n-k)Wr(k)]]>然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diafΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到一个Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
11.根据权利要求7所述的声音信号分离系统,还包括多个麦克风及一个取样单元,且每个麦克风与该取样单元电连接并可接收连续性的声音信号,而该取样单元则可对该多个麦克风接收到的声音信号取样以成为离散形式的混合声音信号。
12.根据权利要求7所述的声音信号分离系统,还包括一个声音播放单元,该声音播放单元与该独立成份分析模块电连接,且可将该独立成份分析处理模块分析出的声音源播放出来。
13.一种声音信号分离方法,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离方法包含下列步骤(a)以下式消除每一个混合声音信号内的信号点间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(b)根据该多个前置信号计算出一个分离矩阵;及(c)以该分离矩阵与该等混合声音信号作卷积运算来分离出至少一个该单一声音源。
14.根据权利要求13所述的声音信号分离方法,其中,在步骤(c)中根据下式分离出至少一个该单一声音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为该分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
15.根据权利要求13所述的声音信号分离方法,其中,在步骤(b)中,以独立成份分析法计算出该分离矩阵。
16.根据权利要求13所述的声音信号分离方法,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L+τ+r))Wr(k)]]>其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
17.根据权利要求13所述的声音信号分离方法,其中,该多个混合声音信号是对多个麦克风接收到的声音信号取样后得到的。
18.一种声音信号分离方法,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离方法包含下列步骤(A)以下式消除每一个混合声音信号内的信号点间的时间相关yi(n)=xi(n)-Σk=1pβi(k)xi(n-Dk)]]>其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下βi(D)=Σn=1Lyi(n)×yi(n-D)Σn=1Lyi(n)×yi(n)]]>其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(B)进一步继续消除每一个前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n)ri(n)=yi(n)-Σk=1qyi(n-k)ai(k)]]>其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数;(C)根据该多个余留信号计算出一个分离矩阵;及(D)以该分离矩阵与该多个混合声音信号作卷积运算来分离出至少一个该单一声音源。
19.根据权利要求18所述的声音信号分离方法,其中,在步骤(D)中根据下式分离出至少一个该单一声音源z(n)=Σk=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为该分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
20.根据权利要求18所述的声音信号分离方法,其中,在步骤(C)中,以独立成份分析法计算出该分离矩阵。
21.根据权利要求18所述的声音信号分离方法,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到信号m(n),其中u是阶数m(n)=Σk=1ux(n-k)Wr(k)]]>然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k)ΔWτ(k)=-a(Σr=0L{off_diagΦ(m(k-L))mT(k-L-τ+r))Wr(k)]]>其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
22.根据权利要求18所述的声音信号分离方法,其中,该多个混合声音信号是对多个麦克风接收到的声音信号取样后得到的。
全文摘要
一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含音高预测模块,可消除每个混合声音信号内的信号点彼此间的时间相关成为相对应的前置信号。线性预测模块,与该音高预测模块电连接,可进一步继续消除每个前置信号的信号点彼此间的时间相关以得到相对应的余留信号。独立成分分析处理模块,与该线性预测模块电连接,并接收该多个余留信号,且可从该多个余留信号中计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。
文档编号G10L21/028GK1808571SQ20051000554
公开日2006年7月26日 申请日期2005年1月19日 优先权日2005年1月19日
发明者林哲民, 吴建明 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1