一种对卷积混叠语音信号进行盲源分离的方法

文档序号:2831978阅读:627来源:国知局

专利名称::一种对卷积混叠语音信号进行盲源分离的方法
技术领域
:本发明涉及一种无信道状态参数下多输入多输出(M頂0)系统中对巻积混叠语音信号进行盲源分离的方法,可以广泛的应用于神经网络、多天线系统,尤其是语音信号处理方面。
背景技术
:语音信号的盲源分离(BSS)是近期的一个研究热点,真实语音环境可以近似成一个巻积混叠模型,所以对巻积混叠语音信号BSS提出了更高的要求。传统的巻积混叠语音信号BSS算法一般可以分为两大类1.直接在时间域进行反巻积;2.变换到如小波域或频域等其他变换域进行处理。由于滤波系数可能很多,第一类算法需要进行大量的巻积运算,而且可能导致收敛到奇异点或甚至不能收敛,所以现在对于语音信号BSS—般采取第二种方式。"BlindSeparationofConvolvedMixturesintheFrequencyDomain,',Neurocomput.:vol.22,卯.21-34,1998("频域巻积信号的盲源分离",《神经计算》,ISSN:0925-2312,22:21-34,1998)上研究证明了在频域进行BSS的可实现性并指出时域内的巻积混叠模型对应着频域的线性瞬时混叠模型,并且在频域处理有更高的效率和更好的收敛性能。独立分量分析(ICA)是频域BSS中的一个重要工具,但是它存在着两个不确定性,顺序不确定性和幅度不确定性。顺序不确定性可以导致在进行傅立叶反变换时,某个恢复信号实际包含其他信号的某个频段内的信息而丢失自己在相应频段里的信息,从而最终导致结果恶化。所以如何通过对频域信号重新排列来消除顺序不确定性是巻积混叠语音信号盲源分离的一个研究热点。当前消除顺序不确定性的重列算法主要有如下几大类1.利用相邻带内的信号相关性如包络相关;2.利用分离矩阵的波束形成理论,如波达方向估计(D0A);3.根据信号的统计特性进行估计如参数估计等等。根据相关性进行重列计算量不大,但是如果在某一个频段内判断错误,那么接下来的频段可能都会跟着错误而导致结果恶化;D0A方式利用了波束形成理论,原理较为清晰简单,但是"ARobustandPreciseMethodforSolvingthePermutationProblemofFrequency-DomainBlindSourceSeparation,,,IEEETrans.SpeechandAudioProcess.,vol.12,issue5,pp.530-538,S印t.2004.("—种解决频域盲源分离不确定性问题的稳健准确算法",《IEEE语言与音频处理汇刊》,ISSN:1063-6676,12(5):530-538,09/2004。)上指出了其下几个缺点低频估计不准确,计算量大,源信号个数较多时估计准确性大大降低,而且在波达方向一致的情况下,该方法失效;而第三类方法不但计算量大,而且对噪声非常敏感。
发明内容本发明针对现有语音信号BSS的不确定性问题,提供一种无信道状态信息条件下能够提5高MIM0系统分离性能的对巻积混叠语音信号进行盲源分离的方法。本发明对巻积混叠语音信号进行盲源分离的方法是将巻积混叠的时域信号变换到频域进行独立成份分析(ICA)并用多步骤基准重列(MSBR)算法进行重列。MSBR算法首先对所有频段进行分类,然后分步骤根据不同的目标函数得到重列的转置矩阵,重列的各个步骤相互补充,最后将频域信号反变换到时域恢复原始语音信号。巻积混叠信号的模型为xp(0=Z|XA(/M^-/),其中/v(/)是在延迟/上第^个源信号到第p个传感器信号(/)的冲激响应。本发明用到了一种基于高阶统计量(H0S)的ICA算法,对源信号提出以下的限制相互独立;最多有一个是高斯信号;H(/)必须是列满秩的。语音信号的盲源分离(BSS)的目的就是通过下式求出源信号估计-其中w"/)是需要得到的分离滤波器在延迟/上的冲激响应,n(o表示最终分离信号x(z)和原始观测信号化(,)(O的一一对应关系(对应一个转置矩阵),而",(O是FIR滤波器冲激响应,理想分离情况下为一个单位冲激函数。(i)式简化写成矩阵形式为y(0=I!W(/)x(,-/)=Za(力s(/-r)(2)其中源向量s(o4^o;u2(o,…,^oor,观测向量xo)4^o;u2W,…,^(0]7,分离向量7(0=[>^(0,:^(0,...,:^(0]7',上标"r"表示转置,w(/)对应延迟/上的时域尺x尸分离矩阵。本发明对巻积混叠语音信号进行盲源分离的方法具体包括以下过程--(I)将巻积混叠的信号进行离散时间傅立叶变换(DTFT):<formula>formulaseeoriginaldocumentpage6</formula>(3)其中/=((/—1)/1)乂,/=1,2,…,丄,X为釆样频率,win("是一个中心为零点长度为丄的窗函数,它可以起到频谱平滑作用。真实环境下由于混响衍射以及回声的作用,语音数据巻积混叠模型中都带有数以千计的FIR滤波器抽头系数。分离滤波器时域上的每一个延时都对应着频域上的一个频段,为了能够最大精度的获得分离滤波器每一个系数,要进行数千点的DTFT。为了利用快速傅立叶变换(FFT)中的维特比(Viterbi)算法,频段数最好是^=2\所以仿真试验中采用了加汉明窗的丄=2048点STFT,其中的交迭系数为0.75。(II)在各个频域段内进行相互独立的独立分量分析(ICA)运算巻积混叠信号的BSS大部分计算量都消耗在ICA上,而且其收敛与否决定了BSS是否成功,所以选取一个快速有效的ICA算法非常重要。大部分算法无论是基于最大似然度(ML)还是基于最小化互信息但MI)基本使用了梯度算法,收敛速度并不是非常快。本发明禾l(用了"BlindBeamformingandMaximumRatioCombiningbyKurtosisMaximizationforSourceSeparationinMultipath,"inThirdIEEEWorkshoponSPAWC,Taoyuan,Taiwan,pp.243-246,Mar.2001.("多通道盲源分离中应用峭度最大化进行盲波束形成和最大比合并",200l第三届IEEE—SPAWC研讨会,台湾桃园,243-246,03/2001。)中提出的快速峭度最大化算法(FKMA),这是一种指数收敛迭代算法和梯度收敛迭代算法的结合体。它的目标函数是在频段/寻找一个最优分离向量w,(/)使每次迭代都最大化i;(/力的归一化峭度:<formula>formulaseeoriginaldocumentpage7</formula>其中J(.)表示目标函数,K(/,,)=w,(/)XOV),E(O表示期望,C丄)表示四阶峭度,而且Q(m("》=£{||4}—2(£(||2))2-1£("2("))I2。为了最大化目标函数(4),下式(5)给出了一种指数速率的收敛操作<formula>formulaseeoriginaldocumentpage7</formula>其中,e(/=w,(/fX(/力,r^是X(/,f)的相关矩阵,<formula>formulaseeoriginaldocumentpage7</formula>如果(5)中指数速率的操作不能保证(4)收敛时,一种梯度收敛算法就代替指数收敛。如果传感器数目大于源信号数目(尸>《),那么主成分分析(PCA)就要在ICA之前应用。它不但可以降低噪声,还可以大大降少计算量,因为FKMA的计算量和需要进行分离的信号数目成正比。同一语音信号在相邻的频段内有非常大的相似性,无论是它的包络(如图2所示)或者分离矩阵W(/卜[w,(/),w2(/),…,w《(/)f。也就是说W(X,)、W(/)、W(D等之间有非常大的相关性,实际上,如果频段划分比较细,在不产生顺序不确定性的理想情况下,它们基本上变化很微小。所以和X(/,/)相比,W(力JX("/)更接近于相互独立。所以对WajX(/,乂)进行ICA得到的分离矩阵就比较接近于一个单位阵或一个转置矩阵。而且可以选取单位阵作为初始矩阵,由于该单位阵比较接近于最终的分离矩阵,所以收敛过程中的迭代次数降低了,从而节省了大量的计算量。利用FFT的对称性,只要进行丄/2次ICA运算即可。(III)使用多步骤基准重列算法(MSBR)对频域的ICA分离数据进行重列A步骤解决预先确立的基准频率的顺序不确定性选取力=0,(M/Z),,(2iW7Z)/;,..,,((i:—为基准频率,其中M是一个正奇数(如M=5)。这样使/6为一系列的谐波频率,其中基波为(M/丄)义,而谐波又有更强的相关性,可以提高整体的正确率。"AmplitudeModulationDecorrelationforConvolutiveBlindSourceS印aration,"inProc.ofICA2000Conf.,Helsinki,Finland,pp.215-220,June2000.("巻积盲源分离中利用幅度调制进行反巻积",《2000年ICA会议论文集》,芬兰赫尔辛基,215-220,06/2000。)中研究发现如下准则对于语音信号,在不同的频段内能量在时间上呈现一个相似的变化,只是幅度系数可能不同。利用该相似性,先求得恢复信号零均值的功率轮廓对数/,/)=logK(/,0《(/,0)—,朋(log("(/,0《(/,f)》(7)将(7)式中心化是为了减少时间均值对相关系数的影响。然后利用"BlindSeparationofSpeechMixturesBasedonNonstationarity,,inProc.ofISSPA2003Conf,Paris,France,73-76,July2003.("基于非平稳性的i吾音盲分离",《2003年ISSPA会议论文集》,法国巴黎,73-76,07/2003。)中提出的一个目标函数§11五(n(al卩(8)其中ll.ll表示向量的欧几里德范数,五,o表示频域上第/个源信号的功率轮廓,它可以通过对^(n(/),y;力在所有频段上求均值得到。以迭代方式最大化该函数就可以求得在该基准频率上的n(.),从而得到转置矩阵po;)。之后通过转置矩阵P(/J对分离矩阵W(/A)和相应的分离数据Y(/6,f)重列。上述A步骤的计算量正比于基准频率段的个数Z/M。B步骤解决基准频率临近的频段的顺序不确定性经过A步骤还有(1-1/M)丄个频段未解决不确定性,该算法根据相邻分离矩阵的相似性,以A骤中的力为基准,对剩下的频段重新排序。以第y个基准频段/-(cz-i)M/i:),为例,它的临近频段为人令4+,=(((厂1)M+,)/丄)/;。8在对频段4+,进行重列时,先求出该频段分离信号的分离矩阵wc4+,),然后列举出其所有可能的U!个)转置p(4+》w(人.+,),接着求出w(4)和(p(4+/)w(_4.+,)f的相关阵c~+',其中wc4.)是基准频段人.处的分离矩阵。则c='表示wc4)的第m行向量和p(4+,)wa,+,)的第"行向量的相关系数。如果_4,+/处分离信号和基准频率人处一致的话,那么c^应该近似于一个对角阵,所以可以通过最小化下面的目标函数得到最终的转置矩阵p(人+,):<formula>formulaseeoriginaldocumentpage9</formula>(9)接下来验证该转置矩阵的准确性若1^11|€='|,(7=1,..1)大于一个预先设定的门限值(比如0.6)且maxlCH,0,"=1,...《,》^")小于另外一个门限值(比如0.4),那么通过此转置矩阵对频域信号进行重列就是准确的。否则的话,进入c步骤再次排序。之后通过转置矩阵p(_4+/)对分离矩阵w(_4,+/)重列。上述B步骤的计算量正比于基准频率临近的频段的总个数(l-1/M)Z,但是相对于A步骤针对时间序列的迭代算法,B步骤针对分离矩阵的单次操作计算量非常低(比例系数非常低),所以B步骤计算量相对A步骤可以忽略。c步骤通过信号包络的连续性解决剩余频段的顺序不确定性。该步骤实际上是在b步骤不能保证精度的情况下的一种补充。根据临近频段包络的相关性,可以找到一种鲁棒性很强的算法。首先设计一个低通滤波器,对于频段人+,和其相应的基准频段人.,得到分离语音的上包络(如图3所示)五"(/,/力""w/c^(i;(/,,)h^^Z(10)其中五w(o表示信号包络,iv是一个正整数,通过遍历n(o来最小化下面目标函数可以得到需要的p(y;,+,):<formula>formulaseeoriginaldocumentpage9</formula>之后通过转置矩阵p(_4+/)对分离矩阵w(/~+/)重列即可。c步骤的计算量尽管在单个频段上非常大,但是c步骤仅发生在b步骤可信度不高的情况下(偶尔出现在能量较低的低频和高频部分),所以c步骤计算量也可以相对忽略。(IV)然后利用最小失真原则(MDP)对频域的ICA分离矩阵进行幅度调整经过MSBR算法消除信号的顺序不确定性问题后,还有幅度不确定性没有解决。在公式(2)中已经表明,最终恢复的吋域信号仍然是原始信号和一个FIR函数的巻积,理想分离情况下该FI鹏数为一个单位冲激函数。"MinimalDistortionPrincipleforBlindSourceS印aration,"SanDiego,CA,USA,pp.722-727,Dec.2001.("盲源分离中的最小失真原则",《2001年ICA会议论文集》,美国圣地亚哥,722-727,12/2001。)中将MDP原则应用在BSS中,提出了如下算法对分离矩阵进行幅度调整W(/)—(W(/)))W(/)(12)(V)求得时域分离矩阵并恢复原始信号对频域的分离矩阵W(/)实行离散傅立叶反变换(IDFT)求得时域上的分离矩阵W(r)。在进行IDFT时,由于之前利用FFT的对称性,只进行了丄/2次ICA运算,相应也只求得了丄/2个频段对应的分离矩阵。所以还需要再次利用对称性补全剩余丄/2个频段的分离函数,其中需要注意的是中间频段厶/2+1处分离矩阵的选择。得到时域分离矩阵W(O后,套用公式(2)对传感器信号进行巻积,能够最终获得原始信号的估计。本发明在进行ICA时采用了预独立化的快速峭度最大化算法(P-FKMA),极大地提高了收敛效率;在消除顺序不确定性问题时使用了一种创新的多步骤基准重列(MSBR)算法,不但提高了效率,还提高了准确度,更适合实时处理,使恢复的语音信号具有良好的性能。在噪声和反射衍射效果不可避免的真实语音环境下,也有非常好的表现。图1是本发明对巻积混叠语音信号BSS的系统框图。图2是分离信号临近频段的包络图。图3是某频段处的分离信号及其上包络图。图4是仿真实验中混合滤波器的冲激响应图。图5是本发明中使用的ICA方法和其他ICA算法的性能比较图。图6是全局滤波器(W^H)在MSBR后的冲激响应。图7是全局滤波器(W*H)在幅度调整后的冲激响应。图8是仿真试验中的原始信号,巻积混叠信号和分离信号图图9是真实环境下语音采集中的房间布局。图10是真实语音环境下的麦克风采集信号和分离信号图。具体实施例方式本发明对巻积混叠语音信号BSS的系统框图如图1所示,/T个声源经过巻积混合后在尸个传感器被检测到,其BSS算法基本过程如下先通过STFT变换到频域,之后ICA分离。将ICA分离数据用MSBR算法重列后解决顺序不确定性,之后调整幅度,然后将频域的分离矩阵W(力经过IDFT变换到时域求得时域分离矩阵W"),最后用W")巻积传感器信号得到原信号的估计。仿真实验通过以下几方面验证本发明方法的ICA算法性能,全局滤波器冲激响应和语音恢复效果。其中,计算机合成巻积混叠信号试验中混合滤波器有300个抽头系数(如图4所示),10在8000Hz的采样率下对应的最大延迟为37.5ms,原始语音时长为8s。为方便起见,下面主要考查尸=《=2时的性能。1)ICA性能巻积混叠语音信号BSS的大部分时间的消耗在ICA上。上百抽头系数的混合滤波器可能对应着上千抽头系数的分离滤波器,为了更精确的恢复该系数,在进行STFT时必须进行上千点的FFT,对应频域上也就相应需要上千次ICA,所以高效率的ICA算法对提高BSS实时处理速率有巨大的作用。如下表显示,本发明中使用的是预先独立化的FKMA(P-FKMA),禾DFastICA以及JADIAG相比较。FastlCA是由Hy^irinen等人提出的一种定点算法,在本次比较中,使用的是由Bingham等人提出的FastICA的一种扩展算法,适用于分离信号为复数的情况。而JADIAG是一种由DinhTuanPham提出的联合近似对角化算法。下表是ICA消耗时间比较<table>tableseeoriginaldocumentpage11</column></row><table>仿真试验中选取的是2048点FFT,相应进行了1024次ICA分离,从上表中可以看出,本发明中的算法具有巨大的时间优势,更适合真实语音情况下的处理。图5则是如上提到的几种ICA的性能比较。在加性高斯白噪声(AWGN)信道中,P-FKMA在不同的信噪比(SNR)下,都表现出了相对良好的分离性能。图中的纵坐标SINR为信号与干扰加噪声比(OutputSignal-to-Interference-plusNoiseRatio)。2)全局滤波器冲激响应全局滤波器冲激响应是混合滤波器和分离滤波器的响应巻积(\¥*11),在理想情况下为一系列单位冲激函数和零时间序列。如图6所示,在用MSBR算法对频域信号进行重列之后,基本上顺序不确定性消失了。因为图中(WAH)n比较接近一个单位冲激函数,而且其幅度(能量)相对于(WAH),2要大得多。所以二WJ(Hn、(0+H,2、(,))+W^(H2A(f)+H22、(,))二(WJHu+W^H2iyV,)+(Wu承H,2+W^H22)^2(0=(W*H),+(W*H),2(,)因为(W+HV如图6接近一个单位冲激函数,所以j;々)为AO)的估计,同理力(O为A(O的估计(整体上顺序模糊出现时,可能;^)为^(0的估计而^(0为A(O的估计)。在MSBR消除顺序不确定性之后,再通过公式(10)来降低幅度不确定的影响,如图7所示,(W*H)和(W*H)22能量集中在更窄的范围内,则全局滤波器有更好的性能。3)语音恢复效果仿真试验中的原始信号,巻积混叠信号和分离信号如图8所示,通过比较原始信号和最终分离信号可以看出恢复性能令人满意。在真实环境的语音采集分离试验中,房间的布局如图9所示,其中的语音采集系统使用了TDT公司的RX8多输入输出处理器(TDTSYSTEM3hUp:〃www.tdt.com/products/RX8.htm),采样率为8000Hz。采集信号和分离信号如图10所示,经过试听分离信号,声音清晰,由此证明了本发明算法在真实环境中的可行性。权利要求1.一种对卷积混叠语音信号进行盲源分离的方法,其特征是将时域的卷积混叠模型转化为频域的多通道线性瞬时混叠模型,将卷积混叠的时域信号变换到频域之后对各个通道进行相互独立的独立成份分析得到独立成分并重列,在频域进行ICA时采用预独立化的快速峭度最大化算法,不同频段的信号在重列时进行分类,然后分步骤根据不同的目标函数得到重列的转置矩阵,重列的各个步骤相互补充,根据相邻频段和基准频率的连续性解决剩余频段的剩余不确定性,计算复杂度正比于基准频率段的个数;其中,卷积混叠信号的模型为id="icf0001"file="A2009100189600002C1.tif"wi="47"he="10"top="70"left="86"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>其中hpk(l)是在延迟l上第k个源信号sk(t)到第p个传感器信号xp(t)的冲激响应,并对源信号提出以下的限制相互独立;最多有一个是高斯信号;H(l)必须是列满秩的;具体包括以下步骤(1)将卷积混叠的信号进行离散时间傅立叶变换;(2)在各个频域段内利用快速峭度最大化算法进行相互独立的独立分量分析运算;(3)使用多步骤基准重列算法对频域的独立分量分析分离数据进行重列;A步骤解决预先确立的基准频率fb的顺序不确定性选取fb=0,(M/L)fs,(2M/L)fs,...,((L-1)/L)fs为基准频率,其中M是一个正奇数;先求得恢复信号零均值的功率轮廓对数<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>log</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><msubsup><mi>Y</mi><mi>i</mi><mo>*</mo></msubsup><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><mi>mean</mi><mrow><mo>(</mo><mi>log</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><msubsup><mi>Y</mi><mi>i</mi><mo>*</mo></msubsup><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>)</mo></mrow></mrow>]]></math></maths>然后最小化目标函数<mathsid="math0002"num="0002"><math><![CDATA[<mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>i</mi><mo>=</mo><mi>K</mi></mrow></munderover><msup><mrow><mo>|</mo><mo>|</mo><mi>E</mi><mrow><mo>(</mo><mi>&Pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>f</mi><mi>b</mi></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>E</mi><mi>i</mi></msub><mrow><mo>(</mo><mo>&CenterDot;</mo><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup></mrow>]]></math></maths>其中∏(·)是一个前面介绍的一一对应关系,||·||表示一个向量的欧几里德范数,Ei(·)表示频域上第i个源信号的功率轮廓,通过对E(∏(i),fb,t)在所有频段上求均值得到,以迭代方式最小化该函数求得在该基准频率上的∏(·),从而得到转置矩阵P(fb);之后通过转置矩阵P(fb)对分离矩阵W(fb)和相应的分离数据Y(fb,t)重列;B步骤解决基准频率临近的频段的顺序不确定性经过A步骤后还有(1-1/M)L个频段未解决不确定性,根据相邻分离矩阵的相似性,以第一步骤中的L/M个频段为基准,对剩下的频段重新排序,以第j个基准频段fbj=((j-1)M/L)fs为例,它的临近频段为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,...,fbj+(M+1)/2,其中fbj+l=(((j-1)M+l)/L)fs;在对频段fbj+l进行重新排序时,先求出该频段分离信号的相关矩阵W(fbj+l),然后列举出所有可能的转置矩阵P(fbj+l)W(fbj+l),接着求出分离矩阵W(fbj)和(P(fbj+l)W(fbj+l))T的相关阵Cbj+l,则Cmnbj+l表示W(fbj)的第m行和P(fbj+l)W(fbj+l)的第n行的相关系数,通过最小化下面的目标函数得到最终的转置矩阵P(fbj+l)<mathsid="math0003"num="0003"><math><![CDATA[<mrow><munderover><mi>&Sigma;</mi><mrow><mi>m</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mfrac><mn>1</mn><msup><mrow><mo>|</mo><msubsup><mi>C</mi><mi>mm</mi><mrow><mi>bj</mi><mo>+</mo><mi>l</mi></mrow></msubsup><mo>|</mo></mrow><mn>2</mn></msup></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>n</mi><mo>&NotEqual;</mo><mi>m</mi></mrow><mi>K</mi></munderover><msup><mrow><mo>|</mo><msubsup><mi>C</mi><mi>mn</mi><mrow><mi>bj</mi><mo>+</mo><mi>l</mi></mrow></msubsup><mo>|</mo></mrow><mn>2</mn></msup></mrow>]]></math></maths>接下来验证该转置矩阵的准确性与否若min|Cmmbj+l|,m=1,...K大于一个预先设定的门限值且max|Cmnbj+l|,m,n=1,...K,m≠n小于另外一个预先设定的门限值,那么通过此转置矩阵对频域信号进行重新排序就是准确的,通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列,否则的话,需要利用C步骤对对应频率段重新排序;C步骤通过信号包络的连续性解决剩余频段的顺序不确定性首先设计一个低通滤波器,对于频段fbj+l和其相应的基准频段fbj,得到分离语音的上包络<mathsid="math0004"num="0004"><math><![CDATA[<mrow><mi>En</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>envelope</mi><mrow><mo>(</mo><msub><mi>Y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>2</mn><mi>N</mi><mo>+</mo><mn>1</mn></mrow></mfrac><munderover><mi>&Sigma;</mi><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mi>t</mi><mo>-</mo><mi>N</mi></mrow><mrow><msup><mi>i</mi><mo>&prime;</mo></msup><mo>=</mo><mi>t</mi><mo>+</mo><mi>N</mi></mrow></munderover><mo>|</mo><msub><mi>Y</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>f</mi><mo>,</mo><msup><mi>t</mi><mo>&prime;</mo></msup><mo>)</mo></mrow><mo>|</mo></mrow>]]></math></maths>其中N是一个正整数,通过遍历∏(·)来最小化下面目标函数得到需要的P(fbj+l)<mathsid="math0005"num="0005"><math><![CDATA[<mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>i</mi><mo>=</mo><mi>K</mi></mrow></munderover><mfrac><msup><mrow><mo>|</mo><mo>|</mo><mi>En</mi><mrow><mo>(</mo><mi>&Pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>f</mi><mrow><mi>bj</mi><mo>+</mo><mi>l</mi></mrow></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>En</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><msub><mi>f</mi><mi>bj</mi></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mrow><mo>|</mo><mo>|</mo><mi>En</mi><mrow><mo>(</mo><mi>&Pi;</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>f</mi><mrow><mi>bj</mi><mo>+</mo><mi>l</mi></mrow></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mo>&CenterDot;</mo><mo>|</mo><mo>|</mo><mi>En</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><msub><mi>f</mi><mi>bj</mi></msub><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo></mrow></mfrac></mrow>]]></math></maths>之后通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列;(4)然后利用最小失真原则(MDP)对频域的ICA分离矩阵进行幅度调整;根据如下算法对分离矩阵进行幅度调整W(f)←diag(inv(W(f)))W(f)(5)最后求得时域分离矩阵并恢复原始信号;对频域的分离矩阵W(f)实行离散傅立叶反变换求得时域上的分离矩阵W(t),得到时域分离矩阵W(t)后,套用以下公式对传感器信号进行卷积,能够最终获得原始信号的估计;<mathsid="math0006"num="0006"><math><![CDATA[<mrow><mi>y</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>L</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>W</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mi>x</mi><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>&Sigma;</mi><mi>&tau;</mi></munder><mi>&alpha;</mi><mrow><mo>(</mo><mi>&tau;</mi><mo>)</mo></mrow><mi>s</mi><mrow><mo>(</mo><mi>t</mi><mo>-</mo><mi>&tau;</mi><mo>)</mo></mrow></mrow>]]></math></maths>其中源向量s(t)=[s1(t),s2(t),...,sK(t)]T,观测向量x(t)=[x1(t),x2(t),...,xP(t)]T,分离向量y(t)=[y1(t),y2(t),...,yK(t)]T,上标″T″表示转置,W(l)对应延迟l上的时域K×P分离矩阵。全文摘要本发明提供了一种对卷积混叠语音信号盲源分离的方法,将时域的卷积混叠模型转化为频域的多通道线性瞬时混叠模型。首先将卷积混叠的时域信号变换到频域,之后对各个通道进行相互独立的ICA运算并得到独立成分。接下来用MSBR方进行重列首先将不同频段的信号进行分类,然后分步骤根据不同的目标函数渐进得转置矩阵,重列的各个步骤相互补充。MSBR算法利用谐波频率的强相关性提高迭代准确率,根据相邻频段和对应基准频率的连续性解决剩余频段的剩余不确定性,MSBR算法计算复杂度近似正比于基准频率段的个数。本发明提高了收敛效率,还提高了准确度,更适合实时处理,使卷积混叠语音信号的分离性能良好,在真实语音环境中也可以应用。文档编号G10L15/20GK101667425SQ200910018960公开日2010年3月10日申请日期2009年9月22日优先权日2009年9月22日发明者琚刘,刘清菊,军杜,董治强申请人:山东大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1