一种用于声源分离的编解码方法

文档序号：2829138阅读：722来源：国知局

专利名称：一种用于声源分离的编解码方法
技术领域：
本发明涉及多媒体领域，具体涉及一种声源分离技术方案，从单声道、立体声、或者多声道音频信号中分离出独立的声源。
背景技术：
音频信号，特别是音乐信号，通常包含多个声源，例如人声、各个伴奏乐器声、以及环境声。如何有效的从混合的音频信号中提取各个独立的声源是一个重要的理论问题，也是一个重要的应用问题。在卡拉OK中，人声部分需要被部分或完全消除；在移动通话中，环境噪音需要被尽可能的消除以提高通话质量；在主动音乐欣赏(Active Listening ofMusic)中，各个乐器声需要不同的增益和相位调整以合成用户期待的空间音场。在上述应用中，声源分离都是关键性的技术。声源分离系统可以分为两大类，一类是盲声源分离(Blind Source Separation)系统，另一类是有参考信息的声源分离(Informed Source Separation)系统。前者一般仅基于对声源统计特性的基本假设，例如高斯分布或者稀疏分布，而不需要参考信息协助分离声源。后者则需要占据一定带宽(比特率)的参考信息以协助分离声源。盲声源分离系统相对有参考信息的声源分离系统具有更广泛的适应性并且节约带宽，但其缺点是声源分离效果较差，具体反映在分离后的声源失真大，并且声源间的串扰大。从信号处理的角度看，声源分离问题是一类特定信号估计问题:观察到的信号为混合信号，这个信号是各个独立声源的某种叠加，例如加权或非加权、线性或非线性、时变或非时变、卷积或非卷积(瞬时)；待估计的信号是各个独立声源。在数学上，声源分离通常是不定解问题，即存在若个(有限或无限)组解，每组解作为待定的独立声源都可以得到给定的混合信号。因此，声源分离的关键是基于一个合理的假设从所有可能的解中找到最可能的解。音频信号，特别是语音和音乐信号，在离散傅立叶变换(Discrete FourierTransform, DFT)域、离散余弦变换(Discrete Cosine Transform, DCT)域、等变换域通常呈现一定的稀疏性，即所有的变换系数中，只有少量系数具有较大的绝对值，而其余系数为O或绝对值较小。利用这个特性，首先遍历所有可能的解，然后从中选择最稀疏的解即可作为盲声源分离问题的解。现有技术中，一般利用1-范数，即各分量的绝对值之和，衡量稀疏的程度:1-范数越小，稀疏度越高。在数学上，如果信号服从拉普拉斯分布，那么1-范数越小就对应着概率密度越高。有参考信息的声源分离也可以利用音频信号在特定变换域的稀疏性。例如5个独立声源线性下混为双声道(即立体声，包括左右两个声道)混合信号。如果在同一时刻同一频率(变换系数指标)下，最多有两个声源非零，那么只要知道5个声源里哪两个非零这个参考信息就可以通过求解2元一次线性方程组确定唯一的声源分离的解。

然而基于信号稀疏性的声源分离技术，如上所述，不是基于待分离信号特定的概率分布，而是一般性的假定为拉普拉斯分布，或者直接假定在每个时频点某些声源一定为O，这种假设与实际的不匹配降低了声源分离的性能；另一方面，盲声源分离技术受制于不能使用参考信息的约束，分离后声源的音质受到极大的限制；而有参考信息的声源分离技术在参考信息超过信道带宽时又无法工作。这些问题都限制了声源分离系统在实际场合的应用。

发明内容
本发明需要解决的技术问题是，基于音频信号实际分布特性的声源分离，辅助声源分离的参考信息的带宽可以在O到一定范围内连续调整。本发明的技术方案为一种用于声源分离的编码方法，对参考信息进行编码，包括获取每个声源和下混信号每个声道的时频变换系数，并按帧和频率排列构成二维时频图；根据活跃声源数遍历每一种活跃声源的组合方案并求得对应的备选解；计算各备选解的失真，取失真最小的备选解所对应的组合的标号作为声源分离的参考信息；根据下混信号判定参考信息的重要性；根据重要性重新组织参考信息；最后对重新组织的参考信息进行熵编码得到参考信息码流。而且，根据活跃声源数遍历每一种活跃声源的组合并求得对应的备选解，实现方法如下，

首先，根据事先设定的活跃声源数K，V < K < U，且V < U，遍历在U个声源中选出K个活跃声源所有的, = f j种组合方案，并记这W个组合方案为OliO2i^w，其下标采用的标号称为活跃声源组合指标；然后，在时频点(t，f)处求所有组合方案01，02，...，0 下声源分离问题的解51^，0，W= 1,2,..., ff, Sw (t, f)是一个U维声源矢量，分三种情况求解，(a) K = V,在每个组合方案Ow下，声源混合方程A (t, f) S (t, f) T=X (t, f)τ有唯一的解，这个解为3￥^0，通过线性方程组解法得到，其中4^0为下混矩阵，S(t, f)为待求的声源矢量，X(t，f)为下混信号矢量，τ表示转秩；(b)V < K < U，在每个组合方案Ow下，声源混合方程A(t，f)S(t，f)T=X(t，f)τ有无穷多解，从中选取一个解作为sw(t，f)，选取Sw(t，f)=E[S(t，f) |X(t，f)]时，E [S (t, f) IX (t, f)]表示满足下混方程解S (t, f)在后验概率分布P (S (t, f) IX (t, f))下数学
期望；(C)K = U,此时W = I,仅有一个组合方案,声源混合方程A(t, f)S(t, f)T=X(t, f)τ有无穷多解，从中选取一个解作为Sw(t，f)，选取Sw(t，f)=E[S(t，f) |X(t，f)]时，E [S (t, f) IX (t, f)]表示满足下混方程解S (t, f)在后验概率分布P (S (t, f) IX (t, f))下数学期望。而且，计算各备选解的失真包括以下两种方式，(I)根据以下2-范数公式计算，<(/,/)-5,,(/,/))2}.
其中，&(/，/)和\匕f)分别为备选声源矢量Sw(t，f)和实际声源矢量S(t，f)的第U维分量，(2)根据心理声学掩蔽门限计算噪掩比，
权利要求
1.一种用于声源分离的编码方法，其特征在于:对参考信息进行编码，包括获取每个声源和下混信号每个声道的时频变换系数，并按帧和频率排列构成二维时频图；根据活跃声源数遍历每一种活跃声源的组合方案并求得对应的备选解；计算各备选解的失真，取失真最小的备选解所对应的组合的标号作为声源分离的参考信息；根据下混信号判定参考信息的重要性；根据重要性重新组织参考信息；最后对重新组织的参考信息进行熵编码得到参考息码流。
2.根据权利要求1所述用于声源分离的编码方法，其特征在于:根据活跃声源数遍历每一种活跃声源的组合并求得对应的备选解，实现方法如下，首先，根据事先设定的活跃声源数K，V < K < U，且V < U，遍历在U个声源中选出K个活跃声源所有的,-_种组合方案，并记这W个组合方案为O1, O2,, Off,其下标采用的标号称为活跃声源组合指标；然后，在时频点(t, f)处求所有组合方案O1, O2,...，Ow下声源分离问题的解Sw (t, f) ,W=1，2，...，W，Sw (t, f)是一个U维声源矢量，分三种情况求解， (a)K = V,在每个组合方案Ow下，声源混合方程A (t, f) S (t, f) T=X (t, f)τ有唯一的解，这个解为3￥^0，通过线性方程组解法得到，其中4^0为下混矩阵，S(t，f)为待求的声源矢量，X(t，f)为下混信号矢量，τ表示转秩； (b)V < K < U，在每个组合方案Ow下，声源混合方程A (t, f) S (t, f) T=X (t, f)τ有无穷多解，从中选取一个解作为 Sw(t，f)，选取Sw(t，f)=E[S(t，f) X(t, f)]时，E[S(t, f) X(t, f)]表示满足下混方程解S (t, f)在后验概率分布P (S (t, f) IX (t, f))下数学期望； (C)K = U，此时W = 1，仅有一个组合方`案，声源混合方程A(t，f)S(t，f)T=X(t，f)τ有无穷多解，从中选取一个解作为Sw(t，f)，选取Sw(t，f)=E[S(t，f) |X(t，f)]时，E [S (t, f) IX (t, f)]表示满足下混方程解S (t, f)在后验概率分布P (S (t, f) IX (t, f))下数学期望。
3.根据权利要求1所述用于声源分离的编码方法，其特征在于:计算各备选解的失真包括以下两种方式， (1)根据以下2-范数公式计算，=Il SJtJ) — S(IJ)Il2= |￡(,^(/,/) — Sw(/,/))'| , 其中，仏/)和Su(t，f)分别为备选声源矢量Sw(t，f)和实际声源矢量S(t，f)的第u维分量， (2)根据心理声学掩蔽门限计算噪掩比，其中，Masku(t，f)是声源的在时频点处的掩蔽门限。
4.一种用于声源分离的解码方法，其特征在于:对参考信息进行解码进行声源分离，包括从参考信息码流进行熵解码得到重新组织后的参考信息；根据下混信号判定参考信息的重要性；根据重要性将参考信息映射到相应的频率上，其余频率标定为无参考信息；对每帧每个频率根据有无参考信息实施声源分离；最后将分离后每个声源的时频变换系数通过时频逆变换得到分离后声源的时域样点。
5.根据权利要求4所述用于声源分离的解码方法，其特征在于:对每帧每个频率根据有无参考信息实施声源分离的实现方式为， (a)有参考信息wmin(t，f)，当活跃声源数K=V时，求组合方案Owmin(t，f)下唯一的声源分离解乂仏/):当活跃声源数V < K < U时，求后验条件概率密度函数P (S (t, f) IX (t, f))下最小均方差估计解 ▲ ft/) 5 (b)无参考信息，设定活跃声源数K=U，求后验条件概率密度函数P(S(t，f) X(t, f))下最小均方差估计解S1 (t，f)。
全文摘要
本发明公开了一种用于声源分离的编解码方法，通过提取实际信号的分布参数并结合心理声学模型，可以在无参考信息或有参考信息的条件下实现音频信号的声源分离，不仅提高了分离后声源的音质而且可以适应广泛的带宽条件，从而提高了声源分离系统的实用性。
文档编号G10L19/00GK103236264SQ20131016049
公开日2013年8月7日申请日期2013年5月3日优先权日2013年5月3日
发明者吴钊申请人:湖北文理学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴钊
技术所有人：湖北文理学院
我是此专利的发明人

上一篇：声音演奏琴的制作方法
上一篇：基于动态密码语音的身份确认系统及方法