一种多路语音信号的混音方法及装置的制作方法

文档序号:7969396阅读:212来源:国知局
专利名称:一种多路语音信号的混音方法及装置的制作方法
技术领域
本发明涉及语音通信技术领域,尤其涉及一种多路语音信号的混音方法及装置。
背景技术
随着用户对通信业务要求的不断提高,以多路语音信号混音为基础的电话会议业务的使用需求也越来越多。所述电话会议业务对多路语音信号进行混音,模拟了现实会场的混音,使与会者听到的声音比较自然,并且可以在多方同时发言的会场混音中顺利地听清楚感兴趣的一方的发言。通常该功能是由数字信号处理(DSP,Digital Signal Process)芯片实现。
在电话会议系统中,通常为每一部电话占用一个通道,使用该电话加入到会场的用户为会场的一个参与方,简称与会方。在某一时刻,会场中话音能量最大的与会方称为此时刻的最大方,能量第二大的称为次大方,不发言只听的与会方称为旁听方。混音就是把信号进行线性叠加,例如与会方1的语音信号为x1(n),会方2的语音信号为x2(n)时,则两个与会方的混音是x1(n)+x2(n)。
在现有的电话会议混音技术中,最常用的方法是找出会场中当前语音能量最大的两个与会方(即最大方和次大方),直接把当前语音能量最大的与会方的声音送给次大方,把次大与会方的声音送给最大方,而其他与会方听到的是最大方语音,或者是最大方和次大方的混音折半。
这种方法具有实现简单的优点,而且其在会场中同时发言的与会方数不大于2时也能够达到较好的声音效果,但对于与会方大于2的情况,例如,在讨论比较激烈时,会场中同时发言的与会方数经常大于2,此时,若采用上面的混音和分发机制,同时发言的与会方不断地在最大、次大、旁听中切换,必将导致无论哪一方的声音都无法听清楚。
目前采用的另外一种电话会议混音方法为把所有与会方地语音进行混音且避免混音溢出,在混音前对与会方的语音进行衰减,并在发送时从混音中减去该与会方参与混音的语音,再发送给该与会方。
例如A、B、C三个与会方参加会场,其语音信号分别为A(n)、B(n)、C(n),会场混音前三个与会方的增益分别为gainA、gainB、gainC,则会场混音confMix(n)就等于gainA×A(n)+gainB×B(n)+gainC×C(n),则A与会方听到的就是confMix(n)-gainA×A(n),B与会方听到的就是confMix(n)-gainB×B(n),C与会方听到的就是confMix(n)-gainC×C(n)。若使用这种方法,如果其中有几个与会方在同一个噪音比较大的机房,即它们不说话的时候输入到混音中的是背景噪音,因为是在相同环境下,他们输入背景噪音混音后,噪音被放大,若放大后的噪音幅度大于语音信号时,其他与会方会听不清楚该发言的与会方。
总之,目前的混音方法无法在多个与会方同时发言时地清晰分辨出全部与会方的话音。

发明内容
本发明的目的是提供一种多路语音信号的混音方法及装置,在多路语音混音时降低各路语音中噪音部分的能量,使混音后信号的语音不受多路噪声叠加的影响。
本发明的目的是通过以下技术方案实现的一种多路信号的混音方法,包括A、对于各路信号,分别在多个时刻测量每路信号的短时能量,确定各路信号在各时刻为噪声部分或为有效部分;
B、分别对各路信号中的噪声部分和有效部分进行输入增益调整,降低各路信号中噪声部分的能量,并将调整后的各路信号叠加混音。
一种多路语音信号的混音装置,包括信号类型检测模块,用于检测同一信号在特定时刻为信号的有效部分或为噪声部分;信号混音模块,用于根据信号的类型为信号的各段进行相应的输入增益调整,并将多路信号叠加混音。
由上述本发明提供的技术方案可以看出,本发明降低语音信号噪声部分的能量,然后将各路经过降噪处理的信号进行混音叠加,使混音后的语音信号的噪音仍处于较小的范围内,不至影响语音信号中的有效部分,使混音的接收方能够清晰地听到所有与会方的声音,大幅提高了语音传输系统的效率。


图1所示为本发明实施例的混音方法示意图;图2所示为本发明实施例的噪声门限自适应调整示意图;图3所示为本发明实施例输出信号增益自适应调整示意图;图4所示为本发明实施例的装置示意图。
具体实施例方式
本发明的核心是对各路语音信号中的噪声部分进行降噪处理,并将经过降噪处理的全部语音信号进行叠加。
具体一点讲,本发明主要是在进行混音前对各路语音信号进行预处理,保持各路信号有效部分的能量,降低信号噪声部分的能量,使多路信号在进行混音处理后不会因为噪声的叠加而影响语音的质量,从而使混音信号的接收方可以清楚地听见各路语音信号的语音内容。
本发明通过语音信号的短时平均能量确定一段时间内的信号是语音还是噪声,其判别标准为当一段时间内信号各时刻的短时平均能量持续小于噪声门限,则认为这段时间内的信号为噪声;当一段时间内存在短时平均能量大于噪声门限的时刻,则认为这段时间内的信号为语音。
本发明中所述各路信号通道的噪声门限是根据该通道所输入的信号计算得出,且该噪声门限为自适应噪声门限,当通道所输入的信号发生变化,噪声门限也随之进行调整。
此外,本发明通过调整与各时刻输入信号对应的增益的方法实现了对输入信号的能量调整,即将调整后的增益与其对应的信号相乘,得到调整后的语音信号,并将各路调整后的语音信号进行叠加,得到混音信号。
下面将结合本发明具体实施例附图对本发明作详细说明。
如图1所示为本发明实施例一的多路语音信号混音方法包括步骤1、在混音前对每路语音信号进行高通滤波,滤除包括低频段信号以及直流信号在内的带外信号。
假设语音输入是按帧输入的,假设将n时刻一路语音输入信号表示为X(n),则经过高通滤波后的输出信号表示为S(n)。
步骤2、通过迭代的方法,计算每路高通滤波输出信号在某一时刻的短时能量,然后再计算每个高通滤波输出的信号S(n)的短时平均能量。
短时平均能量为各时刻短时能量和的时间平均值,其计算公式为∫abS2(n)dtb-a,]]>此处的时长为T=b-a。
假设n时刻信号短时平均能量为EnyT(n),n-1时刻的短时平均能量表示为EnyT(n-1),则通过公式EnyT(n)=EnyT(n-1)*(1-α)+α*S2(n)可以计算出当前n时刻的短时平均能量,此处α为一个小于1的正系数。
步骤3、根据滤波输出信号计算出每个通道的噪音门限值。
本发明中的噪音门限为自适应门限,其门限值随着每个通道的输入信号幅度值变化。每个通道的噪音门限值均用NsO表示,在通道刚刚打开时,设置NsO=NsMax,NsMax是最大门限值,为一个固定的常数。
本发明噪声门限的自适应调整如图2所示,其详细步骤如下步骤31、将经过滤波后的语音信号短时能量EnyT(n)与固定门限值NsMax值进行比较当EnyT(n)>NsMax,则无需对该通道的噪声门限进行调整;当EnyT(n)<=NsMax,则继续对EnyT(n)与NsO的值进行比较,执行步骤32。
步骤32、当EnyT(n)>=NsO,则继续比较EnyT(n)和NsO×beta的大小关系,其中beta>1当EnyT(n)<=NsO×beta,则无需对噪声门限进行调整;当EnyT(n)>NsO×beta,则清除小于门限值NsO的计数器,并将噪声门限设置为NsO=NsO×delta,其中beta>delta>1。
步骤33、当EnyT(n)<NsO,则比较是否连续有不少于C0个时刻的短时能量小于NsO(C0是根据实际情况所设定的数值)当不存在C0个能量连续小于NsO的时刻时,不对噪声门限进行调整,并将计数器加1;当存在C0个能量连续小于NsO的时刻时,则将噪声门限调整为NsO=NsO×alpha,alpha<1。
通过以上各步骤地比较,可以得出以下结论当EnyT(n)>NsMax,则无需调整噪声门限;当NsO<EnyT(n)<NsMax,且EnyT(n)>NsO×beta,将噪声门限调整为NsO=NsO×delta,其中,beta>delta>1;当C0个EnyT(n)均<NsO,将噪声门限调整为NsO=NsO×alpha,alpha<1。
步骤4、根据噪音门限值以及输入的短时能量进行噪音门算法处理(NoiseGate),获得信号增益。
如果经过滤波后的信号短时能量EnyT(n)连续C1次小于最小噪音门限值NsO,则认为输入信号为噪音部分(C1为根据实际情况设定的数值);如果EnyT(n)有至少一次大于最大门噪音限值NsO×beta,则认定为输入信号有效部分。
对于噪音部分的信号,降低其输入增益NsGain,NsGain以每秒NsGateDec的分贝数平滑衰减,当衰减到-30dB时,将输入增益设置为NsGain=0,其中NsGateDec为一个小于1的系数。
对于有效部分的信号,改变输入增益NsGain,NsGain以每秒NsGatelnc的分贝数平滑增加,增加到0dB时停止增加,其中NsGatelnc为一个大于1的系数。
步骤5、对各路信号按增益进行调整并混音。
把所有经过滤波处理的信号乘以各自的NsGain,得到调整后的信号NsGt(n),再进行叠加,得到混音ConfMix(n)。
步骤6、把混音分发到每个与会方,并且对输出进行自适应增益控制(AGC)。
在向各个通道分发混音信号的时候,把ConfMix(n)减去本通道混音前的信号NsGt(n),再把相减得到的差值乘以上次自适应增益控制算法得出的输出增益AgcGain,得到输出Y(n),则Y(n)就是该用户听到的信号。
步骤7、根据输出信号的短时能量调整输出信号的增益。
计算出输出信号Y(n)的短时能量平均值EnyAgcT(n),将该短时平均能量值作为AGC算法的输入,计算出下次该通道的增益AgcGain。
如图3所示,在AGC算法中若混音输出的短时能量EnyAgcT(n)大于固定的门限值时,则使输出增益平滑衰减,衰减到-30dB时停止衰减;如果EnyAgcT(n)小于最大门限值,则提高输入增益,输入增益平滑增加,增加到0dB时停止增加。
如图4所示为本发明实施例二的一种多路语音信号的混音装置,所述装置包括信号类型检测模块、信号混音模块、信号输出模块。
所述混音装置在对多路语音信号进行混音时,首先由信号类型检测模块通过其内部的能量检测子模块检测语音信号在不同时刻的短时能量值;在获取短时能量值后,由信号划分子模块将短时能量值与噪声门限进行比较,确定语音信号在不同时间短内为有效部分获为噪声部分。
所述混音装置内的信号混音模块在确定信号的有效部分和噪声部分后,信号混音模块分别对有效部分和噪声部分进行处理,并将经过处理后的各路信号进行混音。
首先通过其内部的增益调整子模块降低噪声部分对应的增益,对有效部分对应的增益进行平滑处理,然后再将信号的噪声部分和有效部分分别与其对应的增益相乘,得到经过增益调整语音信号;此时的语音信号中噪音部分的能量被大幅度降低,有效部分的信号经过平滑处理,不会出现尖锐的能量峰值;信号混音模块在得到经过降噪处理的语音信号后,通过叠加混音子模块将经过调整的多路信号相叠加,得到混音信号。
所述混音装置内的信号输出模块对混音信号进行输出增益自适应调整,并将经调整后的混音信号输出。
所述输出增益自适应调整由信号输出模块中的输出增益自适应子模块实现,该子模块对该通道信号的前次输出信号的短时平均能量进行自适应增益控制处理,获得输出增益,然后将该输出增益与混音信号相乘,实现对混音信号的输出增益调整;所述信号输出模块中的发送子模块将经过输出增益调整的混音信号发送至接收方,实现混音信号向接收方的传输。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种多路信号的混音方法,其特征在于,包括A、对于各路信号,分别在多个时刻测量每路信号的短时能量,确定各路信号在各时刻为噪声部分或为有效部分;B、分别对各路信号中的噪声部分和有效部分进行输入增益调整,降低各路信号中噪声部分的能量,并将调整后的各路信号叠加混音。
2.根据权利要求1所述的一种多路信号的混音方法,其特征在于,所述步骤A包括将信号各时刻短时能量分别与噪声门限进行比较,当信号在预先设定的一个时间段内的多个时刻的短时平均能量均小于最小噪声门限值,则信号在该时间段内为噪声部分;当信号在预先设定的一段时间内有至少一个时刻的短时平均能量大于最大噪声门限,则信号在该段时间内为有效部分。
3.根据权利要求2所述的一种多路信号的混音方法,其特征在于,所述噪声门限为自适应门限,根据信号在多个时刻的短时能量进行噪声门限自适应调整。
4.根据权利要求3所述的一种多路信号的混音方法,其特征在于,所述噪声门限的自适应调整包括当多个时刻的信号短时能量EnyT(n)>固定门限值NsMax,则无需调整噪声门限;当噪声门限值与增益参数beta的乘积NsO×beta<EnyT(n)<固定门限值NsMax,则将噪声门限调整为NsO=NsO×delta,其中beta、delta为增益参数,且beta>delta>1;当EnyT(n)小于NsO,则将噪声门限调整为NsO=NsO×alpha,alpha为增益参数,且alpha<1。
5.根据权利要求1所述的一种多路信号的混音方法,其特征在于,所述步骤B包括调整信号的输入增益,当信号为噪声部分时,该信号的输入增益平滑衰减,当输入增益衰减至-30dB时,将输入增益设置为0;当信号为有效部分时,输入增益平滑增加,当输入增益增加至0dB时停止增加。
6.根据权利要求1所述的一种多路信号的混音方法,其特征在于,所述对调整后的多路信号叠加混音的步骤包括分别将每一个输入通道的信号与该信号对应的输入增益相乘,得到经增益调整的信号;将多个输入通道的经增益调整的信号进行叠加。
7.根据权利要求1所述的一种多路信号的混音方法,其特征在于,所述方法还包括将经过叠加混音的信号分发至各个信号接收方,具体为对于每个发送给接收方的混音信号,将混音信号中包含的由该接收方发出的信号去除,并将剩余的混音信号与该接收方对应的输出增益相乘,发送给接收方。
8.根据权利要求7所述的一种多路信号的混音方法,其特征在于,所述接收方对应的输出增益根据该接收方上一次所接收的输出信号的短时平均能量进行自适应增益控制处理获得。
9.一种多路语音信号的混音装置,其特征在于,包括信号类型检测模块,用于检测同一信号在特定时刻为信号的有效部分或为噪声部分;信号混音模块,用于根据信号的类型为信号的各段进行相应的输入增益调整,并将多路信号叠加混音。
10.根据权利要求9所述的一种多路语音信号的混音装置,其特征在于,还包括信号输出模块,用于将混音后的混音信号分发给各接收端,并且根据信号能量自适应调整输出增益。
11.根据权利要求9所述的一种多路语音信号的混音装置,其特征在于,所述信号类型检测模块包括能量检测子模块,用于检测信号在各时刻的短时能量;信号划分子模块,用于通过短时能量值与噪声门限的比较确定一时刻的信号为信号的有效部分或为信号的噪声部分。
12.根据权利要求9所述的一种多路语音信号的混音装置,其特征在于,所述信号混音模块包括增益调整子模块,用于降低与噪声相对应的增益,升高与语音相对应的增益;叠加混音子模块,将个通道信号乘以该通道的输入增益,再将经过调整后的多路信号进行叠加混音。
13.根据权利要求9所述的一种多路语音信号的混音装置,其特征在于,所述信号输出模块包括输出增益自适应子模快,用于通过对该通道信号的前次输出信号的短时平均能量进行自适应增益控制处理获得输出增益,并对混音信号进行自适应增益调整;发送子模块,用于将经过增益自适应调整的混音信号发送至接收端。
全文摘要
本发明提供了一种多路语音信号的混音方法及装置,该方法包括对语音信号的各时刻短时能量进行测量,确定信号的各时刻为噪声部分或为有效部分;分别对语音信号的不同部分进行增益调整,并将调整后的多路信号叠加混音。由上述本发明提供的技术方案可以看出,本发明降低语音信号噪声部分的能量,然后将各路经过降噪处理的信号进行混音叠加,使混音后的语音信号的噪音仍处于较小的范围内,不至影响语音信号中的有效部分,使混音的接收方能够清晰地听到所有与会方的声音,大幅提高了语音传输系统的效率。
文档编号H04M3/56GK1953488SQ20061013820
公开日2007年4月25日 申请日期2006年11月1日 优先权日2006年11月1日
发明者朱祥文, 吴宗武, 许波 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1