用于在celp参数域中进行dtmf检测和语音混合的方法和装置的制作方法

文档序号:7578401阅读:369来源:国知局
专利名称:用于在celp参数域中进行dtmf检测和语音混合的方法和装置的制作方法
交叉引用本专利申请要求了于2002年10月25日提交的题为“Method for In-Band DTMF Detection & Generation In Voice Transcoder”的美国临时专利申请序列号60/421,342(代理人案卷号021318-001200US)以及于2002年10月25日提交的题为“Method for Multiple Input Source VoiceTranscoding”的美国临时专利申请序列号60/421,271(代理人案卷号021318-001400US)的优先权,为了所有目的,它们都被结合于此用作参考。
背景技术
本发明一般地涉及处理电信信号。更具体地说,本发明提供了一种用于在CELP(即,编码激励线性预测)域中执行DTMF(即,双音多频)检测与语音混合的方法与装置。具体地说,其涉及一种用于从CELP参数检测压缩信号中的DTMF音调的存在以及还用于将由多组CELP参数代表的多个输入压缩语音信号混合为单组CELP参数的方法和装置。仅仅作为示例,本发明已被应用于语音编码转换(transcoding),但是应该认识到,本发明可以具有更广的应用范围。
电信技术多年来一直在发展。近来,已经开发了多种数字语音编码器以满足不同分组网络和移动通信系统的带宽需求。数字语音编码器提供对数字化语音信号的压缩,以及逆变换功能。网络和无线通信系统多样性的迅速增长通常需要话音信号在不同压缩格式间转换。用于这种转换的一种传统方法是级联放置两个语音编码器,用作单个连接。这种情形中,通过第一语音解码器将第一压缩话音信号解码为数字化信号,并且得到的数字化信号通过第二语音编码器被再次编码为第二压缩话音信号。级联的两个语音编码器通常被称为“级联编码(tandem coding)”方法。级联编码方法将压缩信号完全解码回数字化信号,例如脉冲编码调制(PCM)表示,然后将信号再编码。这经常需要大量处理,并且导致延迟增加。在更有效的方法中包括被称作智能编码转换的技术。
在当前的多种网络和无线通信系统中除了需要语音编码转换之外,还需要提供用于高级特征处理的功能。高级特征的一个具体示例是双音多频(DTMF)信号检测。DTMF信令广泛使用在电话拨号、语音邮件、电子银行系统中,甚至和因特网协议(IP)电话一起使用来键入IP地址。在电信话音编解码器中,将带内DTMF信号编码为压缩位流。传统DTMF信号检测是在话音信号空间中执行的。仅作为示例,利用双极点无限脉冲响应(IIR)型滤波器的Goertzel算法被广泛用于从输入的数字化信号中提取必要的谱信息并形成DTMF检测的基础。
当在语音编码转换中需要DTMF信号检测时,通常使用级联方法。在这种情形中,必须将输入的压缩话音信号解码回话音域,以进行DTMF信号检测,然后再编码为压缩格式。因为智能语音编码转换处理是在CELP参数空间执行的,所以已知的DTMF检测方法通常不适用。另外,已知的智能语音编码转换方法不包括DTMF信号检测功能,因此,受到了限制。
用于语音编码转换的高级特征的另一具体示例是处理多输入信号的能力。如果输入信号是多个话音信号,则语音混合器简单地将这些话音信号混合,并输出混合话音信号。但是,在分组网络或无线通信系统中,输入信号是多个压缩信号。另外,由于当前分组网络和无线通信系统的多样性,输入信号可能是各种压缩格式。传统的语音混合解决方案通过将输入分组解码为话音信号、将话音信号混合、并将混合话音信号再编码为输出分组,来执行输入分组的混合。这需要相当大的计算复杂度来对每个输入压缩信号进行解码和再编码。
在尝试改进用于分组网络的语音混合所产生的语音质量时,已经提出了某些“智能”会议桥接(conference bridging)方法。虽然这种方法可以提供边信息(side information),并且可以改进混合语音信号的质量,但它仍然使用级联方法,其包括解码、在话音空间混合和再编码。对于在CELP参数空间工作而不进入话音空间的语音编码转换器,这种方法经常是不适用的。
从上面可以看到,非常需要用于改进电信信号处理的技术。

发明内容
根据本发明,提供了处理电信信号的技术。更具体地说,本发明提供了一种用于在CELP域中执行DTMF检测和语音混合的方法和装置。更具体地说,其涉及一种用于从CELP参数检测压缩信号中的DTMF音调的存在以及用于将由多组CELP参数代表的多个输入压缩语音信号混合为单组CELP参数的方法和装置。仅仅作为示例,本发明已被应用于语音编码转换,但是应该认识到,本发明可以具有更广的应用范围。
在具体实施例中,本发明提供了一种用于使用CELP参数在语音编码转换器中进行高级特征处理的方法和装置。该装置接收一组或多组CELP参数和外部命令作为输入,如果需要的话,可以对这一组或多组CELP参数插值以匹配帧大小、子帧大小或其他特性。该装置包括从输入的CELP参数检测DTMF信号的DTMF信号检测模块,以及将来自多个CELP编解码器的CELP参数混合为单组CELP参数的多输入混合模块。在一个具体实施例中,多输入混合模块具有动态拓扑,并且能够根据输入的压缩信号的数目配置不同的拓扑。该装置输出混合CELP参数,并且如果检测到DTMF信号,则也输出DTMF信号。
DTMF信号检测模块包括用于计算DTMF特征的DTMF特征计算单元、存储有与DTMF信号相对应的特征数据的DTMF特征图案表、用于将计算的特征与存储的特征表相比较的DTMF特征比较单元、用于存储过去的特征数据的DTMF特征缓冲器,以及用于确定DTMF信号的DTMF判定单元。
多输入混合模块包括用于从每组CELP参数检测多个话音特征的特征检测单元、用于将每组CELP参数的重要性进行排列的排序单元、用于确定混合策略的混合判定单元,以及用于执行多组CELP参数的混合的混合计算单元。
本发明提供了一种用于在CELP参数空间进行高级特征处理的方法。该方法包括接收一组或多组CELP参数和外部命令,可以对这一组或多组CELP参数进行插值以匹配帧大小、子帧大小或其他特性;检测DTMF音调,将多组CELP参数混合,并输出检测到的DTMF信号和混合CELP参数。
根据另一具体实施例,本发明提供了一种用于在CELP参数空间检测DTMF信号的方法。该方法包括从CELP参数计算用于DTMF检测的特征;将特征与预先计算的DTMF特征数据相比较;检查先前子帧中的特征和DTMF检测状态;根据DTMF信号规范确定DTMF信号;更新先前子帧的状态和特征参数;并输出检测到的DTMF数位。
在另一具体实施例中,本发明提供了一种用于将多组输入CELP参数混合的方法。该方法包括接收多组CELP参数;根据选中的混合策略将各组CELP参数混合;并输出混合CELP参数。将多组输入CELP参数混合为单组混合CELP参数的方法还包括计算确定每个输入的重要性所需的信号特征参数;根据特征参数计算结果,排列多组输入CELP参数的重要性顺序;考虑来自外部控制命令的优先级;选择被混合的输入;并从选中的输入计算混合CELP参数。
在另一具体实施例中,本发明提供了一种用于对电信信号进行特征处理的装置。该装置适于在CELP域中工作,而不需要解码到话音信号域。该装置具有双音调制频率(DTMF)信号检测模块。该双音调制频率(DTMF)信号检测模块适于基于至少一个或多个输入CELP参数来确定一个或多个DTMF音调,并且如果确定了一个或多个DTMF信号,则该DTMF信号检测模块还适于输出一个或多个DTMF信号。
在另一具体实施例中,本发明提供了一种用于对电信信号进行特征处理的装置。该装置适于在CELP域中工作,而不需要解码到话音信号域。该装置具有耦合到DTMF信号检测模块的多输入混合模块。该多输入混合模块适于将来自多个基于CELP的编解码器的代表相应多个语音信号的CELP参数处理为单组CELP参数。
本发明相对于传统技术有众多优点。在一个具体实施例中,本发明提供了一种用于检测DTMF信号而不需要将CELP信息转换回到话音域的简单方法。另外,可以使用传统硬件和软件来提供本发明。在某些实施例中,本发明还设置有可被耦合到编码转换技术的其他高级模块。取决于实施例,可以获得这些优点或特征中的一个或多个。在本说明书中描述了这些及其他优点,并且在下面对此进行了更具体的描述。
结合在说明书中并形成说明书一部分的附示了本发明的实施例,其与说明一起用来解释本发明的原理。


在权利要求中具体阐明了本发明的目的、特征和优点,这些都被确信是新颖的。结合附图,参考下面的描述,可以最好地理解本发明的工作方式和结构,以及其他目的和优点。
图1是根据本发明实施例用于在CELP参数域中进行DTMF检测和多输入混合的装置的简化框图表示。
图2图示了根据本发明实施例的DTMF信号频率分类。
图3是根据本发明实施例用于DTMF信号检测的装置的简化框图表示。
图4是根据本发明实施例用于使用CELP参数进行DTMF信号检测的方法的简化流程图。
图5是根据本发明实施例在智能语音编码转换器内的DTMF检测和多输入混合的简化框图表示。
图6是根据本发明实施例在语音编解码器GSM-AMR和G.723.1之间的语音编码转换中的DTMF检测模块的简化框图表示。
图7图示了根据本发明实施例的来自输入GSM-AMR编解码器位流的DTMF信号的LSP表示。
图8图示了根据本发明实施例的来自输入G.723.1编解码器位流的DTMF信号的LSP表示。
图9是根据本发明实施例将三个扬声器连接到多输入混合器的通信链路的示意图。
图10是在具有多种压缩语音编解码器格式的扬声器之间的传统多输入混合的简化图。
图11是根据本发明实施例的具有多输入混合模块的装置的简化框图表示。
图12是根据本发明实施例的多输入混合方法的流程图。
图13是根据本发明实施例的语音编码转换器内的多输入混合装置的简化框图表示。
图14是根据本发明实施例的用于具有不同语音编解码器输出的语言编码转换器内的多输入混合器的装置的框图表示。
图15是根据本发明实施例的在具有不同语音编解码器格式的四个不同参与者之间的四方会议的示意图。
图16图示了根据本发明实施例的语音编解码器G.729、GSM-AMR和G.723.1之间的帧大小差别。
图17是根据本发明实施例的在语音编码转换内的四方多输入混合系统的实施例的框图。
具体实施例方式
根据本发明,提供了处理电信信号的技术。更具体地说,本发明提供了一种用于在CELP域进行语音混合和执行DTMF检测的方法和装置。更具体地说,本发明涉及一种方法和装置,用于从CELP参数中检测压缩信号中的DTMF音调(tone)的存在以及还用于将由多组CELP参数代表的多个输入压缩语音信号混合为单组CELP参数。仅仅作为示例,本发明已经被应用于语音编码转换,但是应该认识到本发明具有更广的适用范围。
图1是图示了高级特征处理模块100的框图。优选地,根据本发明的实施例,该模块具有DTMF检测模块和多输入混合模块。接收一组或多组CELP参数以及外部命令作为输入,其中这一组或多组CELP参数是通过将由一个或多个基于CELP的编解码器传输的位流拆包得到的。输出混合CELP参数,以及如果检测到DTMF信号的话,还输出DTMF信号。高级特征处理在不同的应用中可以具有不同的配置或拓扑。在高级特征处理模块中可以包括其他处理模块,还可以省略DTMF检测模块或多输入混合模块。
优选地,双音调制频率(DTMF)信号检测模块适于基于至少一个或多个输入CELP参数(例如,无声描述符帧(silence descriptor frames))来确定一个或多个DTMF音调,并且如果确定了一个或多个DTMF音调的话,DTMF信号检测模块还适于输出所述一个或多个DTMF信号。优选地,多输入混合模块适于将来自多个基于CELP的编解码器的代表相应多个语音信号的CELP参数处理为单组CELP参数。
DTMF信令广泛应用于电话拨号、语音邮件、电子银行系统,甚至和IP电话一起使用来键入IP地址。在许多标准化电信话音编解码器中,带内DTMF信号在语音压缩期间被编码为基于CELP的位流。在本说明书中描述了进一步的细节,并且下面对此进行了更具体的描述。
图2示出了与16个按键数位(touchtone digit)(0~9、A~D、#和*)之一相对应的DTMF信号200。DTMF信号具有低频音调和高频音调。可以有四个低频和四个高频。水平行代表低频,而垂直列代表高频。低频是697、770、852和941Hz。高频是1209、1336、1477和1633Hz。这样,根据某些实施例,16个DTMF信号中的每一个都被唯一标识。
通常,DTMF算法应该对频率位于一定容限内的信号做出响应。也可能会接受稍宽的容限,但是较宽的限制可能增加对噪声的敏感度,并且可能导致将数位模拟(digit simulation)应用在话音上。并且,DTMF算法应该提供对功率水平处于可接受范围内的信号的适当接收。注意,对不同的频率,发送振幅和传输衰减可能不同。
此外,DTMF算法应该识别来自订户的持续时间超过最小期望值的信号。为了预防错误的信号指示,DTMF算法不应该对持续时间小于规定最大值的信号做出响应。类似地,DTMF算法应该识别大于规定最小值的暂停间隔。为了使虚假故障或错误最小化,例如,不应识别由于传输短暂中止或噪声脉冲而使接收中断的情况下的信号双重注册,以及短于规定最大值的中断。
图3详细图示了DTMF检测模块300。该图只是作为示例,而不应该不适当地限制权利要求的范围。本领域的普通技术人员会认识到许多改变、替换和修改。DTMF检测模块采用CELP参数和外部控制命令作为输入。DTMF检测模块包括用来从CELP参数计算DTMF信号特性特征的DTMF特征参数生成子模块、存储与每个DTMF信号相对应的特征数据的预定义查找表、计算输入特征参数和查找表之间的相似性的比较子模块、通过有限状态机来确定DTMF信号的DTMF判定子模块、以及存储先前子帧的缓冲器。作为示例,DTMF信号特性特征参数可以是信号能量信息、基音(pitch)信息和谱信息。可以从输入CELP参数中获得这些信息。比较子模块通过将输入特征参数与查找表相匹配来检查输入信号。如果匹配结果超过某个阈值,则可能的DTMF数位将被输出到DTMF判定子模块。DTMF判定子模块将先前状态与DTMF信号要求规范核对,以确定DTMF音调是否存在。
优选地,双音调制频率(DTMF)信号检测模块具有DTMF特征计算单元,其能够接收一个或多个CELP参数和外部命令,并计算一个或多个DTMF特征。该模块还具有一个或多个DTMF特征图案表,这些表具有与一个或多个DTMF信号相对应的一个或多个特定特征数据。还包括了DTMF特征比较单元。DTMF特征比较单元适于使用DTMF特征图案表中的一个或多个特定特征数据来处理从DTMF特征计算单元得到的一个或多个DTMF特征,以标识一个或多个DTMF特定信号并将所述一个或多个DTMF特定信号分类。还包括了DTMF特征缓冲器。特征缓冲器能够存储一个或多个先前子帧或帧的一个或多个DTMF分类数据和一个或多个DTMF特征参数。另外,该模块包括DTMF判定单元,其能够根据一个或多个DTMF规范,从当前和一个或多个先前的子帧或帧的DTMF分类数据来确定一个或多个DTMF信号,并将确定的DTMF信号发送出去。优选地,DTMF特征计算单元使用线性预测参数信息、基音信息和能量信息中的至少一个或多个,来处理一个或多个DTMF特征。DTMF特征图案表具有特定的预先计算的特征数据,它们与对应于一个或多个DTMF信号的CELP参数相关联。在某些实施例中,DTMF特征比较单元根据国际电信联盟(ITU)规范,将对应于“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”、“A”、“B”、“C”、“D”、“#”和“*”16个数位的DTMF特定信号分类。根据该实施例,DTMF判定单元还包括逻辑状态机和DTMF信号标准,以确定一个或多个DTMF信号和一个或多个特定数位。本说明书中描述了这些和其他特征,并且下面对此进行了更具体的描述。
图4图示了DTMF检测算法400的流程图。首先,从诸如输入编解码器的增益、线谱对(LSP)和基音滞后(pitch lag)之类的CELP参数计算DTMF特征。接着,将计算后的特征与用于16个可能DTMF信号的预定义表中的特征相比较。如果不匹配,则将DTMF检测标志复位,并且不到达任何DTMF信号状态。更新所有必需的数据。如果存在另一个输入子帧,则检测算法继续,否则检测算法结束。如果存在DTMF匹配,则将DTMF信号要求规范与可能的检测结果核对。如果其遵守,则设置DTMF标志,并且将DTMF数位发送到输出。再次更新所有必需的数据,并且如果还有另一个帧,则检测算法继续,否则检测算法结束。检测算法完全在CELP编码参数空间中运行,并且对每个输入子帧都执行该算法。
图5的框图500示出了高级特征处理在两个基于编码激励线性预测(CELP)的语音编解码器之间的语音编码转换中的应用。源编解码器拆包器模块将源编解码器位流拆包,以产生CELP参数。如果需要的话,CELP参数插值模块对CELP参数插值,以匹配目的地编解码器的帧长度和子帧长度。将插值后的CELP参数映射到编码后的目的地编解码器参数。目的地编解码器打包器将编码后的参数打包成需要格式的位流。除了这种典型的语音编码转换方法之外,在语音编码转换器中还加入了高级特征处理模块501。高级特征处理模块采用插值后的CELP参数作为其输入,并且计算想得到的特征。得到的特征或者并行输出到目的地编解码器的位流(带外传输),或者传递到语音编码转换器以进行高级处理(带内传输),或者既被带内传输又被带外传输。DTMF检测算法与语音编码转换并行进行,即,其不中断干流语音编码转换。
作为示例,DTMF信号检测被应用于GSM-AMR语音编解码器与G.723.1语音编解码器之间的语音编码转换器。在Jabri,Marwan,Anwar于2002年3月13日提交的国际申请号PCT/US02/08218题为Method &Apparatus for Transcoding Video & Speech Signals以及Jabri,Marwan Anwar,Wang,Jianwei,Gould,Stephen于2003年1月8日提交的国际申请号PCT/US03/00649题为A Transcoding Method And System Between CELP-Based Speech Codes的共有申请中可以找到编码转换方法与系统的示例,这些申请为了所有目的被结合于此作为参考。在具体实施例中,DTMF信号检测模块和多输入模块被结合在基于CELP的语音编码转换器中。
图6示出了实现有DTMF检测的高级特征的全双工GSM-AMRG.723.1语音编码转换器600的简化框图。使用本发明的DTMF信号检测过程,能够与到G.723.1编解码器位流的语音编码转换过程并行地执行在GSM-AMR输入CELP参数上的DTMF检测。首先,将20ms帧输入GSM-AMR位流拆包为四个5ms子帧的CELP参数。这四个GSM-AMR子帧与来自下一20ms帧的CELP参数的另两个GSM-AMR子帧被插值为CELP参数的一个G.723.1帧。得到的插值CELP参数被映射,并被打包为一个G.723.1帧的位流。与该过程并行地,将四个GSM-AMR子帧的CELP参数馈送给语音编码转换器内的DTMF检测模块。DTMF检测模块从每个子帧的CELP参数计算DTMF特征,将其与预定义的DTMF特征数据比较,并根据DTMF规范的最低要求来确定输入压缩话音信号是否包含DTMF信号。如果输入特征参数与查找表中的预定义DTMF数据相匹配,并且通过所述有限状态机满足DTMF信号的要求,则将检测到的DTMF数位发送至输出。如果在从GSM-AMR到G.723.1的语音编码转换器中实现了DTMF检测模块,则对每个进入的GSM-AMR帧执行DTMF检测算法。这样,能够在语音编码转换期间总是从输入CELP参数检测DTMF信号。
类似地,在从G.723.1到GSM-AMR的编码转换中,可以将DTMF检测计算应用在进入的G.723.1帧上。由于GSM-AMR和G.723.1编解码器的子帧大小和帧大小不同,所以将会有微小的差异。
为了表明可以从CELP参数计算出DTMF信号的唯一特定特征,图7图示了用于可能DTMF数位的速率为12.2kbps的进入GSM-AMR帧的线谱对(LSP)参数700。图8图示了用于可能DTMF数位的速率为6.3kbps的进入G.723.1帧的线谱对参数800。类似地,使用拆包后的CELP基音滞后和增益信息来检测DTMF数位并对其分类。
注意,GSM-AMR编解码器能够在八种不同的话音压缩模式中工作,而G.723.1编解码器能够在两种不同的话音压缩模式中工作。图5所示的DTMF检测算法应用于任何速率的GSM-AMR和G.723.1编解码器。该算法还应用于任何其他基于CELP的语音编解码器。
图9是描述了多输入混合器900的示意图,其中多输入混合器900具有多个压缩语音信号作为输入。这些压缩信号可能已经通过使用不同的编解码器标准而被编码。多输入混合器将来自多个输入的话音信息混合,并且输出混合压缩信号。
在一个具体实施例中,多输入混合模块包括特征检测单元,其能够接收一组或多组CELP参数和外部命令并检测多个话音特征。在一个具体实施例中,特征检测单元适于确定多个话音信号特征,其中确定过程包括将由CELP参数代表的输入分类为活动话音、无声描述符帧或非连续传输帧。在其他实施例中,特征检测单元确定多个话音信号特征,包括LSP谱信息、基音信息、固定码本信息、能量信息中的一个或多个。该模块还具有排序单元,其能够处理多组CELP参数的检测到的特征,并且基于预定的标准对每组CELP参数的重要性顺序进行排列。根据某些实施例,排序单元从特征检测单元接收数据,并且基于预定的标准对多组CELP参数的重要性顺序进行排列。在具体实施例中,多组CELP参数可以以多种语音压缩标准表征,或者两组CELP参数可以以相同语音压缩标准表征,或者所有组的CELP参数都可以以相同语音压缩标准表征。在某些实施例中,如果多组CELP参数是使用不同的语音压缩标准生成的,则为了匹配帧大小、子帧大小或其他特性,可以对这多组CELP参数插值。另外,该模块具有混合判定单元,其能够确定处理策略,选择部分或所有组的CELP参数用于处理,并且控制多组CELP参数的处理。根据一个具体实施例,混合判定单元从排序单元接收数据和外部控制命令,以确定被处理的CELP参数组。还包括了混合计算单元,其能够处理多组CELP参数。优选地,混合计算单元可以通过单组CELP参数,或者选择并混合多组CELP参数,或者发送无声描述数据信息。
传统语音混合解决方案以级联方法操作语音编解码器输入。获得在多个位流输入中包含的话音信息,并对其解码。在话音域中执行对输入的语音混合,然后对混合话音再编码。语音混合应用的一个示例是会议桥(conference bridge),其在电话会议期间处理多个信道。在电话会议场景中,如果参与者具有不同的语音编解码器,则再编码过程包括对混合话音的多个特定编码过程。
图10图示了级联方法中的传统语音混合解决方案1000。扬声器1发送编解码器A压缩格式的话音信息,而扬声器2发送编解码器B压缩格式的话音信息。听众接受编解码器C语音压缩格式。为了将来自扬声器1和2的话音混合并将混合话音发送给听众,语音混合器需要解码器A和B来将两种输入语音压缩格式转换到相同的话音域,然后将输入话音信号混合。在发送混合信号之前,需要将其再编码为编解码器C格式。
很明显,基于级联的语音混合方法是低效的。其包括将进入位流完全解码为话音信号、在话音空间将这些信号组合、以及将混合话音信号完全编码为外发位流。
图11是进一步图示了在根据本发明描述的实施例中的多输入混合模块1100的框图。多输入混合模块包括特征检测子模块、排序子模块、混合判定子模块和混合计算子模块。特征检测子模块从每组CELP参数计算话音信号特征。如果CELP参数是从不同的CELP压缩标准产生的,则需要对CELP参数插值以匹配帧大小、子帧大小或其他特性。被计算的信号特征包括信号能量、帧类型和信号类型(即,活动话音、非活动话音、非连续传输)。排序子模块从计算后的信号特征计算每组CELP参数的重要性,并根据它们的重要性将输入的CELP参数组排序。混合判定子模块将来自排序结果、外部命令和先前混合判定的因素组合,以确定混合策略。判定可以是不选择任何一组CELP参数,或仅选择一组CELP参数,或选择某些组CELP参数中的一部分,或者选择所有组的CELP参数。混合计算子模块将选中的CELP参数组混合,并输出混合CELP参数。
作为示例,多输入混合模块用来在电话会议期间混合输入信道。假设有标号为1、2、3的三个参与者参加电话会议,并且在某一时刻只有参与者1在讲话。对去往参与者1方向的混合判定是不选择任何输入信道,因为参与者2和3保持安静。去往参与者2和3方向的混合判定是仅选择来自参与者1的信道,因为只有一个信道被检测为含有活动话音。
如果在某一时刻两个参与者1和2都在讲话,则去往参与者3的混合判定是选择输入信道1和2。但是,去往参与者1和2方向的混合判定是仅选择单个信道,因为来自参与者3的信道保持安静。为了避免多余回声,可以将混合模块配置为不将参与者的话音混合到其自身。
存在数种混合计算方法。作为示例,为了混合两个输入A和B,用于每个进入流的总子帧激励能量由如下表达式给出ExA=Σn=1Ne2A(n)]]>和ExB=Σn=1Ne2B(n)]]>其中,eA(n)和eB(n)分别是输入A和B的激励矢量,N是目的地编解码器的子帧大小,ExA和ExB分别是输入A和B的能量。
可以得到如下的基音滞后 其中,PLA和PLB分别是输入A和B的基音滞后,PLmix是混合信号的基音滞后。
存在几种创建新LSP参数的不同方法。其中第一种方法包括将LSP参数转换为谱参数,根据子帧能量将谱参数取平均,并从谱参数转换回LSP参数。对谱参数的平均如下面的公式所示LSFmix=LSFA·ExA+LSFB·ExBExA+ExB]]>其中,LSFA、LSFB分别是输入A和B的谱参数,LSFmix是混合信号的谱参数。
另一种方法是将LSP成分重新引入到各个激励信号中,组合过滤后的激励信号,然后重新计算LSP参数和最终的激励。
另一种方法包括忽略较低能量输入的LSP参数,仅使用较高能量输入的LSP参数,或者基于某些控制参数,诸如信道优先级。
与LSP混合计算相类似,可以通过几种不同方法来计算混合激励参数。可以通过根据子帧能量对激励参数取平均,或使用混合LSP参数来重新计算混合激励参数,或者仅使用最高能量输入的激励,来获得混合激励参数。
在许多场景中,例如在远程会议中,不是所有组的CELP参数都代表活动话音。在这种情形中,CELP参数代表无声描述帧。这些帧被忽略。换言之,只有代表含有话音的信号的那些CELP参数组才被混合。这减少了计算量并去除了在不代表活动话音的那些CELP参数组中传输的噪声。
图12图示了CELP域多输入混合方法1200的流程图。该方法包括对每组CELP参数执行信号特征计算;根据特征计算的结果对各组CELP参数的重要性顺序进行排列;检查外部命令指定的所有优先级;根据CELP参数组的重要性和优先级确定要被混合的CELP参数组;将选中的CELP参数组混合;以及最后输出混合CELP参数。
主要有三种类型的混合策略。在第一种情形中,没有任何组的CELP参数代表活动话音,因此混合计算输出无声帧描述符或非连续传输信息。在第二种情形中,仅有一组CELP参数代表活动话音,或者仅选择一组CELP参数用于混合,因此混合计算输出选中的CELP参数作为混合结果。在第三种情形中,选择多组CELP参数用于混合,因此混合计算将选中组的CELP参数混合并输出混合结果。
图13图示了根据本发明的语音编码转换器内的CELP域中多输入混合1300的实施例的框图。带有多输入混合的语音编码转换器连接多于两个参与者。作为示例,多输入混合系统连接三个参与者。为了执行两个源编解码器输入压缩话音信号的混合并编码转换为目的地编解码器格式,多输入混合系统包括将第一输入位流数据拆包为其CELP参数的源编解码器拆包器模块;将第二输入位流拆包为其CELP参数的另一源编解码器拆包器模块;将第一源编解码器CELP参数转换为与目的地编解码器的帧和子帧大小相匹配的插值CELP参数的插值模块;将第二源编解码器CELP参数转换为与目的地编解码器的帧和子帧大小相匹配的插值CELP参数的另一插值模块;将来自两个输入的插值CELP参数混合并将混合CELP参数发送到下级(stage)的混合模块;将混合CELP参数转换为根据目的地编解码器的量化CELP参数的目的地编解码器映射模块;和将量化CELP参数转换为根据目的地编解码器标准的位流的目的地编解码器打包器模块。
根据所述实施例,并不将进入位流完全解码到话音空间,而是在CELP参数空间将它们混合。这提供了这样的优点大大降低了计算要求,因为并不将进入位流完全解码为话音信号且再次完全再编码。
图14图示了语音编码转换中的多输入混合器1400的另一配置框图。需要将混合压缩语音信号发送到具有不同帧大小的两个目的地编解码器。
图15描述了在IP语音分组网络和无线通信系统之间的电话会议中使用的带有多输入混合器的示例性语言编码转换器1500。有四个参与者参加该电话会议。两个参与者来自分组网络,两个参与者来自无线通信系统。所有语音输入信号都是压缩语音格式的。这些格式是不同的。它们是由语音编解码器G.729、G.723.1和GSM-AMR生成的。分组网络内的参与者A和B各自使用G.729编解码器和G.723.1编解码器,无线通信系统内的参与者C和D使用GSM-AMR编解码器。
图16示出了三种语音编解码器G.729、GSM-AMR和G.723.1之间的帧大小和子帧大小的差别1600。这三种语音编解码器具有不同大小的帧长度。G.729编解码器的帧长是10ms。GSM-AMR编解码器的帧长是20ms。G.723.1的帧长是30ms。另外,G.729每一帧有两个子帧,而GSM-AMR和G.723.1每一帧有四个子帧。
图17图示了根据本发明用于编解码器G.729、G.723.1与GSM-AMR之间所有方向的具有多输入混合器1700的语音编码转换的框图。到每个参与者的每个连接具有既用于输入位流又用于输出位流的路径。因此,对每种编解码器标准,编码转换器包括用于处理输入和输出位流的拆包器模块和打包器模块、用于将除目的地编解码器处的参与者之外的所有参与者的话音信息混合的混合模块、以及用于将混合CELP参数转换为量化CELP参数的特定映射模块。因为在电话会议中使用了三种不同的编解码器G.723.1、GSM-AMR和G.729,所以每个连接在拆包器模块之后需要两个插值模块。这两个插值模块对源编解码器CELP参数进行插值,得到与其他目的地编解码器的帧大小、子帧大小和其他特性相匹配的插值CELP参数。例如,来自参与者A的输入位流是G.729编解码器格式的。对于参与者A来说,其目的地编解码器是参与者B的G.723.1和参与者C和D的GSM-AMR。G.729的连接需要用于将G.729CELP参数转换为AMR CELP参数的插值模块G.729→AMR以及用于将G.729CELP参数转换为G.723.1CELP参数的插值模块G.729→G.723.1。这样,根据上述多输入混合方法的描述,系统可以执行带有多输入混合功能的语音编码转换,而不需要完全解码和再编码过程。取决于实施例,可以有其他改变、修改和替换。可以在本说明书中发现其他CELP编码转换器的具体示例,并且下面有更具体的说明。
本文件中描述的CELP域中的DTMF信号检测和多输入混合发明通用于由诸如G.723.1、GSM-AMR、EVRC、G.728、G.729、G.729A、QCELP、MPEG-4、SMV、AMR-WB、VMR之类的所有基于CELP的语音编解码器以及使用编码激励线性预测语音编码的任何语音编解码器所生成的CELP参数。
关于优选实施例的前述描述是用来使本领域的技术人员能够实现或使用本发明的。本领域的技术人员可以容易地想到对这些实施例的各种修改,并且这里所定义的一般原理不需要发明才能就可以应用于其他实施例中。因此,本发明并不意味着受限于这里所示的实施例,而是符合与这里所公开的原理和新颖特征相一致的最广范围。
权利要求
1.一种用于对电信信号进行特征处理的装置,所述装置适于在CELP域中工作,而不需要解码到话音信号域,所述装置包括双音调制频率(DTMF)信号检测模块,所述双音调制频率(DTMF)信号检测模块适于基于至少一个或多个输入CELP参数来确定一个或多个DTMF音调,并且如果确定了一个或多个DTMF信号,则所述DTMF信号检测模块适于输出所述一个或多个DTMF信号输出;耦合到所述DTMF信号检测模块的多输入混合模块,所述多输入混合模块适于将来自多个基于CELP的编解码器的代表相应多个语音信号的CELP参数处理为单组CELP参数。
2.如权利要求1所述的装置,其中所述双音调制频率(DTMF)信号检测模块包括DTMF特征计算单元,能够接收所述一个或多个CELP参数和外部命令,并且计算一个或多个DTMF特征,一个或多个DTMF特征图案表,具有与所述一个或多个DTMF信号相对应的一个或多个特定特征数据,DTMF特征比较单元,所述DTMF特征比较单元适于利用DTMF特征图案表中的所述一个或多个特定特征数据来处理从所述DTMF特征计算单元得到的所述一个或多个DTMF特征,以标识一个或多个DTMF特定信号,并分类所述一个或多个DTMF特定信号,DTMF特征缓冲器,能够存储一个或多个先前子帧或帧的一个或多个DTMF分类数据和一个或多个DTMF特征参数,DTMF判定单元,能够根据一个或多个DTMF规范,从当前和一个或多个先前子帧或帧的DTMF分类数据来确定所述一个或多个DTMF信号,并且将确定的DTMF信号发送出去。
3.如权利要求2所述的装置,其中所述DTMF特征计算单元使用线性预测参数信息、基音信息、能量信息中的至少一个或多个来处理所述一个或多个DTMF特征。
4.如权利要求2所述的装置,其中所述DTMF特征图案表具有与所述一个或多个DTMF信号对应的CELP参数相关联的特定的预先计算的特征数据。
5.如权利要求2所述的装置,其中所述DTMF特征比较单元根据国际电信联盟(ITU)规范,将对应于“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”、“A”、“B”、“C”、“D”、“#”和“*”16个数位的DTMF特定信号分类。
6.如权利要求2所述的装置,其中所述DTMF判定单元还包括逻辑状态机和DTMF信号标准以确定所述一个或多个DTMF信号和一个或多个特定数位。
7.如权利要求1所述的装置,其中所述多输入混合模块包括特征检测单元,能够接收一组或多组CELP参数和外部命令,并检测多个话音特征;排序单元,能够处理所述多组CELP参数的检测到的特征,并基于预定标准,对每组CELP参数的重要性顺序排序;混合判定单元,能够确定处理策略,选择一些或全部组的CELP参数用于处理,并控制所述多组CELP参数的处理;混合计算单元,能够处理多组CELP参数。
8.如权利要求7所述的装置,其中所述多组CELP参数可以由多个语音压缩标准表征,或者两组CELP参数可以由相同语音压缩标准表征,或者所有组的CELP参数可以由相同语音压缩标准表征。
9.如权利要求7所述的装置,其中,如果所述多组CELP参数是使用不同的语音压缩标准生成的,则可以对所述多组CELP参数插值,以匹配帧大小、子帧大小或其他特性。
10.如权利要求1所述的装置,还包括耦合到所述DTMF检测模块并耦合到所述多输入混合模块的编码转换模块。
11.如权利要求1所述的装置,还包括耦合到所述多输入混合模块的编码转换模块。
12.如权利要求1所述的装置,其中在高级处理模块中设置有所述多输入混合模块和所述DTMF信号检测模块,所述高级处理模块耦合到编码转换模块。
13.如权利要求1所述的装置,其中所述CELP参数代表无声描述符帧。
14.如权利要求1所述的装置,其中所述多输入混合模块具有动态拓扑,并且能够根据输入压缩信号的数目配置不同拓扑。
15.如权利要求1所述的装置,其中所述DTMF信号检测模块和所述多输入模块被结合在基于CELP的语音编码转换器中。
16.如权利要求7所述的装置,其中,所述特征检测单元适于确定多个话音信号特征,所述确定过程包括将由所述CELP参数代表的输入分类为活动话音、无声描述符帧或非连续传输帧。
17.如权利要求7所述的装置,其中所述特征检测单元确定多个话音信号特征,所述话音信号特征包括LSP谱信息、基音信息、固定码本信息、能量信息中的一个或多个。
18.如权利要求7所述的装置,其中所述排序单元从所述特征检测单元接收数据,并且基于所述预定标准,对所述多组CELP参数的重要性顺序排列。
19.如权利要求7所述的装置,其中所述混合判定单元接收来自所述排序单元的数据和外部控制命令,以确定被处理的CELP参数组。
20.如权利要求7所述的装置,其中所述混合计算单元可以通过单组CELP参数,或者选择并混合多组CELP参数,或者发送无声描述数据信息。
21.一种用于在基于CELP的域中处理电信信号的方法,所述方法包括使用一个或多个基于CELP的编码器的相应一个或多个CELP参数,确定DTMF音调并处理多个输入压缩信号,而不用解码到话音信号,所述方法包括输入所述一组或多组CELP参数和外部命令;从所述一个或多个CELP参数确定压缩信号中的一个或多个DTMF音调将多组CELP参数处理为单组CELP参数;如果检测到一个或多个DTMF音调,则输出所确定的一个或多个DTMF音调,并且输出单组中的处理过的CELP参数。
22.如权利要求21所述的方法,其中所述CELP参数包括LSP信息、基音信息、激励矢量信息、能量信息、固定码本信息和无声描述信息中的一个或多个。
23.如权利要求21所述的方法,其中确定DTMF音调的过程包括从CELP参数得到DTMF特征参数;利用DTMF信号特征数据的预定义查找表来处理特征参数,以输出一个或多个结果;将所述一个或多个结果传送到所述DTMF判定单元;根据DTMF信号定义标准,确定一个或多个先前子帧的分类结果,以输出一个或多个DTMF信号;存储当前子帧的一个或多个结果,并且更新一个或多个先前子帧的结果;以及如果检测到DTMF信号,则输出DTMF音调。
24.如权利要求21所述的方法,其中对每个子帧执行确定一个或多个DTMF音调的过程。
25.如权利要求23所述的方法,其中所述得到一个或多个DTMF特征的过程使用LSP谱信息、基音信息和能量信息中的一个或多个。
26.如权利要求23所述的方法,其中通过将DTMF信号转换为选定CELP压缩格式的CELP参数,预先计算所述DTMF信号特征数据的预定义查找表,并且在DTMF检测处理之前就将所述查找表预先载入到表中。
27.如权利要求21所述的方法,其中对多组CELP参数的处理过程能够将多于两个的输入编解码器的CELP参数混合。
28.如权利要求21所述的方法,其中对多组CELP参数的处理过程可以处理无声描述帧和非连续传输。
29.如权利要求21所述的方法,其中对多组CELP参数的处理过程包括对每组输入CELP参数执行信号特征计算;根据所述信号特征计算的结果,排列每组输入CELP参数的重要性顺序;根据所述重要性顺序和外部命令,确定所述混合策略;根据选择的混合策略,混合输入的CELP参数组;输出混合CELP参数。
30.如权利要求29所述的方法,其中执行信号特征计算的过程使用LSP信息、基音信息、激励信息、固定码本信息、能量信息、无声帧信息中的一个或多个来计算信号特征。
31.如权利要求29所述的方法,其中所述混合策略包括仅选择具有最高重要性的一组CELP参数,根据外部命令选择特定的一组CELP参数,将输入的一些组的CELP参数混合,或者将输入的所有组的CELP参数混合。
32.如权利要求29所述的方法,其中输入的CELP参数组是电话会议的输入信道,并且被选中用来混合的CELP参数组不包括目的地信道的CELP参数,以避免由延迟而起的回声。
33.一种用于对电信信号进行特征处理的装置,所述装置适于在CELP域中工作,而不需要解码到话音信号域,所述装置包括双音调制频率(DTMF)信号检测模块,所述双音调制频率(DTMF)信号检测模块适于基于至少一个或多个输入CELP参数来确定一个或多个DTMF音调,并且如果确定了一个或多个DTMF信号,则所述DTMF信号检测模块适于输出所述一个或多个DTMF信号。
34.一种用于对电信信号进行特征处理的装置,所述装置适于在CELP域中工作,而不需要解码到话音信号域,所述装置包括耦合到DTMF信号检测模块的多输入混合模块,所述多输入混合模块适于将来自多个基于CELP的编解码器的代表相应多个语音信号的CELP参数处理为单组CELP参数。
全文摘要
本发明提供了一种用于在编码激励线性预测(CELP)参数空间中进行DTMF检测和语音混合而不需要对话音信号完全解码和重构的方法和装置。该装置包括双音多频(DTMF)信号检测模块和多输入混合模块。DTMF信号检测模块通过从输入CELP参数计算特性特征并将其与DTMF信号的已知特征相比较来检测DTMF信号。多输入混合模块将代表多个语音信号的多组输入CELP参数混合为单组CELP参数。通过分析每组输入CELP参数,确定输入各组的重要性顺序,选择混合CELP参数的策略,以及输出混合CELP参数,来执行混合计算。该方法包括输入一组或多组CELP参数和外部命令,检测DTMF音调,混合多组CELP参数,以及输出混合CELP参数,并且如果检测到DTMF信号,则还输出DTMF信号。
文档编号H04Q1/46GK1708997SQ200380101987
公开日2005年12月14日 申请日期2003年10月24日 优先权日2002年10月25日
发明者马尔万·A·贾布里, 王建威, 萨梅·乔治, 迈克尔·易卜拉欣 申请人:达丽星网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1