数字电话会议的桥路运算方法

文档序号:7703464阅读:188来源:国知局

专利名称::数字电话会议的桥路运算方法
技术领域
:本发明涉及一种数字电话技术,尤其涉及一种数字电话会议的桥路运算方法。
背景技术
:通常的话音会议运算是采用波形叠加方式实现,该方式在参会通道数较大时,波形失真明显加剧,话音质量甚至达到难以分辩的程度,并且叠加后的信号幅度呈现一种衰弱起伏现象,话音增益不稳定,话音听觉效果不自然。
发明内容本发明提出了一种数字电话会议的桥路运算方法,该方法采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数和运算误判率;釆用短时幅度运算及漏斗混音运算,降低运算量。时延抖动处理机制包括系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码,FIFO深度30ms;同时,系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的lOim码流量;系统每10ms进行一次桥路运算。单帧检测与长时窗检测相结合的VAD语音激活检测,包括从各个通道解码后的语音帧中提取4种语音特征参数,根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据,根据判据进行单帧检测,根据单帧检测结果进行长时窗检测,根据长时窗检测结果确定该语音通道状态。4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下<formula>formulaseeoriginaldocumentpage5</formula>9)if碼<a9xAZCi+69then/ra=1;10)ifA£,<6,。then/ra=1;11)if<&xA51+6Uthen/ra=1;12)ifAE,>a12xAE,+612then;=1;13)ifAE,<a13xAE1,+613then/ra=l;14)ifM1,<a4xAfi1,+614then/(,D=1;/m=1表示当前语音通道为激活状态;/m=0表示当前语音通道为非激活状态;其中,=Z(i^巧—丄S《)2,A£,=£y—五,'A£,=—五,丄Si^为语音特征参数中的线谱频率;五,为语音特征参数中的全带能量;五,为语音特征参数中的子带能量;ZC/为语音特征参数中的归一过零率;,£f,£,,ZC/J为分别与前述4种语音特征参数对应的背景噪声的运行平均值,此运行平均值分别为4种语音特征参数在前32帧的平均值;前述14个判据中的常量取值见下表-<table>tableseeoriginaldocumentpage6</column></row><table>判据处理样点长度lOms,采样率8khz;对上述14个判据作出判断的过程即为单帧检测,单帧检测结果作为长时窗检测的输入;300ms长时窗检测包括若由前述14个判据作出的判断结果在300ms长时窗内均为/ra=l,则判断当前语音通道为活动通道;若由前述14个判据作出的判断结果在300ms长时窗内均为/^=0,则判断当前语音通道为非活动通道;若由前述14个判据作出的判断结果在300ms长时窗中,/ra=1和/^=0同时存在,则判断该语音通道保持为前一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算。前述的4种语音特征参数线谱频率{LS《},i=l,—10,由线性预测分析得到的一组线谱频率LSF系数-全带能量五,=10*logl为LPC分析窗的长度。i,)子带能量=10*lg,其中R(O)为输入语音的第一个自相关系数,N=240该特征参数是指输入语音在0-lkHz频段的能量,其中h为截止频率1kHz的FIR滤波器的冲击响应,R为13阶托伯単兹自相关系数矩阵。归一过零率ZO=l,sgn[x(/)]-sgn[x(/-1)]其中(x(i"为输入语音信号,i为序数,M-80为编码的帧长度。短时幅度运算和采样率匹配算法,包括进行路桥运算之前,将各通道的采样率统一转换为8khz的釆样率,进行短时幅度运算后,再进行桥路运算,待桥路运算结束后,将各通道的采样率还原为各个通道的原采样率;内插处理首先对原样点进行零值内插,然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;抽取处理采用抽取因子为2的抽取器进行级联处理,若通道原采样率为fs,将频率在fs/4以上的频率分量全部滤除。漏斗混音运算包括在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短吋幅度和最大通道及短时幅度和第二大通道,将短时幅度和第二大通道的话音信息送给发言者通道,将短时幅度和最大通道话音信息发送给其他所有参会通道。本发明方法的完整步骤如下系统对接收到的不同网段信号1)进行FIFO缓冲,2)解码,3)VAD语音激活检测,4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。本发明的有益技术效果是1)适应分组网环境下的大时延抖动,并可提供多网段的码流整形,为终端提供连续、均匀的话音码流,提高解码后话音听觉质量。2)采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数,并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法,极大地降低运算量,并避免冲击干扰造成的桥路误判,提高桥路混音的质量。图l,本发明处理流程示意图;图2,FIFO处理流程示意图;图3,抽取率为1^=2时信号抽取处理流程图;图4,抽取率为M-2时信号抽取处理前频谱图图5,抽取率为M=2时信号抽取处理后频谱图;具体实施例方式针对
背景技术
中现有技术的不足,本发明提出了一种数字电话会议的桥路运算方法,参见附图1,本发明方法的流程可概括如下系统对接收到的不同网段信号l)进行FIFO缓冲,2)解码,3)单帧检测与长时窗检测相结合的VAD语音激活检测(即图中的VAD计算),4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。桥路运算周期选择10ms.的依据人的语音特性(主要由清音、浊音组成)中,清音为类白噪声信号,浊音由声带振动发生,具有缓变性、周期性,大致可以认为在10—30ms短时间间隔内语音信号的特性基本上是固定不变的;根据以上理论结果,本发明中的桥路运算处理周期确定为10ms(根据语音基音周期范围);前述方法流程中的步骤1)和9)共同构成时延抖动处理机制,该机制对信号产生整形效果,可有效消除网络时延抖动。其原理如下为了有效平滑网络时延抖动形成的数据突发性对会议桥路效果的影响,在接收端(即图1中网络收接口)采用FIFO缓冲方式,FIFO深度可根据实际资源进行设计,经过试验测试,FIFO深度达到30ms即可达到良好的平滑效果,FIFO处理流程参见图2;为了匹配接收端的FIFO平滑效果,在发送端(网络发接口)设计为每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量,实现对各通道的码流整形,经过试验验证,该收发端的匹配设计可以降低收端的FIFO深度,并明显改善网络多级路由带来的时延抖动累积效应,极大提升会议桥路处理质量,使终端话机接收的会场语音更加流畅、清晰;早期的语音检测算法只抽取语音的单一特征参数,如短时功率,而且判决门限是固定的,很难适应实际应用中背景噪声变化的特点;本发明的单帧检测与长时窗检测相结合的VAD语音激活检测所起的作用是使噪声通道无法进入桥路运算,具体做法是在各通道解码器进行解码后对各通道进行单帧检测与长时窗检测相结合的VAD语音激活检测,剔除部分静音或低噪声通道,其核心是VAD语音激活检测采用单帧检测与长时开窗口判断(即长时窗检测)相结合的方式提高检测的IH确度与有效性;单帧检测处理的样点长度为10ms,釆样率为8khz,对语音帧中提取以下4种语音特征参数(1)线谱频率=1,…10,由线性预测分析得到的一组线谱频率LSF系数。(2)全带能量^=10*logl。N=240为LPC分析窗的长度。i卿,其中R(O)为输入语音的第一个自相关系数,(3)子带能量=10*lgTV.,该特征参数是指输入语音在O-lkHz频段的能量,其中h为截止频率lkHz的FIR滤波器的冲击响应,R为13阶托伯里兹自相关系数矩阵:(4)归一过零率zo;:l^;1sgn[x(/)]-sgn[x(/-1)],其中(x(W为输入语音f号,i为序数,!V^80为编码的帧长度。对每一帧所抽取的4个参数不直接与相应门限进行比较,而是利用它们与背景噪声的运行平均值的差值构造判据;这里背景噪卢的运行平均值定义为上述4个特征参数在前32帧的平均值,分别表示为丄SF,,^,£,,ZC及,4个参数与背景噪声的运行平均值的差值分别为10AS=Z(LSf-LSf)2,AE,^五,一五,,AE,-A—五,,AZCi=ZCW—ZC7由此构建出的判据如下1)ifA5>aAZCi+"then/..D=1;2)ifA5>0^AZC7+Z2then/TO=1;3)ifA£,<"3AZCi+63then/kd=1;4)ifAE,<a4xAZCT+64then7ra=15)ifAE,<65then/ra=1;6)ifAEy<a6xA5+66then/r。-1;7)ifA5>67then=1;8)ifA/,<a8xAZC7+6SthenA=1'9)ifA£",<a9x+69then10)if<61()then/ra=1;11)ifAE,<xA5'+6uthen/ra=l;12)if>"12xAC,+Z>12then;=1;13)if<a13xAiy+Z>13then/ra=l;14)if<"14x+、4then4=1;其中各常量取值为<table>tableseeoriginaldocumentpage10</column></row><table>由于单帧检测周期仅为lOms,所以在长时间轴上,其具有快变特性,而根据汉语正常发音速度,一个音节持续时间大致在500ms以上,为了增强桥路运算的准确度,本方法在短时检测的基础上,叠加了一层慢检测窗口,即开窗300ms左右的检测窗,如果窗内单帧检测结果(即14个判据的判断结果)均为激活状态(即/^=1)则认为该语音通道为活动通道,如果窗内单帧检测结果均为非激活状态(即/^=0),则认为该语咅通道为非活动通道,如果窗内单帧检测结果中/^=1和/^=0同时存在,则判断该语音通道保持为前一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算;试验证明,该设计判决准确率高,效果理想。由于会议桥路的各通道编码算法不同,其采样率可能为8khz、16khz或者为32khz,而高采样率在桥路运算中短时幅度、短时能量要大于低采样率的情况,这样容易造成误判,本发明在进入桥路运算之前先对各通道进行采样率匹配运算,统一转换为8khz的采样率,在桥路运算结束之后再按通道转换为原采样率。前述的采样率转换处理采用整数倍内插和抽取进行。内插处理首先对原样点进行零值内插,然后对插值信号进行滤波处理。内插滤波器的作用主要是滤除采样率的提高产生的镜像干扰,即在时域上利用信号连续性的特点,在采样点之间利用冲激响应来补充内插位置上的信号点,可以采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;在原采样率为fs过采样情况下,本发明中的抽取处理采用抽取因子为2的抽取器进行级联处理,图3、4、5为抽取率为M=2时信号的处理流程和抽取前后频谱图。为了保证抽取因子为2的采样率变化后不产生混叠失真,必须将频率在fs/4以上的频率分量全部滤除,否则信号将以fs/4为中心折叠进有用频带;本发明采用FIR半带滤波器来实现抽取和滤波动作的同时处理在匹配采样率之后,进行短时幅度计算,避免短时能量计算时,由于高幅度毛刺平方后造成短时能量激增而造成误判;漏斗混音运算分析-利用人耳对话音波形相位不敏感的特性,在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短时幅度和最大通道和第二大通道,根据人的语音特性,话音信号主要由浊音决定,而浊音具有明显的周期性和大幅度特性,可以认为选出的短时幅度和最大通道为会场发言者话音信息。本发明把短时幅度和第二大通道的话音信息送给发言者通道,给发言者构造会场背景声音状态,而把短时幅度和最大通道话音信息发送给其他所有参会通道,形成会场信息传送,此漏斗混音运算运算量小,效果良好,桥路输出话音清晰。权利要求1、一种数字电话会议的桥路运算方法,其特征在于采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测和采样率匹配算法,减少进入桥路运算的无效通道数并降低运算误判率;采用短时幅度运算及漏斗混音运算,降低运算量。2、根据权利要求l所述的数字电话会议的桥路运算方法,其特征在于时延抖动处理机制包括系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码,FIFO深度30ms;同时,系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量;系统每10ms进行一次桥路运算。3、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于单帧检测与长时窗检测相结合的VAD语音激活检测,包括从各个通道解码后的语音帧中提取4种语音特征参数,根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据,根据判据进行单帧检测,根据单帧检测结果进行长时窗检测,根据长时窗检测结果确定该语音通道状态。4、根据权利要求3所述的数字电话会议的桥路运算方法,其特征在于4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下1)if>a,AZC及+^then/ra=1;2)ifA9〉aAZO+Z)2then3)ifM1,<a3AZC7+63then;=1;4)if<fl4xAZC及+64then/ro=1;5)if<65then/ra=1;6)if<a6xAS+66then7)ifA5>&7then/ra=1;8)ifA£,<"8xAZC7+Z>8then/ra=1;9)if碼<a9xAZCi+69then;=1;10)ifM1,<^。then/ra=1;11)ifAE,<oxA5+then/ra=1;12)ifA£,>a12xAfi^+612then7^=1;13)<formula>formulaseeoriginaldocumentpage3</formula>14)<formula>formulaseeoriginaldocumentpage3</formula>/,,7)-l表示当前语音通道为激活状态;/ra=0表示当前语音通道为非激活状态;丄SF,为语音特征参数中的线谱频率;五,为语音特征参数中的全带能量;五,为语音特征参数中的子带能量;ZC7为语音特征参数中的归一过零率;Z^,5,l,^为分别与前述4种语音特征参数对应的背景噪声的运行平均值,此运行平均值分别为4种语音特征参数在前32帧的平均值;前述14个判据中的常量取值见下表-<table>tableseeoriginaldocumentpage3</column></row><table>判据处理样点长度10ms,采样率8khz;对上述14个判据作出判断的过程即为单帧检测,单帧检测结果作为长时窗检测的输入;300ms长时窗检测包括若由前述14个判据作出的判断结果在300ms长时窗内均为;D=1,则判断当前语音通道为活动通道;若由前述14个判据作出的判断结果在300ms长时窗内均为/^=0,则判断当前语音通道为非活动通道;若由前述14个判据作出的判断结果在300ms长时窗中,/^=1和^=0同时存在,则判断该语音通道保持为甜一状态;语音通道状态为活动通道时,该通道才参与桥路运算,否则该通道不参与桥路运算。5、根据权利要求4所述的数字电话会议的桥路运算方法,其特征在于线谱频率{LS《},/=1,一10,由线性预测分析得到的一组线谱频率LSF系数;-全带能量五,二10^Ogn为LPC分析窗的长度;,其中R(O)为输入语音的第一个自相关系数,N=240子带能量<formula>formulaseeoriginaldocumentpage0</formula>该特征参数是指输入语音在0-lkHz频段的能量,其中h为截止频率lkhz的FIR滤波器的冲击响应,R为13阶托伯里兹自相关系数矩阵;归一过零率<formula>formulaseeoriginaldocumentpage0</formula>,其中(x(i》为输入语音信号,i为序数,M-80为编码的帧长度。6、根据权利要求l所述的数字电话会议的桥路运算方法,其特征在于短时幅度运算和采样率匹配算法,包括进行路桥运算之前,将各通道的采样率统一转换为8khz的采样率,进行短时幅度运算后,再进行桥路运算,待桥路运算结束后,将各通道的采样率还原为各个通道的原采样率;—采用整数倍内插和抽取进行采样率转换处理。7、根据权利要求6所述的数字电话会议的桥路运算方法,其特征在于采用整数倍内插和抽取进行采样率转换处理,包括内插处理首先对原样点进行零值内插,然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理;抽取处理采用抽取因子为2的抽取器进行级联处理,若通道原采样率为fs,将频率在fs/4以上的频率分量全部滤除。8、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于漏斗混音运算包括在10ms单位桥路处理周期内,对各通道进行短时幅度和计算,得出短时幅度和最大通道及短时幅度和第二大通道,将短时幅度和第二大通道的话音信息送给发言者通道,将短时幅度和最大通道话音信息发送给其他所有参会通道。9、根据权利要求1所述的数字电话会议的桥路运算方法,其特征在于该方法歩骤如下系统对接收到的不同网段信号1)进行FIFO缓冲,2)解码,3)单帧检测与长时窗检测相结合的VAD语音激活检测,4)采样率匹配,5)短时幅度计算,6)桥路运算,7)采样率还原,8)漏斗混音运算,9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量;桥路运算周期10ms。全文摘要本发明公开了一种数字电话会议的桥路运算方法,其特征在于采用时延抖动处理机制对多网段码流整形;采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数并降低运算误判率;采用短时幅度运算及漏斗混音运算,降低运算量。本发明的有益技术效果是1)适应分组网环境下的大时延抖动,并可提供多网段的码流整形,为终端提供连续、均匀的话音码流,提高解码后话音听觉质量。2)采用VAD语音激活检测与采样率匹配算法,减少进入桥路运算的无效通道数,并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法,极大地降低运算量,并避免冲击干扰造成的桥路误判,提高桥路混音的质量。文档编号H04M3/56GK101557443SQ20091010382公开日2009年10月14日申请日期2009年5月11日优先权日2009年5月11日发明者廖红云,高世幸,黄河清申请人:重庆金美通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1