支持大容量混音的同声传译视频会议系统及方法

文档序号:7955413阅读:220来源:国知局
专利名称:支持大容量混音的同声传译视频会议系统及方法
技术领域
本发明为一种用于互联网同声传译视频会议系统,具体地说解决了一个会议室大容量混音和同声传译的通讯问题。
背景技术
随着国内涉外事务、外贸等行业的高速发展,一种可以满足大容量混音和多语种交流的网络语音通讯平台将会有很好的应用前景。
现在比较通用的混音架构是集中式和分布式混音,在集中式结构下,每个会议终端将自己的音频数据发送给中心混频器,在中心混频器上完成音频混合过程并将混音结果反馈给所有终端。在分布式结构下,每个会议终端从其他所有成员处接收音频数据并在自身站点上独立执行混音。很明显,这种方式导致了混音过程的重复计算,网络通信量很大,容易造成网络拥塞且投资昂贵。集中式处理具有减少客户端计算量,网络通信量低,简单且易于实现等特点。目前规模较小的多媒体会议系统都是采用的这种处理方式,但随着会议规模的增大,集中式处理的弊端也越来越明显。首先是混音计算量随着与会终端数的增加而增加,同时混音延时必然增加;其次是语音质量的下降,目前公开的几种混音算法线性叠加、平均调整权重法、强对齐权重法、弱对齐权重法等,在混音语音路数达到一定数目时存在混音后音量降低、求和溢出及引入随机噪声的缺点。因此,为了对混音数量加以限制,一般都采用话语权切换来实现,这样对于使用者而言非常不方便。本发明的一部分就是为了解决这一系列的问题,具体方法是通过高效静音检测方法抑制发言端静音的传送和在混音器里使用更有效的混音方法,使用中可以做到至少20路的实时混音。
一般多媒体会议系统以会议室为单位进行语音处理,每个会议室只有一个混音器,这种模式是无法满足国际型交流活动要求的,国际型交流活动包括会议、商务交流、产品推介会等,该会议环境要求多语种信息可以同时发布和允许主办方与不同国家人员进行交流,而目前市场的一些视讯会议系统必须针对不同语种开设多个会议室,才能保证多种语言音频能同时被混音和传送到不同对象,显然这种方式是不经济的和带来操作的不便利。

发明内容
为了提高混音效率和解决同声传译问题,本发明提供一种更高效静音检测方法、混音方法和同声传译方法。可以实现更高的静音检测率、比其它混音方法更多的混音路数和在同一会议室进行多语种同步混音。
本发明的目的是通过以下技术方案来实现的系统采用集中式处理架构,定义了两个主要的系统客户终端(Terminal)、多点控制单元(MCU)。客户终端包括视频编解码、音频编解码、控制单元、网络传输层、辅助办公等功能模块,音频编解码采用下面提出的静音检测方法,在压缩音频之前检测出是否需要压缩该帧语音。多点控制单元一般安装在服务器上,MCU包含了多点控制模块以及多点处理模块,多点处理模块式用下面提出的短时自适应权重混音方法。
支持大容量混音的方法由以下步骤实现1、客户终端中音频编解码模块使用本发明提供的基于Mel尺度倒谱特征与支持向量机静音检测方法以减少音频数据的传输。这里采用Mel尺度倒谱系数作为语音特征,Mel尺度倒谱系数利用人耳的听觉掩蔽效应,将语音在频率域上划分为一系列的临界带组成三角形的滤波器组,即Mel滤波器序列。静音检测的过程是1)提取一帧音频数据的Mel尺度倒谱系数,Mel尺度倒谱系数(CMFCC)计算公式如下cMFCC(i)=2LΣl=1Llogm(l)cos{(l-12)iπL}---(1)]]>其中m(l)=Σk=o(l)h(l)Wl(k)|Xn(k)|,l=1,2,···,L---(2)]]>Wi(k)=k-o(l)c(l)-o(l)o(l)≤k≤c(l)h(l)-kh(l)-c(l)c(l)≤k≤h(l)---(3)]]>式中,o(l)、c(l)和h(l)分别是1个三角形滤波器的下限、中心和上限频率。
2)用二分类支持向量机对音频的Mel尺度倒谱系数加以判别,得到正常语音和静音两类结果。当然也可使用其它分类器,本发明对此无限制。
2、多点控制单元中短时自适应权重混音方法定义混音权重w[j],首先计算每路声音在k个数据帧中的平均幅度值Avg[j]=1klΣi=0kl-1|data[j,i]|---(4)]]>上式中data[j,i]表示第j路语音的第i个样本值,字母1代表一个数据帧中声音的样本数。然后根据Avg[j]计算出第j路语音应占有的权重w[j]
w[j]=Avg[j]/Σp=0n-1Avg[j]---(5)]]>然后根据w[j]对声音进行混合MixData[i]=Σj=0n-1data[j,i]*w[j]---(6)]]>同声传译方法的实现步骤是定义新的音频数据包头格式,使具可以表明语种。当MCU建立会议室时,为一个会议室创建n个语种混音器。发言方开始时表明发言语种类别,接受方表明接受语种类别,或者对发言、接受语种进行设置。MCU接受到音频时判断该路音频属于哪个会议室、语种,并送入相应的混音器。然后MCU根据接受方的请求分别传输混音后数据。


图1是本发明的模块结构示意图;图2是本发明的系统流程图。
具体实施例方式
1、图1所示为系统模块的组成框图,在发送客户终端,从输入设备获取的视频和音频信号,经编码器压缩后,按照一定格式打包,通过网络发送出去;在多点控制单元,多点控制模块对所有会议提供控制功能,多点处理模块提供数据转发服务;在接收客户终端,来自网络的数据包首先被解包,获得的视频、音频压缩数据经解码后送入输出设备,用户数据和控制数据也得到了相应的处理。系统所包含各个功能是视频编解码完成对视频码流的冗余压缩编码,可以通过MPEG4、H.264等实现。
音频编解码完成语音信号的静音检测和编解码,并在接收端可选择地加入缓冲延迟以保证语音的连续性,可以使用g.723、g729等。
控制单元提供端到端信令,以保证终端的正常通信。定义了请求、应答、信令和指示四种信息,通过各种终端间进行通信能力协商,打开/关闭逻辑信道,发送命令或指示等操作,完成对通信的控制。
网络传输层将视频、音频、控制等数据格式化并发送,同时从网络接收数据。另外,还负责处理一些诸如逻辑分帧、加序列号、错误检测等功能。
辅助办公用来实现电子白板、文字聊天、文件传送等具体操作功能。
图2描述了本发明系统中音、视频的数据流流程。音、视频的特征和序列号等可通过RTP协议实现,发送时采用TCP或UDP协议。
2、支持大容量混音的方法实施描述静音检测中,Mel尺度倒谱系数为L=12个,支持向量机的内积函数选用径向基函数,支持向量机的训练方法可以采用SMO方法,本发明对此并无限制。
短时自适应权重混音方法可以设计出高度并行化的计算结构。注意到式(4)中各路音频的平均幅度值Avg[j]的计算是相互独立的,因此各路可以并行地计算Avg[j]。而到了混合这一步,各路的计算仍然是相互独立的,因此同样适合进行并行计算。程序编写过程中还可用MMX、SSE、SSE2指令集对程序进行优化。实际测试表明,该方法混音效果良好,不产生新的混音噪声,在音量公平的原则下较好地保留了原各路声音的细节。
3、同声传译技术在具体使用时,每个客户端都可以从多个不同的语种中自由选择收听的语种,对于发言权,需要进行权限设定,对于一般身份的客户,其发言的语种只能使用默认的一种语种,只有身份为翻译或高级的客户可以选择发言的语种为其它的语种。每个客户端都把本地的音频压缩后上传给MCU,由MCU根据客户发言选择的语种,分别在不同混音器中解压后混合起来,然后再根据客户收听所选择的语种将其所需要的语种再压缩传输下去。对于发言与收听处于同一语种的客户,MCU还需要先将其声音从混合的声音中减掉,以避免该客户听到自己的声音。
为了使MCU、客户端能有效表示和区别发送或接收的数据报语种类型,定义新的音频数据包头格式,在数据包头中使用多比特位数对语种加以定义,一般3个比特就可以满足8个语种的同时使用。
权利要求
1.一种支持大容量混音的同声传译视频会议系统及方法,其特征在于它包含(1)支持大容量混音的方法,通过基于Mel尺度倒谱特征与支持向量机静音检测方法抑制发言端静音的传送和在多点控制单元混音器中使用短时自适应权重混音方法。(2)同一会议室进行多语种同步混音,定义了新的音频数据包头格式,及在一个会议室使用多个混音过程。
2.根据权利1所述的支持大容量混音的同声传译视频会议系统及方法,其特征在于内容(1)中,提出基于Mel尺度倒谱特征与支持向量机静音检测方法、短时自适应权重混音方法。
3.根据权利1所述的支持大容量混音的同声传译视频会议系统及方法,其特征在于内容(2)中,定义了新的音频数据包头格式,并且在一个会议室使用多个混音过程。
全文摘要
本发明公开了一种支持大容量混音的同声传译视频会议系统及方法,提出了基于Mel尺度倒谱特征与支持向量机静音检测方法、大容量混音方法和同声传译方法。可以实现更高的静音检测率、比其它混音方法更多的混音路数和在同一会议室进行多语种同步混音。静音检测方法以Mel尺度倒谱系数为语音特征,二分类支持向量机为分类器判断出静音和正常语音;混音方法采用语音的短时能量作为权重处理依据;多语种同步混音通过定义新的音频数据包头格式实现。
文档编号H04M3/56GK1845573SQ200610040060
公开日2006年10月11日 申请日期2006年4月30日 优先权日2006年4月30日
发明者都思丹, 薛卫, 周余, 叶迎宪, 刘红星 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1