一种语音信号传输处理方法及装置的制作方法

文档序号:7944987阅读:156来源:国知局
专利名称:一种语音信号传输处理方法及装置的制作方法
技术领域
本发明涉及通信技术领域,具体涉及语音信号传输处理方法及装置。
背景技术
会议电视系统是一种实时通讯的视音频,数据传送的一种业务,可在
IP网络、电路交换网络以及更新的3G网络中提供,实现终端之间点对点通 讯、多个终端参加的点对多点通讯。主流通讯协议框架则是IP网络下的 H323,以及电路交换网络的H320协议框架,其他网络则可以通过网关实 现数据格式的转换和传输。其中语音传送是必须的,其他视频,数据是可 选的。随着技术的成熟以及应用的扩大,高清晰的视音频,以及大容量的 组网是当前的发展趋势。
在会议电视系统中涉及到对音频进行编解码,由于实际业务应用,特 别是在多点会议中并不是所有会场的声音都需要在相同的时刻发送给所 有入会终端,而是根据业务策略(如,选取音量值最大的4参与方)进行 混音后再发送给所有会场;当前各个主流会议电视或者会议电话厂家,在 对音频处理上需要在解码后才能获取到音量(能量);也有一些协议涉及 到音量的传输,但音频码流以及音量值是分别传送的。
现有技术中的一种技术方案如下
当前各个主流会议电视或者会议电话厂家,在对音频处理上需要通过
解码后才能获取到各会场音量值(能量),然后根据这种方法获取到的音
量值大小来为业务所使用,根据策略选取部分会场进行混音或者编码,这
样将导致在特定场景应用中造成很大的资源浪费,如MCU的多点会议中 实际参与混音的终端只支持到几个(由于语音效果的限制,超过一定数量
的会场(如5方)进行同时发言时,就失去了交流的清晰性。因此,在实 际应用场景也是支持到几方终端同时发言,所有会场说话的场景基本没 有),而解码后才能获取各会场的语音音量大小对于大性能的MCU在实现 中就会出现很大的解码资源浪费。
现有技术中的另一种技术方案如下也有一些协议涉及到音量的传
5输,但音频码流以及音量值是分别传送的。由于音量传输和语音数据流是 分别独立传送的,其传输目的地址可以不是相同的地址,必然存在码流传 送和音量值大小不同步的情况,导致实际应用存在较大的技术难度,关联 关系的建立会占用很大系统资源以及影响系统的处理性能,同时传输的不 同步会导致一定的延时等待,影响实时通讯系统的性能,导致主观效果感 受体验不好的结果;如果传送的音量值与语音码流传送的目的地址不一
致,则在多点处理单元MP和多点控制单元(MCU, Multiprotocol Control Unit)独立的系统中接收到码流的MP不能同步获得音量值的大小。

发明内容
有鉴于此,本发明实施例提供一种语音信号传输处理方法及装置,可 避免或减少解码资源的浪费,从而提高系统性能。
本发明实施例提供的一种语音信号传输处理方法,包括 接收语音数据码流及其对应的音量值;
判断所述音量值的大小,若所述音量值满足业务策略时,则对该音量 值对应的语音数据码流进行解码。
本发明实施例提供的一种语音信号传输处理装置,包括
接收单元,用于接收音频信号及其对应的音量值;
判断单元,用于判断所述音量值的大小,若所述音量值满足业务策略 时,则发送解码指令给解码单元;
解码单元,用于对音频信号进行解码;根据所述判断单元发送的解码 指令对所述音量值对应的音频信号进行解码。
本发明实施例提供的另一种语音信号发送方法,包括
获取语音数据码流及其对应的音量值;
将所述语音数据码流及其对应的音量值一起发送给接收端。
本发明实施例还提供一种语音信号发送装置,包括
音量获取单元,用于获取音频信号对应的音量值;
编码单元,用于对所述音频信号进行抽样、编码形成语音数据码流;
发送单元,用于发送所述音量值及语音数据码流给接收端。该装置还包括
封装单元,将所述音量值与所述语音数据码流一起按照预定格式进行
封装得到数据包;
所述发送单元发送所述封装后的数据包给接收端。
综上所述,本发明实施例提供的技术方案,将音量值实时传递给接收 码流的设备,可在解码之前获知接收语音码流对应的音量值,在判断该音 量值是否满足要求之后,确定是否对所述语音码流进行解码,从而避免或 减少解码资源的浪费,有效解决了当前会议电视系统中对接收到的所有语 音码流进行解码才能获取到音量值的大量浪费资源的问题,支撑在该方案 下的节能但不损伤任何服务质量的 一种应用方式。


图1为本发明实施例中的语音信号传输处理装置架构示意图; 图2为本发明实施例中提供的语音信号传输处理方法流程图; 图3为本发明实施例中采用的RTP协议数据包固定头部示意图; 图4为本发明实施例RTP协议数据包扩展头格式示意图; 图5为本发明实施例还提供一种语音信号发送装置。
具体实施例方式
鉴于现有技术中接收端设备进行解码后才获知接收到的语音码流的 音量值大小,对音量值不满足要求的语音码流消耗了解码设备的资源,本 发明的实施例才是供一种语音信号传输处理方法,实现音量值与语音码流同 步传送,可在解码之前获知接收语音码流对应的音量值,在判断该音量值 是否满足要求之后,确定是否对所述语音码流进行解码,从而避免或减少 解码资源的浪费,进一步提供一种比较完整的方案支撑业务使用。 下面通过具体实施例对本发明进行详细描述。 本发明实施例以会议电视系统中的语音传输为例进行描述。 在会议电视系统中的语音发送端主要是指终端设备(也可以是MCU 以及语音网关等设备),可进行语音码流的编码。
参照图1,本发明实施例提供的设置在语音发送端的一种语音信号传输处理装置,包括
编码单元110,用于对所述音频信号进行抽样、编码形成语音数据码
流;
音量获取单元120,用于获取语音数据码流对应的音量值; 封装单元130,将所述音量值与所述语音数据码流一起按照预定格式 进行封装得到数据包;
发送单元140,将所述封装后的数据包发送给接收端。 本实施例中,在编码单元进行语音编码(码流生成)过程中音量获取 单元同步记录下该码流的音量值大小,可以通过数据表方式保存在编码后 的緩冲区中或者把数据以文件方式保存下来,供后续操作使用;也可以直 接将这两组数据(实际语音码流数据以及对应的语音音量值)同时传递给 封装单元,由封装单元进行封装处理,形成数据包。然后由发送单元将所 述封装后的数据包发送给接收端。
在会议电视系统中语音接收端的语音信号传输处理装置,如图2所示, 包括
接收单元210,用于接收音频信号及其对应的音量值,所述音量值不 迟于所述音频信号到达接收端;
判断单元220,用于判断所述音量值的大小,若所述音量值满足业务 策略时,则发送解码指令给解码单元230;
解码单元230,用于对音频信号进行解码;具体可以是在会议电视系 统中的终端设备、MCU、网关设备等;根据所述判断单元220发送的解码 指令对所述音量值对应的音频信号进行解码。
接收单元210接收到的数据包,然后进行拆分数据包,区别出实际的 音频码流数据和与之对应的音量值数据。判断单元220对于需要根据音量 值大小决策是否需要进行解码的则直接对提取出来的语音音量值大小进 行判断过滤,决策是否需要解码,需要则启动解码单元230进行解码,否 则不启动解码。
由于能够从传送过来的数据直接获取到语音数据的音量值,解码设备 支持对音量值的判断过滤后决策是否进行解码,因此可以节约解码设备的
8解码资源。这样,对于支持超大容量的终端/网关/MCU等接入的应用场景 下,可以大大节省解码资源配置,为客户提供最低的成本,但不影响任何 服务质量。
参照图3本发明实施例提供的一种语音信号传输处理方法,包括如下 步骤
5301, 发送端获取语音数据码流及其对应的音量值; 获:f又语音数据码流对应的音量值的方法包括如下几种
(1) 平均取值方法
假设音量值时间取值范围为每4个时间单位为一个计算单元,该计算 单元内的平均值算法则可以把4个固定的间隔(可以是4等分或者其他等 分)读取一次音量值,然后所有音量值的加和/取值的次数=音量值。
(2) 最大值取值方法
假设音量值时间取值范围为每4个时间单位为一个计算单元,该计算 单元内的最大值算法则可以把4个刻度的时间分别按照固定的间隔(可以 是4等分或者其他等分)读取一次音量值,然后取所有音量值中的最大值 作为本时间单元内的音量值。
(3) 音量面积积分加权取值方法 作支设音量值时间取值范围为每4个时间单位为一个计算单元,则通过
该单元内的面积(音量值曲线与横轴,纵轴组成的面积)积分方法计算出 面积,然后再才艮据上述平均取值或最大值等方法来计算出音量值,通过面 积和取得的音量值进行不同比例的加权计算,得出最终的音量值,则能更 好体现根据音量的变化范围进行一种比较好的取值方法。
5302, 将所述语音数据码流及其对应的音量值一起发送给接收端; 具体包括
对所述语音数据码流进行编码形成语音数据码流; 将所述音量值与所述语音数据码流一起按照预定格式进行封装得到 数据包;
将封装后的数据包发送给接收端。 所述按照预定格式进行封装,具体包括
9将预定格式数据包包头进行扩展,将所述音量值携带在所述数据包的 扩展包头;
(IP包交换网络)H323/SIP等基于IP传送的系统直接在音频码流 传输中的RTP协议中扩展RTP包头的字段,用于表示同步发送的语音码 流的音量值。
RTP协议数据包固定头部如图3所示,RTP扩展头格式,如图4所示, 其中的扩展头Header extension (X): 1 bit,其中X为音量值。如果该字段 置1, RTP固定头后面必须跟至少一个扩展头部。将下面的X位置设为1, 并放置在固定头部之后(包括CSRC列表,如果有的话),媒体数据(包 含媒体头和媒体数据)之前。扩展头长度不固定,但是前16 bits表示类型, 接着16bites表示长度(包含自身和前面的类型长度)。
或者,将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
另外,也可采用在语音码流中定义音量值,可以采用下面的表达形式 进行音频码流和音量值的封装,采用标识字段进行标识后面跟随的数据是 音量值还是码流值,标识段至少要l个bit以上,可以用多个bit位填特殊 的数据表明该段为标识段,然后其中lbit的0/1值分别表示后续的数据是 音量值或者是码流数据;音量值的表示数据则釆用32bit表示;后续的音 频码流数据则按照现有的格式进行封装,根据音频协议的不同,音频码流 数据长度也不同,因此,在此不进行具体音频码流数据的长度标识,其实 现方式与现有的一样即可。
当电视会议系统中采用E1/ISDN等电路交换专线,如按照R320标准的 电视会议系统(H,320标准对基于电路交换的电视会议系统进行了定义, 能在传输网络平台上开展标准的电视会议应用),在基于&320系统的传 输通道中传输用于表示同步发送的语音码流的音量值;
H.320是有专门的独立音频时隙(通道),目前其他非音频时隙已经没 有可以扩展的,因为汪320每个时隙都是独立传送某种类型的数据,如果
对应关系,所以本发明实施例中采用在传输语音凄t据流的时隙中增加传送音量值,即在每次传输音频码流数据前先进行音量值的传送,实现——对 应。
由于音频协议不同,音频码流数据长度也不同,因此本实施例中不进 行具体音频码流数据的长度标识,具体采用与以前一样的实现方式即可。
音量值数据段的定义建议采用32位以上,其中32位用于表示音量值, 其他位用于标识该段数据为音量值表示数据。
另夕卜,根据实际每次封装音频码流的数据量(即一个时间段内的数据, 如G.711A是每次封装20ms时间长度的数据),可以在传输音频码流前传 输多个音量值;也可以多个音频码流数据前只传输一个音量值。
S303,接收端接收语音数据码流及其对应的音量值,通常所述音量值 不迟于所述音频信号到达接收端;
S304,判断所述音量值的大小;
将接收到的音量值与预定的业务策略所需要的音量值进行比较,根据 比较结果进行后续操作。
'S305,若所述音量值大于业务策略所需要的音量值时,则对该音量值 对应的语音数据码流进行解码。
本发明实施例还提供一种语音信号发送方法,包括
5401, 获取语音数据码流及其对应的音量值;
5402, 将所述语音数据码流及其对应的音量值一起发送给接收端。 具体包括
对所述语音数据码流进行编码形成语音数据码流; 将所述音量值与所述语音数据码流一起按照预定格式进行封装得到 数据包;
将封装后的数据包发送给接收端。 所述按照预定格式进行封装,具体包括 将预定格式数据包包头进行扩展,将所述音量值携带在所述数据包的 扩展包头;或
将所述音量值与所述语音数据码流按照对应关系封装到数据包中。 所述语音数据码流及其对应的音量值采用电路交换方式传输,还包括
按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中 传送音量值。
参照图5,本发明实施例还提供一种语音信号发送装置,包括 音量获取单元510,用于获取音频信号对应的音量值; 编码单元520,用于对所述音频信号进4于抽样、编码形成语音数据码
流;
发送单元540,用于发送所述音量值及语音数据码流给接收端。 进一步地还包括,封装单元530,将所述音量值与所述语音数据码流 一起按照预定格式进行封装得到数据包;
发送单元540将所述封装后的数据包发送给接收端。 本发明实施例提供的技术方案可以应用到所有涉及到语音通讯系统, 包括多点通讯或点对点通讯,可以应用到下一4、 NGN通信网、IP多i某体 系统(IMS , IP Multimedia Subsystem )以及即时通讯等系统,并且不受限 于网络传输方式以及设备类型。通过该技术可以较快获取到对端发送过来 的音量值,而进行相应的应用,实现不同程度的节省资源,如对方的音量 值低于预定值,则本端进行播放或混音处理时可以直接不进行解码其音频 码流,直接采用舒适噪音等进行替代,或者可以其他新的应用业务,如静 音期间插音广告等语音服务。
综上所述,本发明实施例提供的技术方案,将音量值实时传递给接收 码流的设备,可在解码之前获知接收语音码流对应的音量值,在判断该音 量值是否满足要求之后,确定是否对所述语音码流进行解码,从而避免或 减少解码资源的浪费,有效解决了当前会议电视系统中对接收到的所有语 音码流进行解码才能获取到音量值的大量浪费资源的问题,支撑在该方案 下的节能但不损伤任何服务质量的 一种应用方式。
另外,根据本发明提供的语音码流和音量值的同步封装以及传送方 案,有效解决了 一些协议或厂家M传输语音码流和音量值导致的数据准 确性低以及难实现关联,计算量大以及影响系统性能和指标以及语音时延 大等问题。
12本发明易于在会议电视现有协议基础上实现,并且降低互通兼容的成本。
显然,本领域的技术人员应该明白,上述的本发明的各单元或各步骤 可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者 分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执 行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来 执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个单 元或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特 定的硬件和软件结合。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护 范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等, 均包含在本发明的保护范围内。
权利要求
1、一种语音信号传输处理方法,其特征在于,包括接收语音数据码流及其对应的音量值;判断所述音量值的大小,若所述音量值满足业务策略时,则对该音量值对应的语音数据码流进行解码。
2、 如权利要求1所述的方法,其特征在于,语音数据码流及其对应的 音量值由发送端获取,该方法还包括 将所述语音数据码流及其对应的音量值一起发送给接收端。
3、 如权利要求2所述的方法,其特征在于,所述将所述语音码流及其 对应的音量值一起发送给接收端,具体包括对所述语音数据码流进行编码形成语音数据码流; 将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数 据包;将封装后的数据包发送给接收端。
4、 如权利要求3所述的方法,其特征在于,所述按照预定格式进行封 装,具体包括将预定格式数据包包头进行扩展,将所述音量值携带在所述数据包的扩 展包头。
5、 如权利要求3所述的方法,其特征在于,所述按照预定格式进行封 装,具体包括将所述音量值与所述语音 居码流按照对应关系封装到数据包中。
6、 如权利要求1所述的方法,其特征在于,所述语音数据码流及其对 应的音量值采用电路交换方式传输,还包括按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传 送音量值。
7、 如权利要求3至6中任一项所述的方法,其特征在于,所述数据包 中包含的音量值的数量根据抽样频率和/或音量变化情况确定。
8、 一种语音信号传输处理装置,其特征在于,包括 接收单元,用于接收音频信号及其对应的音量值;判断单元,用于判断所述音量值的大小,若所述音量值满足业务策略时,则发送解码指令给解码单元;解码单元,用于对音频信号进行解码;根据所述判断单元发送的解码指 令对所述音量值对应的音频信号进行解码。
9、 一种语音信号发送方法,其特征在于,包括 获取语音数据码流及其对应的音量值; 将所述语音数据码流及其对应的音量值一起发送给接收端。
10、 如权利要求9所述的方法,其特征在于,所述将所述语音码流及其 对应的音量值一起发送给接收端,具体包括对所述语音数据码流进行编码形成语音数据码流; 将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数 据包;将封装后的数据包发送给接收端。
11、 如权利要求IO所述的方法,其特征在于,所述按照预定格式进行 封装,具体包括将预定格式数据包包头进行扩展,将所述音量值携带在所述数据包的扩 展包头。
12、 如权利要求IO所述的方法,其特征在于,所述按照预定格式进行 封装,具体包括将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
13、 如权利要求9所述的方法,其特征在于,所述语音数据码流及其对 应的音量值采用电路交换方式传输,还包括按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传 送音量值。
14、 一种语音信号发送装置,其特征在于,包括 音量获取单元,用于获取音频信号对应的音量值;编码单元,用于对所述音频信号进行抽样、编码形成语音数据码流; 发送单元,用于发送所述音量值及语音数据码流给接收端。
15、 如权利要求14所述的装置,其特征在于,还包括封装单元,将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包;所述发送单元发送所述封装后的数据包给接收端。
全文摘要
本发明公开了一种语音信号传输处理方法,包括接收语音数据码流及其对应的音量值,所述音量值不迟于所述音频信号到达接收端;判断所述音量值的大小,若所述音量值满足业务策略时,则对该音量值对应的语音数据码流进行解码。本发明还提供了相应的语音信号传输处理装置。根据本发明在判断该音量值是否满足要求之后,确定是否对所述语音码流进行解码,从而避免或减少解码资源的浪费。
文档编号H04N7/15GK101489091SQ200910008450
公开日2009年7月22日 申请日期2009年1月23日 优先权日2009年1月23日
发明者罗桂英 申请人:深圳华为通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1