一种语音信号传输处理方法及装置的制作方法

文档序号：7944987阅读：156来源：国知局

专利名称：一种语音信号传输处理方法及装置的制作方法
技术领域：
本发明涉及通信技术领域，具体涉及语音信号传输处理方法及装置。
背景技术：
会议电视系统是一种实时通讯的视音频，数据传送的一种业务，可在
IP网络、电路交换网络以及更新的3G网络中提供，实现终端之间点对点通讯、多个终端参加的点对多点通讯。主流通讯协议框架则是IP网络下的 H323，以及电路交换网络的H320协议框架，其他网络则可以通过网关实现数据格式的转换和传输。其中语音传送是必须的，其他视频，数据是可选的。随着技术的成熟以及应用的扩大，高清晰的视音频，以及大容量的组网是当前的发展趋势。
在会议电视系统中涉及到对音频进行编解码，由于实际业务应用，特别是在多点会议中并不是所有会场的声音都需要在相同的时刻发送给所有入会终端，而是根据业务策略(如，选取音量值最大的4参与方)进行混音后再发送给所有会场；当前各个主流会议电视或者会议电话厂家，在对音频处理上需要在解码后才能获取到音量(能量)；也有一些协议涉及到音量的传输，但音频码流以及音量值是分别传送的。
现有技术中的一种技术方案如下
当前各个主流会议电视或者会议电话厂家，在对音频处理上需要通过
解码后才能获取到各会场音量值(能量)，然后根据这种方法获取到的音
量值大小来为业务所使用，根据策略选取部分会场进行混音或者编码，这
样将导致在特定场景应用中造成很大的资源浪费，如MCU的多点会议中实际参与混音的终端只支持到几个(由于语音效果的限制，超过一定数量
的会场(如5方)进行同时发言时，就失去了交流的清晰性。因此，在实际应用场景也是支持到几方终端同时发言，所有会场说话的场景基本没有)，而解码后才能获取各会场的语音音量大小对于大性能的MCU在实现中就会出现很大的解码资源浪费。
现有技术中的另一种技术方案如下也有一些协议涉及到音量的传
5输，但音频码流以及音量值是分别传送的。由于音量传输和语音数据流是分别独立传送的，其传输目的地址可以不是相同的地址，必然存在码流传送和音量值大小不同步的情况，导致实际应用存在较大的技术难度，关联关系的建立会占用很大系统资源以及影响系统的处理性能，同时传输的不同步会导致一定的延时等待，影响实时通讯系统的性能，导致主观效果感受体验不好的结果；如果传送的音量值与语音码流传送的目的地址不一
致，则在多点处理单元MP和多点控制单元(MCU, Multiprotocol Control Unit)独立的系统中接收到码流的MP不能同步获得音量值的大小。

发明内容
有鉴于此，本发明实施例提供一种语音信号传输处理方法及装置，可避免或减少解码资源的浪费，从而提高系统性能。
本发明实施例提供的一种语音信号传输处理方法，包括接收语音数据码流及其对应的音量值；
判断所述音量值的大小，若所述音量值满足业务策略时，则对该音量值对应的语音数据码流进行解码。
本发明实施例提供的一种语音信号传输处理装置，包括
接收单元，用于接收音频信号及其对应的音量值；
判断单元，用于判断所述音量值的大小，若所述音量值满足业务策略时，则发送解码指令给解码单元；
解码单元，用于对音频信号进行解码；根据所述判断单元发送的解码指令对所述音量值对应的音频信号进行解码。
本发明实施例提供的另一种语音信号发送方法，包括
获取语音数据码流及其对应的音量值；
将所述语音数据码流及其对应的音量值一起发送给接收端。
本发明实施例还提供一种语音信号发送装置，包括
音量获取单元，用于获取音频信号对应的音量值；
编码单元，用于对所述音频信号进行抽样、编码形成语音数据码流；
发送单元，用于发送所述音量值及语音数据码流给接收端。该装置还包括
封装单元，将所述音量值与所述语音数据码流一起按照预定格式进行
封装得到数据包；
所述发送单元发送所述封装后的数据包给接收端。
综上所述，本发明实施例提供的技术方案，将音量值实时传递给接收码流的设备，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才能获取到音量值的大量浪费资源的问题，支撑在该方案下的节能但不损伤任何服务质量的一种应用方式。

图1为本发明实施例中的语音信号传输处理装置架构示意图；图2为本发明实施例中提供的语音信号传输处理方法流程图；图3为本发明实施例中采用的RTP协议数据包固定头部示意图；图4为本发明实施例RTP协议数据包扩展头格式示意图；图5为本发明实施例还提供一种语音信号发送装置。
具体实施例方式
鉴于现有技术中接收端设备进行解码后才获知接收到的语音码流的音量值大小，对音量值不满足要求的语音码流消耗了解码设备的资源，本发明的实施例才是供一种语音信号传输处理方法，实现音量值与语音码流同步传送，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，进一步提供一种比较完整的方案支撑业务使用。下面通过具体实施例对本发明进行详细描述。本发明实施例以会议电视系统中的语音传输为例进行描述。在会议电视系统中的语音发送端主要是指终端设备(也可以是MCU 以及语音网关等设备)，可进行语音码流的编码。
参照图1，本发明实施例提供的设置在语音发送端的一种语音信号传输处理装置，包括
编码单元110,用于对所述音频信号进行抽样、编码形成语音数据码
流;
音量获取单元120,用于获取语音数据码流对应的音量值；封装单元130，将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；
发送单元140,将所述封装后的数据包发送给接收端。本实施例中，在编码单元进行语音编码(码流生成)过程中音量获取单元同步记录下该码流的音量值大小，可以通过数据表方式保存在编码后的緩冲区中或者把数据以文件方式保存下来，供后续操作使用；也可以直接将这两组数据(实际语音码流数据以及对应的语音音量值)同时传递给封装单元，由封装单元进行封装处理，形成数据包。然后由发送单元将所述封装后的数据包发送给接收端。
在会议电视系统中语音接收端的语音信号传输处理装置，如图2所示，包括
接收单元210，用于接收音频信号及其对应的音量值，所述音量值不迟于所述音频信号到达接收端；
判断单元220,用于判断所述音量值的大小，若所述音量值满足业务策略时，则发送解码指令给解码单元230;
解码单元230，用于对音频信号进行解码；具体可以是在会议电视系统中的终端设备、MCU、网关设备等；根据所述判断单元220发送的解码指令对所述音量值对应的音频信号进行解码。
接收单元210接收到的数据包，然后进行拆分数据包，区别出实际的音频码流数据和与之对应的音量值数据。判断单元220对于需要根据音量值大小决策是否需要进行解码的则直接对提取出来的语音音量值大小进行判断过滤，决策是否需要解码，需要则启动解码单元230进行解码，否则不启动解码。
由于能够从传送过来的数据直接获取到语音数据的音量值，解码设备支持对音量值的判断过滤后决策是否进行解码，因此可以节约解码设备的
8解码资源。这样，对于支持超大容量的终端/网关/MCU等接入的应用场景下，可以大大节省解码资源配置，为客户提供最低的成本，但不影响任何服务质量。
参照图3本发明实施例提供的一种语音信号传输处理方法，包括如下步骤
5301, 发送端获取语音数据码流及其对应的音量值；获:f又语音数据码流对应的音量值的方法包括如下几种
(1) 平均取值方法
假设音量值时间取值范围为每4个时间单位为一个计算单元，该计算单元内的平均值算法则可以把4个固定的间隔(可以是4等分或者其他等分)读取一次音量值，然后所有音量值的加和/取值的次数=音量值。
(2) 最大值取值方法
假设音量值时间取值范围为每4个时间单位为一个计算单元，该计算单元内的最大值算法则可以把4个刻度的时间分别按照固定的间隔(可以是4等分或者其他等分)读取一次音量值，然后取所有音量值中的最大值作为本时间单元内的音量值。
(3) 音量面积积分加权取值方法作支设音量值时间取值范围为每4个时间单位为一个计算单元，则通过
该单元内的面积(音量值曲线与横轴，纵轴组成的面积)积分方法计算出面积，然后再才艮据上述平均取值或最大值等方法来计算出音量值，通过面积和取得的音量值进行不同比例的加权计算，得出最终的音量值，则能更好体现根据音量的变化范围进行一种比较好的取值方法。
5302, 将所述语音数据码流及其对应的音量值一起发送给接收端；具体包括
对所述语音数据码流进行编码形成语音数据码流；将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；
将封装后的数据包发送给接收端。所述按照预定格式进行封装，具体包括
9将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头；
(IP包交换网络)H323/SIP等基于IP传送的系统直接在音频码流传输中的RTP协议中扩展RTP包头的字段，用于表示同步发送的语音码流的音量值。
RTP协议数据包固定头部如图3所示，RTP扩展头格式，如图4所示，其中的扩展头Header extension (X): 1 bit,其中X为音量值。如果该字段置1, RTP固定头后面必须跟至少一个扩展头部。将下面的X位置设为1，并放置在固定头部之后(包括CSRC列表，如果有的话)，媒体数据(包含媒体头和媒体数据)之前。扩展头长度不固定，但是前16 bits表示类型，接着16bites表示长度(包含自身和前面的类型长度)。
或者，将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
另外，也可采用在语音码流中定义音量值，可以采用下面的表达形式进行音频码流和音量值的封装，采用标识字段进行标识后面跟随的数据是音量值还是码流值，标识段至少要l个bit以上，可以用多个bit位填特殊的数据表明该段为标识段，然后其中lbit的0/1值分别表示后续的数据是音量值或者是码流数据；音量值的表示数据则釆用32bit表示；后续的音频码流数据则按照现有的格式进行封装，根据音频协议的不同，音频码流数据长度也不同，因此，在此不进行具体音频码流数据的长度标识，其实现方式与现有的一样即可。
当电视会议系统中采用E1/ISDN等电路交换专线，如按照R320标准的电视会议系统(H,320标准对基于电路交换的电视会议系统进行了定义，能在传输网络平台上开展标准的电视会议应用)，在基于&320系统的传输通道中传输用于表示同步发送的语音码流的音量值；
H.320是有专门的独立音频时隙(通道)，目前其他非音频时隙已经没有可以扩展的，因为汪320每个时隙都是独立传送某种类型的数据，如果
对应关系，所以本发明实施例中采用在传输语音凄t据流的时隙中增加传送音量值，即在每次传输音频码流数据前先进行音量值的传送，实现——对应。
由于音频协议不同，音频码流数据长度也不同，因此本实施例中不进行具体音频码流数据的长度标识，具体采用与以前一样的实现方式即可。
音量值数据段的定义建议采用32位以上，其中32位用于表示音量值，其他位用于标识该段数据为音量值表示数据。
另夕卜，根据实际每次封装音频码流的数据量(即一个时间段内的数据，如G.711A是每次封装20ms时间长度的数据)，可以在传输音频码流前传输多个音量值；也可以多个音频码流数据前只传输一个音量值。
S303,接收端接收语音数据码流及其对应的音量值，通常所述音量值不迟于所述音频信号到达接收端；
S304，判断所述音量值的大小；
将接收到的音量值与预定的业务策略所需要的音量值进行比较，根据比较结果进行后续操作。
'S305,若所述音量值大于业务策略所需要的音量值时，则对该音量值对应的语音数据码流进行解码。
本发明实施例还提供一种语音信号发送方法，包括
5401, 获取语音数据码流及其对应的音量值；
5402, 将所述语音数据码流及其对应的音量值一起发送给接收端。具体包括
对所述语音数据码流进行编码形成语音数据码流；将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；
将封装后的数据包发送给接收端。所述按照预定格式进行封装，具体包括将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头；或
将所述音量值与所述语音数据码流按照对应关系封装到数据包中。所述语音数据码流及其对应的音量值采用电路交换方式传输，还包括
按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送音量值。
参照图5，本发明实施例还提供一种语音信号发送装置，包括音量获取单元510，用于获取音频信号对应的音量值；编码单元520,用于对所述音频信号进4于抽样、编码形成语音数据码
流;
发送单元540，用于发送所述音量值及语音数据码流给接收端。进一步地还包括，封装单元530,将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；
发送单元540将所述封装后的数据包发送给接收端。本发明实施例提供的技术方案可以应用到所有涉及到语音通讯系统，包括多点通讯或点对点通讯，可以应用到下一4、 NGN通信网、IP多i某体系统(IMS ， IP Multimedia Subsystem )以及即时通讯等系统，并且不受限于网络传输方式以及设备类型。通过该技术可以较快获取到对端发送过来的音量值，而进行相应的应用，实现不同程度的节省资源，如对方的音量值低于预定值，则本端进行播放或混音处理时可以直接不进行解码其音频码流，直接采用舒适噪音等进行替代，或者可以其他新的应用业务，如静音期间插音广告等语音服务。
综上所述，本发明实施例提供的技术方案，将音量值实时传递给接收码流的设备，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才能获取到音量值的大量浪费资源的问题，支撑在该方案下的节能但不损伤任何服务质量的一种应用方式。
另外，根据本发明提供的语音码流和音量值的同步封装以及传送方案，有效解决了一些协议或厂家M传输语音码流和音量值导致的数据准确性低以及难实现关联，计算量大以及影响系统性能和指标以及语音时延大等问题。
12本发明易于在会议电视现有协议基础上实现，并且降低互通兼容的成本。
显然，本领域的技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个单元或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。
权利要求
1、一种语音信号传输处理方法，其特征在于，包括接收语音数据码流及其对应的音量值；判断所述音量值的大小，若所述音量值满足业务策略时，则对该音量值对应的语音数据码流进行解码。
2、如权利要求1所述的方法，其特征在于，语音数据码流及其对应的音量值由发送端获取，该方法还包括将所述语音数据码流及其对应的音量值一起发送给接收端。
3、如权利要求2所述的方法，其特征在于，所述将所述语音码流及其对应的音量值一起发送给接收端，具体包括对所述语音数据码流进行编码形成语音数据码流；将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；将封装后的数据包发送给接收端。
4、如权利要求3所述的方法，其特征在于，所述按照预定格式进行封装，具体包括将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头。
5、如权利要求3所述的方法，其特征在于，所述按照预定格式进行封装，具体包括将所述音量值与所述语音居码流按照对应关系封装到数据包中。
6、如权利要求1所述的方法，其特征在于，所述语音数据码流及其对应的音量值采用电路交换方式传输，还包括按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送音量值。
7、如权利要求3至6中任一项所述的方法，其特征在于，所述数据包中包含的音量值的数量根据抽样频率和/或音量变化情况确定。
8、一种语音信号传输处理装置，其特征在于，包括接收单元，用于接收音频信号及其对应的音量值；判断单元，用于判断所述音量值的大小，若所述音量值满足业务策略时，则发送解码指令给解码单元；解码单元，用于对音频信号进行解码；根据所述判断单元发送的解码指令对所述音量值对应的音频信号进行解码。
9、一种语音信号发送方法，其特征在于，包括获取语音数据码流及其对应的音量值；将所述语音数据码流及其对应的音量值一起发送给接收端。
10、如权利要求9所述的方法，其特征在于，所述将所述语音码流及其对应的音量值一起发送给接收端，具体包括对所述语音数据码流进行编码形成语音数据码流；将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；将封装后的数据包发送给接收端。
11、如权利要求IO所述的方法，其特征在于，所述按照预定格式进行封装，具体包括将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头。
12、如权利要求IO所述的方法，其特征在于，所述按照预定格式进行封装，具体包括将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
13、如权利要求9所述的方法，其特征在于，所述语音数据码流及其对应的音量值采用电路交换方式传输，还包括按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送音量值。
14、一种语音信号发送装置，其特征在于，包括音量获取单元，用于获取音频信号对应的音量值；编码单元，用于对所述音频信号进行抽样、编码形成语音数据码流；发送单元，用于发送所述音量值及语音数据码流给接收端。
15、如权利要求14所述的装置，其特征在于，还包括封装单元，将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；所述发送单元发送所述封装后的数据包给接收端。
全文摘要
本发明公开了一种语音信号传输处理方法，包括接收语音数据码流及其对应的音量值，所述音量值不迟于所述音频信号到达接收端；判断所述音量值的大小，若所述音量值满足业务策略时，则对该音量值对应的语音数据码流进行解码。本发明还提供了相应的语音信号传输处理装置。根据本发明在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费。
文档编号H04N7/15GK101489091SQ200910008450
公开日2009年7月22日申请日期2009年1月23日优先权日2009年1月23日
发明者罗桂英申请人:深圳华为通信技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗桂英
技术所有人：深圳华为通信技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。