一种3d音频会议的信号处理方法、设备以及系统的制作方法

文档序号:7925992阅读:132来源:国知局
专利名称:一种3d音频会议的信号处理方法、设备以及系统的制作方法
技术领域
本发明涉及音频处理领域,尤其涉及一种3D音频会议的信号处理方法、 设备和系统。
背景技术
音频会议系统,在会议的应用中越来越广泛,目前的音频会议系统通常 是单声道或者双声道的,缺乏空间的临场感,并且在多点会议时,将各路声 音混叠在一起,导致声音的清晰度下降。
现有技术中采用3D声处理对音频会议中的音频流进行处理,即通过为 各个音频流分配的声像位置,以及根据各个声像位置的音频流的位置关系, 调节所述音频流在左右声道的增益的大小,进而营造出一种立体的声响效 果。
在如何进行3D音频会议的组网上,现有技术中的一种解决方案是采用 分布式的组网结构,每个终端都需要接收其他终端的会议数据,然后对这些 音频数据进行3D定位处理,以便使用户感知不同的音频流为来自不同的方 位。参见图1,在图1中,终端2接收到终端1以及终端3的会议数据,终 端2对这些音频数据进行3D定位处理,确定终端1以及终端3的方位。现 有技术中另一种解决方案是采用集中式的组网结构,参见图2,在图2中的 会议系统中,有一个服务器以及多个终端,所有的终端都将自身的音频数据 发送给服务器,由服务器根据各个与会终端的情况,对发送到该与会终端的 音频流进行3D定位处理,并将处理后的音频流发送到相应的与会终端。
在完成本发明的过程中,发明人发现现有技术至少存在以下问题现有 技术中分布式3D音频会议,由于是通过在各个终端中分布处理的,需要许多条传输通道,因此只能适用于拥有几个会场的小型会议;现有技术中集中 式3D音频会议,由于所有的处理都在服务器上进行,这样需要预先知道各 个终端播放设备的配置,且终端也不能对其他终端的声像位置进行自由定 位。

发明内容
本发明提供了一种3D音频会议的信号处理方法、服务器、终端及系统, 以解决现有技术中存在的传输通道需求过多,且终端无法对其他终端的声像 位置进行自由定位的问题。
本发明实施例提供一种3D音频会议的信号处理方法,该方法包括
针对一 个终端获取相对于所述终端的音频流;
给所述获取到的相对于所述终端的音频流分配标识;
将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述 标识进行组合并发送给所述终端。
本发明实施例还提供一种3D音频会议的信号处理的服务器,包括
音频流荻取单元,用于针对一个终端获取相对于所述终端的音频流;
标识分配单元,用于给所述获取到的相对于所述终端的音频流分配标
识;
组合发送单元,用于将所述获取到的相对于所述终端的音频流以及所述
音频流对应的所述标识进行组合并发送给所述终端。
本发明实施例还提供一种实现3D音频会议的信号处理的终端,包括 音频处理单元,用于/人获取到的分配标识的多路音频流提取标识信息,
并根据所述的标识信息对音频流进行分流,以及将所述多路音频流分别解
码;
声像位置分配单元,用于根据所述音频处理单元提取的标识信息对解码
后的所述多路音频流分配声像位置;
3D声处理单元,用于根据所述分配的声像位置对所述解码后的多路音频流进行3D声处理。
本发明实施例还提供一种3D音频会议的信号处理方法,所述方法包括 对获耳又到的分配标识的多路音频流提耳又标识信息; 根据所述的提取的标识信息对具有同 一标识的音频流进行分流; 根据所述提取的标识信息为各路分流后的音频流分配声像位置; 将所述分流后的音频流进行解码,并根椐所述的音频流的声像位置信 息,对所述解码后的音频流进行3D声处理。
本发明实施例还提供一种3D音频的会议系统,包括 服务器,用于针对一个终端获取相对于所述终端的音频流;给所述获取 到的相对于所述终端的音频流分配标识;将所述获取到的相对于所述终端的 音频流以及所述音频流对应的所述标识进行组合并发送给所述终端;
至少一个终端,用于获取所述带有标识的音频流,提取所述音频流的标 识,并根据所述的标识对所述的具有同 一 标识的音频流进行分流,根据所述 提取的标识信息为各路分流后的音频流分配声像位置;将所述分流后的音频 流进行解码,并根据所述的音频流的声像位置信息,对所述分流后的音频流 进行3D声处理。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地, 下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术采用的分布式3D音频会议系统的网络示意图2为现有技术采用的集中式3D音频会议系统的网络示意图3为本发明的方法实施例1的流程示意图;图4为本发明的方法实施例2的流程示意图5为本发明的方法实施例2对应的系统組网结构示意图6为本发明的方法实施例3对应的系统组网结构示意图7为本发明的方法实施例3的流程示意图S为本发明的方法实施例4对应的系统组网结构示意图9为本发明的方法实施例4的流程示意图10为本发明的方法实施例5的流程示意图11为本发明的方法实施例中3D声处理的结构示意图12为本发明的系统实施例1的结构示意图13为本发明的服务器实施例1的结构示意图14为图13所示的服务器实施例1中标识分配单元的结构示意图
图15为图14所示的标识分配单元中的标识分配模块的结构示意图
图16为图13所示的服务器实施例1中组合发送单元的结构示意图
图17为本发明的终端实施例l的结构示意图18为图17所示的终端实施例1中的音频处理单元的结构示意图;
图19为本发明的终端实施例2的结构示意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例 方法实施例1
本发明的方法实施例1可以通过附图3进行说明 301 、针对一个终端获if又相对于所述终端的音频流;在实施301中,所述针对一个终端获取相对于所述终端的音频流具体为 获取相对于所述终端的多路音频流的能量;根据所述获取的多路音频流的能 量,选择能量最大的至少1路音频流;对所述选择出的音频流分配标识。
可以理解,针对一个终端获取能量最大的几路音频流只是一种实现的方 式,也可以获取所有的音频流,其实现方式即不需要对能量进行计算,直接 获取相关的音频流。 '.
302、 给所述获取到的相对于所述终端的音频流分配标识; 在实施302中,所述分配给相对于所述终端的音频流的标识,具体可以
采用会场号作为所述多路音频流的标识,当然,也可以由会议管理员人工的 分配,或者由会议管理系统实时的分配。
可以理解,本发明的实施例中所述音频流的标识只是对所述音频流分配 的一种代号,目的是为了区分出所述的音频流,因此,根据本发明的实施例 能够得到其他的标识获取方法,对此,本发明的实施例不做限制。
303、 将所述获耳又到的相对于所述终端的音频流以及所述音频流对应的 所述标识进行组合并发送给所述终端。
在实施303中,对于将所述获取到的相对于所述终端的音频流以及所述 音频流对应的所述标识进4于组合的方式可以为以下方式
采用松散组合的方式,即对所述获取的音频码流不做任何更改,在对每 帧音频数据进行协议封装时,在协议的包头里加上音频流的来源标识;
和/或
采用紧密组合的方式,即将所述荻取的单声道的音频码流进行编解码, 将所述编解码后的单声道的音频码流整合成一个多声道的码流,在所述的多 声道码流的帧头中增加多个声道对应的音频流来源标识。
需要说明的是,对于将所述的相对于所述终端的音频流与所述音频流对 应的标识进行組合的方式,可以采用全部是松散组合的方式,也可以是全部 是紧密组合的方式,还可以是松散组合与紧密组合相结合的方式。
音频流的标识可以在IP包的协i义包头,也可以在音频帧的帧头。采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
方法实施例2
本发明的方法实施例2主要针对单个服务器的情况的实施例方式进行说 明,其处理过程可以通过附图4所画的流程图进行说明 401 、服务器获取所述的各个终端对应的音频流;
在实施401中,各个终端一般对应于各个会场,相应的终端获取相应会 场的音频流,对应于各个终端的服务器获取到所述各个终端对应的音频流。
402、对所述获取到的音频流计算出其能量,并选择出能量最大的至少1 ^各音频流;
在实施402时,服务器将401中获取到的对应于各个终端的音频流分别 进行能量的计算,根据能量计算的结果,选择出能量最大的至少1路音频流, 作为最终被选择的音频流;
其中,在进行音频流能量的计算过程中,可以采用以下的方法
(1) 计算解码后的音频流在时域中一帧时间内的音频能量,计算多帧 音频信号后取平均;或
(2) 计算解码后的音频流在频域中相应频域范围内的音频能量,计算 多帧音频信号后取平均;或
(3 )对音频流的量化因子进行解码,从而估计出所述音频流的能量。 上述对音频流能量的计算可以归纳为2类, 一类是基于解码方式的计算 方法,主要对应于(l) (2)两种方式,另外一类是基于非解码估计的方式, 主要对应于(3)这种方式,之所以采用这两类方式进行音频流能量的估算, 主要是由于针对不同的协议,对于一些音频协议(例如G.723.1协议、G.729 协议),只有通过对音频流完全解码的方式才能够计算出所述音频流的能量, 对于另外一些音频协议(例如G.722.1协议、AAC LD协议),只需要对 音频流的某些参数进行解码,就能够估计出音频流的能量。在估算出音频流的能量之后,根据音频会议的策略,可以选择出其中的 能量最大的至少1路音频流作为被选择的音频流。
可以理解,上面对各路音频流的能量进行计算,从而选择出能量最大的 至少l路音频流,只是选择音频流的一种实现方式,也可以不计算各路音频 流的能量,而将所有的与会会场的音频流都作为被选择的音频流。
403 、获取被选纟奪的至少1路音频流对应的标识信息; 在实施403中,针对上述被选择的至少l路音频流,获取其对应的标识 信息。
其中,所述被选的音频流的标识信息具体可以采用会场号作为所述多路 音频流的标识,当然,也可以由会议管理员人工的分配,或者由会议管理系 统实时的分配。
可以理解,本发明的实施例中所述音频流的标识只是对所述音频流分配 的一种代号,目的是为了区分出所述的音频流,因此,根据本发明的实施例 能够得到其他的标识获取方法,对此,本发明的实施例不做限制。
404、将所述被选择的音频流与所述获取到的标识信息相组合;
在实施404中,将所述被选择的至少1路音频流,与所述获取到的被选 择的音频流的标识信息进行组合。
其中,进行组合的方式包括
采用松散组合的方式,即对所述获取的音频码流不做任何更改,在对每 帧音频数据进行协议封装时,在协议的包头里加上音频流的来源标识; 和/或
采用紧密组合的方式,即将所述获取的单声道的音频码流进行编解码, 将所述编解码后的单声道的音频码流整合成一个多声道的码流,在所述的多 声道码流的帧头中增加多个声道对应的音频流来源标识。
需要说明的是,对于将所述的相对于所述终端的音频流与所述音频流对 应的标识进行组合的方式,可以采用全部是+>散组合的方式,也可以是全部 是紧密组合的方式,还可以是松散组合与紧密组合相结合的方式。405、将所迷与标识信息组合后的音频流根据相应的发送策略发送给对
应的各个终端。
在实施405中,将所述与标识信息组合后的音频流发送给对应的各个终 端,具体可以采用如下的策略
即如果被选择出的音频流中包括某一个终端所获取的音频流,则发送 给所述终端的音频流则是去除所述终端获取音频流的之后的其他被选择出 的音频流;如果被选择的音频流不包括某一个终端所获取的音频流时,则发 送给所述终端的是所有被选择的音频流。
为了更加清晰的说明这种音频流的发送策略,参考图5,对上述策略进 行说明,图5中共包含4个终端以及一个服务器,其中,各个终端到服务器 的虚线含义为各个终端将自身采集到的音频流上传给服务器,服务器到各 个终端的实线含义为服务器将选择出的音频流下发给各个终端。假设经过 服务器的计算,终端2、 3是能量最大音频流对应的终端,因此,服务器就 将音频流2、 3分别下发给终端1和终端4,服务器将音频流3下发给终端2, 将音频流2下发给终端3。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
方法实施例3
本发明的方法实施例3主要针对多个服务器相级联的情况的实施例方式 进行说明,其结构可以通过图6来说明
在图6中,我们可以看出共有三个服务器,以及四个终端,其中终端1 与终端2属于服务器2,终端3和终端4属于服务器3,服务器2与服务器 3通过服务器1级联在一起,其中,可以将服务器1看成是主服务器,而服 务器2与服务器3看成是服务器1的从服务器。
对于多服务器相级联的情况,其处理过程为,参考图7的流程图
701、主服务器获取从服务器上传的音频流;702、 所述主服务器对从所述从服务器获取到的音频流分解成多路音频
流,所分解出的音频流的路数为所述从服务器下的终端的个数;
在实施702中,由于所述从服务器获取到的音频流为所述从服务器的各 个终端上传的,因此,所述从服务器可以根据具体的终端分解出不同的音频流。
703、 所述主服务器对所述分解出的音频流计算出其能量,并选择出能 量最大的至少1路音频流;
在实施703中,对所述分解出的音频流计算出能量,并选择出能量最大 的至少1路音频流的实现过程类似于本发明的方法实施例2中的402,在此 不再赘述。
704、 获取;故选择的至少1路音频流对应的标识信息;
在实施704中,主服务器通过从服务器获取被选择的至少1路音频流对 应的标识信息。其获取方式类似于本发明的方法实施例2中的403,在此不 再赘述。
705、 将所述被选择的音频流与所述获取到的标识信息相组合; 在实施705中,由于本步骤的实现过程类似于本发明的方法实施例2中
的404,在此不再赘述。
706、 将所述与标识信息组合后的音频流根据相应的发送策略发送给对 应的各个终端。
由于本步骤的实现过程类似于本发明的方法实施例2中的405,在此不 再赘述。
可以理解,本发明的方法实施例3只给出三个服务器构成的服务器级联 的形式,对于更多服务器的级联,其实现的方式同样可以根据本实施例的过 程来完成。
釆用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。方法实施例4
本发明的方法实施例4主要针对至少1个终端与多个服务器级联相结合 的情况的实施例方式进行说明,其结构可以通过图8来说明
由图8可以看出,包含三个服务器,其中,服务器l为主服务器,服务 器2与服务器3为从服务器,这三个服务器构成服务器级联的形式,另夕卜, 图8共包括6个终端,其中,终端1、 2、 3、 4分别为从服务器2、 3的管辖 之下,终端5、 6为直接与主服务器l相连的终端。
其实现过程为,参考图9:
901、 主服务器获取从服务器上传的音频流以及所述主服务器所直接管 辖的终端的音频流;
902、 所述主服务器对从所述从服务器获取到的音频流分解成多路音频 流,所分解出的音频流的路数不大于所述从服务器下的终端的个数;
在实施902中,由于所述从服务器获取到的音频流为所述从服务器的各 个终端上传的,因此,所述从服务器可以根据具体的终端分解出不同的音频 流。其中,所分解出的音频流的路数可以小于所述从服务器下的终端的个数, 根据不同的终端是否发出声音来确定所分解出的音频流的路数,当 一些终端 无会场声音时,则所分解出的音频流的路数小于所述从服务器下的终端的个 数。
903、 所述主服务器对从所述从服务器获取到的音频流分解出的音频流 以及从直接所管辖的终端获取的音频流分别计算能量,并选择出能量最大的 至少1路音频流;
在实施903中,所述主服务器对从所述从服务器获取到的音频流分解出 的音频流以及从直接所管辖的终端获取的音频流分别计算能量,并选择出能 量最大的至少1路音频流的实现过程类似于本发明的方法实施例2中的402, 在此不再赘述。
904、 获取被选择的至少1路音频流对应的标识信息;
在实施904中,由于本步骤的实现过程类似于本发明的方法实施例2中的403,在此不再赘述。
905、 将所述被选择的音频流与所述获取到的标识信息相组合; 在实施905中,由于本步骤的实现过程类似于本发明的方法实施例2中
的404,在此不再赘述。
906、 将所述与标识信息组合后的音频流^f艮据相应的发送策略发送给对 应的各个终端或从服务器。
由于本步骤的实现过程类似于本发明的方法实施例2中的405,在此不 再赘述。
可以理解,本发明的方法实施例4只给出三个服务器构成的服务器级联 以及主服务器管辖的两个终端的形式,对于更多服务器的级联,以及主服务 器管辖更多的终端的实现的方式,同样可以根据本实施例的过程来完成。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
方法实施例5
本方法实施例针对终端对接收到的音频流进行的处理,参看图10,其实
现过程具体为
1001 、对获取到的分配标识的多路音频流揭j又标识信息;
在实现1001中,可以从音频流的1P包的协议包头,或者从音频帧的帧
头获取所述的标识信息。
1002、 根据所述的提取的标识信息对具有同一标识的音频流进行分流; 在实现1002中,由于不同的音频流,其标识信息不相同,对于同一标
识的音频流进行分流,相同标识的音频流分配给同一个解码4莫块。
1003、 根据所述提取的标识信息为各路分流后的音频流分配声像位置; 在实现1003中,利用步骤1001提取出来的音频流的标识信息可以进行
声像位置的分配。
声像位置的分配可以通过用户预先指定,即某个声像位置固定分配给某一个终端,也可以自动分配,自动分配可以#~据以下原则进行
(1 )如果音频流对应的标识和正在观看的终端 一致,则分配中间的声像 位置,在图9中该位置即为电视机前的虚拟声像位置。采用这种方法分配的 好处是,声像位置和正在观看的图像相匹配。
(2) 如果某终端的音频信号能量较大,则分配前面的声像位置,这样
可以保证远端说话人的声音来自前面。
(3) 如果某终端的音频信号能量较小,则分配两侧的声像位置,这样的
终端可能只是噪声,分配在两侧可以让噪声和远端说话人的声音分离的较 开,从而保证说话人声音的清晰度。
1004、将所述分流后的音频流进行解码,并根据所述的音频流的声像位 置信息,对所述解码后的音频流进行3D声处理。
在实现1004中,对于步骤1002中根据相同的标识信息分配在同一音频 流的音频流进行解码,利用1003分配的声像位置信息,对所述的解码后的 音频流进行3D声处理。
本发明的方法实施例都用到了 3D声处理,其他地方不再赘述。3D声处 理的目的是通过利用左右两个音箱来营造出一个立体声场,3D声处理的具 体过程可以通过如下的例子进行说明,参见图11:
在图11中,扬声器pl、 p2之间的距离为d,虚拟声像vl距离扬声器 pl之间的距离为w,假设某个音频流sl分配的声像位置为vl,则可将sl乘 上增益gl输送到pl, sl乘上增益g2输送到p2, gl、 g2可按下式计算 Wd = (gl-g2)/(gl + g2) (1) c = glxgl+g2xg2 (2) 公式(l)、 (2)中gl是左声道幅度增益,g2是右声道幅度增益,c 是一个固定值,例如可以等于l。
当计算出左右声道的增益信息时,就能够模拟出立体的声场。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。系统实施例 系统实施例1
本发明的系统实施例可以通过附图
服务器1200,用于针对一个终端获取相对于所述终端的音频流;给所述 获取到的相对于所述终端的音频流分配标识;将所述获取到的相对于所述终 端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端;
至少一个终端1300,用于获取所述带有标识的音频流,提取所述音频流 的标识,并根据所述的标识对所述的具有同一标识的音频流进行分流,根据 所述提取的标识信息为各路分流后的音频流分配声像位置;将所述分流后的 音频流进行解码,并根据所述的音频流的声像位置信息,对所述分流后的音 频流进行3D声处理。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
系统实施例2
参考图6结构图,在系统实施例1的基础上,本系统实施例包括一个主 服务器,即图6中的服务器1,用于针对一个终端获取相对于所述终端的音 频流;给所述获取到的相对于所述终端的音频流分配标识;将所述获取到的 相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送 给所述终端,还用于将所述至少一个从服务器的经过组合后的带标识的所述 音频流分解为多路音频流;至少一个从服务器,即图6中的服务器2与服务 器3,用于获取其自身管辖的终端或其他服务器的音频流,并将所述获取到 的音频流与所述音频流的标识进行组合。
釆用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。装置实施例 服务器实施例
本实施例主要提供一种实现3D音频会议的信号处理的服务器,所属服 务器包括,参考图13:
音频流获取单元1210,用于针对一个终端获取相对于所述终端的音频 流;标识分配单元1220,用于给所述获取到的相对于所述终端的音频流分 配标识;组合发送单元1230,用于将所述获取到的相对于所述终端的音频 流以及所述音频流对应的所述标识进行组合并发送纟会所述终端。
其中,标识分配单元1220具体包括,参考图14:音频流能量获取模块 1221 ,用于获取相对于所述终端的多路音频流的能量;音频流选择模块1222 , 用于根据所述获取的多路音频流的能量,选择能量最大的至少l路音频流; 标识分配模块1223,用于对所述选择出的至少l路音频流分配标识。
标识分配模块1223具体包括,参考图15:会场号获取子模块12231, 用于获取所述的能量最大的至少l路音频流各自所在会场的会场号;会场号 分配子模块12232,用于将所述会场号获取子模块获取的所述能量最大的至 少1路音频流各自所在会场的会场号分配给所述音频流。
所述组合发送单元1230具体包括以下模块,参考图16:第一组合模块
1231, 用于对所述被选的音频码流不做任何更改,在对每帧音频数据进行协 议封装时,在协议的包头里加上音频流的来源标识;和/或第二组合模块
1232, 用于将所述被选的单声道的音频码流进行编解码,将所述编解码后的 单声道的音频码流整合成一个多声道的码流,在所述的多声道码流的帧头中 增加多个声道对应的音频流来源标识。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
设备实施例 设备实施例1本发明实施例还提供一种实现3D音频会议的信号处理的终端,参考图 17,包括
音频处理单元1310,用于/人获取到的分配标识的多路音频流提取标识信 息,并根据所述的标识信息对音频流进行分流,以及将所述多路音频流分别 解码;
声像位置分配单元1320,用于根据所述音频处理单元提取的标识信息对 解码后的所述多路音频流分配声像位置;
3D声处理单元1330,用于根据所述分配的声像位置对所述解码后的多 路音频流进行3D声处理。
在实现本发明实施例的过程中,所述音频处理单元1310具体包括参考 图18:标识提取模块1311,用于从获取到的分配标识的多路音频流提取标 识信息;分配模块1312,用于根据所述的提取出的标识信息分配音频流; 解码模块1313,用于将所述多路音频流分别解码。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
设备实施例2
在上述设备实施例1的基础上,所述终端还可以包括,参考图19:音频 信号获取单元1340,用于获取所述会场的音频信号;音频编码单元1350, 用于对获取到的音频信号进行编码。
采用本发明实施例的技术方案,使得终端能够根据接收到的其他终端的 音频流以及音频流所分配的标识,对其他终端的声像位置进行自由的定位。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发 明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件, 但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案 本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算 机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实 施例所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。
权利要求
1、一种3D音频会议的信号处理方法,其特征在于,所述方法包括针对一个终端获取相对于所述终端的音频流;给所述获取到的相对于所述终端的音频流分配标识;将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。
2、 根据权利要求1所述的信号处理方法,其特征在于,所述针对一个 终端获取相对于所述终端的音频流具体为获取相对于所述终端的多路音频流的能量;根据所述获取的多路音频流的能量,选择能量最大的至少l路音频流; 对所述选"^奪出的音频流分配标识。
3、 根据权利要求2所述的信号处理方法,其特征在于,所述给所述获 取到的相对于所述终端的音频流分配标识,具体为采用会场号作为所述多 if各音频流的分配标识。
4、 根据权利要求1或2所述的信号处理方法,其特征在于,所述将所 述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行 组合具体包括以下方式采用松散组合的方式,即对所述获取的音频码流不做任何更改,在对每 帧音频数据进行协议封装时,在协议的包头里加上音频流的来源标识; 和/或采用紧密组合的方式,即将所述获取的单声道的音频码流进行编解码, 将所述编解码后的单声道的音频码流整合成一个多声道的码流,在所述的多 声道码流的帧头中增加多个声道对应的音频流来源标识。
5、 根据权利要求2所述的信号处理方法,其特征在于,所述获取相对 于所述终端的多路音频流的能量可以采用以下方法的 一种计算解码后的音频流在时域中 一帧时间内的音频能量,计算多帧音频信 号后取平均;或计算解码后的音频流在频域中相应频域范围内的音频能量,计算多帧音频信号后取平均;或对音频流的量化因子进行解码,从而估计出所述音频流的能量。
6、 根据权利要求1或2所述的信号处理方法,其特征在于,所述针对 一个终端获取相对于所述终端的音频流具体包括以下几种方式中的 一种在单个服务器的情况下,获取多个终端的分别发送的音频流;或 在多个服务器级联的情况下,获取经过所述的多个服务器分解后的多个终端的分别发送的音频流;在至少一个终端以及多个服务器级联并存的情况下,获取所述至少一个终端发送的音频流,以及获取经过所述的多个服务器分解后的多个终端的分别发送的音频流。
7、 一种实现3D音频会议的信号处理的服务器,其特征在于,所述服务 器包括音频流获取单元,用于针对一个终端获取相对于所述终端的音频流; 标识分配单元,用于给所述获取到的相对于所述终端的音频流分配标识;组合发送单元,用于将所述获取到的相对于所述终端的音频流以及所述 音频流对应的所述标识进行组合并发送给所述终端。
8、 根据权利要求7所述的服务器,其特征在于,所述标识分配单元具 体包括音频流能量获取模块,用于获取相对于所述终端的多路音频流的能量; 音频流选择模块,用于根据所述获取的多路音频流的能量,选择能量最 大的至少1路音频流;标识分配模块,用于对所述选择出的至少1路音频流分配标识。
9、 根据权利要求8所述的服务器,其特征在于,所述标识分配模块具 体包括会场号获取子模块,用于获取所述的能量最大的至少l路音频流各自所在会场的会场号;会场号分配子模块,用于将所述会场号获取子模块获取的所述能量最大 的至少1路音频流各自所在会场的会场号分配给所述音频流。
10、 根据权利要求7或8所述的服务器,其特征在于,所述组合发送单 元具体包括以下模块第一组合模块,用于对所述被选的音频码流不做任何更改,在对每帧音 频数据进行协议封装时,在协议的包头里加上音频流的来源标识; 和/或第二组合模块,用于将所述被选的单声道的音频码流进行编解码,将所 述编解码后的单声道的音频码流整合成一个多声道的码流,在所述的多声道 码流的帧头中增加多个声道对应的音频流来源标识。
11、 一种实现3D音频会议的信号处理的终端,其特征在于,包括 音频处理单元,用于从获取到的分配标识的多路音频流提取标识信息,并根据所述的标识信息对音频流进行分流,以及将所述多路音频流分别解 码;声像位置分配单元,用于根据所述音频处理单元提取的标识信息对解码 后的所述多路音频流分配声像位置;3D声处理单元,用于根据所述分配的声像位置对所述解码后的多路音 频流进行3D声处理。
12、 根据权利要求11所述的终端,其特征在于,所述音频处理单元具 体包括标识提取模块,用于从获取到的分配标识的多路音频流提取标识信息; 分配模块,用于根据所述的提取出的标识信息分配音频流; 解码模块,用于将所述多路音频流分别解码。
13、 根据权利要求11所述的终端,其特征在于,所述终端还包括 音频信号获取单元,用于获取所述会场的音频信号; 音频编码单元,用于对获取到的音频信号进行编码。
14、 一种3D音频会议的信号处理方法,其特征在于,所述方法包括 对获取到的分配标识的多路音频流提取标识信息; 根据所述的4是取的标识信息对具有同 一标识的音频流进行分流; 根据所述提取的标识信息为各路分流后的音频流分配声像位置; 将所述分流后的音频流进行解码,并根据所述的音频流的声像位置信息,对所述解码后的音频流进行3D声处理。
15、 根据权利要求14所述的信号处理方法,其特征在于,所述根据所 述的提取的标识信息对具有同 一标识信息的音频流进行分流具体为读取音频流中的标识信息;根据读取到的所述标识信息的音频流分配到具有相同标识信息的音频 流通道中。
16、 一种3D音频的会议系统,其特征在于,包括服务器,用于针对一个终端获取相对于所述终端的音频流;给所述获取 到的相对于所述终端的音频流分配标识;将所述获取到的相对于所述终端的 音频流以及所述音频流对应的所述标识进行组合并发送给所述终端; 至少一个终端,用于获取所述带有标识的音频流,提取所述音频流的标 识,并根据所述的标识对所述的具有同一标识的音频流进行分流,根据所述 提取的标识信息为各路分流后的音频流分配声像位置;将所述分流后的音频 流进行解码,并根据所述的音频流的声像位置信息,对所述分流后的音频流 进行3D声处理。
17、 根据权利要求16所述的会议系统,其特征在于,所述服务器为主 服务器,所述会议系统还包括至少一个从服务器,用于获取其自身管辖的终端或其他服务器的音频 流,并将所述获取到的音频流与所述音频流的标识进行组合;所述主服务器,还用于将所述至少一个从服务器的经过组合后的带标识 的所述音频流分解为多路音频流。
全文摘要
本发明实施例提供一种3D音频会议的信号处理的方法、系统与设备,其实现过程为针对一个终端获取相对于所述终端的音频流;给所述获取到的相对于所述终端的音频流分配标识;将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。采用本发明的技术方案,能够解决现有技术中存在的传输通道需求过多,且终端无法对其他终端的声像位置进行自由定位的问题。
文档编号H04L29/06GK101547265SQ20081021709
公开日2009年9月30日 申请日期2008年10月20日 优先权日2008年10月20日
发明者王东琦, 詹五洲 申请人:深圳华为通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1