一种3d音频会议的信号处理方法、设备以及系统的制作方法

文档序号：7925992阅读：132来源：国知局

专利名称：一种3d音频会议的信号处理方法、设备以及系统的制作方法
技术领域：
本发明涉及音频处理领域，尤其涉及一种3D音频会议的信号处理方法、设备和系统。
背景技术：
音频会议系统，在会议的应用中越来越广泛，目前的音频会议系统通常是单声道或者双声道的，缺乏空间的临场感，并且在多点会议时，将各路声音混叠在一起，导致声音的清晰度下降。
现有技术中采用3D声处理对音频会议中的音频流进行处理，即通过为各个音频流分配的声像位置，以及根据各个声像位置的音频流的位置关系，调节所述音频流在左右声道的增益的大小，进而营造出一种立体的声响效果。
在如何进行3D音频会议的组网上，现有技术中的一种解决方案是采用分布式的组网结构，每个终端都需要接收其他终端的会议数据，然后对这些音频数据进行3D定位处理，以便使用户感知不同的音频流为来自不同的方位。参见图1，在图1中，终端2接收到终端1以及终端3的会议数据，终端2对这些音频数据进行3D定位处理，确定终端1以及终端3的方位。现有技术中另一种解决方案是采用集中式的组网结构，参见图2,在图2中的会议系统中，有一个服务器以及多个终端，所有的终端都将自身的音频数据发送给服务器，由服务器根据各个与会终端的情况，对发送到该与会终端的音频流进行3D定位处理，并将处理后的音频流发送到相应的与会终端。
在完成本发明的过程中，发明人发现现有技术至少存在以下问题现有技术中分布式3D音频会议，由于是通过在各个终端中分布处理的，需要许多条传输通道，因此只能适用于拥有几个会场的小型会议；现有技术中集中式3D音频会议，由于所有的处理都在服务器上进行，这样需要预先知道各个终端播放设备的配置，且终端也不能对其他终端的声像位置进行自由定位。

发明内容
本发明提供了一种3D音频会议的信号处理方法、服务器、终端及系统，以解决现有技术中存在的传输通道需求过多，且终端无法对其他终端的声像位置进行自由定位的问题。
本发明实施例提供一种3D音频会议的信号处理方法，该方法包括
针对一个终端获取相对于所述终端的音频流；
给所述获取到的相对于所述终端的音频流分配标识；
将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。
本发明实施例还提供一种3D音频会议的信号处理的服务器，包括
音频流荻取单元，用于针对一个终端获取相对于所述终端的音频流；
标识分配单元，用于给所述获取到的相对于所述终端的音频流分配标
识；
组合发送单元，用于将所述获取到的相对于所述终端的音频流以及所述
音频流对应的所述标识进行组合并发送给所述终端。
本发明实施例还提供一种实现3D音频会议的信号处理的终端，包括音频处理单元，用于/人获取到的分配标识的多路音频流提取标识信息，
并根据所述的标识信息对音频流进行分流，以及将所述多路音频流分别解
码；
声像位置分配单元，用于根据所述音频处理单元提取的标识信息对解码
后的所述多路音频流分配声像位置；
3D声处理单元，用于根据所述分配的声像位置对所述解码后的多路音频流进行3D声处理。
本发明实施例还提供一种3D音频会议的信号处理方法，所述方法包括对获耳又到的分配标识的多路音频流提耳又标识信息；根据所述的提取的标识信息对具有同一标识的音频流进行分流；根据所述提取的标识信息为各路分流后的音频流分配声像位置；将所述分流后的音频流进行解码，并根椐所述的音频流的声像位置信息，对所述解码后的音频流进行3D声处理。
本发明实施例还提供一种3D音频的会议系统，包括服务器，用于针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端；
至少一个终端，用于获取所述带有标识的音频流，提取所述音频流的标识，并根据所述的标识对所述的具有同一标识的音频流进行分流，根据所述提取的标识信息为各路分流后的音频流分配声像位置；将所述分流后的音频流进行解码，并根据所述的音频流的声像位置信息，对所述分流后的音频流进行3D声处理。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图1为现有技术采用的分布式3D音频会议系统的网络示意图2为现有技术采用的集中式3D音频会议系统的网络示意图3为本发明的方法实施例1的流程示意图；图4为本发明的方法实施例2的流程示意图5为本发明的方法实施例2对应的系统組网结构示意图6为本发明的方法实施例3对应的系统组网结构示意图7为本发明的方法实施例3的流程示意图S为本发明的方法实施例4对应的系统组网结构示意图9为本发明的方法实施例4的流程示意图10为本发明的方法实施例5的流程示意图11为本发明的方法实施例中3D声处理的结构示意图12为本发明的系统实施例1的结构示意图13为本发明的服务器实施例1的结构示意图14为图13所示的服务器实施例1中标识分配单元的结构示意图
图15为图14所示的标识分配单元中的标识分配模块的结构示意图
图16为图13所示的服务器实施例1中组合发送单元的结构示意图
图17为本发明的终端实施例l的结构示意图18为图17所示的终端实施例1中的音频处理单元的结构示意图;
图19为本发明的终端实施例2的结构示意图。
具体实施例方式
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
方法实施例方法实施例1
本发明的方法实施例1可以通过附图3进行说明 301 、针对一个终端获if又相对于所述终端的音频流;在实施301中，所述针对一个终端获取相对于所述终端的音频流具体为获取相对于所述终端的多路音频流的能量；根据所述获取的多路音频流的能量，选择能量最大的至少1路音频流；对所述选择出的音频流分配标识。
可以理解，针对一个终端获取能量最大的几路音频流只是一种实现的方式，也可以获取所有的音频流，其实现方式即不需要对能量进行计算，直接获取相关的音频流。 '.
302、给所述获取到的相对于所述终端的音频流分配标识；在实施302中，所述分配给相对于所述终端的音频流的标识，具体可以
采用会场号作为所述多路音频流的标识，当然，也可以由会议管理员人工的分配，或者由会议管理系统实时的分配。
可以理解，本发明的实施例中所述音频流的标识只是对所述音频流分配的一种代号，目的是为了区分出所述的音频流，因此，根据本发明的实施例能够得到其他的标识获取方法，对此，本发明的实施例不做限制。
303、将所述获耳又到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。
在实施303中，对于将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进4于组合的方式可以为以下方式
采用松散组合的方式，即对所述获取的音频码流不做任何更改，在对每帧音频数据进行协议封装时，在协议的包头里加上音频流的来源标识；
和/或
采用紧密组合的方式，即将所述荻取的单声道的音频码流进行编解码，将所述编解码后的单声道的音频码流整合成一个多声道的码流，在所述的多声道码流的帧头中增加多个声道对应的音频流来源标识。
需要说明的是，对于将所述的相对于所述终端的音频流与所述音频流对应的标识进行組合的方式，可以采用全部是松散组合的方式，也可以是全部是紧密组合的方式，还可以是松散组合与紧密组合相结合的方式。
音频流的标识可以在IP包的协i义包头，也可以在音频帧的帧头。采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
方法实施例2
本发明的方法实施例2主要针对单个服务器的情况的实施例方式进行说明，其处理过程可以通过附图4所画的流程图进行说明 401 、服务器获取所述的各个终端对应的音频流；
在实施401中，各个终端一般对应于各个会场，相应的终端获取相应会场的音频流，对应于各个终端的服务器获取到所述各个终端对应的音频流。
402、对所述获取到的音频流计算出其能量，并选择出能量最大的至少1 ^各音频流；
在实施402时，服务器将401中获取到的对应于各个终端的音频流分别进行能量的计算，根据能量计算的结果，选择出能量最大的至少1路音频流，作为最终被选择的音频流；
其中，在进行音频流能量的计算过程中，可以采用以下的方法
(1) 计算解码后的音频流在时域中一帧时间内的音频能量，计算多帧音频信号后取平均；或
(2) 计算解码后的音频流在频域中相应频域范围内的音频能量，计算多帧音频信号后取平均；或
(3 )对音频流的量化因子进行解码，从而估计出所述音频流的能量。上述对音频流能量的计算可以归纳为2类，一类是基于解码方式的计算方法，主要对应于(l) (2)两种方式，另外一类是基于非解码估计的方式，主要对应于(3)这种方式，之所以采用这两类方式进行音频流能量的估算，主要是由于针对不同的协议，对于一些音频协议(例如G.723.1协议、G.729 协议)，只有通过对音频流完全解码的方式才能够计算出所述音频流的能量，对于另外一些音频协议(例如G.722.1协议、AAC LD协议)，只需要对音频流的某些参数进行解码，就能够估计出音频流的能量。在估算出音频流的能量之后，根据音频会议的策略，可以选择出其中的能量最大的至少1路音频流作为被选择的音频流。
可以理解，上面对各路音频流的能量进行计算，从而选择出能量最大的至少l路音频流，只是选择音频流的一种实现方式，也可以不计算各路音频流的能量，而将所有的与会会场的音频流都作为被选择的音频流。
403 、获取被选纟奪的至少1路音频流对应的标识信息；在实施403中，针对上述被选择的至少l路音频流，获取其对应的标识信息。
其中，所述被选的音频流的标识信息具体可以采用会场号作为所述多路音频流的标识，当然，也可以由会议管理员人工的分配，或者由会议管理系统实时的分配。
可以理解，本发明的实施例中所述音频流的标识只是对所述音频流分配的一种代号，目的是为了区分出所述的音频流，因此，根据本发明的实施例能够得到其他的标识获取方法，对此，本发明的实施例不做限制。
404、将所述被选择的音频流与所述获取到的标识信息相组合；
在实施404中，将所述被选择的至少1路音频流，与所述获取到的被选择的音频流的标识信息进行组合。
其中，进行组合的方式包括
采用松散组合的方式，即对所述获取的音频码流不做任何更改，在对每帧音频数据进行协议封装时，在协议的包头里加上音频流的来源标识；和/或
采用紧密组合的方式，即将所述获取的单声道的音频码流进行编解码，将所述编解码后的单声道的音频码流整合成一个多声道的码流，在所述的多声道码流的帧头中增加多个声道对应的音频流来源标识。
需要说明的是，对于将所述的相对于所述终端的音频流与所述音频流对应的标识进行组合的方式，可以采用全部是+>散组合的方式，也可以是全部是紧密组合的方式，还可以是松散组合与紧密组合相结合的方式。405、将所迷与标识信息组合后的音频流根据相应的发送策略发送给对
应的各个终端。
在实施405中，将所述与标识信息组合后的音频流发送给对应的各个终端，具体可以采用如下的策略
即如果被选择出的音频流中包括某一个终端所获取的音频流，则发送给所述终端的音频流则是去除所述终端获取音频流的之后的其他被选择出的音频流；如果被选择的音频流不包括某一个终端所获取的音频流时，则发送给所述终端的是所有被选择的音频流。
为了更加清晰的说明这种音频流的发送策略，参考图5，对上述策略进行说明，图5中共包含4个终端以及一个服务器，其中，各个终端到服务器的虚线含义为各个终端将自身采集到的音频流上传给服务器，服务器到各个终端的实线含义为服务器将选择出的音频流下发给各个终端。假设经过服务器的计算，终端2、 3是能量最大音频流对应的终端，因此，服务器就将音频流2、 3分别下发给终端1和终端4,服务器将音频流3下发给终端2, 将音频流2下发给终端3。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
方法实施例3
本发明的方法实施例3主要针对多个服务器相级联的情况的实施例方式进行说明，其结构可以通过图6来说明
在图6中，我们可以看出共有三个服务器，以及四个终端，其中终端1 与终端2属于服务器2，终端3和终端4属于服务器3，服务器2与服务器 3通过服务器1级联在一起，其中，可以将服务器1看成是主服务器，而服务器2与服务器3看成是服务器1的从服务器。
对于多服务器相级联的情况，其处理过程为，参考图7的流程图
701、主服务器获取从服务器上传的音频流；702、所述主服务器对从所述从服务器获取到的音频流分解成多路音频
流，所分解出的音频流的路数为所述从服务器下的终端的个数；
在实施702中，由于所述从服务器获取到的音频流为所述从服务器的各个终端上传的，因此，所述从服务器可以根据具体的终端分解出不同的音频流。
703、所述主服务器对所述分解出的音频流计算出其能量，并选择出能量最大的至少1路音频流；
在实施703中，对所述分解出的音频流计算出能量，并选择出能量最大的至少1路音频流的实现过程类似于本发明的方法实施例2中的402，在此不再赘述。
704、获取;故选择的至少1路音频流对应的标识信息；
在实施704中，主服务器通过从服务器获取被选择的至少1路音频流对应的标识信息。其获取方式类似于本发明的方法实施例2中的403，在此不再赘述。
705、将所述被选择的音频流与所述获取到的标识信息相组合；在实施705中，由于本步骤的实现过程类似于本发明的方法实施例2中
的404，在此不再赘述。
706、将所述与标识信息组合后的音频流根据相应的发送策略发送给对应的各个终端。
由于本步骤的实现过程类似于本发明的方法实施例2中的405，在此不再赘述。
可以理解，本发明的方法实施例3只给出三个服务器构成的服务器级联的形式，对于更多服务器的级联，其实现的方式同样可以根据本实施例的过程来完成。
釆用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。方法实施例4
本发明的方法实施例4主要针对至少1个终端与多个服务器级联相结合的情况的实施例方式进行说明，其结构可以通过图8来说明
由图8可以看出，包含三个服务器，其中，服务器l为主服务器，服务器2与服务器3为从服务器，这三个服务器构成服务器级联的形式，另夕卜，图8共包括6个终端，其中，终端1、 2、 3、 4分别为从服务器2、 3的管辖之下，终端5、 6为直接与主服务器l相连的终端。
其实现过程为，参考图9:
901、主服务器获取从服务器上传的音频流以及所述主服务器所直接管辖的终端的音频流；
902、所述主服务器对从所述从服务器获取到的音频流分解成多路音频流，所分解出的音频流的路数不大于所述从服务器下的终端的个数；
在实施902中，由于所述从服务器获取到的音频流为所述从服务器的各个终端上传的，因此，所述从服务器可以根据具体的终端分解出不同的音频流。其中，所分解出的音频流的路数可以小于所述从服务器下的终端的个数，根据不同的终端是否发出声音来确定所分解出的音频流的路数，当一些终端无会场声音时，则所分解出的音频流的路数小于所述从服务器下的终端的个数。
903、所述主服务器对从所述从服务器获取到的音频流分解出的音频流以及从直接所管辖的终端获取的音频流分别计算能量，并选择出能量最大的至少1路音频流；
在实施903中，所述主服务器对从所述从服务器获取到的音频流分解出的音频流以及从直接所管辖的终端获取的音频流分别计算能量，并选择出能量最大的至少1路音频流的实现过程类似于本发明的方法实施例2中的402，在此不再赘述。
904、获取被选择的至少1路音频流对应的标识信息；
在实施904中，由于本步骤的实现过程类似于本发明的方法实施例2中的403，在此不再赘述。
905、将所述被选择的音频流与所述获取到的标识信息相组合；在实施905中，由于本步骤的实现过程类似于本发明的方法实施例2中
的404,在此不再赘述。
906、将所述与标识信息组合后的音频流^f艮据相应的发送策略发送给对应的各个终端或从服务器。
由于本步骤的实现过程类似于本发明的方法实施例2中的405,在此不再赘述。
可以理解，本发明的方法实施例4只给出三个服务器构成的服务器级联以及主服务器管辖的两个终端的形式，对于更多服务器的级联，以及主服务器管辖更多的终端的实现的方式，同样可以根据本实施例的过程来完成。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
方法实施例5
本方法实施例针对终端对接收到的音频流进行的处理，参看图10，其实
现过程具体为
1001 、对获取到的分配标识的多路音频流揭j又标识信息；
在实现1001中，可以从音频流的1P包的协议包头，或者从音频帧的帧
头获取所述的标识信息。
1002、根据所述的提取的标识信息对具有同一标识的音频流进行分流；在实现1002中，由于不同的音频流，其标识信息不相同，对于同一标
识的音频流进行分流，相同标识的音频流分配给同一个解码4莫块。
1003、根据所述提取的标识信息为各路分流后的音频流分配声像位置；在实现1003中，利用步骤1001提取出来的音频流的标识信息可以进行
声像位置的分配。
声像位置的分配可以通过用户预先指定，即某个声像位置固定分配给某一个终端，也可以自动分配，自动分配可以#~据以下原则进行
(1 )如果音频流对应的标识和正在观看的终端一致，则分配中间的声像位置，在图9中该位置即为电视机前的虚拟声像位置。采用这种方法分配的好处是，声像位置和正在观看的图像相匹配。
(2) 如果某终端的音频信号能量较大，则分配前面的声像位置，这样
可以保证远端说话人的声音来自前面。
(3) 如果某终端的音频信号能量较小，则分配两侧的声像位置，这样的
终端可能只是噪声，分配在两侧可以让噪声和远端说话人的声音分离的较开，从而保证说话人声音的清晰度。
1004、将所述分流后的音频流进行解码，并根据所述的音频流的声像位置信息，对所述解码后的音频流进行3D声处理。
在实现1004中，对于步骤1002中根据相同的标识信息分配在同一音频流的音频流进行解码，利用1003分配的声像位置信息，对所述的解码后的音频流进行3D声处理。
本发明的方法实施例都用到了 3D声处理，其他地方不再赘述。3D声处理的目的是通过利用左右两个音箱来营造出一个立体声场，3D声处理的具体过程可以通过如下的例子进行说明，参见图11:
在图11中，扬声器pl、 p2之间的距离为d，虚拟声像vl距离扬声器 pl之间的距离为w，假设某个音频流sl分配的声像位置为vl，则可将sl乘上增益gl输送到pl, sl乘上增益g2输送到p2， gl、 g2可按下式计算 Wd = (gl-g2)/(gl + g2) (1) c = glxgl+g2xg2 (2) 公式(l)、 (2)中gl是左声道幅度增益，g2是右声道幅度增益，c 是一个固定值，例如可以等于l。
当计算出左右声道的增益信息时，就能够模拟出立体的声场。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。系统实施例系统实施例1
本发明的系统实施例可以通过附图
服务器1200，用于针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端；
至少一个终端1300，用于获取所述带有标识的音频流，提取所述音频流的标识，并根据所述的标识对所述的具有同一标识的音频流进行分流，根据所述提取的标识信息为各路分流后的音频流分配声像位置；将所述分流后的音频流进行解码，并根据所述的音频流的声像位置信息，对所述分流后的音频流进行3D声处理。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
系统实施例2
参考图6结构图，在系统实施例1的基础上，本系统实施例包括一个主服务器，即图6中的服务器1，用于针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端，还用于将所述至少一个从服务器的经过组合后的带标识的所述音频流分解为多路音频流；至少一个从服务器，即图6中的服务器2与服务器3，用于获取其自身管辖的终端或其他服务器的音频流，并将所述获取到的音频流与所述音频流的标识进行组合。
釆用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。装置实施例服务器实施例
本实施例主要提供一种实现3D音频会议的信号处理的服务器，所属服务器包括，参考图13:
音频流获取单元1210,用于针对一个终端获取相对于所述终端的音频流；标识分配单元1220，用于给所述获取到的相对于所述终端的音频流分配标识；组合发送单元1230，用于将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送纟会所述终端。
其中，标识分配单元1220具体包括，参考图14:音频流能量获取模块 1221 ，用于获取相对于所述终端的多路音频流的能量；音频流选择模块1222 ，用于根据所述获取的多路音频流的能量，选择能量最大的至少l路音频流；标识分配模块1223，用于对所述选择出的至少l路音频流分配标识。
标识分配模块1223具体包括，参考图15:会场号获取子模块12231，用于获取所述的能量最大的至少l路音频流各自所在会场的会场号；会场号分配子模块12232,用于将所述会场号获取子模块获取的所述能量最大的至少1路音频流各自所在会场的会场号分配给所述音频流。
所述组合发送单元1230具体包括以下模块，参考图16:第一组合模块
1231, 用于对所述被选的音频码流不做任何更改，在对每帧音频数据进行协议封装时，在协议的包头里加上音频流的来源标识；和/或第二组合模块
1232, 用于将所述被选的单声道的音频码流进行编解码，将所述编解码后的单声道的音频码流整合成一个多声道的码流，在所述的多声道码流的帧头中增加多个声道对应的音频流来源标识。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
设备实施例设备实施例1本发明实施例还提供一种实现3D音频会议的信号处理的终端，参考图 17，包括
音频处理单元1310，用于/人获取到的分配标识的多路音频流提取标识信息，并根据所述的标识信息对音频流进行分流，以及将所述多路音频流分别解码；
声像位置分配单元1320，用于根据所述音频处理单元提取的标识信息对解码后的所述多路音频流分配声像位置；
3D声处理单元1330,用于根据所述分配的声像位置对所述解码后的多路音频流进行3D声处理。
在实现本发明实施例的过程中，所述音频处理单元1310具体包括参考图18:标识提取模块1311,用于从获取到的分配标识的多路音频流提取标识信息；分配模块1312,用于根据所述的提取出的标识信息分配音频流；解码模块1313,用于将所述多路音频流分别解码。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
设备实施例2
在上述设备实施例1的基础上，所述终端还可以包括，参考图19:音频信号获取单元1340，用于获取所述会场的音频信号；音频编码单元1350, 用于对获取到的音频信号进行编码。
采用本发明实施例的技术方案，使得终端能够根据接收到的其他终端的音频流以及音频流所分配的标识，对其他终端的声像位置进行自由的定位。
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。
权利要求
1、一种3D音频会议的信号处理方法，其特征在于，所述方法包括针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。
2、根据权利要求1所述的信号处理方法，其特征在于，所述针对一个终端获取相对于所述终端的音频流具体为获取相对于所述终端的多路音频流的能量；根据所述获取的多路音频流的能量，选择能量最大的至少l路音频流；对所述选"^奪出的音频流分配标识。
3、根据权利要求2所述的信号处理方法，其特征在于，所述给所述获取到的相对于所述终端的音频流分配标识，具体为采用会场号作为所述多 if各音频流的分配标识。
4、根据权利要求1或2所述的信号处理方法，其特征在于，所述将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合具体包括以下方式采用松散组合的方式，即对所述获取的音频码流不做任何更改，在对每帧音频数据进行协议封装时，在协议的包头里加上音频流的来源标识；和/或采用紧密组合的方式，即将所述获取的单声道的音频码流进行编解码，将所述编解码后的单声道的音频码流整合成一个多声道的码流，在所述的多声道码流的帧头中增加多个声道对应的音频流来源标识。
5、根据权利要求2所述的信号处理方法，其特征在于，所述获取相对于所述终端的多路音频流的能量可以采用以下方法的一种计算解码后的音频流在时域中一帧时间内的音频能量，计算多帧音频信号后取平均；或计算解码后的音频流在频域中相应频域范围内的音频能量，计算多帧音频信号后取平均；或对音频流的量化因子进行解码，从而估计出所述音频流的能量。
6、根据权利要求1或2所述的信号处理方法，其特征在于，所述针对一个终端获取相对于所述终端的音频流具体包括以下几种方式中的一种在单个服务器的情况下，获取多个终端的分别发送的音频流；或在多个服务器级联的情况下，获取经过所述的多个服务器分解后的多个终端的分别发送的音频流；在至少一个终端以及多个服务器级联并存的情况下，获取所述至少一个终端发送的音频流，以及获取经过所述的多个服务器分解后的多个终端的分别发送的音频流。
7、一种实现3D音频会议的信号处理的服务器，其特征在于，所述服务器包括音频流获取单元，用于针对一个终端获取相对于所述终端的音频流；标识分配单元，用于给所述获取到的相对于所述终端的音频流分配标识；组合发送单元，用于将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。
8、根据权利要求7所述的服务器，其特征在于，所述标识分配单元具体包括音频流能量获取模块，用于获取相对于所述终端的多路音频流的能量；音频流选择模块，用于根据所述获取的多路音频流的能量，选择能量最大的至少1路音频流；标识分配模块，用于对所述选择出的至少1路音频流分配标识。
9、根据权利要求8所述的服务器，其特征在于，所述标识分配模块具体包括会场号获取子模块，用于获取所述的能量最大的至少l路音频流各自所在会场的会场号；会场号分配子模块，用于将所述会场号获取子模块获取的所述能量最大的至少1路音频流各自所在会场的会场号分配给所述音频流。
10、根据权利要求7或8所述的服务器，其特征在于，所述组合发送单元具体包括以下模块第一组合模块，用于对所述被选的音频码流不做任何更改，在对每帧音频数据进行协议封装时，在协议的包头里加上音频流的来源标识；和/或第二组合模块，用于将所述被选的单声道的音频码流进行编解码，将所述编解码后的单声道的音频码流整合成一个多声道的码流，在所述的多声道码流的帧头中增加多个声道对应的音频流来源标识。
11、一种实现3D音频会议的信号处理的终端，其特征在于，包括音频处理单元，用于从获取到的分配标识的多路音频流提取标识信息，并根据所述的标识信息对音频流进行分流，以及将所述多路音频流分别解码；声像位置分配单元，用于根据所述音频处理单元提取的标识信息对解码后的所述多路音频流分配声像位置；3D声处理单元，用于根据所述分配的声像位置对所述解码后的多路音频流进行3D声处理。
12、根据权利要求11所述的终端，其特征在于，所述音频处理单元具体包括标识提取模块，用于从获取到的分配标识的多路音频流提取标识信息；分配模块，用于根据所述的提取出的标识信息分配音频流；解码模块，用于将所述多路音频流分别解码。
13、根据权利要求11所述的终端，其特征在于，所述终端还包括音频信号获取单元，用于获取所述会场的音频信号；音频编码单元，用于对获取到的音频信号进行编码。
14、一种3D音频会议的信号处理方法，其特征在于，所述方法包括对获取到的分配标识的多路音频流提取标识信息；根据所述的4是取的标识信息对具有同一标识的音频流进行分流；根据所述提取的标识信息为各路分流后的音频流分配声像位置；将所述分流后的音频流进行解码，并根据所述的音频流的声像位置信息，对所述解码后的音频流进行3D声处理。
15、根据权利要求14所述的信号处理方法，其特征在于，所述根据所述的提取的标识信息对具有同一标识信息的音频流进行分流具体为读取音频流中的标识信息；根据读取到的所述标识信息的音频流分配到具有相同标识信息的音频流通道中。
16、一种3D音频的会议系统，其特征在于，包括服务器，用于针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端；至少一个终端，用于获取所述带有标识的音频流，提取所述音频流的标识，并根据所述的标识对所述的具有同一标识的音频流进行分流，根据所述提取的标识信息为各路分流后的音频流分配声像位置；将所述分流后的音频流进行解码，并根据所述的音频流的声像位置信息，对所述分流后的音频流进行3D声处理。
17、根据权利要求16所述的会议系统，其特征在于，所述服务器为主服务器，所述会议系统还包括至少一个从服务器，用于获取其自身管辖的终端或其他服务器的音频流，并将所述获取到的音频流与所述音频流的标识进行组合；所述主服务器，还用于将所述至少一个从服务器的经过组合后的带标识的所述音频流分解为多路音频流。
全文摘要
本发明实施例提供一种3D音频会议的信号处理的方法、系统与设备，其实现过程为针对一个终端获取相对于所述终端的音频流；给所述获取到的相对于所述终端的音频流分配标识；将所述获取到的相对于所述终端的音频流以及所述音频流对应的所述标识进行组合并发送给所述终端。采用本发明的技术方案，能够解决现有技术中存在的传输通道需求过多，且终端无法对其他终端的声像位置进行自由定位的问题。
文档编号H04L29/06GK101547265SQ20081021709
公开日2009年9月30日申请日期2008年10月20日优先权日2008年10月20日
发明者王东琦, 詹五洲申请人:深圳华为通信技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹五洲;王东琦
技术所有人：深圳华为通信技术有限公司
我是此专利的发明人

上一篇：一种远端摄像机的控制方法、系统和装置的制作方法
上一篇：一种串口多用户操作的方法及其装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。