分布式音频控制方法、设备、系统以及软件产品的制作方法

文档序号:9931289阅读:630来源:国知局
分布式音频控制方法、设备、系统以及软件产品的制作方法
【专利说明】分布式音频控制方法、设备、系统以及软件产品
[0001]本发明涉及用于分布式音频控制的方法、设备以及系统。本发明还涉及相应的软件产品。本发明特别地适合于在开会应用中使用。
[0002]对于开会应用而言已经知道一个或多个多点控制单元(MCU)被用来控制来自多个音频源的音频。一般地,由客户端来表示每个音频源。多个客户端被连接到一个MCU。多个MCU可以被作为网或树或者在混合式网/树结构中被互连。如果正在建立大型电话会议,则对MCU的要求随着附着客户端的数目N而增长。尤其是对处理语音本身的多点处理器(MP)的性能和带宽要求随着每个附加的客户端而增长。如果更多的MCU被互连,则可以获得某种可量测性。然而,每个MCU引入不能被减小到几十毫秒以下的有效负荷延迟。因此,可量测性是有限的。
[0003]更具体地,图2示出了其中多点控制单元(M⑶)10控制多个客户端30(客户端1...客户端N)的在现有技术中包含的示例。在这里,采取数目为N的客户端30。(遍及本申请,总体上,将N称为要控制的客户端的数目。)在此配置中,如上所述,MCU性能是瓶颈以及MCU网络连接。
[0004]图3示出了其中每个控制多个客户端30的多个MCU10被以全网的形式互连的在现有技术中包含的另一示例。在此配置中,可以获得良好的语音延迟,因为语音延迟被限制到2 XMCU_delay。将注意到的是MCU互连的数目快速地增长,遵循关系m* = (MX (M -1)) /2,其中,m*是网中的所有M⑶之间的M⑶-M⑶互连的数目,并且M是网中的M⑶的数目。然后,在m**表示可能的MCU-MCU和MCU-客户端连接的最大数目的情况下,客户端N的最大数目Nmax被限制到约Nmax= ((m林 + I)2) / 4。
[0005]图4示出了其中每个控制多个客户端30的多个MCU10被以2层级树结构的形式互连的在现有技术中包含的另一示例。在此配置中,语音延迟随着层级的数目而增长,并且在本示例中是(3 XMCU_delay),其可以在接受的边缘上,或者在较少质量的网络上可以是不可接受的。再次地在m**表示MCU连接的最大数目的情况下,客户端的数目N被限制到约Nmax=m**X (m** -1) ο
[0006]上面描述的M⑶配置并未良好地进行缩放,因为每个M⑶包含抖动缓冲器和引入不能被减小的显著延迟的混频单元(mixing unit)。所有混频算法并未使用实际上所有输入流,而是选择其中的仅某些且只有那些被选择的流被混频。
[0007]根据W02012120240或US2013342639,已知要分配(视频)音频流的混频。存在一个主媒体服务器和一个或多个辅助媒体服务器。客户端被连接到这些服务器。主媒体服务器包括用以选择多个输入流的选择模块和用以创建包括所选流的聚合流的全局混频单元。辅助服务器包括用以对由主服务器的选择模块选择的输入流进行混频的本地混频单元。因此,提供混频单元的两个平面。
[0008]根据类似于US2013342639的EP2285106,分布式混频单元被公共应用服务器控制。如上面的,提供分布式混频。
[0009]US8437281公开了在网络中跨节点分布混频过程且其甚至可在末端节点(也称为端子(terminal))中发生。假若各种节点之间的有效负荷(或会话)路径是没有环路的,因为建立了具有一个根节点和多个叶节点的树分级。树的建立取决于节点进入会议的序列。
[0010]本发明的目的是提供用于分布式音频控制的方法、设备和系统,其能够至少部分地减轻如上面提到的现有技术的缺点。特别地,本发明的目的是提供用于分布式音频控制的此类方法、设备以及系统,其能够增强MCU结构的可量测性。
[0011]本发明的一个或多个上述目的至少部分地被独立权利要求的特征解决。在从属权利要求中阐述了本发明的有利实施例和进一步发展。
[0012]本发明的基本思想是流评估和选择可以是分布式的,并且中央混频节点仅仅接收预选流以用于最终混频。只有中央节点需要抖动缓冲器以根据接收到的分组(packet)来重构流。用于实现这个基本思想的重要工具是提供关于如何预选输入流的控制信息和自顶到底转送此类控制信息的分级结构。这允许结构化的顶到底控制,使得可由分布式处理资源在大多数可能的下级水平处完成数据分组的分析和预选,仍确保满足上级实体的需要。这通过在仍保持由上级实体进行的完全控制的同时将选择的能力转移到下级实体而确保只有所需的音频流被转送到上级实体。
[0013]因此,本发明的第一方面是一种用于处理源自于多个音频客户端的音频流的多点音频处理方法,所述方法包括要在分布式多点音频处理节点中执行的以下步骤:
接收关于如何从接收到的音频流中预选用于上游混频的音频流的控制信息;
从被连接到所述分布式多点音频处理节点的音频客户端接收音频流;
在每个音频流中,通过在至少一个音频通信特性方面分析从所述音频客户端接收到的所述音频流的分组并将所述分析的分析结果信息附着到所述分组来生成已评估音频流;基于所述接收控制信息和/或包含在所述已评估音频流中的所述分析结果信息,通过判定任何已评估音频流是否将在上游发射以用于混频来预选音频流;以及
发射被判定为要在上游发射的所述音频流,同时丢弃被判定为将不在上游发射的已评估音频流。
[0014]预选不需要被限制到整个音频流。还可例如通过帧速率、数据密度等来预选接收音频流的一部分以进行发射,丢弃其余部分。应注意的是音频流并未在此点处、即在分布式多点音频处理节点中被混频。
[0015]这个方面的方法还可包括将在所述分布式多点音频处理节点中执行的步骤: 将所述控制信息发送到被连接到所述分布式多点音频处理节点的一个或多个其它分布式多点音频处理节点;
从所述其它分布式多点音频处理节点接收音频流;以及
在上游发射从所述其它分布式多点音频处理节点接收到的所述音频流以用于混频,优选地预先在其上应用所述判定步骤,同时依赖于已经包含在从所述其它分布式多点音频处理节点接收到的所述音频流中的分析结果信息。
[0016]换言之,不需要使得从所述其它分布式多点音频处理节点接收到的音频流在接收到它们的分布式多点音频处理节点中经受另一评估步骤。然而,通过向其应用所述判定步骤,可以或不可以使得其为另一预选步骤的主体(subject),使得正如由已连接音频客户端直接地接收到的任何流一样,从另一分布式多点音频处理节点接收到的任何音频流是:
通过基于(从上游)接收到的所述控制信息和/或包含在其中的所述分析结果信息(即,从下游接收到的音频流)来判定其是否将被在上游发射以用于混频而被预选;并且只有其被判定将在上游发射才被在上游发射,而如果其被判定将不在上游被发射,则被丢弃。
[0017]本发明的另一方面是用于处理源自于多个音频客户端的音频流的多点音频处理方法,所述方法包括要在中央音频处理节点中执行的步骤:
将关于如何预选输入音频流的控制信息在下游发送到被连接到所述中央音频处理节点的一个或多个分布式多点音频处理节点;
从所述分布式多点音频处理节点接收音频流;以及
基于所述控制信息和/或包含在所述接收音频流中的关于接收音频流是否将被用于混频的任何分析结果信息,从所述接收音频流生成已混频音频流,优选地在采用抖动缓冲器的情况下,并且优选地预先判定。
[0018]可将此方面的方法与先前方面的方法步骤组合,而且实现本发明思想本身。在这里首要的是控制信息被自顶到底地分发,从中央音频处理节点开始。混频仅在中央节点处完成。不存在在中央节点中接收的流的评估。替代地,本方法依赖于任何音频流已在下级节点处被评估并预选的假设。源自于混频的抖动缓冲器的延迟将不通过多个混频级而总
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1