用于执行分布式视频会议的系统和方法

文档序号：7607909阅读：286来源：国知局

专利名称：用于执行分布式视频会议的系统和方法
技术领域：
本发明一般地涉及通信领域，更具体而言，涉及用于执行分布式视频会议的系统和方法。
背景技术：
在通信环境中，联网体系结构和视频会议领域已经变得越来越复杂。另外，想要在这种环境中通信的客户端或终端用户的增加已致使很多联网配置和系统通过添加元件以适应于联网流量的增长来作出响应。可使用通信隧道或链路以便建立通信流，从而终端用户或对象可发起视频或音频会话，以辅助特定呼叫或会议。通信体系结构中选中的位置可被访问或指定，以进行通信会话。然后选中的位置或网络点可提供一个平台，终端用户可使用该平台来执行通信会话。
传统的视频会议方法是使用集中式多点控制单元(MCU)。这种方法建立了从端点到会议服务器的媒体流，其中流可被混合，然后作为单独的流被发送回端点。(例如)混合可包括合成，从而创建四个视频流的二乘二合成。这些子流中的每一个可在适当时被锁定到特定用户或被语音切换。其他可能的合成可以是一乘一、一乘二、三乘三等。在这种视频会议场景中，定时和同步精确是很关键的。另外，在尝试提供最佳视频会议时，应当承认和意识到带宽考虑。因此，提供一种有效机制以适当地引导终端用户/端点的通信或提供优化带宽特性和参数的适当协议的能力对网络操作者、组件制造者和系统设计者提出了重大挑战。

发明内容
本领域的技术人员可从前述内容中意识到，需要一种改进的通信方法，这种方法提供更适当的数据路由选择过程，以实现视频会议环境中的最优数据管理。根据本发明的一个实施例，可提供一种用于执行分布式视频会议的系统和方法，其大大减少了与传统信息分布技术相关联的缺点和问题。
注意为了清晰论述，理解本会议体系结构中提供的某些组件将会是有益的。一般而言，可以提供网络核心和网络边缘。一个或多个端点可经由媒体交换机附接到分布式多点控制单元(MCU)。媒体交换机可提供从网络边缘到网络核心的接口。在核心中，媒体分布可被优化，从而这种优化对于端点可能是透明的。核心分布可以是切换型的或固定的。
根据本发明的实施例，提供了一种用于执行视频会议的方法，该方法包括接收来自一个或多个端点的与视频会议相关联的一个或多个音频流，并且确定与所述端点之一相关联的活动说话者。与活动说话者相关联的音频信息可在一个或多个媒体交换机处被接收。除与活动说话者相关联的被选中的视频流之外，其他所有视频流可被抑制，被选中的视频流在视频会议期间传播到所述媒体交换机中的一个或多个媒体交换机。被选中的视频流可被复制，以便它可被传输到与所述媒体交换机中被选中的一个媒体交换机相关联的所述端点中的一个或多个端点。
本发明的某些实施例可提供多个技术优点。例如，根据本发明的一个实施例，提供了一种视频会议体系结构，其允许在视频会议期间向参与者提供服务和特征主机。例如，端点可以在任何适当时刻选择锁定到会议的特定参与者。被锁定的端点可将固定视频(FV)流以流方式传输到会议。在多个端点希望锁定到相同参与者的情况下，它们可预订相同的流，或者信令可在媒体交换机之间被交换以建立适当的单播流。从而，每个端点可接收FV和切换型视频(SV)流的混合。或者，端点可选择不接收任何SV流，而是只接收特定参与者的FV流。在另一种场景中，端点接收到的SV流不是基于活动音频说话者而是基于其他标准被切换的，所述其他标准例如是控制共享白板的个人。调解器也能够选择在适当时切换视频源。在其他实施例中，可向视频会议的参与者提供媒体服务主机(例如经由媒体桥)。
与本发明的一个实施例相关联的另一个优点涉及体系结构的允许更经济的视频会议配置的能力。本发明的体系结构在音频桥和视频桥不一定都位于同一给定网络设备上时提供了视频会议的音频/视频同步。本体系结构所提供的能够负担得起的桌上型视频会议将会向许多试图执行最优会议场景的人提供可行的解决方案。此外，这种可负担性可能引起视频会议的增值，从而使这种技术普遍存在并广为接受。
与本发明的一个实施例相关联的另一个优点涉及其灵活性。本体系结构可允许适当使用已经处于适当的位置的网络基础设施，而不是使用指定产品或其他设备来实现视频会议操作。另外，每个用户可通过选择不同的FV和SV流子集而具有会议的定制视图。此外，利用这种配置易于支持遗留端点，同时允许增强型端点提供附加服务。在其他场景中，可支持遗留多点控制单元(MCU)以进行合成，从而保护任何初始设备投资。在其他场景中，这种实现方式对编解码器是不可知的(codec-agnostic)。从而，在新编解码器(例如H.264)的上下文中，这些编解码器可在无需更新整个网络基础设施的情况下被部署。也可通过抑制流和使用多播来使带宽利用率最小化。这种实施例将会系统地实现大型桌面视频会议。本发明的某些实施例可享受这些优点中的某些或全部，或不享受这些优点。从以下附图、描述和权利要求中，本领域的技术人员可以很容易看出其他技术优点。

为了更全面地理解本发明及其特征和优点，结合附图参考以下描述，附图中类似的标号代表类似的部件，其中图1A是根据本发明一个实施例的用于执行分布式视频会议的通信系统的简化框图；图1B是示出与通信系统中包括的一个或多个媒体交换机相关联的示例性体系结构的简化框图；图2A-C是示出先前的体系结构中已部署的若干个视频会议网络拓扑的简化框图；图3是工作在呼叫管理器环境中的示例性组件配置的简化框图；以及图4是示出与根据本发明的一个实施例的用于执行分布式视频会议的方法相关联的一系列示例性步骤的流程图。
具体实施例方式
图1A是用于在网络环境中传输数据的通信系统10的简化框图。通信系统10包括多个端点12，这些端点在图1A中被示为代表各种设备和组件(例如音频互联网协议(IP)电话、视频电话用具、基于个人计算机(PC)的视频电话和流式客户端)。通信系统10还可包括多个网关20，这些网关20经由公共交换电话网(PSTN)30提供到彼此的连通性。通信系统10还可包括多个媒体交换机26(在本文献中可将其缩写为MS)，这些媒体交换机可耦合到彼此、耦合到网关20以及耦合到各种端点12。另外，通信系统10可包括可耦合到媒体交换机26的一组呼叫代理34(例如集中式呼叫管理器)。此外，通信系统10可包括任何数目的合适的应用(例如会议管理器(CM)、视频会议安排器、用户会议控制、目录服务、网络管理工具等)。
在通信系统10的上下文中，视频会议可定义为视频流集合。这些流可被分类为固定视频(FV)和切换型视频(SV)流。在会议持续期间，FV流源自相同的源，而在相同的会议期间，SV流可能源自不同的源。从一个给定端点到另一个的源切换可由若干标准(例如活动音频说话者、控制共享白板的个人、调解器的选择等等)之一来控制。作为会议的一部分的每个端点12可接收会议中的所有流的子集。端点接收到的特定子集向用户提供了该端点的会议体验，并且对于不同端点可能是不同的。
图1A一般可被配置或布置为用不同的呼叫控制协议体系结构来布置，从而适应于集中式发起协议(SIP)体系结构(例如集中式呼叫处理场景)或分布式体系结构。根据本发明的特定实施例，此体系结构所暗示的配置变化可能影响应用、呼叫控制和媒体层。
根据本发明的教导，通信系统10提供了能够有效分布视频会议数据的平台。端点12可被给予选择限定其用户经历的固定或切换流的子集的机会。可基于多种因素来切换流，所述多种因素包括活动音频说话者、优化带宽利用率和其他有关参数，这些参数可能是基于特定用户或配置需求的。网络基础设施可用于实现会议、流式传输或按需视频。
可实时创建会议以使用任何可用MCU而不是特定MCU。通信系统10可以免除对中央MCU的依赖性，并且还可在整个网络中分布视频处理功能。通信系统10还可优化带宽利用率，并提供集中式MCU方法不可能实现的一定程度的定制化。
通信系统10提供了允许更经济的视频会议配置的通信方法。当音频桥和视频桥不需要共同位于同一网络设备上时，通信系统10提供了视频会议的音频/视频同步。注意，视频桥不是所有场景(例如由语音激活的会议)中必要的。本体系结构所提供的能够负担得起的桌面视频会议向任何试图执行最佳会议的实体提供了可行的解决方案。另外，这种可负担性能够引起视频会议的增殖，从而使这种技术普遍存在并广为接受。
通信系统10还提供了灵活的体系结构。本体系结构可允许适当使用已经就位的网络基础设施，而不是使用指定产品。另外，每个用户可通过选择不同的FV和SV流子集而具有定制的会议视图。此外，利用这种配置易于支持遗留端点，同时允许增强型端点提供附加服务。在其他场景中，可支持MCU合成，从而保留任何初始设备投资。在其他场景中，这种实现方式是编解码方式不可知的。从而，在新编解码方式(例如H.264)的上下文中，这些编解码器可在无需更新整个网络基础设施的情况下被部署。也可通过抑制流和使用多播来使带宽利用率最小化。这种实施例将会系统地实现大型桌面视频会议。
在涉及媒体层的示例性实现方式的操作中，端点音频和视频流可在端点12和与它们相关联的媒体交换机26之间传输。音频和视频流可在网络核心中独立地被路由，其中音频流依赖于能够访问单个会议内的所有音频流的中央说话者选择功能。视频流遵循MS之间的优化的路由选择路径，其中在会议管理应用的控制下在必要时插入了视频处理(即速率转换和代码转换)。此体系结构允许了基于网络和基于端点的视频处理。使用集中式音频说话者选择方案能够使该体系结构允许视频路由选择和切换被优化，从而导致了显著的带宽优化，这是因为质量“好”的视频流一般需要较大量的带宽。音频说话者选择机制是集中式的；这不意味着音频混合需要是完全集中式的，即使完全集中式由于其延时的减小以及对依赖于中央混合器的遗留音频设备的服务而可能代表着最常见的部署。
根据通信系统10的第一实施例，实现了具有集中式音频的由语音激活的会议。在此实施例中，来自所有端点12的音频流(既有仅限音频的(audio-only)，也有具有视频能力的)可被发送到中央音频混合器，在这里确定活动说话者。然后此信息被传播到所有媒体交换机26。媒体交换机26可抑制除活动说话者的视频流之外的所有视频流，并且活动说话者的视频流被用SSM(源特定多播)传播到会议中的所有MS。每个媒体交换机26复制它自己所有的本地端点的视频流，这些本地端点可能是会议的一部分。或者，在媒体交换机26和其本地端点之间可使用多播。音频混合可以是集中式的或分布式的；该体系结构不要求集中式音频。
注意通信系统10不必抑制音频流它抑制视频流。另外，抑制可以在媒体交换机26处完成，从而端点12不需要改变或被修改以适应这种操作。另外，活动说话者可以是仅限音频的端点，在这种情况下最后的视频流继续被传播。此外，活动说话者可以接收与最后的视频说话者相对应的视频流。
根据通信系统10的第二实施例，端点12可选择锁定到会议的特定参与者。此能力可通过单独的接口来提供，或者它可以是增强型端点处的端点功能的一部分。另外，由于带宽和其他约束，不是所有端点12都可能具有锁定的能力。可以被锁定的端点12可将FV流以流方式传输到会议。注意FV-SV流的区别以及用于传播此流的SSM对于端点本身是不可见的。此功能可在媒体交换机26中实现。在多个端点希望锁定到相同的参与者的情况下，它们可预订相同的SSM流，或者可以在媒体交换机26之间交换信令以建立适当的单播流。从而，每个端点12可接收FV和SV流的混合。端点可选择不接收任何SV流，而是只接收特定参与者的FV流(例如具有问题和答案会话的讲课模式，其中端点可选择只接收讲课的说话者并收听问题的音频)。视频合成FV流代表视频端点可选择不接收任何SV流的情况。
根据通信系统10的第三实施例，端点接收到的SV流不是基于活动音频说话者而是基于其他标准被切换的，所述其他标准例如是控制共享白板的个人。或者，调解器可选择在适当时切换视频源。在单个会议中可能有多个SV流，它们可使用不同的标准来切换源。端点可选择接收会议中的一个或多个SV流，或不接收会议中的SV流。
根据通信系统10的第四实施例，媒体变换器(例如代码转换器、速率转换器和合成服务)可被包括在会议中以提供有关媒体服务。这些媒体变换器例如可用作媒体桥。支持多个速度/格式的会议可被支持。相同的会议可以有128K版本和384K版本，这些版本可能是单独的子会议。速率转换器可被包括在两个子会议中，并且将一个会议的输出的速率转换成另一个的。这可能对SV会议起作用，但是FV流可利用其自己的速率转换器。从而，媒体变换器可被用于此体系结构中的方法可以依赖于变换的特定需求，并且多个方法可被同时使用。其他媒体变换器可包括用于广播会议以及类似的服务的互联网协议(IP)/电视(TV)广播服务器。遗留MCU(例如Radvision MCU)可用作这种体系结构中的合成服务器以提供合成服务。
端点12各自代表希望在通信系统10中发起通信或参与视频会议会话的一个终端用户、客户端或顾客。端点12可包括用于发起(或参与)通信的设备，例如计算机、个人数字助理(PDA)、膝上型或电子笔记本、电话、移动站、音频IP电话、视频电话用具、基于个人计算机(PC)的视频电话、流式客户端或任何其他能够发起通信系统10内的语音、视频或数据交换的设备、组件、元件或对象。端点12还可包括适当的到人类用户的接口，例如麦克风、显示器、键盘、白板、视频会议接口或桥或者其他终端设备。端点12还可以是任何试图代表另一实体或元件发起(或参与)通信的设备，例如程序、数据库、应用、软件片段或任何其他能够发起通信系统10内的语音、视频或数据交换的组件、设备、元件或对象。此文献中使用的“数据”是指任何类型的数值、语音和音频、视频、视听或脚本数据，或任何类型的源或目标代码，或任何其他采取能够从一个点传输到另一点的任何适当格式的适当信息。
如上所述，在通信系统10的体系结构中可支持多种端点。遗留音频设备可以与有遗留(或新视频)能力的端点相混合。遗留端点可以以使得其服务要求可被满足的方式被连接。对于需要语音激活服务的端点，可利用智能媒体交换，除非存在要求视频速率转换器被插入在媒体路径中或由于编解码器不兼容而需要视频代码转换器的带宽约束。对于辅助多个并发视频图像的遗留端点，具有视频合成能力的MS可基于网络上的可用流提供合成视图。
能够处理多个视频流的较新的端点可经由具有多个视频流的呼叫，以它们能够接收若干个FV和/或SV流的方式连接到相关联的MS。如果这些设备支持IP多播，则它们也能够连接到位于相同网络上的由单个MS服务的其他高级端点(经由IP多播)，同时也预订说话者选择信息分布，以便在确定任何时刻显示哪些视频流方面获得帮助。
在示例性实施例的操作中，端点12可通过呼叫或被引导到视频会议应用而加入视频会议。端点呼叫可经历集中式呼叫处理。从而，通信系统10可支持瘦小客户端控制协议(skinny client control protocol，缩写为SCCP)和H.323，以及SIP端点。如果H.323端点支持空能力集，或者如果使用了媒体端接点(MTP)，则H.323端点可加入会议按钮型会议。
每个有视频能力的端点可将其所有音频和视频流发送到其本地分配的MS，或从该MS接收其所有音频和视频流。仅限音频的端点可将其音频流发送到分配给会议的中央音频桥，或从该中央音频桥接收音频流。还可提供策略引导器，以向各个端点提供策略，以指定允许哪种类型的端点视频定制(例如窗口数目和类型)。这与允许端点请求的带宽预留量有直接关系。
为了保护对传统网关(音频和视频)或MCU的任何投资，本体系结构足够灵活以至于能够很容易地与大量元件合作。网关可以起类似可支持多个呼叫的H.323端点的作用。传统MCU(例如思科IP/VC 35XX)也可充当提供视频合成服务的特殊端点。
媒体交换机26(在本文献的某些段落中缩写为“MS”)可以是向会议管理器提供控制接口的设备。每个媒体交换机26可执行多个功能。每个媒体交换机26可在启动时注册其能力，该能力可包括任何以下媒体处理功能1)音频混合，其混合最响亮的说话者的音频，将最响亮的说话者的信息分布到其他MS[一般，音频桥还提供音频代码转换作为混合的一部分，以便允许使用不同编解码器的端点自然加入相同的会议，而无需外部代码转换器。]；2)音频代码转换，其提供可被其他没有必要资源(例如DSP)的网络设备用来自行执行音频代码转换的音频代码转换(编解码器转换)服务；3)视频合成，其通过创建一组参与者的合成视频(即好莱坞广场场景)来处理视频[一般，视频合成还可提供视频速率转换和代码转换，以便允许使用不同速率或编解码器的端点自然加入相同的会议，而无需外部速率转换器或代码转换器。]；4)视频速率转换，其提供可被其他没有必要资源(例如DSP)的网络设备用来自行执行视频速率转换的视频速率转换(通过改变视频量化参数减小带宽)服务；5)视频代码转换，其提供可被其他没有必要资源(例如DSP)的网络设备用来自行执行视频代码转换的视频代码转换(编解码方式转换)服务；6)媒体交换，其代表网络边缘(朝向端点)和网络核心(朝向其他媒体交换机)之间的接口。
视频分布和抑制功能被称为媒体交换功能，并且此功能可在整个网络内的媒体交换机26中实现，或者与视频桥14和音频桥16结合实现，而无需涉及任何媒体交换机26。仅出于提供一个示例的目的，已描述了图1A的实施例，该实施例包括媒体交换机26的潜在活动角色。还要注意，虽然后续操作和能力是参考媒体交换机26来描述的，但是这些功能也易于由音频桥16或视频桥14(或其任何组合)来执行。仅出于教导目的，已参考媒体交换机26描述了这种能力。
另外，诸如路由器、交换机和无线接入点之类的现有网络设备可提供MS功能，因为通信系统10不一定需要视频数字信号处理器(DSP)。MS功能可作为软件(在一个示例中)特征被包括在诸如思科IOS、思科CatOS之类的网络操作系统中，或任何其他通用操作系统中。端点12可连接到离它最近的媒体交换机26，并向其发送它们的音频和视频流。对于给定端点，媒体交换机26可提供MCU功能，从而会议的分布式性质对于端点是不可见的。遗留H.323端点可参与分布式会议，而在端点方不需要改变。这些端点可称为MS的本地端点。视频流可以以多种方式来分布。一种体系结构可使用源特定多播(SSM)，但是通信系统10允许通用多播、单播隧道上的单播或多播，或其他适当的用作分布机制的协议。
基于MS设备所执行的服务，这种应用可能有益于视频处理DSP、音频处理DSP，或没有DSP。将上述功能中的若干个结合到单个网络设备中允许任何媒体传输中涉及的呼叫腿(call leg)的数目减小，这在某些实施例中可避免过度的延迟。
作为媒体交换功能的一部分，MS可负责复制分组，以散开单向视频流，以便参与相同会议的所有其他MS都可接收到它们。呼叫腿(输入或输出)中的任何一个可使用点对点或多播呼叫腿，从而允许网络基础设施利用网络核心处的IP多播，如果这种IP多播可用的话(或者在其他场景中允许点对点呼叫网的反转)。边缘传输机制独立于核心传输机制。
图1B是示出与通信系统10中包括的一个或多个媒体交换机26相关联的示例性体系结构的简化框图。可以提供视频桥14和音频桥16，以便在适当时作为一个媒体交换机26或多个交换机的服务。这些元件可被包括在一个或多个媒体交换机26内，或者构建为要被包括在媒体交换机26的核心之中的单个模块，如图1B所示。这两个元件在阴影框中示出，以便表示其放置和定位上的巨大灵活性。例如，这些元件可以是专用桥或其自己单独的组件、设备或模块的一部分。正如下文中更详细描述的，其他应用可将这些元件包括在媒体交换机26或网关20内，或包括在任何其他适当位置中。可部署包含视频桥接功能的端点。
根据本发明的一个实施例，每个媒体交换机26可包括视频桥14和/或音频桥16，或被视频桥14和/或音频桥16所取代。或者，这两个元件可被定位在任何适当的位置中，或者在外部提供，以便视频桥14和音频桥16中的每一个可以是分离的(有可能是集中的)组件、设备或模块，或者在适当时基于特定需求被组合。例如，音频桥16和视频桥14可被提供在路由器、网关、交换机、负载平衡器中，或者提供在可用于辅助其操作的任何其他适当的位置中。在替换实施例中，每个媒体交换机26可包括任何其他可用于辅助视频会议能力及其操作的适当的硬件、软件、算法、处理器、设备、组件、对象、专用集成电路(ASIC)或元件，正如本文献中所述。
每个音频桥16和视频桥14可分别配备有音频混合器和视频混合器。注意，在工业中的某些情况下，诸如“视频混合器”和“音频混合器”这样的术语表示相同的含意，并且是可互换使用的。但是，视频混合器(本文献中使用的)被定义为处于术语“视频桥14”的范围内。术语“音频桥”和“音频混合器”可以类似地解释。在本发明的特定实施例中，每个音频桥16和视频桥14可包括适当的软件，以提供分布式视频会议的能力，或执行如这里所描述的通信系统10的操作。在其他实施例中，这些功能可被提供在给定的网络元件(如上所述)内，或者由适当的硬件、算法、处理器、设备、ASIC、组件、对象或元件所执行。注意，这些元件的任何组合也可被用于通信系统10内的视频会议的给定应用中。
在仅出于示例目的而提供的特定的详细实现方式的操作中，给定端点可发起与多个其他端点的通信。在此示例性场景中，三个端点试图连接到视频会议。控制这些端点的给定媒体交换机(出于简化目的，可假定所有端点都在相同的媒体交换机处注册)可将每个端点连接到中央音频桥和分离的中央视频桥。
中央音频桥可识别每个端点的适当的抖动缓冲器的大小，并且可将音频数据发送到抖动缓冲器。当全部三个端点都已连接且耦合到抖动缓冲器时，音频桥可将抖动缓冲器的输出加在一起，从而创建具有唯一的输出网络时间协议(NTP)时间戳的单个经混合的音频流。然后音频桥可确定每个输入音频流的输入到输出映射将每个输入流的NTP时间戳映射到经混合的输出流。然后音频桥可将映射发送到视频混合器。
视频混合器可接收这些流，并延迟每个流，以便输入到输出映射可被再现(并且同时通过将延迟之一设置为零来使总延迟最小化)。从而，视频混合器可确定哪个视频流最后到达，并适当延迟所有其他的流，以便每个视频流的输入到输出映射被匹配到相应音频流的输入到输出映射。然后可通过混合经延迟的视频流来创建经混合的输出视频流。来自音频混合器和视频混合器的输出可被发送回媒体交换机以及每个端点，以便辅助同步视频会议。
这种操作示出了即使在音频混合器和视频混合器存在于不同设备上的情况下如何实现同步。这是音频和视频混合器的行为的结果，从而音频混合器可测量变换，而视频混合器可利用变换数据。视频混合器可以使输入流偏斜，以便使视频混合器的相对延迟与音频混合器的相对延迟相匹配。通信系统10也通过视频混合器使总延迟最小化。
在通信系统10的体系结构中，具有视频能力的端点可直接与呼叫代理交换信令消息(利用H.323、SIP、SCCP+)，但却使其媒体流被引导到分配给端点位置的本地MS。音频和视频流都可在不了解网络实际在何处路由或处理媒体的情况下连接到本地MS。这允许网络核心以不同方式实现视频会议服务，而不影响端点12的操作。
音频流可被媒体交换机连续传播到音频混合器，以用于基于能量级别的说话者选择。音频分布可将点对点双向流用于其所有连接，而视频分发依赖于媒体交换机之间的单向连接。
PSTN 30代表世界范围的电话系统，其可操作以用于执行或辅助通信。PSTN 30可以是任何可操作以用于辅助两个实体(例如两个人、人和计算机、两个计算机)之间的通信的陆地线路电话网络，或者PSTN 30可以被提供在出于通信目的而交换数据的任何其他环境中。PSTN 30可以工作于无线域中，以辅助多个端点12之间的数据交换，或者通信系统10内部或外部的其他适当的实体之间的数据交换。PSTN还可以是任何局域网(LAN)、城域网(MAN)、广域网(WAN)、无线局域网(WLAN)、虚拟专用网(VPN)、内联网或任何其他适当的辅助网络环境中的通信的体系结构或系统，或者与任何局域网(LAN)、城域网(MAN)、广域网(WAN)、无线局域网(WLAN)、虚拟专用网(VPN)、内联网或任何其他适当的辅助网络环境中的通信的体系结构或系统协同工作。
图2A-2C是示出过去已部署的若干个视频会议网络拓扑的简化框图。图2A-2C分别示出了集中式单播、分布式单播和分布式多播体系结构。这些体系结构只是出于教导目的而提供的，以便提供例示通信系统10的某些操作和能力的基础。因此，相应的论述不应当(以任何方式)限制通信系统10的原理或应用的范围。
图2A-2C的传统体系结构有若干缺点。例如，在分布式单播和分布式多播体系结构中都会经历相当大的带宽拥塞。从遗留端点支持的角度来看，这两个体系结构也是受限制的。另外，在集中式单播系统中，可缩放性是有限的。在这些系统中的某些中，诸如唇形同步之类的特性是可接受的，但是同时也必然遭受着上述缺陷。
图2A的集中式单播体系结构是最常用的体系结构。它提供了设计简单性，但是通过向每个端点复制每个流而消耗了过量的带宽。这限制了它对于WAN部署的可缩放性。图2B的分布式单播体系结构可优化用于各个媒体流的路由选择路径，因此减小了网络延迟，但是它却有过量带宽消耗的问题，这是因为所有端点一般都接收所有其他流，而不论这些元件是否需要，这不仅限制了其可缩放性，而且还不提供与遗留H.323端点和网关的协同工作能力。尝试减小每个流的带宽以补偿流数目可能降低质量。
图2C的分布式多播体系结构与分布式单播体系结构类似，并且具有避免复制相同的流的额外优点。但是，它也依赖于向某些端点发送不必要的流，这导致了带宽过量和可缩放性降低。
通信系统10可通过提供一种分布式MCU网络体系结构来消除这些问题，该体系结构能够1)通过利用智能视频分布和多播来降低WAN流量，其中智能视频分布和多播分别避免了传输未被查看的流和消除了被查看的流的复制；2)通过使视频处理减到最少并优化其路由选择来使视频延迟最小化(与分布式视频多播实现方式类似)；3)提供H.323遗留端点支持；4)提供独立于端点的唇形同步(以补偿独立路由的音频和视频流)；以及5)支持高级网络服务(例如服务质量(QoS)、SSM)。
除了这些特性外，通信系统10的教导还允许以下能力1)对用于基础服务的视频编解码器不可知(允许迅速部署新的视频编解码器)；2)将网络服务更新和开发与端点开发隔离开来；3)允许一定范围的新端点具有更高级服务；以及4)为高级服务(视频邮件、记录、广播、流式传输等等)提供框架。
通信系统10提供了一种智能网络核心，这种网络核心能够向遗留的以及新的高级端点提供视频会议服务。通信系统10还可将复杂性与端点隔离开来，以便允许与遗留终端的协同工作能力，而不排除可用于新的智能灵活端点的新的服务集合。此外，通信系统10具有除企业视频会议之外的多个应用，这些应用是用此体系结构实现的。例如，通信系统10可用于1)呼叫中心监管者监视和会议；2)分布式安全摄像机监视(例如允许各个单元监视分布在整个城镇中的一组摄像机中的任何一个的警察部门应用)；3)以流方式传输到视频会议中；以及4)视频会议广播。
通信系统10的体系结构可适应于不同的呼叫控制模型。例如，通信系统10可以是在集中式呼叫处理环境中被建模的。在这种模型中，集中式呼叫处理集群为网络边缘提供呼叫处理和呼叫控制服务，而会议管理器应用控制MS之间的流式传输。这是通过与集中式呼叫处理集群(用于呼叫许可控制、带宽预留、MS注册和安全服务)和MS(用于网络核心媒体分布和处理)两者交互的会议管理器应用来实现的。在集中式呼叫处理环境的上下文中，体系结构可包括多层a)边缘层(其中呼叫和媒体被建立在端点和媒体设备之间)；以及b)核心层(其中会议端点所生成的媒体被分布在MS之间，以便基于会议的媒体策略最终到达对查看流感兴趣的端点)。注意由于对媒体处理层而不是信令层的应用，核心和边缘层实施例还适用于分布式模型。媒体流还可能被中间MS所分布和处理，以适应一个会议内的不同端点能力(例如视频速率转换、视频代码转换、视频合成)。
通信系统10还可以很容易地被应用到纯SIP环境。在这种体系结构中，会议管理器应用(代表SIP焦点服务)直接与SIP端点和MS(代表SIP级联混合器)用信号进行通信。
注意，通信系统10一般可能不知道会议是预先安排的(安排的会议)，还是在会议启动时建立的(自组织式会议)。由运行在最高级的应用(例如集中式呼叫处理会议按钮型、集中式呼叫处理Meetme(自满足)型、安排器型、预留较少Meetme型等等)来决定将这种服务提供给终端用户，同时与会议管理器应用交互以便递送它们。
图3是用于通信系统10的示例性集中式呼叫处理应用的简化框图。注意图3的实施例提供了可以很容易地适应在通信系统10中的多种实现方式中的一种实现方式。其他实施例包括可用于实现通信系统10提供的优点的分布式体系结构。这种配置可在不使用呼叫管理器的情况下工作。当在集中式呼叫处理环境中实现时，集中式呼叫处理内的位置可被均衡，以管理低带宽链路上的带宽预留。注意位置之间的中心-辐条式(hub andspoke)配置可被集中式呼叫处理位置概念正确支持。图3包括可参与视频会议建立的一组位置(或一个中心和一组辐条配置)40a-c。位置40a可包括耦合到视频媒体交换机44的媒体交换机音频桥42。视频媒体交换机44可操作以用于与集中式呼叫处理集群70以及对等视频媒体交换机68(位置40c的一部分)和包括在位置40a内的视频端点48通信。
位置40b可包括视频媒体交换机50，其可操作以用于将聚集核心视频数据传输到视频媒体交换机44。视频媒体交换机50还可将核心音频数据传输到媒体交换机音频桥42。视频媒体交换机50还可与一组视频端点54和58交换信息或数据，该组视频端点54和58可被包括在位置40b内。这三个组件(视频媒体交换机50以及视频端点54和58)可操作以用于与集中式呼叫处理集群70通信。注意与图3的配置的其他适当的通信也是可能的，如图中的连接线段所示。还要注意，已提供了密钥以便提供系统中可交换的数据的某些示例性类型，但是也可以很容易地适应其他类型的数据(或任何适当组合)。
位置40c可包括IP电话60(用于此示例性场景中)、视频端点64和视频媒体交换机68。IP电话60可以与集中式呼叫处理集群70以及媒体交换机音频桥42通信。注意耦合视频端点64和集中式呼叫处理集群70的H.323链路。(H.323是被国际电信联盟(ITU)批准的促进经由IP网络的视频会议传输中的兼容性的标准。H.323被视为用于音频、视频和数据传输以及因特网电话和IP语音(VoIP)中的协同工作性的标准，因为它解决了点对点和多播会议的呼叫控制和管理，以及媒体流量、带宽和用户参与的网关管理。H.323描述了终端网络设备和服务之间如何发生多媒体通信，它是被称为H.3x的用于多媒体协同工作性的更大的ITU建议群组的一部分)。
在集中式呼叫处理环境中，集中式呼叫处理可处理端点和系统应用之间的边缘层处的呼叫路由选择、呼叫建立以及媒体建立。对于边缘呼叫，呼叫信令可被系统应用终止，而媒体可在具有视频能力的端点的视频MS处或仅限音频的端点的MS音频桥处被终止。对于核心层，集中式呼叫处理(至少)可以是BW管理器以及应用和媒体设备之间的网关(CTI到瘦小网关)。
会议管理器应用充当系统会议的控制器和集合点。就H.323来说，此应用充当多点控制器(MC)。它具有以下功能1)终止来自/去往端点(边缘层)的所有呼叫[注意用于创建和加入会议的实际呼叫流程依赖于所创建的会议的类型。]；2)分配自组织式会议资源，例如视频MS和音频桥MS。[所安排的资源可由安排应用来分配。]；3)控制会议的媒体策略[媒体策略确定谁能够看到和听到会议内发生的内容。]；4)管理核心层中的带宽(与集中式呼叫处理相结合)；以及5)利用CTI控制媒体资源(视频MS和音频桥MS)的核心部分。
在一个涉及经安排的会议的示例性操作的操作中，经安排的会议是由用户用web接口建立的。会议ID被分配给该会议。当安排会议时，用户可指定日期/时间、会议中的用户数目以及从何处呼叫。集中式呼叫处理位置信息可被提供给用户。此信息可用于检查位置中的系统会议桥资源和带宽资源。用户还可以指定用于此会议的视频编解码器。
在另一个涉及“预留较少meet-me型会议”的示例性实施例的操作中，这种场景与经安排的会议类似。可用web接口创建会议。在预留较少会议的情况下，可在用户加入会议可不是会议被安排时创建会议。“MeetMe按钮”型会议可以用以下方式来实现。第一参与者按下电话上的“MeetMe”按钮，并拨打MeetMe号码。MeetMe型会议被创建并且用户加入会议。其他参与者可直接拨打MeetMe号码以加入MeetMe按钮型会议。
在另一种涉及会议按钮型会议的示例性操作的操作中，为了将第三个参与者添加到双方呼叫中，双方呼叫参与者之一(会议发起者)按下会议按钮，然后拨打第三方。一旦第三方应答会议，发起者就按下会议按钮。现在，所有的三个参与者都可以在会议中。如果需要添加第四方，则会议参与者可以进行相同的操作序列来添加第四个参与者。
说话者选择信息可被分布到所有MS，即使是那些不具有音频处理能力的MS。此信息可被所有MS实时更新并用于对所有DM呼叫腿的视频进行过滤。
边缘呼叫路由选择解决如何在端点及与其相关联的MS之间建立媒体呼叫腿的问题。可以直接在端点(例如电话、网关等)和用于音频混合的音频媒体处理器之间建立用于没有视频能力的设备的音频流。但是，对于有视频能力的设备，可引入中间MS(与端点属于相同区域)，以便提供更精细的音频和视频服务(例如唇形同步、视频路由选择、智能视频分布等等)。
DM视频流可共享出口呼叫腿。从端点的角度来看，存在单个连接，并且来自多个端点的视频流基于所选策略(例如说话者选择信息)依次经过该连接。由于出口呼叫腿是分离的呼叫腿，因此其时间戳信息是由出口MS生成的，并且不直接对应于传入流的时间戳。
由于音频的中央混合，因此对音频代码转换器的需求是通过了解主叫端点和MS音频桥的能力、位置和区域来确定的。此信息都是在呼叫开始时被了解的，并且在会议存在期间是静态的。从而，音频代码转换器或者可以是MS音频桥内暗含的，或者可以被集中式呼叫处理自动插入作为边缘呼叫的一部分。音频代码转换器可被集中式呼叫处理插入在IP电话和MS音频桥之间的边缘呼叫中。
从音频观点来看，仅限音频端点和视频端点之间的一个差异是终止边缘呼叫的媒体的位置。在第一种情况下，音频在音频桥上被终止，因而集中式呼叫处理具有正确建立音频代码转换器所需的所有信息。在第二种情况下，音频在边缘视频MS上被终止，然后被应用分布到MS音频桥。从而，为了使集中式呼叫处理正确建立音频代码转换器，边缘MS视频必须报告音频部分的音频桥的(以及视频部分的视频MS的)音频能力、位置和区域信息。对于集中式呼叫处理来说，视频MS看起来可能像两个设备，并且集中式呼叫处理可能能够为每个呼叫维护两个不同的媒体路径一个用于音频，一个用于视频。另一种替换方案是允许视频流直接去到MS音频桥。
主叫者也可用可扩展标记语言(XML)应用加入视频会议。用户可在XML应用中输入会议ID。应用获得主机名和会议ID。利用主机名进行数据库查找，以获得电话的媒体资源群组列表(MRGL)。如果存在足够的资源，则应用获得参与者ID并将被拨打的号码发送到XML应用。被拨打的号码可包含会议ID和参与者ID。
利用web入口或交互式语音响应(IVR)入口，呼叫可到达会议路由点。当呼叫到来时，应用已经知道电话的MRGL。应用可从MRGL中选择MS，并为呼叫分配MS视频端口和MS音频端口。应用请求ACB(应用控制桥)终止MS视频端口处的呼叫，并将MS视频能力传递给ACB。视频能力可依赖于会议创建期间会议创建者所指定的内容。应用将呼叫和分配给参与者的音频端口通知给MS。应用还将呼叫通知给MS音频桥。视频交换MS可接收呼叫并将流传递给音频桥MS。
如果主叫者不支持视频(到应用的新呼叫事件可具有关于端点是否支持视频的信息)，则可分配音频桥MS端口，并且应用可在该端口处终止呼叫。对于涉及预留较少“Meet Me”型会议的场景，这种情况与经安排的会议类似。会议是用web接口创建的，并且会议可在用户加入会议时而不是会议被安排时被创建。IVR可以与经安排的会议类似，并且呼叫流程可以与经安排的会议类似。
端点12可将会议软键用于会议按钮型音频会议。发起端点的设备能力(以及MRGL)可被用于确定用于会议的桥的类型(否则就是具有视频能力的端点和音频桥的视频切换功能)。当会议软键被按下时，会议特征查询桥控制以获得可用会议端口。桥控制查询MRGL中的有序桥列表，以获得自由会议端口。如果可获得端口，则桥返回DN。会议特征将呼叫重定向到此DN。
类似的方法可用于安排自组织式视频会议。当会议软键被按下时，会议特征查询有序MS列表以获得自由会议端口。MS又查询当前的体系结构应用，以获得可用端口。如果资源可用，则应用返回路由点的DN以及会议ID。呼叫被重定向到路由点DN，并且应用获得建立会议的机会。
不同机制可用于核心中的媒体分布。来自启用视频的端点的音频流可被从边缘视频MS分布到分配给会议的音频桥MS。混合音频流可被从音频桥MS分布到与启用视频的端点相连的边缘视频MS。来自仅限音频的设备的音频流可在边缘层而不是核心层中被处理，因为它们可被直接传输到音频桥。
RTP/用户数据报协议(UDP)/IP单播流可用于实现音频分布。边缘视频MS和音频桥MS之间的音频连接/流的数目与发送音频(并且连接到该边缘MS)的启用视频的端点的数目相等。类似的，音频桥MS和边缘视频MS之间的音频连接/流的数目与接收音频(并且连接到该边缘MS)的启用视频的端点的数目相等。
仅限音频的端点的音频代码转换可由集中式呼叫处理在边缘层中处理。对于视频端点，应用可在视频边缘MS和音频桥MS之间插入必要的音频代码转换器。以下是可被应用用来确定是否需要代码转换器以及何处需要代码转换器的因素的示例如果主叫端点和音频桥MS都在相同位置处并且不存在被两个设备支持的满足区域间要求的公共音频编解码器，则在这两个设备之间可插入代码转换器。
在语音激活的会议中，除了持续看到最后的说话者的当前说话者以外，所有参与者都看到当前说话者。这意味着最后的说话者持续将其视频流只发送到单个端点(当前说话者)。为了避免在整个网络内对两个流进行多播(这将需要过量的带宽预留)，最后的说话者可以只向当前说话者发送其流。最后说话者的流可遵循多播路径到达其目的地，以便排除对进一步带宽预留的需要。最后的说话者可发送其DM视频流，作为遵循与先前的多播流所遵循的路径相同的路径的单播流。由于对于每个会议只需要单个代表最后的说话者的单播流，因此对于每个会议，可为每个媒体交换机预留单个RTP UDP端口，该端口可以是最后的说话者的视频被单播到的端口。
网络中的每个呼叫腿可使用不同的传输协议，而不影响网络的其余部分或携带相同流的其他呼叫腿。通过将网络核心与端点隔离开来，内部传输机制的变化可不影响边缘MS和端点之间的通信。
为了利用LAN中的网络带宽，具有IP多播能力的端点可以通过本地MS以流方式将视频传输到彼此，而不引入额外的呼叫腿。为了使得IP多播端点能够与网络中的其他参与者通信，本地MS可以是启用了IP多播的，以便经由网络基础设施转发LAN视频流量(以及经由本地LAN对远程视频流进行多播)。注意，任何本地MS都可以向多播端点输出说话者选择信息，以帮助他们从多个LAN多播流中作出选择。
视频快速更新和流程控制消息可由边缘呼叫腿(从端点到MS)上的标准机制(H.245和SCCP)携带。由于集中式呼叫处理和会议应用都不具有关于网络核心中切换的视频源的实时知识，因此实时控制消息的中继传递可绕开呼叫控制元件，而在MS之间直接流动。
在MS处可打开UDP控制端口，以便允许此控制通信。相同的控制端口可被用于快速更新、流控制、FECC(远端摄像机控制)以及所需的任何其他MS间实时控制协议，假设该控制协议能够携带多个更高层协议。在集中式呼叫处理故障恢复的情况下，快速更新和流控制可能停止工作，因为这些信号可能经由用于边缘呼叫腿的集中式呼叫处理传输。对于使用基于RTP的机制来传输这些信号的新的视频端点，在故障恢复之后服务仍可用。
由于这种体系结构导致源流被多个接收者所接收，因此可能不希望使用流控制消息，这是因为单个接收者可能影响所有其他会议参与者所看到的图像。因此，体系结构可以仍允许使用此机制，但是可以向系统管理员提供策略选择选项以禁用其使用。
在(端点和MS之间的)网络边缘处的FECC消息流的上下文中，FECC消息利用标准专属格式连接流经H.224RTP流。此单个控制信道可用于控制属于相同呼叫的所有RTP视频流(本地流ID被用于选择视频流)。H.224信道建立是初始呼叫建立消息的一部分。
在(MS之间的)网络核心中，在每个MS上打开单个UDP控制端口，并且此控制端口可被共享，以便控制与此MS相关联的所有端点。此控制端口是结合第一SSM多播呼叫腿的创建而建立的。
对于FM视频流，核心视频呼叫腿(到视频发起MS的呼叫)和边缘呼叫腿(到视频接收端点的呼叫)之间的映射是静态的且易于识别的。对于DM视频流，映射依赖于当前活动的流，这个当前活动的流为视频接收MS所知。FECC消息(初始和后续，即使视频源选择策略指示变化)可被路由到当前视频发起MS。
如果MS FECC UDP控制端口是动态分配的，则在每个MS中可维护MS(单播IP地址)到FECC UDP控制端口映射表。此表可从负责建立核心呼叫腿的中央会议应用下载。为了使与中央应用的交互次数最小化并加速FECC初始通信，端点能力可被缓存在靠近端点的MS中。
在端点加入会议时，一个示例性的操作流程(由于它涉及FECC)中的事件序列如下1.当客户端加入会议时，在端点和分配的MS之间建立边缘呼叫腿，包括FECC信道和端口号；2.相关联的MS加入会议并且MS UDP FECC控制端口被建立；3.会议应用为新加入的MS更新相同会议内的所有MS中的映射表；4.MS可取得摄像机能力，并缓存/存储它以供后用；5.远程端点处的用户经由其H.323附件Q/H.242边缘连接调用FECC特征；6.远程MS经由MS之间的FECC协议从与受控端点相关联的MS取得摄像机能力；7.然后两个MS传递(利用可能的消息转换(ISDN/H.323.Q))FECC命令；以及8.对于语音激活的会议，调用FECC以用于远程摄像机的参与者可继续看到选中的参与者，而不考虑由于新的说话者被选中因而其他视频流被激活。为了避免影响正在进行的会议，单独的单播流可被发送到调用FECC功能的参与者。此机制与最后说话者单播视频流功能类似。
利用此体系结构，视频处理被简化到最低限度的水平。如果不需要视频速率转换并且所有端点共享相同的编解码器，则基础设施不需要执行媒体处理。只要可在端点之间交换呼叫建立能力，则除了相关联的带宽问题和在交换视频流时需要识别I-帧以外，正在使用任何类型的视频编解码器这一事实不会影响网络处理。视频源切换超时的实现确保了如果在给定时间量(例如两秒)中未找到I-帧，则确保在分组丢弃状态以及使用新的视频编解码器的情况下操作保持可靠。
新的智能端点可能能够接收多个流并选择和显示它们的子集。通过在端点中执行此功能，用户可定制他看到的内容。在基于PC的软件端点的版本中，终端用户可能能够建立任何数目的视频窗口，并指定在每个窗口中看到的内容。选项包括1)当前说话者，2)最后的说话者，3)倒数第二个说话者，以及4)特定参与者。集成会议参与者目录服务可允许终端用户选择任何参与者，以便在示出单个用户或位置的窗口中查看。
但是，对于遗留端点，网络可提供合成服务。这可以通过具有视频合成能力的集中式MS、通过分布式MS体系结构或通过充当端点的传统MCU来实现。对于集中式MS实现方式，呼叫处理服务可将所有有关流连接到视频合成MS(用于VAS窗口的DM流和用于特定参与者的FM)，然后视频合成MS又可创建新的视频表示方式，该视频表示方式作为单独的视频流对于整个网络中任何需要它的端点都是可用的。此视频合成MS还可预订说话者选择分布服务，以便确定任何时刻要混合的正确视频流。
对于分布式MS实现方式，每个参与的MS可能需要具有视频DSP。中央应用可通过指示每个参与的MS创建合成视图的单个子窗口来协调合成视图。对于DM流，单个MS可预订所有DM流，以便创建具有多路参与者的新的流。对于FM流，与被查看的参与者相关联的入口MS可以是生成靠近源的子窗口的良好候选者。然后出口MS可预订每个感兴趣的窗口，并将其视频流混合/映射到出口呼叫腿中。然后端点可具有连续的流，其中每个视频分组只更新合成视图的特定部分，但是不一定要意识到这一点。
对于传统MCU充当端点的模型，会议管理器应用可在网络核心中创建新的媒体流，所述新的媒体流可以是来自H.323MCU的视频流之一(所有视频流看起来都应当是相同的)，而其余视频流和所有音频流可以被MS丢弃。所有希望看到视频合成的端点可接收新近可用的视频合成作为FM流。
视频代码转换和速率转换与音频混合和视频合成的不同之处可能在于它们只处理单个输入流。由于本体系结构引入了一般不活动的动态映射(DM)流的概念，因此需要进行优化以便使网络中代码转换/速率转换资源的使用达到最小限度。由于此原因，代码转换/速率转换器可支持多个流可连接到单个代码转换/速率转换DSP信道的情况，这将会使DSP处理功耗最小化。
这些代码转换/速率转换服务可由以下设备提供1)为另一个不具有代码转换/速率转换能力的MS提供代码转换器/速率转换器服务的MS，2)作为MS交换/映射服务的一部分的嵌入式代码转换器/速率转换器(这避免了为此服务使用专用呼叫腿)，或者3)充当特殊端点的传统H.323视频设备(MCU或速率转换器/代码转换器)。
为了使传统H.323视频设备能充当速率转换/代码转换端点，本体系结构会议管理器可能知道以下事实可能存在提供这些视频服务的特殊端点。为了使传统MCU能提供速率转换/代码转换服务，可建立双方会议。对于充当专用(单个流)代码转换器/速率转换器的H.323设备，可在相关联的MS和端点之间建立单个连接、DM或FM。
本体系结构可向启用了RTCP或未启用RTCP的端点提供唇形同步服务。当为未启用RTCP的端点提供唇形同步时，网络核心(入口和出口MS之间的连接和服务)用于确保一起到达入口MS的相关分组也同时离开出口MS。对于具有RTCP能力的端点，RTCP可被用于端点和MS之间的边缘连接上，或被携带着贯穿核心。
为了允许不同源之间的清洁视频图像转换，切换可发生在I-帧边界处。I-帧一般远大于中间的P-帧这一事实(以及端点通常调整其比特率传输以符合给定最大极限这一事实)造成I-帧的传输花费长得多的时间并导致帧速率暂时下降。就在新视频源被显示之前，终端用户可能注意到具有任何高度运动的视频流冻结。这在现有的集中式MCU中也是常见的。
为了避免视频源切换之前的这种冻结，可使用允许突发流量的IP通信系统。如果入口MS缓冲所有I-帧IP分组直到接收到最后的片段为止，则到该时刻为止它可延迟先前的流切断通知，然后突发所有的I-帧IP分组，以便以网络带宽尖峰为代价来维护平稳的帧速率。为了使这些重要的I-帧分组被带宽策略代理丢弃的可能性达到最小，可以为这些分组提升DSCP优先级。
由于本体系结构中的视频切换的分布式性质，以及由于可能没有预先得知参与者发出呼叫的位置这一事实，预留资源以用于将来的会议可能不像集中式会议的资源预留那么简单。以下元件可能存在于本体系结构中并且被考虑用于预留目的1)音频混合器；2)音频代码转换器；3)视频混合器；4)视频处理器(速率转换器/代码转换器)；5)音频/视频网关；6)MS视频切换能力；以及7)WAN带宽。除非预先得知可能的主叫者和视频混合器的位置，否则唯一的易于安排的资源就是集中式音频混合器。
图4是示出与执行分布式视频会议相关联的一系列示例性步骤的简化流程图。该流程图可开始于步骤100处，在这里视频会议被与通信系统10的给定端点相关联的参与者所发起。在步骤102处，来自所有端点12的音频流(既有仅限音频的，又有具有视频能力的)被发送到中央音频混合器，在这里确定活动说话者。然后此信息被传播到所有媒体交换机26。
在步骤104处，媒体交换机26可抑制除活动说话者的视频流外的所有视频流，并且活动说话者的视频流可被传播到会议中的所有MS(例如用SSM)。在步骤106处，每个媒体交换机26复制它自己所有的本地端点的视频流，这些本地端点可能是会议的一部分。在其他场景中，在媒体交换机26和其本地端点之间可使用多播协议。在通信系统10内，音频混合可以是集中式的或分布式的。在步骤108处，端点12可选择锁定到会议的特定参与者。此能力可通过单独的接口来提供，或者它可以是增强型端点处的端点功能的一部分。可以被锁定的端点12可将FV流以流方式传输到会议。此功能可在媒体交换机26中实现。在多个端点希望锁定到相同的参与者的情况下，媒体交换机26可预订相同的SSM流，或者可在媒体交换机26之间交换信令以建立适当的单播流。从而，每个端点12可接收FV和SV流的混合。
步骤110反映了端点的以下能力可选择不接收任何SV流，而是只接收特定参与者的FV流(例如具有问题和答案会话的讲课模式，其中端点可选择只接收讲课的说话者并收听问题的音频)。提供了步骤112以例示切换SV流时涉及的灵活性。端点接收到的SV流不一定是基于活动音频说话者的，而是基于其他标准的，例如控制共享白板的个人。或者，正如步骤114所反映的，调解器可选择在适当时切换视频源。在单个会议中可能有多个SV流，并且不同的标准可被用来切换源。端点可选择接收会议中的一个或多个SV流，或不接收会议中的SV流。
步骤116代表一个通信系统10向视频会议的参与者提供一种或多种媒体服务的能力。从而，通信系统10可具有媒体变换器(例如代码转换器、速率转换器和合成服务)以提供有关媒体服务。
图4中示出的某些步骤在适当时可被改变或删除，并且额外的步骤也可被添加到流程图中。这些变化可以是基于特定通信体系结构的，或者基于相关联的元件的特定接口布置和配置的，而并不脱离本发明的范围或教导。意识到图4只示出通信系统10的多种可能的实现方式中的一种是很重要的。
虽然已经参考视频会议通信详细描述了本发明，但是通信系统10可用于涉及任何通信环境中的流式信息的路由选择、映射或重定向的任何协议。任何适当的涉及两个或多个参与实体的通信都可受益于本发明的教导。视频会议通信的使用只是出于教导目的而提供的，而不应当被解释为以任何方式限制本发明的范围。
此外，虽然本发明是参考包括在通信系统10内的多个元件来描述的，但是这些元件可以以任何合适的方式被重新布置或定位，以适应于任何适当的路由选择配置。另外，在适当时，这些元件中的任何元件可作为通信系统10外部的分离组件或彼此分离的组件来提供。例如，在可操作以用于执行这里所述的分布式视频会议的操作的单个模块或组件中，可在媒体交换机26内部或外部提供视频桥14或音频桥16。本发明预期了这些元件及其内部组件的布置的巨大灵活性。
本领域技术人员会想到多种其它的改变、替换、变化、变更和修改，并且希望本发明包含落入所附权利要求范围内的所有这样的改变、替换、变化、变更和修改。为了帮助美国专利和商标局(USPTO)以及在此申请上公布的任何专利的任何读者理解所附权利要求，申请人希望注意，申请人(a)不希望所附权利要求中的在本申请的申请日存在的任何权利要求援引35U.S.C.112条第六(6)款，除非“用于...的装置”或“用于...的步骤”专门用在该特定权利要求中；并且(b)不希望以说明书中的任何陈述以任何没有以其它方式反映在所附权利要求中的方式来限制本发明。
权利要求
1.一种用于执行视频会议的装置，包括音频混合器，其可操作以用于接收来自一个或多个端点的与视频会议相关联的一个或多个音频流，并且确定与所述端点之一相关联的活动说话者；以及一个或多个媒体交换机，其可操作以用于接收与所述活动说话者相关联的音频信息，其中所述媒体交换机中的一个或多个媒体交换机可操作以用于抑制除与所述活动说话者相关联的被选中的视频流之外的一个或多个视频流，所述被选中的视频流在所述视频会议期间传播到所述媒体交换机中的一个或多个媒体交换机，并且其中所述媒体交换机中被选中的一个媒体交换机可操作以用于复制所述被选中的视频流以便它可被传输到与所述被选中的媒体交换机相关联的所述端点中的一个或多个端点。
2.如权利要求1所述的装置，其中所述被选中的视频流在所述视频会议期间利用多播协议传播到所述媒体交换机中的一个或多个媒体交换机。
3.如权利要求1所述的装置，其中在所述被选中的媒体交换机和与所述被选中的媒体交换机相关联的所述端点之间执行多播和单播操作中被选中的那个操作。
4.如权利要求1所述的装置，其中被选中的媒体交换机可操作以用于使与所述视频会议相关联的所述端点中的被选中的一个端点能够锁定到所述视频会议的参与者，所述被选中的端点传播与所述视频会议相关联的固定视频(FV)流。
5.如权利要求1所述的装置，其中被选中的媒体交换机可操作以用于控制所述端点中被选中的一个端点是接收FV流、切换型视频(SV)流还是其任何组合。
6.如权利要求1所述的装置，其中所述端点中被选中的一个端点不基于所述活动说话者接收SV流，并且其中所述媒体交换机中被选中的那个媒体交换机可操作以用于使得所述端点中被选中的一个端点能够基于被选中的白板控制特征接收所述SV流。
7.如权利要求1所述的装置，其中所述媒体交换机中被选中的一个媒体交换机可操作以用于使得所述视频会议的调解器能够控制视频源以便所述端点中被选中的一个端点接收由所述调解器确定的被选中的视频流。
8.如权利要求1所述的装置，还包括媒体桥，其可操作以用于为所述视频会议提供一种或多种媒体服务，以便所述媒体服务中的一种或多种媒体服务被递送到所述端点中的一个或多个端点。
9.如权利要求8所述的装置，其中所述媒体桥包括媒体变换器、代码转换器和速率转换器中被选中的一个或多个。
10.如权利要求1所述的装置，还包括网关，其可操作以用于提供到一个或多个媒体交换机的连通性，所述媒体交换机中的一个或多个媒体交换机可操作以用于辅助所述第一和第二端点参与所述视频会议。
11.一种用于执行视频会议的方法，包括接收来自一个或多个端点的与视频会议相关联的一个或多个音频流；确定与所述端点之一相关联的活动说话者；在一个或多个媒体交换机处接收与所述活动说话者相关联的音频信息；抑制除与所述活动说话者相关联的被选中的视频流之外的一个或多个视频流，所述被选中的视频流在所述视频会议期间传播到所述媒体交换机中的一个或多个媒体交换机；以及复制所述被选中的视频流以便它可被传输到与所述媒体交换机中被选中的一个媒体交换机相关联的所述端点中的一个或多个端点。
12.如权利要求11所述的方法，其中所述被选中的视频流在所述视频会议期间利用多播协议传播到所述媒体交换机中的一个或多个媒体交换机。
13.如权利要求11所述的方法，还包括在所述被选中的媒体交换机和与所述被选中的媒体交换机相关联的所述端点之间执行多播和单播操作中被选中的那个操作。
14.如权利要求11所述的方法，还包括使与所述视频会议相关联的所述端点中的被选中的一个端点能够锁定到所述视频会议的参与者，所述被选中的端点传播与所述视频会议相关联的固定视频(FV)流。
15.如权利要求11所述的方法，还包括控制所述端点中被选中的一个端点是接收FV流、切换型视频(SV)流还是其任何组合。
16.如权利要求11所述的方法，其中所述端点中被选中的一个端点不基于所述活动说话者接收SV流，并且其中所述被选中媒体交换机可操作以用于使得所述端点中被选中的一个端点能够基于白板控制特征和带宽参数中被选中的那个接收所述SV流。
17.如权利要求11所述的方法，还包括使得所述视频会议的调解器能够控制视频源以便所述端点中被选中的一个或多个端点接收由所述调解器确定的被选中的视频流。
18.如权利要求11所述的方法，还包括为所述视频会议提供一种或多种媒体服务，以便所述媒体服务中的一种或多种媒体服务被递送到所述端点中的一个或多个端点。
19.一种用于执行视频会议的系统，包括用于接收来自一个或多个端点的与视频会议相关联的一个或多个音频流的装置；用于确定与所述端点之一相关联的活动说话者的装置；用于接收与所述活动说话者相关联的音频信息的装置；用于抑制除与所述活动说话者相关联的被选中的视频流之外的一个或多个视频流的装置，所述被选中的视频流在所述视频会议期间传播到一个或多个媒体交换机；以及用于复制所述被选中的视频流以便它可被传输到与所述媒体交换机中被选中的一个媒体交换机相关联的所述端点中的一个或多个端点的装置。
20.如权利要求19所述的系统，其中所述被选中的视频流在所述视频会议期间利用多播协议传播到所述媒体交换机中的一个或多个媒体交换机。
21.如权利要求19所述的系统，还包括用于在所述被选中的媒体交换机和与所述被选中的媒体交换机相关联的所述端点之间执行多播和单播操作中被选中的那个操作的装置。
22.如权利要求19所述的系统，还包括用于使与所述视频会议相关联的所述端点中的被选中的一个端点能够锁定到所述视频会议的参与者的装置，所述被选中的端点传播与所述视频会议相关联的固定视频(FV)流。
23.如权利要求19所述的系统，还包括用于控制所述端点中被选中的一个端点是接收FV流、切换型视频(SV)流还是其任何组合的装置。
24.如权利要求19所述的系统，其中所述端点中被选中的一个端点不基于所述活动说话者接收SV流，并且其中所述被选中的媒体交换机可操作以用于使得所述端点中被选中的一个端点能够基于被选中的白板控制特征接收所述SV流。
25.如权利要求19所述的系统，还包括用于使得所述视频会议的调解器能够控制视频源以便所述端点中被选中的一个或多个端点接收由所述调解器确定的被选中的视频流的装置。
26.如权利要求19所述的系统，还包括用于为所述视频会议提供一种或多种媒体服务以便所述媒体服务中的一种或多种媒体服务被递送到所述端点中的一个或多个端点的装置。
27.一种用于执行视频会议的软件，该软件被包含在计算机可读介质中并且包括计算机代码，所述代码在被执行时可操作以用于接收来自一个或多个端点的与视频会议相关联的一个或多个音频流；确定与所述端点之一相关联的活动说话者；接收与所述活动说话者相关联的音频信息；抑制除与所述活动说话者相关联的被选中的视频流之外的一个或多个视频流，所述被选中的视频流在所述视频会议期间传播到一个或多个媒体交换机；以及复制所述被选中的视频流以便它可被传输到与所述媒体交换机中被选中的一个媒体交换机相关联的所述端点中的一个或多个端点。
28.如权利要求27所述的介质，其中所述被选中的视频流在所述视频会议期间利用多播协议传播到所述媒体交换机中的一个或多个媒体交换机。
29.如权利要求27所述的介质，其中所述代码还可操作以用于在所述被选中的媒体交换机和与所述被选中的媒体交换机相关联的所述端点之间执行多播和单播操作中被选中的那个操作。
30.如权利要求27所述的介质，其中所述代码还可操作以用于使与所述视频会议相关联的所述端点中的被选中的一个端点能够锁定到所述视频会议的参与者，所述被选中的端点传播与所述视频会议相关联的固定视频(FV)流。
31.如权利要求27所述的介质，其中所述代码还可操作以用于控制所述端点中被选中的一个端点是接收FV流、切换型视频(SV)流还是其任何组合。
32.如权利要求27所述的介质，其中所述端点中被选中的一个端点不基于所述活动说话者接收SV流，并且其中所述被选中的媒体交换机可操作以用于使得所述端点中被选中的一个端点能够基于被选中的白板控制特征接收所述SV流。
33.如权利要求27所述的介质，其中所述代码还可操作以用于使得所述视频会议的调解器能够控制视频源以便所述端点中被选中的一个或多个端点接收由所述调解器确定的被选中的视频流。
34.如权利要求27所述的介质，其中所述代码还可操作以用于为所述视频会议提供一种或多种媒体服务，以便所述媒体服务中的一种或多种媒体服务被递送到所述端点中的一个或多个端点。
35.一种用于执行分布式视频会议的装置，包括音频桥，其可操作以用于接收来自第一和第二端点的音频数据；以及视频桥，其可操作以用于接收来自所述第一和第二端点的视频数据，其中所述第一和第二端点可操作以用于连接到视频会议，所述音频桥可操作以用于识别分别用于所述第一和第二端点的第一和第二抖动缓冲器的大小，并且将来自所述第一和第二端点的音频数据发送到所述第一和第二抖动缓冲器，所述音频桥还可操作以用于将所述第一和第二抖动缓冲器的输出加在一起以创建单个混合音频输出流，所述音频桥确定每个输入音频输出流到所述混合音频流的输入到输出映射，从而所述音频桥可将所述映射传输到所述视频桥，所述视频桥可操作以用于接收一个或多个视频流，并且延迟所述视频流中的每一个视频流以便所述映射可被再现，所述视频桥可操作以用于识别所述视频流中的哪些最后到达，并延迟所有其他视频流以便每个视频流的输入到输出映射被匹配到相应音频流的映射，混合输出视频流可通过混合经延迟的视频流来创建，从而来自所述音频桥和所述视频桥的混合输出可被传输回所述第一和第二端点中的每一个，以辅助所述视频会议。
36.如权利要求35所述的装置，其中所述视频桥可操作以用于延迟所述视频流中的每一个视频流以便所述映射可被再现，同时通过将多个延迟之一设置为零来使总延迟最小。
37.如权利要求35所述的装置，还包括媒体交换机，其包括所述音频桥和所述视频桥，并且可操作以用于控制所述第一和第二端点，以及将所述第一和第二端点连接到所述音频桥和所述视频桥。
38.如权利要求35所述的装置，其中所述音频桥可操作以用于将所述第一和第二抖动缓冲器的输出加在一起以创建具有网络时间协议(NTP)时间戳的单个混合音频输出流，所述音频桥还可操作以用于将每个输入流的NTP时间戳映射到所述混合音频输出流。
39.如权利要求35所述的装置，其中所述音频桥还包括音频混合器，该音频混合器可操作以用于通过混合从所述第一和第二端点接收到的音频数据来辅助所述音频桥的操作。
40.如权利要求35所述的装置，其中所述视频桥还包括视频混合器，该视频混合器可操作以用于通过混合从所述第一和第二端点接收到的视频数据来辅助所述视频桥的操作。
41.如权利要求35所述的装置，还包括网关，其可操作以用于提供到一个或多个媒体交换机的连通性，所述媒体交换机中的一个或多个媒体交换机可操作以用于辅助所述第一和第二端点对所述视频会议的参与。
42.如权利要求35所述的装置，还包括呼叫管理器，其可操作以用于提供通信平台，所述第一和第二端点可从该通信平台参与所述视频会议。
43.一种用于执行分布式视频会议的方法，包括接收来自第一和第二端点的音频数据；接收来自所述第一和第二端点的视频数据，其中所述第一和第二端点可操作以用于连接到视频会议；识别分别用于所述第一和第二端点的第一和第二抖动缓冲器的大小；将来自所述第一和第二端点的音频数据传输到所述第一和第二抖动缓冲器；将所述第一和第二抖动缓冲器的输出加在一起以创建单个混合音频输出流；确定每个输入音频输出流到所述混合音频流的输入到输出映射；接收一个或多个视频流；延迟所述视频流中的一个或多个视频流以便所述映射可被再现；识别所述视频流中的哪些最后到达，并延迟所有其他视频流以便每个视频流的输入到输出映射被匹配到相应音频流的映射；以及通过混合经延迟的视频流来创建混合输出视频流，从而所述混合输出可被传输回所述第一和第二端点中的每一个，以辅助所述视频会议。
44.如权利要求43所述的方法，其中延迟所述视频流中的一个或多个视频流是在使总延迟最小的同时被执行的，并且是通过将多个延迟之一设置为零来执行的。
45.如权利要求43所述的方法，还包括控制来自所述第一和第二端点的数据流；以及将所述第一和第二端点连接到所述视频会议。
46.如权利要求43所述的方法，其中将所述第一和第二抖动缓冲器的输出加在一起包括对所述输出求和以创建具有网络时间协议(NTP)时间戳的单个混合音频输出流，从而每个输入流的NTP时间戳可被匹配到所述混合音频输出流。
47.如权利要求43所述的方法，还包括提供到一个或多个媒体交换机的连通性，所述媒体交换机中的一个或多个媒体交换机可操作以用于辅助所述第一和第二端点对所述视频会议的参与。
48.如权利要求43所述的方法，还包括提供通信平台，所述第一和第二端点可从该通信平台参与所述视频会议，所述通信平台提供了管理功能以便辅助所述视频会议的发起。
49.一种用于执行分布式视频会议的系统，包括用于接收来自第一和第二端点的音频数据的装置；用于接收来自所述第一和第二端点的视频数据的装置，其中所述第一和第二端点可操作以用于连接到视频会议；用于识别分别用于所述第一和第二端点的第一和第二抖动缓冲器的大小的装置；用于将来自所述第一和第二端点的音频数据传输到所述第一和第二抖动缓冲器的装置；用于将所述第一和第二抖动缓冲器的输出加在一起以创建单个混合音频输出流的装置；用于确定每个输入音频输出流到所述混合音频流的输入到输出映射的装置；用于接收一个或多个视频流的装置；用于延迟所述视频流中的一个或多个视频流以便所述映射可被再现的装置；用于识别所述视频流中的哪些最后到达并延迟所有其他视频流以便每个视频流的输入到输出映射被匹配到相应音频流的映射的装置；以及用于通过混合经延迟的视频流来创建混合输出视频流的装置，从而所述混合输出可被传输回所述第一和第二端点中的每一个，以辅助所述视频会议。
50.如权利要求49所述的系统，其中延迟所述视频流中的一个或多个视频流是在使总延迟最小的同时被执行的，并且是通过将多个延迟之一设置为零来执行的。
51.如权利要求49所述的系统，还包括用于控制来自所述第一和第二端点的数据流的装置；以及用于将所述第一和第二端点连接到所述视频会议的装置。
52.如权利要求49所述的系统，其中将所述第一和第二抖动缓冲器的输出加在一起包括对所述输出求和以创建具有网络时间协议(NTP)时间戳的单个混合音频输出流，从而每个输入流的NTP时间戳可被匹配到所述混合音频输出流。
53.如权利要求49所述的系统，还包括用于提供到一个或多个媒体交换机的连通性的装置，所述媒体交换机中的一个或多个媒体交换机可操作以用于辅助所述第一和第二端点对所述视频会议的参与。
54.如权利要求49所述的系统，还包括用于提供通信平台的装置，所述第一和第二端点可从该通信平台参与所述视频会议，所述通信平台提供了管理功能以便辅助所述视频会议的发起。
55.一种用于执行分布式视频会议的软件，该软件被包含在计算机可读介质中并且包括计算机代码，所述代码在被执行时可操作以用于接收来自第一和第二端点的音频数据；接收来自所述第一和第二端点的视频数据，其中所述第一和第二端点可操作以用于连接到视频会议；识别分别用于所述第一和第二端点的第一和第二抖动缓冲器的大小；将来自所述第一和第二端点的音频数据传输到所述第一和第二抖动缓冲器；将所述第一和第二抖动缓冲器的输出加在一起以创建单个混合音频输出流；确定每个输入音频输出流到所述混合音频流的输入到输出映射；接收一个或多个视频流；延迟所述视频流中的一个或多个视频流以便所述映射可被再现；识别所述视频流中的哪些最后到达，并延迟所有其他视频流以便每个视频流的输入到输出映射被匹配到相应音频流的映射；以及通过混合经延迟的视频流来创建混合输出视频流，从而所述混合输出可被传输回所述第一和第二端点中的每一个，以辅助所述视频会议。
56.如权利要求55所述的介质，其中延迟所述视频流中的一个或多个视频流是在使总延迟最小的同时被执行的，并且是通过将多个延迟之一设置为零来执行的。
57.如权利要求55所述的介质，其中所述代码还可操作以用于控制来自所述第一和第二端点的数据流；以及将所述第一和第二端点连接到所述视频会议。
58.如权利要求55所述的介质，其中将所述第一和第二抖动缓冲器的输出加在一起包括对所述输出求和以创建具有网络时间协议(NTP)时间戳的单个混合音频输出流，从而每个输入流的NTP时间戳可被匹配到所述混合音频输出流。
59.如权利要求55所述的介质，其中所述代码还可操作以用于提供到一个或多个媒体交换机的连通性，所述媒体交换机中的一个或多个媒体交换机可操作以用于辅助所述第一和第二端点对所述视频会议的参与。
60.如权利要求55所述的介质，其中所述代码还可操作以用于提供通信平台，所述第一和第二端点可从该通信平台参与所述视频会议，所述通信平台提供了管理功能以便辅助所述视频会议的发起。
全文摘要
提供了一种用于执行视频会议的方法，该方法包括在(26)处接收来自一个或多个端点(12)的与视频会议(12)相关联的一个或多个音频流，并且确定与所述端点(12)之一相关联的活动说话者。与活动说话者相关联的音频信息可在一个或多个媒体交换机处被接收。除与活动说话者相关联的被选中的视频流之外的一个或多个视频流可被抑制，被选中的视频流在视频会议期间传播到所述媒体交换机中的一个或多个媒体交换机。被选中的视频流可被复制，以便它可被传输到与所述媒体交换机(26)中被选中的一个媒体交换机相关联的所述端点中的一个或多个端点。
文档编号H04N7/15GK1849824SQ200480026120
公开日2006年10月18日申请日期2004年10月6日优先权日2003年10月8日
发明者斯科特·S·费勒斯托纳, 瓦尔特·R·弗里迪彻, 纳敏·M·埃斯迈尔, 凯斯·A·蓝茨, 尚塔努·萨卡尔, 鲁克·K·苏雷兹克, 吴端培申请人:思科技术公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：斯科特.S.费勒斯托纳;瓦尔特.R.弗里迪彻;纳敏.M.埃斯迈尔;凯斯.A.蓝茨;尚塔努.萨卡尔;鲁克.K.苏雷兹克;吴端培
技术所有人：思科技术公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。