用于管理多媒体会议事件的媒体内容的技术的制作方法

文档序号:7734098阅读:165来源:国知局
专利名称:用于管理多媒体会议事件的媒体内容的技术的制作方法
用于管理多媒体会议事件的媒体内容的技术背景多媒体会议系统通常允许多个参与者通过网络在协作且实时的会议中进行通信 并共享不同类型的媒体内容。该多媒体会议系统可使用各种图形用户界面(GUI)窗口或视 图来显示不同类型的媒体内容。例如,一个⑶I视图可能包括参与者的视频图像,另一⑶I 视图可能包括演示幻灯片,又一 GUI视图可能包括参与者之间的文本消息,等等。以此方 式,各个地理位置完全不同的参与者可以在与其中所有参与者都在一个房间中的物理会议 环境类似的虚拟会议环境中交互并传递信息。然而,在虚拟会议环境中,可能难以显示会议的全部各个参与者。这一问题通常随 会议参与者数量的增加而增加,因为一些参与者可能在发言而未被显示,或反之亦然,从而 可能在参与者之间导致混淆和尴尬。此外,可能难以在任何给定时刻标识特定发言者,尤其 是在多个参与者同时或快速连续发言时。因此,涉及改进虚拟会议环境中的显示技术的技 术可增强用户体验和便利性。概述各实施例一般可涉及多媒体会议系统。一些实施例尤其可涉及用于为多媒体会议 事件生成视觉合成的技术。多媒体会议事件可包括多个参与者,这些参与者中的某一些可 聚集在会议室中,而其他参与者可以从远程位置参与多媒体会议事件。在一个实施例中,例如,诸如会议控制台等装置可包括显示器和媒体内容管理器 组件。该媒体内容管理器组件可用于生成多媒体会议事件的视觉合成以呈现在显示器上。 该媒体内容管理器组件可包括可用于解码多媒体会议事件的多个媒体流的视频解码器模 块以及其他元素。该媒体内容管理器组件可包括通信耦合到视频解码器模块的媒体流管理 器模块,该媒体流管理器模块可用于确定已解码媒体流的总数大于视觉合成中的可用显示 帧的总数。媒体内容管理器组件可包括通信耦合到媒体流管理器模块的媒体选择模块,该 媒体选择模块可用于基于发言活动从已解码媒体流的总数中选择活跃的一组已解码媒体 流以映射到可用显示帧。对其他实施例也予以描述并要求保护。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定 所要求保护的主题的范围。附图简述

图1示出了多媒体会议系统的一实施例。图2示出了媒体内容管理器组件的一实施例。图3a示出了第一视觉合成的一实施例。图北示出了第二视觉合成的一实施例。图4示出逻辑流程的一实施例。图5示出计算体系结构的一实施例。图6示出了制品的一实施例。详细描述
4
各实施例包括被安排成执行特定操作、功能或服务的物理或逻辑结构。这些结构 可包括物理结构、逻辑结构或两者的组合。物理或逻辑结构是使用硬件元素、软件元素或两 者的组合来实现的。然而,参考特定硬件或软件元素的对各实施例的描述旨在作为示例而 非限制。使用硬件还是软件元素来实际地实施一实施例的决定取决于多个外部因素,诸如 所需计算速率、功率级、热容忍度、处理周期预算、输入数据率、输出数据率、存储器资源、数 据总线速度、以及其他设计或性能约束。此外,物理或逻辑结构可具有对应的物理或逻辑连 接以便在这些结构之间以电子信号或消息的形式传递信息。连接可包括如适于信息或特定 结构的有线和/或无线连接。值得注意的是,任何对“一个实施例”或“一实施例”的引用 都意味着结合该实施例所描述的特定的特征、结构、或特性被包括在至少一个实施例中。出 现在说明书中各个地方的短语“在一个实施例中”不必全都指的是同一实施例。各实施例一般涉及被安排成通过网络向多个参与者提供会议和协作服务的多媒 体会议系统。一些多媒体会议系统可被设计成用诸如因特网或万维网(“web”)等各种基于 分组的网络操作以提供基于web的会议服务。这些实现有时被称为web会议系统。web会 议系统的示例可包括由美国华盛顿州雷蒙德市的微软公司制作的MICROSOFT OFFICE LIVEMEETING。其他多媒体会议系统可被设计成针对专用网络、公司、组织、或企业操作,并 且可利用多媒体会议服务器,诸如由美国华盛顿州雷蒙德市的微软公司制作的MICROSOFT OFFICE COMMUNI CAT 10NSSERVER。然而,可以理解,这些实现不限于这些示例。多媒体会议系统可包括被安排成提供web会议服务的多媒体会议服务器或其他 处理设备以及其他网络元件。例如,多媒体会议服务器可包括可用于控制和混合诸如web 会议等会议和协作事件的不同类型的媒体内容的服务器会议组件以及其他服务器元件。会 议和协作事件可以指在实时或实况在线环境中提供各种类型的多媒体信息的任何多媒体 会议事件,并且在此处有时被简称为“会议事件”、“多媒体事件”或“多媒体会议事件”。在一个实施例中,多媒体会议系统还可包括被实现为会议控制台的一个或多个计 算设备。每一个会议控制台都可被安排成通过连接到多媒体会议服务器来参与多媒体事 件。来自各个会议控制台的不同类型的媒体信息可由多媒体会议服务器在多媒体事件期间 接收,该服务器进而将媒体信息分发给参与该多媒体事件的其他会议控制台中的部分或全 部。由此,任何给定会议控制台可具有拥有不同类型媒体内容的多个媒体内容视图的显示 器。以此方式,各个地理位置完全不同的参与者可以在与其中所有参与者都在一个房间中 的物理会议环境类似的虚拟会议环境中交互并传递信息。多媒体会议事件中的参与者通常在具有参与者名单的GUI视图中列出。该参与者 名单可具有关于每一个参与者的某些标识信息,包括姓名、位置、图像、标题等。参与者名单 中的参与者和标识信息通常从用于加入多媒体会议事件的会议控制台导出。例如,参与者 通常使用会议控制台来加入多媒体会议事件的虚拟会议室。在加入之前,参与者提供各种 类型的标识信息以向多媒体会议服务器执行认证操作。一旦多媒体会议服务器认证了参与 者,该参与者就被允许访问虚拟会议室,并且多媒体会议服务器将标识信息添加到参与者 名单。然而,在虚拟会议环境中,可能难以显示会议的全部各个参与者。例如,显示器可 能没有足够显示区域来呈现所有会议参与者的GUI视图。这可能是由于会议控制台、多媒 体会议服务器或这两者的通信或计算资源的技术约束。这也可由于拥有具有不足以用查看者易于辨别的方式来呈现所有参与者的GUI视图的显示区域的显示器造成。例如,具有较 小形状因素的电子设备,如手持式计算机或蜂窝电话,可以具有在物理上或逻辑上不能够 呈现所需GUI视图的较小的显示区域。对于具有较大显示器的那些电子设备,如笔记本或 台式计算机,会议参与者的数量可能使得GUI视图必然成为各单独的会议参与者难以查看 的大小。甚至对于能够使用没有实际显示区域约束的显示器的那些电子设备,如具有全尺 寸监视器的台式计算机,会议参与者的数量可导致在对应数量的GUI视图被同时显示时产 生混淆且拥挤的视觉合成。这一问题进一步恶化,因为担当会议领导者的会议参与者可能 “钉住”某些会议参与者的某些GUI视图。当这一情况发生时,会议控制台全都显示所钉住 的GUI视图,而不管该GUI视图所呈现的会议参与者的发言活动。因此,可用GUI视图的数 量进一步减少到这些GUI视图中的一些由会议领导者钉住的程度。为了解决这些和其他问题,各实施例一般涉及用于为多媒体会议事件生成视觉合 成的技术。更具体而言,某些实施例涉及用于生成在数字域中提供会议参与者的更自然表 示的视觉合成的技术。该视觉合成集成并聚集与多媒体会议事件中的每一个参与者相关的 不同类型的多媒体内容,包括视频内容、音频内容、标识信息等。视觉合成以允许高效地显 示少于会议参与者的数量的多个GUI视图的方式呈现该集成和聚集的信息。在各实施例中,媒体内容管理器组件可以在任何给定时刻选择性地显示具有活跃 地发言或可能要发言的会议参与者的GUI视图。在当前没有显示的会议参与者参与发言活 动时,媒体内容管理器组件可以用具有该新会议参与者的给定GUI视图来选择性地替换当 前显示的某一现有会议参与者。这可以例如通过利用根据一组媒体内容选择规则被调节来 以智能的方式替换某一现有会议参与者的选择算法来实现。以此方式,媒体内容管理器组 件可能提供超过常规显示技术的若干优点,如减少媒体内容重复的数量、限制给定GUI视 图所显示的媒体内容之间的转移、以及向观看者提供在任何给定时刻选择被显示的特定一 组媒体内容的灵活性。结果,虚拟会议环境中的经改进的显示技术可增强用户体验和便利 性。图1示出了多媒体会议系统100的框图。多媒体会议系统100可以表示适用于实 现各实施例的通用系统体系结构。多媒体会议系统100可以包括多个元素。元素可以包括 被安排成执行特定操作的任何物理或逻辑结构。视给定的一组设计参数或性能约束的需 要,每一元素可被实现为硬件、软件、或其任意组合。硬件元素的示例可以包括设备、组件、 处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、 专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、存储器单元、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可 以包括任何软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系 统软件、中间件、固件、软件模块、例程、子例程、函数、方法、接口、软件接口、应用程序接口 (API)、指令集、计算代码、计算机代码、代码段、计算机代码段、文字、值、符号、或其任意组 合。虽然图1中示出的多媒体会议系统100具有呈特定拓扑结构的有限数量的元素,但可 以理解多媒体会议系统100视给定实现所需可以包括呈另选拓扑结构的更多或更少元素。 各实施例不限于该上下文。在各实施例中,多媒体会议系统100可包括有线通信系统、无线通信系统或两者 的组合,或者构成其一部分。例如,多媒体会议系统100可包括被安排成通过一种或多种类型的有线通信链路来传递信息的一个或多个元件。有线通信链路的示例可包括但不限于导 线、电缆、总线、印刷电路板(PCB)、以太网连接、对等(P2P)连接、背板、交换光纤、半导体材 料、双绞线、同轴电缆、光纤连接等。多媒体会议系统100还可包括被安排成通过一种或多 种类型的无线通信链路来传递信息的一个或多个元件。无线通信链路的示例可包括但不限 于无线电频道、红外频道、射频(RF)频道、无线保真(WiFi)频道、RF频谱的一部分、和/或 一个或多个得到许可或免许可的频带。在各实施例中,多媒体会议系统100可被安排成传递、管理或处理不同类型的信 息,诸如媒体信息和控制信息。媒体信息的示例一般可包括表示对用户有意义的内容的任 何数据,如语音信息、视频信息、音频信息、图像信息、文本信息、数字信息、应用程序信息、 字母数字符号、图形等。媒体信息有时也可被称为“媒体内容”。控制信息可以指的是表示 对自动化系统有意义的命令、指令或控制字的任何数据。例如,控制信息可被用来将媒体信 息路由通过一系统、在设备之间建立连接、指示设备以预定方式处理该媒体信息等。在各实施例中,多媒体会议系统100可包括多媒体会议服务器130。该多媒体会 议服务器130可包括被安排成通过网络120建立、管理或控制会议控制台110-1-m之间的 多媒体会议呼叫的任何逻辑或物理实体。网络120可包括例如分组交换网络、电路交换网 络或两者的组合。在各实施例中,多媒体会议服务器130可包括或被实现为任何处理或计 算设备,诸如计算机、服务器、服务器阵列或服务器场、工作站、小型计算机、大型计算机、超 级计算机等。多媒体会议服务器130可包括或实现适用于传递和处理多媒体信息的通用 或专用计算体系结构。例如,在一个实施例中,多媒体会议服务器130可使用如参考图5 描述的计算体系结构来实现。多媒体会议服务器130的示例可包括但不限于MICROSOFT OFF ICECOMMUNI CAT IONS SERVER、MICROSOFT OFFICE LIVE MEETING 服务器,等等。多媒体会议服务器130的特定实现可取决于要用于多媒体会议服务器130的一组 通信协议或标准而变化。在一个示例中,多媒体会议服务器130可根据因特网工程任务组 (IETF)、多方多媒体会话控制(MMUSIC)工作组、会话发起协议(SIP)系列的标准和/或变 体来实现。SIP是用于发起、修改、并终止交互式用户会话的建议标准,交互式用户会话涉及 诸如视频、语音、即时消息通信、在线游戏和虚拟现实等多媒体元素。在另一示例中,多媒体 会议服务器130可根据国际电信联盟(ITU)H. 323系列的标准和/或变体来实现。该H. 323 标准定义用于协调会议呼叫操作的多点控制单元(MCU)。具体而言,MCU包括处理H. 245信 令的多点控制器(MC)以及用于混合并处理数据流的一个或多个多点处理器(MP)。SIP和 H. 323标准两者本质上都是用于网际协议语音(VoIP)或分组语音(VOP)多媒体会议呼叫操 作的信令协议。然而,可以理解,可实现用于多媒体会议服务器130的其他信令协议并且仍 然落在各实施例的范围内。在通用操作中,多媒体会议系统100可用于多媒体会议呼叫。多媒体会议呼叫通 常涉及在多个端点之间传递语音、视频和/或数据信息。例如,公共或专用分组网络120可 用于音频会议呼叫、视频会议呼叫、音频/视频会议呼叫、协作文档共享和编辑等。分组网 络120还可经由被安排成在电路交换信息和分组信息之间进行转换的一个或多个合适的 VoIP网关来连接到公共交换电话网络(PSTN)。为了通过分组网络120建立多媒体会议呼叫,每一个会议控制台110-1-m可使用 诸如例如低带宽PSTN电话连接、中带宽DSL调制解调器连接或电缆调制解调器连接、以及局域网(LAN)上的高带宽内联网连接等以不同的连接速度或带宽操作的各种类型的有线 或无线通信链路来经由分组网络120连接到多媒体会议服务器130。在各实施例中,多媒体会议服务器130可建立、管理和控制会议控制台110-1-m之 间的多媒体会议呼叫。在某些实施例中,多媒体会议呼叫可包括使用提供全协作能力的web 会议应用程序的实况的基于web的会议呼叫。多媒体会议服务器130用作控制和分发会议 中的媒体信息的中央服务器。它从各个会议控制台110-1-m接收媒体信息,执行对多种类 型的媒体信息的混合操作,并将媒体信息转发给其他参与者中的部分或全部。会议控制台 110-1-m中的一个或多个可通过连接到多媒体会议服务器130来加入会议。多媒体会议服 务器130可实现用于以安全且受控的方式认证并添加会议控制台110-1-m的各种准入控制 技术。在各实施例中,多媒体会议系统100可包括被实现为会议控制台110-1-m的一个 或多个计算设备,这些会议控制台经由网络120通过一个或多个通信连接连接到多媒体会 议服务器130。例如,计算设备可实现可同时主存各自表示单独会议的多个会议控制台的客 户机应用程序。类似地,该客户机应用程序可接收多个音频、视频和数据流。例如,来自参 与者中的全部或子集的视频流可作为马赛克显示在参与者的显示器上,且顶部窗口具有当 前活跃发言者的视频而其他参与者的全景视图在其他窗口中。会议控制台110-1-m可包括被安排成参与或参加由多媒体会议服务器130管理的 多媒体会议呼叫的任何逻辑或物理实体。会议控制台110-1-m可被实现为任何设备,该设 备在其最基本的形式中包括包含处理器和存储器的处理系统、一个或多个多媒体输入/输 出(I/O)组件以及无线和/或有线网络连接。多媒体I/O组件的示例可包括音频I/O组件 (例如,话筒、扬声器)、视频I/O组件(例如,摄像机、显示器)、触觉(I/O)组件(例如,振动 器)、用户数据(I/O)组件(例如,键盘、拇指板、键区、触摸屏)等等。会议控制台110-1-m 的示例可包括电话、VoIP或VOP电话、被设计成在PSTN上操作的分组电话、因特网电话、视 频电话、蜂窝电话、个人数字助理(PDA)、组合蜂窝电话和PDA、移动计算设备、智能电话、单 向寻呼机、双向寻呼机、消息收发设备、计算机、个人计算机(PC)、台式计算机、膝上型计算 机、笔记本计算机、手持式计算机、网络设备等。在某些实现中,会议控制台110-1-m可使用 与参考图5描述的计算体系结构类似的通用或专用计算体系结构来实现。会议控制台110-1-m可包括或实现各自的客户机会议组件112-l_n。客户机会议 组件112-1-n可被设计成与多媒体会议服务器130中的服务器会议组件132互操作以建 立、管理或控制多媒体会议事件。例如,客户机会议组件112-1-n可包括或实现适当的应 用程序和用户界面控件以允许相应的会议控制台110-1-m参与由多媒体会议服务器130 推动的web会议。这可包括用于捕捉由会议控制台110-1-m的操作者提供的媒体信息的 输入装置(例如,摄像机、话筒、键盘、鼠标、控制器等),以及用于再现由其他会议控制台 110-1-m的操作者提供的媒体信息的输出装置(例如,显示器、扬声器等)。客户机会议组 件 112-1-n 的示例可包括但不限于MICROSOFT OFFICE COMMUNICATOR 或MICROSOFT OFFICE LIVEMEETING基于Windows的会议控制台等。如图1所示的实施例所示,多媒体会议系统100可包括会议室150。企业或公司通 常利用会议室来举行会议。这些会议包括多媒体会议事件,该多媒体会议事件具有位于会 议室150内部的参与者以及位于会议室150外部的远程参与者。会议室150可具有可用于支持多媒体会议事件并在一个或多个远程会议控制台110-2-m和本地会议控制台110-1之 间提供多媒体信息的各种计算和通信资源。例如,会议室150可包括位于会议室150内部 的本地会议控制台110-1。本地会议控制台110-1可以连接到能够捕捉、传递或再现多媒体信息的各种多媒 体输入设备和/或多媒体输出设备。多媒体输入设备可包括被安排成从会议室150中的操 作者捕捉或接收多媒体信息作为输入的任何逻辑或物理设备,包括音频输入设备、视频输 入设备、图像输入设备、文本输入设备、以及其他多媒体输入装置。多媒体输入设备的示例 可包括但不限于摄像机、话筒、话筒阵列、会议电话、白板、交互式白板、语音-文本组件、文 本-语音组件、语音识别系统、定点设备、键盘、触摸屏、平板计算机、手写识别设备等。摄 像机的示例可包括全景相机(ringcam),诸如由美国华盛顿州雷蒙德市的微软公司制作的 MICR0S0FTR0UNDTABLE。MICROSOFT R0UNDTABLE是具有向远程会议参与者提供坐在会议桌 周围的每一个人的全景视频的360度相机的视频会议设备。多媒体输出设备可包括被安排 成再现或显示来自远程会议控制台110-2-m的操作者的多媒体信息作为输出的任何逻辑 或物理设备,包括音频输出设备、视频输出设备、图像输出设备、文本输出设备、以及其他多 媒体输出装置。多媒体输出设备的示例可包括但不限于电子显示器、视频投影仪、扬声器、 振动单元、打印机、传真机等。会议室150中的本地会议控制台110-1可包括被安排成从包括参与者
的会议室150捕捉媒体内容并将该媒体内容流传送到多媒体会议服务器130的各种多媒 体输入设备。在图1所示的实施例中,本地会议控制台110-1包括摄像机106和话筒阵列 104-1-r。摄像机106可捕捉包括出现在会议室150中的参与者的视频内容的视 频内容,并经由本地会议控制台110-1将这些视频内容流传送到多媒体会议服务器130。类 似地,话筒阵列104-1-r可捕捉包括来自出现在会议室150中的参与者的音频内 容的音频内容,并经由本地会议控制台110-1将这些音频内容流传送到多媒体会议服务器 130。本地会议控制台还可包括诸如显示器116或视频投影仪等各种媒体输出设备,用于示 出具有经由多媒体会议服务器130接收到的来自使用会议控制台110-1-m的所有参与者的 视频内容或音频内容的一个或多个GUI视图。会议控制台110-1-m和多媒体会议服务器130可利用为给定多媒体会议事件建立 的各种媒体连接来传递媒体信息和控制信息。媒体连接可使用诸如SIP系列协议等各种 VoIP信令协议来建立。SIP系列协议是用于创建、修改和终止与一个或多个参与者的会话 的应用层控制(信令)协议。这些会话包括因特网多媒体会议、因特网电话呼叫以及多媒 体分发。会话中的成员可经由多播或经由单播关系的网格或其组合来进行通信。SIP被设 计为总IETF多媒体数据和控制体系结构的一部分,该体系结构当前结合诸如用于预约网 络资源的资源预约协议(RSVP) (IEEE RFC 2205)、用于传输实时数据并提供服务质量OiOS) 反馈的实时传输协议(RTP) (IEEE RFC 1889)、用于控制流传输媒体的传递的实时流传输协 议(RTSP) (IEEE RFC 23 )、用于经由多播广告多媒体会话的会话通告协议(SAP)、用于描 述多媒体会话的会话描述协议(SDP) (IEEE RFC 2327)等协议。例如,会议控制台110-1-m 可将SIP用作信令信道以设置媒体连接,并将RTP用作媒体信道以通过媒体连接传输媒体 fn息ο在通用操作中,可使用调度设备108来为多媒体会议系统100生成多媒体会议事件预约。该调度设备108可包括例如具有用于调度多媒体会议事件的适当硬件和软件 的计算设备。例如,调度设备108可包括利用由美国华盛顿州雷蒙德市的微软公司制作的 MICROSOFT OFFICE OUTLOOK 应用程序软件的计算机。MICROSOFT OFFICE OUTLOOK 应用软件包括可用于调度多媒体会议事件的消息收发和协作客户机软件。操作者可使用 MICROSOFT OFFICE OUTLOOK来将调度请求转换成要发送到会议受邀者列表的对MICROSOFT OFFICE LIVE MEETING事件。该调度请求可包括到多媒体会议事件的虚拟房间的超链接。 受邀者可点击该超链接,并且会议控制台110-1-m启动web浏览器,连接到多媒体会议服务 器130,并加入虚拟房间。一旦到了那里,参与者就可呈现幻灯片演示,在内置白板以及其他 工具上注释文档或进行集体讨论(brainstorm)。操作者可使用调度设备108来为多媒体会议事件生成多媒体会议事件预约。该多 媒体会议事件预约可包括多媒体会议事件的会议受邀者的列表。该会议受邀者列表可包括 受邀参与多媒体会议事件的各个人的列表。在某些情况下,该会议受邀者列表只可包括对 多媒体事件受邀并接受邀请的那些人。诸如Microsoft Outlook的邮件客户端等客户机应 用程序将预约请求转发给多媒体会议服务器130。多媒体会议服务器130可接收多媒体会 议事件预约,并且从诸如企业资源目录160等网络设备中检索会议受邀者的列表和会议受 邀者的相关联信息。企业资源目录160可包括发布操作者和/或网络资源的公共目录的网络设备。由 企业资源目录160发布的网络资源的常见示例包括网络打印机。例如,在一个实施例中,企 业资源目录160可被实现为MICROSOFT现用目录 。现用目录是用于为网络计算机提供中央 认证和授权服务的轻量目录访问协议(LDAP)目录服务的一种实现。现用目录还允许管理 员向组织分配策略、部署软件并应用关键更新。现用目录将信息和设置存储在中央数据库 中。现用目录网络可以在从具有几百个对象的小型安装到具有几百万个对象的大型安装的 范围内变化。在各实施例中,企业资源目录160可包括关于多媒体会议事件的各个会议受邀者 的标识信息。该标识信息可包括能够唯一地标识每一个会议受邀者的任何类型的信息。例 如,标识信息可包括但不限于姓名、位置、联系人信息、账号、职业信息、组织信息(例如,头 衔)、个人信息、连接信息、到场信息、网络地址、媒体访问控制(MAC)地址、网际协议(IP)地 址、电话号码、电子邮件地址、协议地址(例如,SIP地址)、设备标识符、硬件配置、软件配 置、有线接口、无线接口、所支持的协议、以及其他所需信息。多媒体会议服务器130可接收包括会议受邀者列表在内的多媒体会议事件预约, 并从企业资源目录160中检索对应的标识信息。多媒体会议服务器130可使用该会议受邀 者列表和对应的标识信息来帮助标识多媒体会议事件的参与者。例如,多媒体会议服务器 130可将会议受邀者列表和所附标识信息转发给会议控制台110-1-m以供在多媒体会议事 件的视觉合成108中标识参与者时使用。再次参考会议控制台110-1-m,会议控制台110-1-m中的每一个都可包括或实现 各自的媒体内容管理器组件114-1-t。媒体内容管理器组件114-1-t 一般可用于为多媒体 会议事件生成、管理视觉合成108并在显示器116上显示该视觉合成108。尽管作为示例而 非限制,视觉合成108和显示器116被示为会议控制台110-1的一部分,但可以理解,会议 控制台110-1-m中的每一个都可包括与显示器116类似、并且能够为会议控制台110-1-m
10的每一个操作者呈现视觉合成108的电子显示器。例如,在一个实施例中,本地会议控制台110-1可包括显示器116以及可用于为 多媒体会议事件生成视觉合成108的媒体内容管理器组件114-1。该媒体内容管理器组件 114-1可包括被安排成生成在数字域中提供会议参与者(例如,lM-1-p)的更自然表示的 视觉合成108的各种硬件元件和/或软件元件。该视觉合成108集成并聚集与多媒体会议 事件中的每一个参与者相关的不同类型的多媒体内容,包括视频内容、音频内容、标识信息寸。媒体内容管理器组件114-1-t可以选择性地显示视觉合成108的各⑶I视图。视 觉合成108可包括多个GUI视图,每一 GUI视图具有一个或多个会议参与者。在当前没有 显示在视觉合成108的GUI视图中的会议参与者参与发言活动时,媒体内容管理器组件 114-1-t可以用具有该新会议参与者的给定GUI视图来选择性地替换当前显示的某一现有 会议参与者。这可以例如利用根据一组媒体内容选择规则被调节来以智能的方式替换某一 现有会议参与者的选择算法来实现。一般而言,会议控制台110-1-m,并且具体而言是媒体 内容管理器组件114-1-t,可以参考图2来进行更详细的描述。图2示出来自媒体内容管理器组件114-1-t的示例性媒体内容管理器组件114的 框图。媒体内容管理器组件114可包括多个模块。这些模块可使用硬件元件、软件元件或 硬件元件和软件元件的组合来实现。虽然如图2所示的媒体内容管理器组件114具有呈特 定拓扑结构的有限数量的元素,但可以理解,媒体内容管理器组件114视给定实现所需可 包括呈替换拓扑结构的更多或更少的元素。各实施例不限于该上下文。在图2所示的实施例中,媒体内容管理器组件114包括视频解码器模块210。视频 解码器模块210 —般可解码经由多媒体会议服务器130从各个会议控制台110-1-m接收到 的媒体流。例如,在一个实施例中,视频解码器模块210可被安排成从参与多媒体会议事件 的各个会议控制台110-1-m接收输入媒体流202-1-f。视频解码器模块210可将输入媒体 流202-1-f解码成适于由显示器116显示的数字或模拟视频内容。此外,视频解码器模块 210可将输入媒体流202-1-f解码成适于显示器116的各种空间分辨率和时间分辨率以及 由视觉合成108使用的显示帧。媒体内容管理器组件114-1可包括通信地耦合到视频解码器模块210的活跃发言 者检测器(ASD)模块220。ASD模块220 —般可检测已解码媒体流202-1-f中是否有任何 参与者是活跃发言者或以其他方式参与可发觉的发言活动。针对ASD模块220可实现各种 活跃发言者检测技术。例如,在一个实施例中,ASD模块220可检测并测量已解码媒体流中 的语音能量,根据从最高语音能量到最低语音能量来对测量进行排序,并将具有最高语音 能量的已解码媒体流选为表示当前活跃发言者。然而,可使用其他ASD技术并且各实施例 在该上下文中不受限制。然而,在某些情况下,输入媒体流202-1-f可能包含不止一个参与者,诸如来自位 于会议室150中的本地会议控制台110-1的输入媒体流202-1。在这种情况下,ASD模块 220可被安排成使用音频(声源局部化)和视频(运动和空间图案)特征来从位于会议室 150中的参与者lM-1-p中检测出主要或活跃发言者。ASD模块220可以在若干个人同时 说话时确定会议室150中的主要发言者。该模块还补偿背景噪声和反射声音的硬表面。例 如,ASD模块220可从六个单独的话筒104-1-r接收输入以便在不同的声音之间进行区分
11并通过被称为波束形成(beamforming)的过程来隔离主要声音。话筒104-1-r中的每一个 都被内置到会议控制台110-1的不同部分中。不管声音的速度如何,话筒104-1-r可以在 相对于彼此不同的时间间隔从参与者lM-1-p处接收语音信息。ASD模块220可使用时间 差来标识语音信息的源。一旦标识了语音信息的源,本地会议控制台110-1的控制器就可 使用来自摄像机106-1-p的视觉提示来精确定位、放大和强调主要发言者的面部。以此方 式,本地会议控制台110-1的ASD模块220从会议室150中隔离出单个参与者作 为发送侧的活跃发言者。媒体内容管理器组件114-1可包括通信地耦合到ASD模块220的媒体流管理器 (MSM)模块230。MSM模块230 —般可将已解码媒体流映射到各个显示帧。在一个实施例中, 例如,MSM模块230可被安排成确定已解码输入媒体流202-1-f的总数。这一信息可以例 如从视频解码器模块210接收。MSM模块230还可以确定视觉合成108中的可用显示帧的 总数。可用显示帧的总数可以基于技术约束(例如,计算资源或通信资源)、查看约束(例 如,显示区域或所需⑶I视图大小)或其他设计约束来计算。MSM模块230可以比较这些总 数以确定已解码媒体流的总数是否大于视觉合成108中的可用显示帧的总数,从而使得媒 体内容选择算法的实现必须选择将要使用可用显示帧来显示已解码媒体流中的哪一些。媒 体内容选择算法可以由媒体选择模块260来实现。作为示例,假定L表示由视频解码器模块210解码的已解码媒体流的数量,并且A 表示视觉合成108的可用显示帧的数量。此外,假定A = x+y,其中χ表示用于呈现所钉住 的已解码媒体流的显示帧的数量,并且y表示用于呈现活跃的一组已解码媒体流中的已解 码媒体流的显示帧的数量。在已解码媒体流的总数不大于视觉合成108的显示帧的总数时(例如,L < = A), MSM模块230可以将已解码媒体流映射到可用显示帧。在这种情况下,视频合成108可具有 用于显示给定多媒体会议事件的已解码媒体流中的所有参与者1M-1-P的足够数量的可 用显示帧。然而,在已解码媒体流的总数大于视觉合成108的显示帧的总数时(例如,L > A),MSM模块230可能需要将已解码媒体流的总数的一个子集映射到可用显示帧。在这种 情况下,视频合成108可能不一定具有用于显示给定多媒体会议事件的已解码媒体流中的 所有参与者M4-1-P的足够数量的可用显示帧。可用显示帧要呈现的已解码媒体流的特定 子集可由媒体选择模块260来选择。媒体选择模块260可被安排成基于发言活动从已解码媒体流的总数中选择活跃 的一组已解码媒体流来映射到可用显示帧。活跃的一组已解码媒体流可以指的是当前映射 到可用显示帧的那些已解码媒体流。作为对比,当前未映射到可用显示帧的那些已解码媒 体流被称为非活跃的一组已解码媒体流。非活跃组的成员通常不可经由来自已解码媒体流 的视频内容查看,但可以经由来自该已解码媒体流的音频内容听到。在初始化期间或在媒体会议事件开始时,媒体选择模块260可以一开始用任何数 量的不同方式来选择活跃的一组已解码媒体流。例如,媒体选择模块260可以用随机或任 意的方式来选择该活跃组。在另一示例中,媒体选择模块260可以根据一组选择规则来选 择活跃组,如以参与者K4-1-P加入多媒体会议事件的时间的次序。在一些情况下,媒体选 择模块260可以基于被设计来预测更可能参与而非不参与发言活动的那些参与者K4-1-P的某组试探法来选择活跃组。例如,特定参与者K4-1-P可被指定为多媒体会议事件的演 示者,而其他参与者K4-1-P可被指定为多媒体会议事件的出席者。因为演示者通常在多 媒体会议事件期间比出席者发言更多,所以被指定为演示者的这些参与者1M-1-P —开始 可被选为活跃组。在任何情况下,媒体选择模块260可以一开始选择活跃组,并将该活跃组 选择发送到MSM模块230以供映射到可用显示帧。在多媒体会议事件期间的某一点,MSM模块230可能必须周期性地重新配置活跃 组以显示与媒体选择模块260—开始选择的那些参与者不同的参与者lM-1-p。例如,在一 个实施例中,媒体选择模块260可以基于发言活动来选择已解码媒体流的非活跃组的某一 成员作为非活跃替换候选,以替换已解码媒体流的活跃组的某一成员。在多媒体会议事件 期间,已解码媒体流的非活跃组中的参与者1M-1-P可能参与发言活动,如出席者向演示 者提问。ASD模块220监视已解码媒体流来检测发言活动何时发生。在ASD模块220检测 非活跃组的成员参与发言活动时,ASD模块220可以向MAM模块230发送通知。MSM模块230可能基于ASD模块220检测到的发言活动来重新配置活跃组。在MSM 模块230具有当前未映射到活跃组的已解码媒体流的可用显示帧时,MSM模块230将非活 跃组的该成员映射到该可用显示帧。然而,在没有可用显示帧时,MSM模块230可以向媒体 选择模块260发送控制指令以选择活跃组的成员以供非活跃组的发言成员来替换。媒体选择模块260可被安排成基于活动分数来选择已解码媒体流的活跃组的某 一成员作为要由已解码媒体流的非活跃组的某一成员替换的活跃替换候选。该活跃替换候 选可以是降低通过参与在时间上接近被放到非活跃组的后续发言活动而被交换回活跃组 的概率的参与者154-1-p。换言之,活跃替换候选理想地应当是在被放到非活跃组中后短期 内最不可能再次发言(从而迫使到活跃组的另一短期交换)的活跃组成员。 在一些情况下,活跃替换候选可以使用活动分数来选择。媒体内容管理器组件114 可包括通信耦合到ASD模块220和媒体选择模块260的活动分数生成(ASG)模块250。ASG 模块250可以接收来自ASD模块220的发言活动信息。ASG模块250可以使用发言活动信 息以及其他输入来生成参与者1M-1-P的活动分数。活动分数可以表示参与者1M-1-P中 的每一个的不同的发言活动水平。活动分数随后可被输出到媒体选择模块260以供在选择 活跃组时使用。在一个实施例中,例如,ASG模块250可以生成表示已解码媒体流的参与者 154-1-p的发言活动的特性的活动分数。ASG模块250可以实现基于预测活跃组的某一成 员何时将再次发言的发言活动的不同特性来生成活动分数的各种打分算法。可为这些不同 的特性定义变化的度量,并且这些度量可被用来生成可被用作将来发言活动的预测器的统 计或分析。媒体选择模块260可以使用活动分数来从活跃组选择在短期内具有较低发言概 率从而降低在活跃组和非活跃组之间的成员转移的活跃替换候选。一般而言,较高活动分 数指示较高发言活动水平,而较低活动分数指示较低发言活动水平,但各实施例不限于该 示例。活动分数可被针对相关性来进行排名和/或评级,从而便于选择操作。例如,在一个实施例中,ASG模块250可以生成表示参与者的发言活动的 最近时间的活动分数。ASD模块220可以监视已解码媒体流并记录给定已解码媒体流的发 言活动何时发生。可为已解码媒体流的每一参与者154-1-p存储时间戳。该时间戳可以具 有表示参与者154-1-p参与发言活动(如提问或演示信息)的最近时间的日期和/或时间。ASG模块250可以分析所有参与者154-1-p的时间戳,并为在时间上较近从而示出最近发言 活动的时间戳生成较高活动分数,并且为较老从而示出较老发言活动的时间戳生成较低活 动分数。较高活动分数可以预测最近发言的参与者K4-1-P更可能参与该多媒体会议事件 的主题并且因此具有在近期再次发言的更大可能性。较低活动分数可以预测在该多媒体会 议事件中较早发言的参与者M4-1-P较不可能参与该多媒体会议事件的当前主题并且因 此具有在近期再次发言的较低可能性从而成为供在活跃组中进行替换的良好候选。在一个实施例中,例如,ASG模块250可以生成表示发言活动与非发言活动的比值 的活动分数。ASD模块220可以监视已解码媒体流并记录给定已解码媒体流的发言活动何 时发生。可为已解码媒体流的每一参与者154-1-p存储多个时间戳。这些时间戳可以具有 表示参与者K4-1-P每次参与发言活动的日期和/或时间以及该发言活动发生的时间量。 ASG模块250可以分析所有参与者lM-1-p的这些时间戳以确定发言活动与非发言活动的 比值。ASG模块250可为指示发言活动相对于非发言活动量较大的比值生成较高活动分数, 并为指示发言活动相对于非发言活动量较少的比值生成较低活动分数。较高活动分数可以 预测较频繁和/或较长时间发言的参与者K4-1-P具有在近期再次发言的较高可能性。较 低活动分数可以预测较不频繁和/或较短时间发言的参与者154-1-p具有在近期再次发言 的较低可能性从而成为供在活跃组中进行替换的良好候选。在一个实施例中,例如,ASG模块250可以生成表示参与者的发言活动的计数值的 活动分数。并非与先前示例那样使用比值来表示发言持续时间和/或频率,ASG模块250可 为每一参与者1M-1-P实现计数器并且对参与者1M-1-P每次参与发言活动进行计数。与 比值类似,较高活动分数可被分配给较高计数,并且较低活动分数可被分配给较低计数。较 高活动分数可以预测较频繁发言的参与者K4-1-P具有在近期再次发言的较高可能性。较 低活动分数可以预测较不频繁发言的参与者K4-1-P具有在近期再次发言的较低可能性 从而成为供在活跃组中进行替换的良好候选。在一个实施例中,例如,ASG模块250可以生成表示参与者的发言活动的长度值的 活动分数。ASD模块220可以监视已解码媒体流并记录给定已解码媒体流的发言活动何时 发生。可为已解码媒体流的每一参与者154-1-p存储多个时间戳。这些时间戳可以具有表 示参与者154-1-p每次参与发言活动的日期和/或时间以及该发言活动发生的时间量。ASG 模块250可以分析所有参与者lM-1-p的这些时间戳以确定每一参与者lM-1-p的发言活 动的平均长度。ASG模块250可为指示发言活动的较长持续时间的平均长度值生成较高活 动分数,并且为指示发言活动的较短持续时间的平均长度值生成较低活动分数。较高活动 分数可以预测较长时间发言的参与者K4-1-P具有在近期再次发言的较高可能性。较低活 动分数可以预测较短发言的参与者K4-1-P具有在近期再次发言的较低可能性从而成为 供在活跃组中进行替换的良好候选。一旦ASG模块250生成参与者的活动分数,ASG模块250就可以将该活 动分数输出到媒体选择模块260。媒体选择模块260可以使用该活动分数来选择活跃替换 候选,并且将该活跃替换候选输出到MSM 230。MSM模块230随后可以用来自非活跃组的非 活跃替换候选来替换来自活跃组的活跃替换候选。例如,MSM模块230可以解除来自可用 显示帧的活跃替换候选的分配,并将该非活跃替换候选映射到该新释放的可用显示帧。以 此方式,可以使用可用显示帧来显示较活跃的发言者,同时降低可用显示帧所显示的媒体内容之间的转移。媒体内容管理器组件114-1可包括通信地耦合到MSM模块230的视觉合成生成 器(VCG)模块MO。VCG模块240 —般可呈现或生成视觉合成108。例如,在一个实施例 中,VCG模块240可被安排成生成以静态或动态方式定位可用显示帧的参与者名单的视觉 合成。VCG模块240可经由给定会议控制台110-1-m的操作系统的视频图形控制器和/或 ⑶I模块向显示器116输出视觉合成信号206-1-g。图3a、!3b示出视觉合成108的更详细图示。视觉合成108可包括被排列成特定 马赛克或显示图案以供呈现给诸如会议控制台110-1-m的操作员等查看者的各个显示帧 330-1-a。每一个显示帧330-1-a都被设计成呈现或显示来自媒体流202_l_f的多媒体内 容,诸如来自由MSM模块230映射到显示帧330-1-a的对应媒体流202_l_f的视频内容和
/或音频内容。在图3a、北所示的实施例中,例如,视觉合成108可包括包含用于显示诸如来自演 示应用软件的演示幻灯片304等应用程序数据的主查看区域的显示帧330-6。此外,视觉合 成108可包括包含显示帧330-1到330-5的参与者名单306。参与者名单306可以表示活 跃组340。活跃组340可包括当前被映射到显示帧330-1-s的参与者302-1到302-5。非 活跃组350可包括当前未被映射到显示帧330-1-s的参与者302-6到302-8。可以理解,视 觉合成108可包括具有如给定实现所需要的不同大小和替换排列的更多或更少的显示帧 330-1-s。参与者名单306可包括多个显示帧330-1到330-5。显示帧330-1到330-5可提 供由会议控制台110-1-m传递的来自各个媒体流202-1-f的参与者302-1-b的视频内容和 /或音频内容。参与者名单306中的各个显示帧330-1可以按从视觉合成108的顶部到视 觉合成108的底部的给定次序来定位,诸如显示帧330-1在接近顶部的第一位置,显示帧 330-2在第二位置,显示帧330-3在第三位置,显示帧330-4在第四位置,而显示帧330-5在 接近底部的第五位置。由显示帧330-1到330-5显示的参与者302-1-b的视频内容可以按 各种格式呈现,诸如“头和肩膀”剪切块(例如,具有或不具有任何背景)、可覆盖其他对象 的透明对象、透视和全景视图中的矩形区域等等。参与者名单306中的显示帧330-1-b的次序不一定是静态的。例如,在某些实施 例中,该次序可出于多个原因而变化。例如,操作者可以基于个人偏好来手动配置该次序中 的部分或全部。在另一示例中,媒体内容管理器组件114-1-t可基于以下各项来自动修改 该次序参与者加入或离开给定多媒体会议事件、修改显示帧330-1-a的显示大小、改变为 显示帧330-1-a呈现的视频内容的空间或时间分辨率、显示帧330-1-a的视频内容中所示 出的参与者302-1-b的数量、不同的多媒体会议事件等等。在一些情况下,操作者或观看者可以选择显示帧330-1-a来显示特定参与者 302-1-s,或反之亦然。响应于接收到操作者命令,VCG模块240可临时或永久地将所选显示 帧330-1-a分配给所需参与者302-1-s。例如,操作者或查看者可能想要将参与者名单306 的显示帧330-3分配给第三参与者302-3。诸如大头针图标308等视觉指示符可指示显示 帧330-3被分配给第三参与者302-3并且将保持映射到该第三参与者302-3直到被释放。MSM模块230可将已解码媒体流映射到各个显示帧。继续前面的示例,在已解码媒 体流的总数不大于视觉合成108的显示帧的总数时(例如,L <= A),MSM模块230可以将已解码媒体流映射到可用显示帧。在这种情况下,视频合成108可具有用于显示给定多媒 体会议事件的已解码媒体流中的所有参与者1M-1-P的足够数量的可用显示帧。例如,在 存在五个可用显示帧330-1到330-5以及具有参与者302-1到302-5 (a_c)的五个已解码 媒体流时,视觉合成108可以在视觉合成108中显示所有五个已解码媒体流。然而,在已解码媒体流的总数大于视觉合成108的显示帧的总数时(例如,L > A),MSM模块230可能需要将已解码媒体流的总数的一个子集映射到可用显示帧。如上所 述,在初始化期间或在媒体会议事件开始时,媒体选择模块260可以用任何数量的不同方 式来选择活跃的一组已解码媒体流。在图3a中示出的实施例中,例如,参与者302-1到 302-5被映射到对应显示帧330-1到330-5以形成活跃组340,而参与者302-6到302-8未 被映射到对应显示帧330-1并且因此构成非活跃组350的成员。媒体选择模块260可以基于发言活动来选择已解码媒体流的非活跃组350的某一 成员作为非活跃替换候选,以替换已解码媒体流的活跃组340的某一成员。在多媒体会议 事件的过程期间,假定参与者302-7参与发言活动。ASD模块220监视已解码媒体流来检测 发言活动何时发生。在ASD模块220检测到参与者302-7的发言活动时,ASD模块220可 以向MSM模块230发送通知。然而,因为没有可用显示帧330-1-s,所以MSM模块230可以 向媒体选择模块260发送控制指令以选择活跃组340的成员以供非活跃组350的发言成员 来替换。媒体选择模块260可基于参与者302-7的活动分数来选择已解码媒体流的活跃组 340的某一成员作为要由已解码媒体流的非活跃组的参与者302-7替换的活跃替换候选。 假定媒体选择模块260选择具有活跃组340的所有参与者302-1到302-5的最低活动分数 的参与者302-4,并且因此将参与者302-4指定为活跃替换候选。例如,最低活动分数可以 指示参与者302-4在所有参与者302-1到302-5中发言时间离得最远。然而,值得注意的 是,媒体选择模块260在评估活动分数时将排除参与者302-3,因为操作者将参与者302-3 钉到显示帧330-3上,如大头针图标308所示。媒体选择模块260将对参与者302-4的选 择输出到MSM 230作为活跃替换候选。MSM模块230随后可以用来自非活跃组350的非活 跃替换候选(在这一情况下是参与者302-7)来替换来自活跃组340的参与者302-4。例 如,MSM模块230可以从显示帧330-4解除具有参与者302-4的已解码媒体流的分配,并将 参与者302-7映射到该新释放的显示帧330-4,如图北所示。活跃组340现在包括参与者 302-1、302-2、302-3、302-5 (a_c)和 302-7。非活跃组 350 现在包括 302-4,302-6 和 302-8。上述实施例的操作可参考一个或多个逻辑流程来进一步描述。可以理解,除非另 外指明,否则代表性的逻辑流程不一定要按所呈现的次序或者按任何特定次序来执行。而 且,关于逻辑流程描述的各种活动可按串行或并行的方式执行。视给定一组设计和性能约 束所需,逻辑流程可使用所述实施例的一个或多个硬件元素和/或软件元素或替换元素来 实现。例如,逻辑流程可被实现为供逻辑设备(例如,通用或专用计算机)执行的逻辑(例 如,计算机程序指令)。图4示出逻辑流程400的一个实施例。逻辑流程400可表示由在此所描述的一个 或多个实施例所执行的操作中的部分或全部。如图4所示,逻辑流程400可在框402解码多媒体会议事件的多个媒体流。例如, 视频解码器模块210可以解码多媒体会议事件的多个输入媒体流202-1-f以形成已解码媒 体流。
逻辑流程400可以在框404确定已解码媒体流的总数大于视觉合成中的可用显示 帧的总数。例如,MSM模块230可以确定已解码媒体流的总数大于视觉合成中的可用显示 帧的总数(例如,L>A)。逻辑流程400在框406可基于发言活动从已解码媒体流的总数中选择活跃的一组 已解码媒体流来映射到可用显示帧。例如,媒体选择模块260可基于发言活动从已解码媒 体流的总数中选择活跃的一组已解码媒体流来映射到可用显示帧330-1-s。发言活动可由 使用不同打分算法生成的各种活动分数来表示。图5进一步示出了适于实现会议控制台110-1-m或多媒体会议服务器130的计算 体系结构510的更详细框图。在基本配置中,计算体系结构510通常包括至少一个处理单 元532和存储器534。存储器534可以使用能够存储数据的任何机器可读的或计算机可读 介质来实现,包括易失性和非易失性存储器。例如,存储器534可以包括只读存储器(ROM)、 随机存取存储器(RAM)、动态RAM(DRAM)、双数据率DRAM (DDRAM)、同步DRAM (SDRAM)、静态 RAM(SRAM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、 闪存、诸如铁电聚合物存储器等聚合物存储器、奥氏存储器、相变或铁电存储器、硅-氧化 物-氮化物-氧化物-硅(SONOS)存储器、磁卡或光卡、或适于存储信息的任何其它类型的 介质。如图5所示,存储器534可存储各种软件程序,诸如一个或多个应用程序536-1-t和 附带数据。取决于实现,应用程序536-1-t的示例可包括服务器会议组件132、客户机会议 组件112-1-n或媒体内容管理器组件114。计算体系结构510还可具有除其基本配置之外的附加特征和/或功能。例如,计 算体系结构510可包括可移动存储538和不可移动存储M0,这些存储还可包括如上所述的 各种类型的机器可读的或计算机可读介质。计算体系结构510还可具有一个或多个输入设 备M4,如键盘、鼠标、笔、语音输入设备、触摸输入设备、测量设备、传感器等。计算体系结构 510还可包括一个或多个输出设备M2,诸如显示器、扬声器、打印机等。计算体系结构510还可包括允许计算体系结构510与其他设备进行通信的一个或 多个通信连接M6。通信连接546可以包括各种类型的标准通信元件,如一个或多个通信 接口、网络接口、网络接口卡(NIC)、无线电、无线发射机/接收机(收发机)、有线和/或无 线通信介质、物理连接器等。通信介质通常以诸如载波或其他传输机制等已调制数据信号 来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息传送介质。术语 “已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的 信号。作为示例而非限制,通信介质包括有线通信介质和无线通信介质。有线通信介质的 示例可以包括导线、电缆、金属线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、 同轴电缆、光纤、所传播的信号等。无线通信介质的示例可以包括声学、射频(RF)频谱、红 外和其他无线介质。此处使用的术语机器可读介质和计算机可读介质旨在包括存储介质和 通信介质两者。图6示出了适用于存储包括逻辑流程400在内的用于各实施例的逻辑的制品600 的图示。如图所示,制品600可包括用于存储逻辑604的存储介质602。存储介质602的 示例可包括能够存储电子数据的一种或多种类型的计算机可读存储介质,包括易失性存储 器或非易失性存储器、可移动或不可移动存储器、可擦除或不可擦除存储器、可写或可重写 存储器等。逻辑604的示例可包括各种软件元素,诸如软件组件、程序、应用软件、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、 函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、 计算机代码段、文字、值、符号、或其任意组合。例如,在一个实施例中,制品600和/或计算机可读存储介质602可存储包括可执 行计算机程序指令的逻辑604,这些指令在被计算机执行时使该计算机执行根据所述实施 例的方法和/或操作。可执行计算机程序指令可包括任何合适类型的代码,诸如源代码、已 编译代码、已解释代码、可执行代码、静态代码、动态代码等。可执行计算机程序指令可根 据用于指示计算机执行特定功能的预定义的计算机语言、方式或句法来实现。这些指令可 使用任何合适的高级、低级、面向对象、可视、已编译和/或已解释编程语言来实现,诸如C、 C++、Java、BASIC、Perl、Matlab、Pascal、VisualBASIC、汇编语言等。各实施例可以使用硬件元素、软件元素或两者的组合来实现。硬件元素的示例可 以包括如先前关于逻辑设备所提供的任何示例,且还可以包括微处理器、电路、电路元件 (例如,晶体管、电阻器、电容器、电感器等等)、集成电路、逻辑门、寄存器、半导体器件、芯 片、微芯片、芯片组等等。软件元素的示例可以包括软件组件、程序、应用软件、计算机程序、 应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函 数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计 算机代码段、文字、值、符号、或其任意组合。确定一实施例是否使用硬件元素和/或软件元 素来实现可视给定实现所需根据任何数量的因素而变化,这些因素如所需计算速率、功率 级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及 其他设计或性能约束。一些实施例可使用表述“耦合的”和“连接的”及其派生词来描述。这些术语不必 旨在互为同义词。例如,一些实施例可使用术语“连接的”和/或“耦合的”来描述以指示 两个或更多元素彼此有直接的物理或电接触。然而,术语“耦合的”还可以意味着两个或更 多元素彼此不直接接触,而仍彼此合作或交互。要强调的是,提供了本发明的摘要以符合37C.F.R. 1.72(b)节,该节要求可使读 者快速确定本技术公开的特性的摘要。提交摘要的同时要明白,将不用它来解释或限制权 利要求的范围或含义。另外,在前面的详细描述中,可以看到,出于将本公开连成一个整体 的目的而将各种特征组合在一起放在单个实施例中。此公开方法将不被解释为反映所要求 保护的实施例要求比每个权利要求中明确陈述的更多特征的意图。相反,如所附权利要求 书所反映,发明性的主题存在于比单个已公开实施例的所有特征少的特征中。从而,据此将 所附权利要求结合进详细描述中,其中每个权利要求独立地代表一个单独的实施例。在所 附权利要求书中,术语“包括”和“其中”分别用作术语“包含”和“其特征在于”的易懂的英 文等价词。而且,术语“第一”、“第二”、“第三”等等只用作标记,而不旨在将数字要求强加 于其对象上。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权 利要求书中定义的主题不必限于上述具体特征或动作。相反,上文所描述的具体特征和动 作是作为实现权利要求的示例形式来公开的。
权利要求
1.一种方法,包括解码多媒体会议事件的多个媒体流O02);确定已解码媒体流的总数大于视觉合成(108)中的可用显示帧(330)的总数;以及基于发言活动从已解码媒体流的所述总数中选择活跃的一组已解码媒体流(340)以 映射到所述可用显示帧。
2.如权利要求1所述的方法,其特征在于,包括基于发言活动来选择已解码媒体流的 非活跃组(350)的某一成员作为非活跃替换候选,以替换已解码媒体流的所述活跃组的某 一成员。
3.如权利要求1或2所述的方法,其特征在于,包括基于活动分数来选择已解码媒体流 的所述活跃组的某一成员作为要由已解码媒体流的所述非活跃组的某一成员替换的活跃 替换候选。
4.如权利要求1-3中的任一项所述的方法,其特征在于,包括使用来自非活跃组的非 活跃替换候选来替换来自所述活跃组的活跃替换候选。
5.如权利要求1-4中的任一项所述的方法,其特征在于,包括生成表示所述已解码媒 体流的参与者的发言活动的特性的活动分数。
6.如权利要求1-5中的任一项所述的方法,其特征在于,包括生成表示参与者的发言 活动的最近时间的活动分数。
7.如权利要求1-6中的任一项所述的方法,其特征在于,包括生成表示发言活动与非 发言活动的比值的活动分数。
8.如权利要求1-7中的任一项所述的方法,其特征在于,包括生成表示参与者的发言 活动的计数值的活动分数。
9.如权利要求1-8中的任一项所述的方法,其特征在于,包括生成表示参与者的发言 活动的长度值的活动分数。
10.如权利要求1-9中的任一项所述的方法,其特征在于,包括基于所述活动分数将已 解码媒体流的所述活跃组映射到所述可用显示帧,其中所述活跃组是已解码媒体流的所述 总数的子集。
11. 一种包括包含指令的机器或计算机可读存储介质的制品,所述指令在被执行时使 得一系统能够实现如权利要求1到10中的任一项所述的方法。
12. 一种装置,包括可用于为多媒体会议事件生成视觉合成(108)的媒体内容管理器组件(114),所述媒 体内容管理器组件包括可用于解码多媒体会议事件的多个媒体流O02)的视频解码器模块O10);通信耦合到所述视频解码器模块的媒体流管理器模块O30),所述媒体流管理器模块 可用于确定已解码媒体流的总数大于视觉合成(108)中的可用显示帧(330)的总数;以及通信耦合到所述媒体流管理器模块的媒体选择模块O60),所述媒体选择模块可用于 基于发言活动从已解码媒体流的所述总数中选择活跃的一组已解码媒体流(340)以映射 到所述可用显示帧。
13.如权利要求12所述的装置,其特征在于,包括通信耦合到所述视频解码器模块的 活跃发言者检测器模块O20),所述活跃发言者检测器模块可用于检测所述已解码媒体流中的参与者(302)的发言活动。
14.如权利要求12或13所述的装置,其特征在于,所述媒体选择模块可用于基于发言 活动来选择已解码媒体流的非活跃组(350)的某一成员作为非活跃替换候选,以替换已解 码媒体流的所述活跃组的某一成员。
15.如权利要求12-14所述的装置,其特征在于,所述媒体选择模块可用于基于活动分 数来选择已解码媒体流的所述活跃组的某一成员作为要由已解码媒体流的所述非活跃组 的某一成员替换的活跃替换候选。
全文摘要
描述了用于管理多媒体会议事件的媒体内容的技术。媒体内容管理器组件可用于生成多媒体会议事件的视觉合成。该媒体内容管理器组件可包括可用于解码多媒体会议事件的多个媒体流的视频解码器模块。该媒体内容管理器组件可包括可用于确定已解码媒体流的总数大于视觉合成中的可用显示帧的总数的媒体流管理器模块。该媒体内容管理器组件可包括可用于基于发言活动从已解码媒体流的总数中选择活跃的一组已解码媒体流来映射到可用显示帧的媒体选择模块。对其他实施例也予以描述并要求保护。
文档编号H04N7/15GK102138324SQ200980116861
公开日2011年7月27日 申请日期2009年4月17日 优先权日2008年5月6日
发明者A·巴塔查杰, N-E-G·辛格, P·塔尔卡, S·贾殷 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1