用于在视频会议中增强用户体验的技术的制作方法

文档序号：11162238阅读：377来源：国知局

在视频会议中，以协作方式利用音频和视觉电信技术以在位于不同地点处的用户之间提供通信。在一些类型的视频会议中，服务器执行对多方音频视频通信事件的合成：从个体参与者处收集音频和视频数据，处理此数据，并且将所产生的已处理数据分配至参与者端点设备。在一些其他类型的视频会议中，每个参与者的端点设备自身执行对多方音频视频通信事件的合成：收集并处理参与者数据，并且向给定的参与者渲染所产生的已处理数据。

附图说明

图1展示了根据本公开的实施例配置的示例计算设备。

图2是框图，根据本公开的实施例展示了视频会议事件中的计算设备的示例音频和视频数据流。

图3A根据本公开的实施例展示了计算设备的示例截屏，在所述计算设备上以双用户动态显著性模式显示了图形用户界面(GUI)。

图3B根据本公开的另一个实施例展示了计算设备的示例截屏，在所述计算设备上以三用户动态显著性模式显示了GUI。

图3C根据本公开的另一个实施例展示了计算设备的示例截屏，在所述计算设备上以对象/场景显著性模式显示了GUI。

图4A是流程图，根据本公开的实施例展示了动态显著性交换的基于IR.94的实现方式。

图4B是流程图，根据本公开的实施例展示了动态显著性交换的基于WebRTC的实现方式。

图5根据本公开的实施例展示了计算设备的示例截屏，在所述计算设备上以具有不同的分辨率和/或帧率的代表性视频流显示了GUI。

图6A至图6B根据本公开的实施例展示了计算设备的示例截屏，在所述计算设备上显示了演示用户可配置显著性交换的GUI。

图7A和图7B根据本公开的实施例展示了计算设备的示例截屏，在所述计算设备上显示了具有针对视频会议参与者的个体化音量控制的GUI。

图8A是流程图，根据本公开的实施例展示了个体化音量控制的基于IR.94的实现方式。

图8B是流程图，根据本公开的实施例展示了个体化音量控制的基于WebRTC的实现方式。

图9是曲线图，示出了随着分辨率和比特率而变的主观质量(SSIM)。

图10根据一些实施例展示了可以执行如本文所描述的用于在视频会议中增强用户体验的技术的示例系统。

图11展示了可以在其中具体化图10的系统的小形状因数设备的实施例。

具体实施方式

公开了用于在视频会议中增强用户体验的技术。根据一些实施例，在参与视频会议会话的设备上所显示的图形用户界面(GUI)可以经历对其视频组成的动态调整，例如，以便渲染在所述GUI的显著区域或缩略图区域中的视频内容。根据一些实施例，可以(1)自动地基于所述视频会议参与者的检测到的音频活动水平的；和/或(2)基于用户指令来执行对所述GUI的视频组成的重组。根据一些实施例，可以提供对个体视频会议参与者的个体音频流的音量控制。根据一些实施例，在参与视频会议会话的源设备处采集的视频数据的分辨率和/或帧率可以例如在编码之前在采集和/或处理过程中基于此源设备的用户的所检测到的音频活动水平自适应地变化。例如，可以实时地或以其他方式如期望的执行这种自适应调整。鉴于本公开，各种变化和排列将变得明显。

总体概述

随着移动设备盛行且社交联网持续增长，日益增加数量的用户寻求经由作为典型的电话呼叫和基于文本的消息的替代方案的视频与其他用户进行通信。然而，现有视频会议程序面临多种限制。例如，视频会议拓扑在给定的会话过程中可以是相当动态的，但是现有视频会议程序(如Skype和Microsoft Lync)将所有参与者的代表性视频流仅渲染为在屏幕上的图形用户界面(GUI)内的缩略图，不管哪些参与者在视频会议会话过程中在给定时刻正在讲话。具体地，利用这些现有程序，屏幕上的GUI的视频组成不发生变化，除非当前参与者离开会话或新的参与者加入会话，并且甚至随后所有的参与者保持被渲染为在屏幕上的GUI内的缩略图或者以其他方式具有固定的相等的分辨率和帧率，而不管给定的参与者在会话中是主动的还是被动的。这样，与这些现有程序相关联的GUI具有静态拓扑和内容并且不支持对参与者的动态表示。此外，现有视频会议程序仅提供有限的用户控制选项并因此在其可以提供的整体用户体验方面受限。例如，这些现有程序不提供用于控制单独视频会议参与者的音量水平或者用于在视频会议会话过程中重新组织参与者的视频流的屏幕上位置的GUI选项。此外，现有视频会议程序是性能密集型的并且消费相当可观量的功率以及资源(如处理器带宽和传输带宽)。这些限制关于移动通信设备进一步复杂，这通常在电源和屏幕大小方面受限，并因此关于可以存在于给定视频会议会话中的用户数量受限。

因此，并且根据本公开的一些实施例，公开了用于在视频会议中增强用户体验的技术。根据一些实施例，在参与视频会议会话的设备上所显示的图形用户界面(GUI)可以经历对其视频组成的动态调整，例如，以便渲染在所述GUI的显著区域或缩略图区域中的视频内容。根据一些实施例，可以(1)自动地基于个体视频会议参与者的检测到的音频活动水平的；和/或(2)基于用户指令来执行对所述GUI的视频组成的重组。根据一些实施例，可以提供对个体视频会议参与者的个体音频流的音量控制。根据一些实施例，在参与视频会议会话的源设备处采集的视频数据的分辨率和/或帧率可以例如在编码之前在采集和/或处理过程中基于此源设备的用户的所检测到的音频活动水平自适应地变化。例如，可以实时地或以其他方式如期望的执行这种自适应调整。鉴于本公开，各种配置和变化将变得明显。

可以例如以广泛的基于视频的通信形式(例如，对等视频呼叫；多点视频会议；即时通讯；互联网语音协议；或VoIP服务)中的任一形式在广泛背景(例如，联网；社交媒体)下的任一背景中使用广泛通信平台、移动设备或其他中的任一者来利用本文公开的技术。应注意的是，根据一些实施例，虽然公开的技术通常是在多点和对等视频会议的示例背景中讨论的，但是它们还可以用在例如基于其他视频的合作背景中，如虚拟教室或可以使用多点和/或基于对等视频的通信的任何其他背景。在一些示例情况下，涉及这种基于视频的合作背景的每个参与者可以(例如，实时地)共享和/或接收如本文所述所提供的音频和/或视频内容。应进一步注意的是，虽然所公开的技术总体上是在移动计算设备的示例背景中讨论的，但是本公开不必如此限制。例如，在一些情况下，根据一些实施例，所公开的技术可以例如与非移动计算设备(例如，台式计算机、电视机、专用专业/基于办公室的视频会议设备等)一起使用。鉴于本公开，各种合适的主机平台将变得明显。

在一些情况下，使用本文所公开的技术可以实现视频会议会话或其他视频内容传输中的带宽消耗减小和/或渲染硬件使用。例如，一些实施例可以准许观看参与者的视频内容，而不必如现有视频会议方法通常涉及的交换大量信息或以其他方式消费大量传输带宽。在一些实例中，使用本文所公开的技术可以实现服务质量(QoS)的改善。在一些情况下，使用本文所公开的技术可以为给定的视频会议参与者提供增强的或以其他方式丰富的用户体验。例如，在一些情况下，所公开的技术可以促进为用户提供丰富的、面对面的、对话式的视频通信/合作体验。在一些实例中，这可以提供改进的基于视频的通信/交互会话并因此可以帮助增加用户的整体满意度以及对所述体验的享受。

系统架构和操作

图1展示了根据本公开的实施例配置的示例计算设备100。设备100可以是广泛的计算平台、移动设备或其他中的任一者。例如，根据一些实施例，设备100可以是以下各项的一部分或全部：(1)膝上计算机/笔记本计算机或子笔记本计算机(例如，超极本TM设备)；(2)平板计算机；(3)移动电话或智能电话；(4)个人数字助理(PDA)；(5)便携式媒体播放器(PMP)；(6)蜂窝电话手机；(7)手持式游戏设备；(8)游戏平台；(9)台式计算机；(10)电视机；(11)基于视频会议或其他视频的合作系统；(12)被配置成用于主管视频会议会话的服务器；和/或(13)其中任何一个或多个的组合。设备100可以根据需要被配置成用于有线(例如，通用串行总线或USB、以太网、火线等)和/或无线(例如，Wi-Fi、蓝牙等)通信。计算设备100的其他合适配置将取决于给定的应用并且鉴于本公开将变得明显。

如从图1可见，计算设备100包括存储器110。存储器110可以具有任何合适的类型(例如，RAM和/或ROM，或其他合适的存储器)和大小，并且在一些情况下可以与易失性存储器、非易失性存储器或其组合一起实现。在一些情况下，例如，存储器110可以被配置成用于处理器工作空间(例如，用于一个或多个处理器120)和/或用于在暂时或永久的基础上将媒体、程序、应用和/或内容存储在计算设备100上。设备100的给定处理器120可以如通常所进行的那样被配置，并且在一些实施例中可以被配置成例如用于执行与设备100及其一个或多个模块(例如，在存储器110内或其他处)相关联的操作。鉴于本公开，各种合适的配置将变得明显。

如从图1进一步可见，存储器110可以包括存储在其中可以例如由设备100的一个或多个处理器120访问和执行的多个模块。例如，根据一些实施例，存储器110可以包括操作系统(OS)112。OS 112可以用任何合适的OS、移动设备或其他来实现，如，例如：(1)谷歌公司的安卓OS；(2)苹果公司的iOS；(3)黑莓公司的黑莓OS；(4)微软公司的Windows Phone OS；(5)Palm公司的Palm OS/Garnet OS；(6)开源OS(如，塞班OS)；和/或(7)其任何一个或多个的组合。如鉴于本公开将认识到的，例如，OS 112可以被配置成用于在其流程中通过设备100帮助处理视频和/或音频数据。OS 112的其他合适配置和能力将取决于给定的应用并且鉴于本公开将变得明显。

根据一些实施例，设备100可以包括用户界面(UI)模块114。在一些情况下，UI 114可以在存储器110中实现(例如，如在图1中通常所示的)，而在一些其他情况下，UI 114可以在位置组合中实现(例如，在存储器110处和在显示器130处)，由此为UI 114提供给定程度的功能分配。根据一些实施例，UI 114可以被配置成用于提供图形UI(GUI)，所述GUI例如被配置成用于帮助执行本文讨论的各种视频会议技术中的任何技术。UI 114的其他合适配置和能力将取决于给定的应用并且鉴于本公开将变得明显。

根据一些实施例，存储器110可以具有存储在其中的一个或多个应用116(或以其他方式具有对所述一个或多个应用的访问)。在一些实例中，设备100可以被配置成用于例如经由存储在存储器110中的一个或多个应用116接收用户输入。可以存储在存储器110中(或者可以以其他方式由设备100访问)的其他合适的模块、应用和数据将取决于给定的应用并且将鉴于本公开变得明显。

根据一些实施例，存储器110的给定模块可以以任何合适的标准和/或自定义/专有编程语言来实现，如，例如：(1)C；(2)C++；(3)objective C；(4)JavaScript；和/或(5)任何其他合适的自定义或专有指令集，如鉴于本公开将变得明显的。例如，存储器110的模块可被编码在机器可读介质上，所述模块当由处理器120执行时执行设备100的部分或全部功能。计算机可读介质可以例如是硬盘驱动器、光盘、记忆棒、服务器、或包括可执行指令的任何合适的非瞬态计算机/计算设备存储器、或多个这种存储器或这种存储器的组合。其他实施例可以例如用门电平逻辑或专用集成电路(ASIC)或芯片集或其他这种特定用途的逻辑来实现。一些实施例可以用具有输入/输出能力(例如，用于接收用户输入的输入端；用于指向其他部件的输出端)以及用于执行设备功能的多个嵌入式线程的微控制器来实现。在更一般的意义上，存储器110的功能模块(例如，OS 112；UI 114；一个或多个应用116)可以在硬件、软件和/或固件中实现，如针对给定目标应用或终端用途所期望的。

如从图1进一步可见，根据一些实施例，设备100可以包括显示器130。显示器130可以是任何电子视觉显示器或被配置成用于显示或以其他方式在其处生成图像(例如，图像、视频、文本、和/或其他可显示内容)的其他设备。在一些实例中，显示器130可以部分地或全部地与设备100集成，而在一些其他实例中，显示器130可以是被配置成用于使用任何合适的有线和/或无线通信装置与设备100进行通信的独立式部件。在一些情况下，显示器130可选地可以是触摸屏显示器或其他触敏显示器。在一些这种情况下，触敏显示器130可以经由通过这种显示器130呈现的GUI促进与设备100的用户交互。鉴于本公开，显示器130的各种合适的配置将变得明显。

并且，如从图1进一步可见，根据一些实施例，设备100可以包括通信模块140。通信模块140可以被配置成例如用于允许设备100与同其通信地耦合的给定外部源(例如，服务器/网络200；另一个设备100)之间的信息通信。为此，根据一些实施例，通信模块140可以被配置成用于利用广泛的通信协议中的任何协议，如，例如：(1)Wi-Fi协议；(2)蓝牙协议；(3)近场通信(NFC)协议；(4)基于局域网(LAN)的通信协议；(5)基于蜂窝的通信协议；(6)基于互联网的通信协议；(7)基于卫星的通信协议；和/或(8)其任何一个或多个的组合。然而，本公开并非如此仅限于这些示例通信协议，如在更一般的意义上，通信模块140可以被配置成用于利用任何标准和/或自定义/专有通信协议，如针对给定的目标应用或终端用途所期望的。甚至更一般地，根据一些实施例，通信模块140可以被配置成用于根据需要利用任何有线和/或无线通信装置。通信模块140的其他合适配置和能力将取决于给定的应用并且鉴于本公开将变得明显。

如从图1进一步可见，根据一些实施例，设备100可以包括音频输入设备150。音频输入设备150可以是麦克风或被配置成用于感测/记录声音的任何其他音频输入设备，并且可以部分地或全部地与设备100集成。音频输入设备150可以以硬件、软件和/或固件的任意组合实现，如针对给定目标应用或终端用途所期望的。在一些实例中，音频输入设备150可以被配置成用于根据需要检测用户的语音和/或其他本地声音。音频输入设备150的其他合适配置将取决于给定的应用并且鉴于本公开将变得明显。

并且，如从图1可见，设备100可以包括音频分析模块160。根据一些实施例，可以例如通过嵌入在音频分析模块160中或以其他方式与音频分析模块160相关联的逻辑、软件和/或程序部分地或全部地执行对(例如，从服务器/网络200、另一个设备100、音频输入设备150等传入的)传入音频数据的解释和分析。为此，音频分析模块160可以是任何合适的标准的、自定义和/或专有的音频分析引擎，并且在一些示例实施例中可以是低功率音频分析和音频签名计算引擎，被配置为典型配置。在一些实例中，音频分析模块160可以是平台特定的(例如，可以根据设备100并且在一些情况下更具体地根据在其上运行的OS 112变化)。在一些情况下，音频分析模块160可以是可编程的。鉴于本公开，各种合适的配置将变得明显。

根据一些实施例，音频分析模块160可以包括自定义的、专有的、已知的、和/或开发后的音频处理代码(或指令集)，所述音频处理代码通常被很好地定义并且可操作用于接收音频输入(例如，来自音频输入设备150的感测声音；来自服务器/网络200和/或另一个设备100的音频数据流的音频分组(packet))以及用于分析或以其他方式处理所述音频数据。在一些实施例中，音频分析模块160可以例如被配置成用于计算来自在视频会议会话中接收到的音频数据的一个或多个音频签名。根据一些实施例，音频分析模块160可以例如被配置成用于判定用户的检测到的音频活动水平是否已超过给定的音频阈值(例如，音量水平阈值和/或持续时间阈值，以下讨论)。在一些情况下，音频分析模块160关于这种阈值是可编程的(例如，给定的音频阈值可以是用户可配置的)。根据一些实施例，音频分析模块160可以被配置成用于实时地或在给定的延迟期(其可以是标准的和/或自定义的值)之后分析音频数据，并且在一些情况下可以是用户可配置的。

根据一些实施例，音频分析模块160可以被配置成用于输出一个或多个指令信号以控制设备100的给定部分。例如，根据一些实施例，如果音频分析模块160基于在视频会议会话中检测/接收的音频数据的分析确定用户的音频活动水平已经超过(例如，高于或低于)给定的关注音频阈值，那么其可以输出指令信号以引起对在设备100的显示器130处显示的GUI的视频组成的调整。音频分析设备160的给定输出信号的附加的和/或不同的指令将取决于给定的应用并且鉴于本公开将变得明显。

如从图1进一步可见，根据一些实施例，设备100可以包括音频输出设备170。根据一些实施例，音频输出设备170可以例如是扬声器或能够从音频数据信号(如可以从音频输入设备150、上游服务器/网络200和/或另一个上游设备100接收的音频数据信号)产生声音的任何其他设备。根据一些实施例，音频输出设备170可以被配置成用于重现在其主机设备100本地的声音和/或所接收的远程声音(例如，来自与所述设备100结合的一个或多个其他设备100)。在一些实例中，音频输出设备170可以部分地或全部地与设备100集成，而在一些其他实例中，音频输出设备170可以是被配置成用于根据需要使用任何合适的有线和/或无线通信装置与设备100进行通信的独立式部件。音频输出设备170的其他合适类型和配置将取决于给定的应用并且鉴于本公开将变得明显。

并且，如从图1可见，根据一些实施例，设备100可以包括图像采集模块180。图像采集设备180可以是被配置成用于采集数字图像的任何设备，如静止相机(例如，被配置成用于采集静止相片的相机)或视频相机(例如，被配置成用于采集包括多帧的移动图像的相机)。在一些情况下，图像采集设备180可以包括如例如光学组件、图像传感器和/或图像/视频编码器的部件，并且可以部分地或全部地与设备100集成。图像采集设备180的这些部件(以及其他，若有的话)可以以硬件、软件和/或固件的任意组合实现，如针对给定目标应用或终端用途所期望的。图像采集设备180可以被配置成用于使用例如在可见光频谱和/或电磁波频谱的其他部分(不限于红外(IR)频谱、紫外(UV)频谱等)中的光来进行操作。在一些实例中，图像采集设备180可以被配置成用于连续地获取成像数据。图像采集设备180的其他合适配置将取决于给定的应用并且鉴于本公开将变得明显。

服务器/网络200可以是任何合适的公共和/或私有通信网络。例如，在一些情况下，服务器/网络200可以是操作性地耦合于广域网(WAN)(如，互联网)的私有局域网(LAN)。在一些情况下，服务器/网络200可以包括一种或多种第二代(2G)、第三代(3G)和/或第四代(4G)移动通信技术。在一些情况下，服务器/网络200可以包括无线局域网(WLAN)(例如，Wi-Fi无线数据通信技术)。在一些实例中，服务器/网络200可以包括蓝牙无线数据通信技术。在一些情况下，服务器/网络200可以包括一个和/或多个支持基础设施(如服务器和服务提供方)，但是这种特征对于经由服务器/网路200执行通信而言不是必要的。鉴于本公开，服务器/网络200的各种配置将变得明显。

图2是框图，根据本公开的实施例展示了视频会议事件中的计算设备100的示例音频和视频数据流。如本文所讨论的，可以例如在图2的点201处部分地或全部地实现与提供给定的动态显著性特征/模式(如本文所描述的)相关联的技术。并且，可以例如在图2的点203处部分地或全部地实现与提供用户可配置的显著性交换(如本文所描述的)相关联的技术。此外，可以例如在图2的点205处部分地或全部地实现与提供个体化音量控制(如本文所描述的)相关联的技术。仍进一步地，可以例如在图2的点207处部分地或全部地实现与提供自适应视频编码(如本文所描述的)相关联的技术。如鉴于本公开将认识到的，根据一些实施例，图2的音频和视频数据流例如在本文公开的技术的基于IR.94和/或基于WebRTC的实现方式中可以是可应用的。

动态显著性交换和用户可配置显著性交换

根据一些实施例，在涉及视频会议会话的给定终端设备100处呈现的屏幕上GUI的视频组成可以经历动态调整，例如，以反映所述视频会议事件的动态拓扑的变化。在一些情况下，提供对视频会议GUI的视频组成的动态调整可以通过渲染GUI在任何给定的时间点处提供更现实的通信背景，从而使得主动参与视频会议会话的(多个)参与者以屏幕上显著性为特征，而其他被动的或不够主动的(多个)参与者维持具有相对较低显著性的缩略图的特征。例如，考虑图3A，其根据本公开的实施例展示了计算设备100的示例截屏，在所述计算设备上以双用户动态显著性模式显示了GUI。这里，根据一些实施例，GUI的视频组成被渲染在设备100上，从而使得与两个足够主动的参与者相关联的视频流被渲染在GUI的显著区域内具有显著性(例如，具有较大的代表性图像)，而与任意剩余参与者相关联的视频流被渲染在GUI的缩略图区域内具有相对较低的地位(例如，具有缩略图或以其他方式尺寸缩小的代表性图像)。

并且，考虑图3B，其根据本公开的另一个实施例展示了计算设备100的示例截屏，在所述计算设备上以三用户动态显著性模式显示了GUI。这里，根据一些实施例，GUI的视频组成被渲染在设备100上，从而使得与三个足够主动的参与者相关联的视频流被渲染在GUI的显著区域内具有显著性(例如，具有较大的代表性图像)，而与任意剩余参与者相关联的视频流被渲染在GUI的缩略图区域内具有相对较低的地位(例如，具有缩略图或以其他方式尺寸缩小的代表性图像)。然而，应注意的是，本公开不必如此仅限于两个用户显著性或三个用户显著性GUI视频渲染模式，因为在更一般的意义上，并且根据一些其他实施例，较少和/或较多数量的显著性特征参与者(例如，一个、四个、五个、六个或更多显著性参与者)可以在屏幕上GUI中配备有动态显著性，如本文所述，如给定目标应用或终端用途所期望的。

应进一步注意的是，本公开不必如此仅限于以用户为中心的动态显著性模式。例如，考虑图3C，其根据本公开的另一个实施例展示了计算设备100的示例截屏，在所述计算设备上以对象/场景显著性模式显示了GUI。这里，根据一些实施例，GUI的视频组成被渲染在设备100上，从而使得与单个关注对象或场景相关联的视频流被渲染在GUI的显著区域内具有显著性(例如，具有较大的代表性图像)，而与任意参与者相关联的视频流被渲染在GUI的缩略图区域内具有相对较低的地位(例如，具有缩略图或以其他方式尺寸缩小的代表性图像)。如鉴于本公开将认识到的，与关注对象/场景相关联的视频流可以根据需要由广泛源中的任意源来提供，包括例如面向给定关注目标的图像采集设备180(例如，其可以是用户选择的)、给定参与者想要与其他参与者一起共享的视频内容、或任何其他视频数据源。在一些实例中，与关注对象/场景相关联的视频流可以在屏幕共享场景中被利用，例如，其中，多个参与者在视频会议会话的给定时刻处的帧中。鉴于本公开，各种配置将变得明显。

根据一些实施例，针对给定的动态显著性模式(例如，双用户；三用户；对象/场景等)，可以例如基于视频会议会话的参与者的音频活动水平的检测和分析执行对屏幕上GUI的视频组成的动态调整。为此，来自每个参与者的音频流可以经分析以确定每个参与者的检测到的音频活动水平。更具体地，根据一些实施例，基于给定参与者的检测到的且经分析的音频活动，可以(例如，自动地)调整给定设备100处的GUI的视频组成，从而使得在视频会议会话过程中的给定时刻处，与所述参与者相关联的视频流可以被渲染在屏幕上，在以下任一处：(1)GUI的显著区域；或(2)GUI的缩略图区域。

根据一些实施例，如果给定参与者的检测到的音频活动水平足够高(例如，高于给定音频阈值，如音量水平阈值和/或持续时间阈值，以下讨论)，那么与所述参与者相关联的视频流可以被渲染在屏幕上GUI的显著区域内。根据一些实施例，如果代替地给定参与者的检测到的音频活动水平不够高(例如，低于给定音频阈值)，那么与所述参与者相关联的视频流可以被渲染在屏幕上GUI的缩略图区域内。根据一些实施例，为了提供反映参与者活动水平变化(例如，当给定参与者已经增加或减小他的/她的活动水平时)的视频会议会话拓扑的动态变化，在给定设备100处的GUI的视频组成可以经历动态调整，例如，以使与所述参与者相关联的视频流或者从缩略图区域提升到显著区域或者从显著区域降级到缩略图区域。更具体地，根据一些实施例，如果给定参与者的音频活动水平已经增加得足以保证屏幕上GUI内的相当显著性，那么代表所述参与者的视频流可以例如从缩略图区域自动地转换至显著区域以表示这种活动水平的增加。相反，根据一些实施例，如果参与者的音频活动水平已经降低得足以不再保证屏幕上GUI内的相当显著性，那么代表所述参与者的视频流可以例如从显著区域自动地转换至缩略图区域以表示这种活动水平的降低。

根据一些实施例，为了判定显著性的给定状态在视频会议会话背景内是否被保证，可以将给定参与者的检测到的音频活动水平与一个或多个音频阈值(如，例如，音量水平阈值和/或持续时间阈值)进行比较。根据一些实施例，可以例如经由来自所述参与者的设备100的音频数据流的音频采样(例如，利用音频分析模块160)获得给定参与者的检测到的音频活动水平是否已经超过给定的关注音频阈值的确定。更具体地，根据一些实施例，如果给定参与者的检测到的音频活动水平超过或低于给定的音频阈值(例如，音量水平阈值；持续时间阈值)，那么所述参与者的在屏幕上GUI内的代表视频流的显著性可以相应地从其当前位置转换至显著区域或缩略图区域。例如，根据实施例，如果给定参与者的检测到的音频活动水平在音量水平和/或持续时间方面增加得足以超过关注音频阈值，那么代表所述参与者的视频流可以从缩略图区域自动地提升(或以其他方式转换)至显著区域。根据实施例，如果给定参与者的检测到的音频活动水平在音量水平和/或持续时间方面维持足够高(例如，高于阈值)，那么代表所述参与者的视频流可以维持在显著区域内。根据实施例，如果给定参与者的检测到的音频活动水平在音量水平和/或持续时间方面降低得足以低于关注音频阈值，那么代表所述参与者的视频流可以从显著区域自动地降级(或以其他方式转换)至缩略图区域。根据实施例，如果给定参与者的检测到的音频活动水平在音量水平和/或持续时间方面维持足够低(例如，低于阈值)，那么代表所述参与者的视频流可以维持在缩略图区域内。

在一些情况下，根据一些实施例，如果参与者的代表性视频流从GUI的缩略图区域提升至GUI的显著区域，则可以提供另一个参与者的代表视频流从GUI的显著区域至GUI的缩略图区域的相应降级。例如，这可以发生在达到最大数量的显著性参与者(例如，根据需要的两个、三个或更多个显著性参与者)的一些情况下。举例来讲，考虑三用户显著性限制的情况。根据示例实施例，如果在视频会议会话过程中的给定时刻处，目前存在两个参与者以屏幕上显著性为特征，并且第三个参与者有资格胜任屏幕上显著性，那么屏幕上GUI的视频组成可以从显著地以两个参与者为特征转换至显著地以三个参与者为特征。然而，根据示例实施例，如果在视频会议会话过程中的给定时刻处，目前存在三个参与者以屏幕上显著性为特征，并且第四个参与者有资格胜任屏幕上显著性，那么屏幕上GUI的视频组成可以通过与现在有资格胜任屏幕上显著性的第四个参与者交换出当前显著性参与者之一(例如，有资格胜任屏幕上显著性的四个参与者中具有最低音频活动水平的参与者)而转换。否则，根据示例实施例，现有显著性特征的参与者可以在显著性方面降级以允许新合格的参与者在显著性方面有所提升。

给定的音频阈值(例如，音量水平阈值；持续时间阈值；等)可以被设置为任何标准的和/或自定义的值，并且在一些情况下可以是用户可配置的。在一些实例中，可能期望的是确保给定的音频阈值是足够的值(例如，针对音量水平阈值的足够高的强度级别；针对持续时间阈值的足够持久的时间段)，例如，以最小化或以其他方式减小由给定参与者设备100的音频输入设备150检测到的环境噪声引起的屏幕上GUI内的显著性转换的不想要的触发。在一些情况下，可以至少部分地基于用户的位置(例如，在办公室；在机场；在家中；在音乐会等)选择给定的音频阈值。在一些情况下，可以至少部分地基于视频会议会话自身的性质/背景(例如，社交联网；商务演示等)选择给定的音频阈值。根据一些实施例，给定的音频阈值可以被调整以提供更大和/或更小的动态显著性转换灵敏度，如本文针对环境和/或上下文因素所描述的，如针对给定目标应用或终端用途所期望的。在一些情况下，可能期望确保所有(或部分子集)音频阈值具有足够的值，从而使得参与者的代表性视频流从GUI的一个区域至另一个区域的转换在更大或更小的程度上是平滑的，并且频率不会太过度或太适中从而导致针对用户的混乱的或另外破坏性的视频通信体验。在一些实例中，可以设置给定的阈值，例如，以便消除或以其他方式减少在视频会议会话中参与者当中的对话中的暂停/静音期处的转换。并且，根据一些实施例，应注意的是，可以实时地或在给定的延迟期(其可以是标准的和/或自定义的值)之后执行显著性转换，并且在一些情况下可以是用户可配置的。

根据一些实施例，在视频会议会话过程中在任何给定的时刻，可以例如基于来自给定参与者的音频流的分析将所述参与者分类为若干所谓音频活动状态中的任一状态。更具体地，根据一些实施例，给定的参与者可以被分类为：(1)没有或以其他方式具有最少的音频活动的空闲参与者(在下文中，音频活动状态A0)；(2)具有不超过给定的关注音频阈值的一些音频活动的主动参与者(在下文中，音频活动状态A1)；和/或(3)具有超过给定的关注音频阈值的音频活动的主动参与者(在下文中，音频活动状态A2)。根据一些实施例，出于在给定的音频活动状态A0至A2下进行分类的目的可以例如经由音频分析模块160基于由设备100感测/接收到的音频输入来判定给定的参与者的检测到的音频活动水平是否超过给定的关注音频阈值(例如，音量水平阈值；持续时间阈值)。

根据一些实施例，可以例如通过服务提供方服务器/网络200经由基于IR.94的实现方式或由网络服务提供方提供的其他合适的基于集中式服务器的视频会议服务提供给定的动态显著性模式。图4A是流程图，根据本公开的实施例展示了动态显著性交换的基于IR.94的实现方式。根据一些实施例，可以在服务器/网络200处部分地或完全地执行图4A的流程400A。如可见，流程400A可以在框401-1至401-n中开始(其中，N个用户参加视频会议会话)，其中，确定哪个参与者与来自参与视频会议会话的每个设备100的哪个视频流相关联。为此，针对每个参与者，来自(多个)源设备100的(多个)音频流可以经历音频采样和音频签名计算。音频签名计算可以由音频分析模块160来执行并且可以发生在周期性间隔、用户可配置间隔、或以其他方式如针对给定目标应用或终端用途所期望的那样频繁。在一些情况下，可以例如利用与取自(多个)传入音频流的音频样本相关的频率变换来执行音频签名计算。

流程400A可以在框403-1至403-n通过计算每个参与者的音频活动水平而继续。这里，在每个采样时间处，可以针对给定的关注阈值(例如，音量水平阈值；持续时间阈值；等)检查给定参与者的音频活动水平，以判定是否超过所述阈值。根据一些实施例，由给定参与者提供的音频输入的音量水平可以与给定的音量水平阈值进行比较以确定所述参与者的音频活动水平。根据一些实施例，由给定参与者提供的音频输入的持续时间可以与给定的持续时间阈值进行比较以确定所述参与者的音频活动水平。在更一般的意义上，可以在确定给定参与者的音频活动水平的过程中针对任何一个或多个关注音频阈值检查由所述参与者提供的音频输入，如针对给定的目标应用或终端用途所期望的。基于这个分析的结果，给定的参与者可以被分类为例如主动的、被动的或其之间过渡的。根据一些实施例，可以例如出于在给定的音频活动状态A0、A1或A2(以上讨论的)下对给定的参与者进行分类的目的来利用这个分析的结果。

在下文中，流程400A可以在框405A中通过在采样时间处计算视频会议会话中的主动参与者的数量、相应地动态地调整会话的拓扑、以及将所述信息传达至参与会话的(多个)下游端点设备100而继续，从而使得在那些下游设备100处呈现的屏幕上GUI可以被渲染具有反映会话拓扑的动态变化的视频组成(例如，通过提升和/或降级在给定端点设备100处呈现的GUI的显著区域和缩略图区域之间的参与者)。

然而，应注意的是，本公开不必如此仅限于给定动态显著性模式的基于网络服务器的实现方式。根据一些其他实施例，可以例如由给定的端点设备100经由基于WebRTC的实现方式或每个端点设备100单独地管理多方渲染的其他合适的分散式视频会议服务来提供给定的动态显著性模式。图4B是流程图，根据本公开的实施例展示了动态显著性交换的基于WebRTC的实现方式。根据一些实施例，可以在给定的端点设备100处部分地或完全地执行图4B的流程400B。如在此可见，流程400B可以在框401-1至401-n(其中，N个用户参与给定的视频会议会话)中开始，并在框403-1至403-n中继续，例如，如以上关于图4A所述。在下文中，流程400B可以在框405B中通过在采样时间处计算视频会议会话中的主动参与者的数量、并且相应地动态地调整会话的拓扑而继续，从而使得在那些设备100处呈现的屏幕上GUI可以被渲染具有反映会话拓扑的动态变化的视频组成(例如，通过提升和/或降级在给定端点设备100处呈现的GUI的显著区域和缩略图区域之间的参与者)。

根据一些实施例，给定的视频会议会话可以开始为基于IR.94或基于WebRTC，并且可以因此实施针对给定的动态显著性模式的合适的流程(例如，图4A或图4B)。在一些实例中，根据一些实施例，给定实现方式的选择可以至少部分地基于视频会议会话中的参与者的数量。

鉴于本公开，关于图4A和图4B的方法的各种变化将变得明显。如将认识的，并且根据一些实施例，在图4A至图4B中示出的功能框(例如，401-1至401-n；403-1至403-n；405A；405B)中的每一个可以被实现为例如模块或子模块，所述模块或子模块当由一个或多个处理器120执行或以其他方式操作时使本文描述的相关联的功能被执行。模块/子模块可以例如在软件(例如，存储在一个或多个计算机可读介质上的可执行指令)、固件(例如，微控制器或可以具有用于从用户征求输入并提供针对用户请求的响应的I/O能力的其他设备的嵌入式线程)、和/或硬件(例如，门电平逻辑、现场可编程门阵列、特定用途的硅等)中实现。

利用给定动态显著性模式的基于IR.94的实现方式，有机会使得个体视频流基于上游服务器/网络200的输出以固定的或可变的分辨率和/或帧率呈现在给定本地设备100的屏幕上GUI中。例如，考虑图5，其根据本公开的实施例展示了计算设备100的示例截屏，在所述计算设备上以具有不同的分辨率和/或帧率的代表性视频流显示了GUI。如在此可见的，根据一些实施例，与被分类在音频活动状态A2中(例如，具有检测到的超过给定的关注音频阈值的音频活动水平)并因此以在屏幕上GUI的显著区域内为特征的参与者相关联的视频流可以以第一分辨率和/或帧率(例如，在30fps处的720p)呈现。根据一些实施例，与被分类在音频活动状态A1中(例如，具有检测到的未超过给定的关注音频阈值的音频活动水平)并因此以在屏幕上GUI的缩略图区域内为特征的参与者相关联的视频流可以以第二、不同的分辨率和/或帧率(例如，在15fps处的VGA)呈现。根据一些实施例，与被分类在音频活动状态A0中(例如，没有或以其他方式具有最小音频活动)并因此以在屏幕上GUI的缩略图区域内为特征的参与者相关联的视频流可以以第三、不同的分辨率和/或帧率(例如，在1fps处的QCIF)呈现。然而，应注意的是，本公开不如此仅限于这些示例分辨率和帧率，因为在更一般的意义上，并且根据一些其他实施例，与给定视频会议会话参与者相关联的视频流(无论以GUI的显著区域还是缩略图区域为中心)的分辨率和帧率可以根据需要针对给定的目标应用或终端用途定制。在一些情况下，根据实施例，从源设备100接收到的个体视频流可以由服务器/网络200调整，例如，以便在被递送至给定下游端点设备100之前优化(或其他方式定制)带宽使用。

根据一些实施例，针对给定动态显著性模式的基于IR.94的实现方式，服务器/网络200可以根据每个参与者的音频活动水平合成GUI帧，将显著性给予与具有足够高音频活动水平的(多个)参与者相关联的(多个)视频流(例如，被分类为音频活动状态A2)，同时将较低的缩略图显著性给予与不具有足够高音频活动水平的(多个)参与者相关联的(多个)视频流(例如，被分类为音频活动状态A0和A1)。根据一些实施例，所产生的合成帧(包括具有变化刷新率的区域)可以经历由服务器/网络200重新编码，并且所产生的单个位流可以被发送至一个或多个下游端点设备100。在一些实例中，根据一些实施例，重新编码过程可以从以下事实中获益，即：帧的与缩略图相关(例如，在缩略图区域内)的(多个)部分以相对较低的帧率(例如，15fps或1fps)刷新，并且帧的与显著性图像相关(例如，在显著区域内)的(多个)部分以相对较高的帧率(例如，30fps)刷新，由此允许服务器/网络200的编码器将更多的位分配给变化得更频繁(例如，改变每一帧)的那些部分，而不是变化得较不频繁的部分。根据一些实施例，如果由服务器/网络200从N个源设备100接收的N个输入位流具有统一的分辨率和/或帧率，那么服务器/网络200可以在GUI帧的组成及随后对其重新编码之前空间上(分辨率)和/或时间上(帧率)缩小尺寸。

利用给定动态显著性模式的基于WebRTC的实现方式，给定端点设备100可以根据每个参与者的音频活动水平合成GUI帧，将显著性给予与具有足够高音频活动水平的(多个)参与者相关联的(多个)视频流(例如，被分类为音频活动状态A2)，同时将较低的缩略图显著性给予与不具有足够高音频活动水平的(多个)参与者相关联的(多个)视频流(例如，被分类为音频活动状态A0和A1)。根据一些实施例，到达本地端点设备100的参与者的位流[N-1]的全部(或部分子集)可以组合(合成)为单个可显示的GUI帧，所述GUI帧还将与本地参与者相关联的(例如，由所述本地端点设备100的图像采集设备180采集的)视频考虑在内。根据一些实施例，如果来自远程设备100的(N-1)个下行链路输入和来自本地设备100的一个输入具有相同的分辨率，则本地端点设备100可以空间上(分辨率)缩小尺寸，例如，以在组成GUI帧并将其发送至本地设备100的显示器130之前基于检测到的音频活动水平反映其显著性。在一些实例中，根据一些实施例，用户可配置的表示可以用于适应到达端点设备100的(多个)传入视频流，以用于基于动态音频识别分析进行渲染，以用于将代表参与者的(多个)视频流划分为屏幕上GUI内的显著区域和缩略图区域。

在一些实例中，可能期望的是为给定的用户提供用于例如通过重组(例如，交换)用于在屏幕上GUI内显示的视频流内容而主动地控制在给定端点设备100处呈现的GUI的视频组成的能力。为此，根据一些实施例，利用如本文所描述的用户可配置的显著性交换，用户可以选择来使给定的端点设备100将传入视频流渲染在呈现于所述设备100处的屏幕上GUI的显著区域和/或缩略图区域内。在更一般的意义上，用户可以被提供选项以利用他/她自己感兴趣的(多个)参与者改变对来自上游服务器/网络200或上游源设备100的传入视频流的屏幕上呈现。例如，在示例情况下，用户可以利用缩略图区域中的给定的关注参与者的代表性视频流从显著区域中的默认位置主动地交换出他的/她的代表性视频流。在另一种示例情况下，用户可以主动地将过度主动的参与者的代表性视频流从显著区域降级到缩略图区域。鉴于本公开，各种示例用户可配置显著性交换场景将变得明显。

根据一些实施例，经由基于IR.94的实现方式可以提供用户可配置的显著性交换。在这种情况下，针对参与视频会议会话的全部(或部分子集)下游设备100经由对服务器/网络200的请求可以为单个主用户/控制器(或某其他有限数量的主用户/控制器)提供用于发起显著性交换的能力。在一些这种实例中，可以例如在没有来自给定下游端点设备100的控制或支持(或以其他方式具有最小控制或支持)的情况下在服务提供方服务器/网络200处执行对GUI视频组成的用户可配置重组。服务器/网络200可以将所产生的位流发送出去至参与视频会议会话的所有(或部分子集)下游设备100。在示例情况下，例如，可以利用这种用户可配置的显著性交换，其中，主机实体(例如，电视信道)传导视频会议会话并想要成为显著性管理和视频流交换的唯一的控制器/服务器。

然而，本公开不限于此，因为根据一些其他实施例，可以例如经由基于WebRTC的实现方式提供用户可配置的显著性交换。在这种情况下，可以为给定的用户提供用于在他的/她的端点设备100处本地发起显著性交换而不影响在参与视频会议会话的远程端点设备100的处的其他用户的能力。例如，考虑图6A至图6B，其根据本公开的实施例展示了计算设备100的示例截屏，在所述计算设备上显示了演示用户可配置显著性交换的GUI。如在此可见，根据一些实施例，用户可以例如经由呈现在显示器130上的屏幕上GUI(和/或经由应用116)将输入提供给设备100，以对给定参与者的视频流的屏幕上显著性进行重组。用户输入可以例如是基于触摸的(例如，物理/虚拟按钮的激活)、基于手势的、基于话音的、和/或基于背景/活动的等等。以此方式，用户可以在GUI的显著区域与缩略图区域之间主动地交换视频内容，由此控制他/她想要在端点设备100处查看的视频流。

在一些基于WebRTC的实现方式中，可以例如在没有来自上游服务器/网络200的控制或支持(或以其他方式具有最小控制或支持)的情况下在端点设备100处执行对GUI视频组成的用户可配置重组。为此，根据一些实施例，可以通过以下各项在用户的端点设备100处提供用户可配置的显著性交换：(1)定位呈现在端点设备100的显示器130上的GUI的显著区域和缩略图区域；(2)使传入视频流破裂成这两个区域；以及(3)基于用户选择的视频组成排序/拓扑重新组成所述视频流。根据一些实施例，可以在服务器/网络200处和/或在给定的端点设备100处部分地或完全地执行视频流的合成，如针对给定目标应用或终端用途所期望的。如鉴于本公开将认识的，根据一些实施例，涉及用户可配置显著性交换的处理可以基本上类似于以上例如关于动态显著性交换所讨论的。

根据一些实施例，给定的视频会议会话可以开始为基于IR.94或基于WebRTC，并且可以因此实施针对给定的用户可配置显著性模式的合适的流程。如鉴于本公开将认识的，根据一些实施例，在基于IR.94的会话中，给定的用户可以具有发出影响视频会议会话中的其他用户的显著性交换请求的能力。如将进一步认识的，根据一些实施例，在基于WebRTC的会话中，给定用户的显著性交换请求可以不影响视频会议会话中的其他用户。在更一般的意义上，在一些实施例中，在给定视频会议会话内针对显著性交换的用户控制的级别可以至少部分地取决于所述会话是否是基于IR.94或基于WebRTC的。

如鉴于本公开将认识到的，在一些情况下，用户可配置的显著性交换可以支持尺寸放大/尺寸缩小、帧率转换、和/或其他视频增强选项，例如，以丰富由用户所选的视频表示。在一些基于IR.94的实现方式中，其中，主用户/控制器请求用户可配置的显著性交换，如例如通过从VGA分辨率缩放为720p分辨率而进行交换(例如，从缩略图区域至显著区域)。这里，服务器/网络200可以从端点设备100接收具有给定中间分辨率的视频输入(例如，针对音频活动状态A1的VGA)，并且然后当主用户/控制器请求用户可配置的显著性交换时将尺寸缩放应用于相对较高的分辨率(例如，720p)。进而，所产生的重编码位流可以被递送至视频会议会话中的下游参与者。根据一些实施例，这些动作可以例如在服务器/网络200处生效。在一些情况下，对缩放质量的影响可以不(或可以仅最小地)被视觉地感知，因为这个相对较小的分辨率跳变可以使视觉伪像的存在最小，减小其对经由呈现在端点设备100处的屏幕上GUI可观看的视频流的任何影响。

在一些其他基于IR.94的实现方式中，其中，非主用户/控制器请求在本地端点设备100上执行用户可配置的显著性交换，如例如通过从QCIF分辨率缩放尺寸为720p分辨率而进行交换(例如，从缩略图区域至显著区域)。根据一些实施例，这些动作可以例如在不被上游服务器/网络200或其他参与者端点设备100已知的情况下在端点设备100处生效。在一些情况下，对缩放质量的影响可以被视觉地感知，因为这个相对较大的分辨率跳变可以产生视觉伪像，所述视觉伪像负面地影响经由呈现在端点设备100处的屏幕上GUI可观看的视频流。

在一些基于WebRTC的实现方式中，其中，用户请求用户可配置的显著性交换，如例如通过从VGA分辨率缩放为720p分辨率而进行交换(例如，从缩略图区域至显著区域)。根据一些实施例，这些动作可以例如在不被上游服务器/网络200或其他参与者端点设备100已知的情况下在端点设备100处生效。在一些情况下，可能不存在(或以其他方式可忽略)对缩放质量的影响(例如，其不可被视觉地感知)，避免了或以其他方式使经由呈现在端点设备100处的屏幕上GUI可观看的视频流中的视觉伪像最小化。

根据一些实施例，可以例如在硬件级别(例如，片上系统或SOC设计)处和/或在服务提供方级别处实现与动态显著性交换或用户可配置显著性交换(如本文所述)相关联的操作，如针对给定目标应用或终端用途所期望的。在一些情况下，与给定动态显著性模式或用户可配置显著性交换相关联的操作可以仅涉及目的地侧处理(例如，在给定的端点设备100处)并且可以不涉及任何(或以其他方式可以仅涉及最少的)源侧处理(例如，在服务提供方服务器/网络200处和/或在给定的源设备100处)。根据一些实施例，可以在服务器/网络200处和/或在给定的端点设备100处(例如，利用SOC的固有硬件加速器)部分地或完全地执行对来自参与给定视频会议会话的(多个)源设备100的(多个)音频和/或视频流的合成。根据示例实施例，可以例如在图2的流程的点201处实现与给定动态显著性模式相关联的操作。根据一些实施例，可以例如在图2的流程的点203处实现与用户可配置显著性模式相关联的操作。在一些情况下，例如，屏幕上显著性的基于音频的触发的提供相比由现有视频会议程序提供的静态内容可以以更自然的方式增强用户体验。在一些实例中，给定的动态显著性模式可以通过动态/智能活动检测使多方(例如，十人或更多人)视频会议成为可能，以在演示者/主动参与者与聆听者/听众之间进行区分。在一些情况下，在拓扑区域中使用动态扬声器选择可以帮助增加具有有限尺寸的显示器130的端点设备100(例如，如智能电话、平板计算机或其他移动计算设备)的最大用户限制。给定动态显著性模式以及如本文所述的用户可配置显著性交换的其他合适的实现方式将取决于给定的应用并且将鉴于本公开变得明显。

个体化音量控制

在一些实例中，可能期望为本地用户提供调整视频会议会话中的远程参与者的音频音量水平的能力。为此，根据一些实施例，呈现在给定端点设备100处的屏幕上GUI可以被配置成用于允许用户控制(例如，增加、减小和/或静音)与视频会议会话中的给定单独参与者相关联的音频流的音量。

根据一些实施例，可以例如经由基于IR.94的实现方式提供个体化音量控制。在这种情况下，针对参与视频会议会话的全部(或部分子集)下游设备100经由对服务器/网络200的请求可以为单个主用户/控制器(或某其他有限数量的主用户/控制器)提供用于控制音量水平的能力。在一些这种实例中，可以例如在没有来自给定下游端点设备100的控制或支持(或以其他方式具有最小控制或支持)的情况下在服务提供方服务器/网络200处执行个体化音量控制。服务器/网络200可以将所产生的位流发送出去至参与视频会议会话的所有(或部分子集)下游设备100。在示例情况下，例如，可以利用这种个体化音量控制，其中，主机实体(例如，电视信道)传导视频会议会话并想要成为参与者的音频级别的唯一的控制器/服务器。

然而，本公开不限于此，因为根据一些其他实施例，可以例如经由基于WebRTC的实现方式提供个体化音量控制。在这种情况下，可以为给定的用户提供用于在他的/她的端点设备100处本地控制音频级别而不影响在参与视频会议会话的远程端点设备100的处的其他用户的能力。例如，考虑图7A和图7B，其根据本公开的实施例展示了计算设备100的示例截屏，在所述计算设备上显示了具有针对视频会议参与者的个体化音量控制的GUI。如在此可见，根据一些实施例，可以例如经由在给定端点设备100处本地呈现的屏幕上GUI为用户提供视频会议参与者的音频流的全部(或部分子集)的音量控制。用户可以本地控制与给定参与者相关联的单独音频流的音量，例如，不管与所述参与者相关联的视频流是以如在给定端点设备100处呈现的屏幕上GUI的显著区域为特征还是以缩略图区域为特征。

根据一些实施例，关于给定的远程参与者切换音频控制选项可以是自动地和/或基于端点设备100的本地输入执行的，如基于触摸的输入(例如，经由物理按钮、虚拟按钮等)、基于手势的输入、基于话音的输入、和/或其任何一个或多个的组合。在一些实例中，可以例如通过(例如，经由触敏显示器130)触摸呈现在设备100上的屏幕上GUI的在其中显示与关注参与者相关联的视频流的区域而提供对个体化音量控制选项的切通/切断和调整。在示例实施例中，GUI可以被配置成用于允许用户本地控制与给定显著性参与者(或其他给定关注参与者)相关联的音频流，同时静音/衰减在视频会议会话中来自(多个)其他参与者的噪声。在一些实例中，这可以通过减小干扰环境噪声而提高服务质量(QoS)。在一些情况下，使用个体化音量控制可以增强用户与视频会议会话中的关注参与者(例如，关键发言人)之间的交互式通信。在一些实例中，使用个体化音量控制可以通过根据用户的偏好定制视频会议事件来增强用户体验。在示例情况下，可以基于(多个)所选的音频控制在本地调整(例如，放大；衰减/静音)传入本地端点设备100的音频流中的给定参与者的话音。

图8A是流程图，根据本公开的实施例展示了个体化音量控制的基于IR.94的实现方式。根据一些实施例，可以在给定的端点设备100处部分地或完全地执行图8A的流程500A。如可见，流程500A可以如在框501中通过在给定端点设备100处接收来自参与视频会议会话的上游服务器/网络200的音频分组而开始。根据一些实施例，音频分组可以包括来自视频会议会话的给定参与者的可被计算的音频签名的音频数据。音频签名计算可以如通常执行的那样被执行并且可以以周期性间隔、用户可配置间隔、或以其他方式如针对给定目标应用或终端用途所期望的那样频繁地发生。在一些情况下，可以例如利用与取自(多个)传入音频流的音频样本相关的频率变换来执行音频签名计算(例如，经由音频分析模块160)。

流程500A可以如在框503中通过计算有待应用于给定参与者的音频流的(多个)所选音频控制而继续。根据一些实施例，如针对给定目标应用或终端用途所期望的，音频控制可以是任何标准的和/或自定义的音频控制/调整，并且可以是自动地和/或基于用户输入所选择的。根据一些实施例，可以经由设备100(例如，经由触敏显示器130；经由应用116)部分地或完全地提供给定音频控制的选择。用户输入可以例如是基于触摸的(例如，物理/虚拟按钮的激活)、基于手势的、基于话音的、和/或基于背景/活动的等等。

如果不对与给定参与者相关联的音频流进行调整(例如，基于在框503中计算的(多个)音频控制)，则流程500A可以通过在端点设备100处(例如，经由音频输出设备170)渲染音频流而从框503进行至框511。如果代替地进行调整，则流程500A可选地可以通过基于所接收的(多个)音频签名(例如，从上游服务器/网络200在音频分组中接收的)分割传入音频流而从框503行进至框505。传入音频流可以被滤波成多个构成音频流，每个构成音频流对应于视频会议会话的给定参与者。进而，可以例如利用(如在框501中)从上游服务器/网络200接收的音频分组中的(多个)音频签名来分析每个构成音频流，以识别哪个参与者与哪个构成音频流相关联。根据一些实施例，可以例如由音频分析模块160来执行这种分析。在一些实施例中，可以针对视频会议会话中的每个参与者，基于从服务器/网络200接收的音频签名执行从传入音频流中减去特定的音频脉冲。

在下文中，流程500A可选地可以在框507中通过将来自用户的音频路径的所述(多个)音频控制应用于个体关注音频流并且然后如在框509中通过重新合成音频流而继续。更具体地，根据实施例，给定的所选音频控制可以应用于给定的传入音频流以调整所述个体音频流。然后可以例如经由端点设备100将构成音频流重新合成为单个音频流。在下文中，流程500A可以在框511中通过在端点设备100处(例如，经由音频输出设备170)渲染所产生的音频流而继续。以此方式，根据一些实施例，给定的单独视频会议参与者的音频流可以基于用户偏好被调整或以其他方式在重新合成和渲染之前被定制。如之前指出的，根据一些实施例，这种调整可以自动地和/或基于用户输入应用于给定的个体音频流。

图8B是流程图，根据本公开的实施例展示了个体化音量控制的基于WebRTC的实现方式。根据一些实施例，可以在给定的端点设备100处部分地或完全地执行图8B的流程500B。如在此可见，流程500B可以用以上例如关于图8A所述相同的方式在框501中开始并且在框503中继续。如果不对与给定参与者相关联的音频流进行调整(例如，基于在框503中计算的(多个)音频控制)，则流程500B可以在框509中通过合成音频流(例如，如果存在多个单独音频流的话)并且然后在框511中通过在端点设备100处(例如，经由音频输出设备170)渲染所产生的音频流而继续。如果代替地进行调整，则流程500B可选地可以通过将来自用户的音频路径的所述(多个)音频控制应用于个体关注音频流而从框503行进至框507并且然后如在框509中通过重新合成音频流(例如，如果存在多个单独音频流的话)而继续。更具体地，根据实施例，给定的所选音频控制可以应用于给定的传入音频流以调整所述个体音频流。然后可以例如经由端点设备100将(多个)个体音频流重新合成为单个音频流。在下文中，流程500B可以在框511中通过在端点设备100处(例如，经由音频输出设备170)渲染所产生的音频流而继续。以此方式，根据一些实施例，给定的单独视频会议参与者的音频流可以基于用户偏好被调整或以其他方式在合成和渲染之前被定制。如之前指出的，根据一些实施例，这种调整可以自动地和/或基于用户输入应用于给定的个体音频流。与图8A的基于IR.94的流程500A相比较，图8B的基于WebRTC的流程500B可以省略框505中的音频流分割，因为由端点设备100在基于WebRTC的流程500B中接收的个体音频流可能已经被分开(只要它们可能来自分开的源设备100)。

根据一些实施例，给定的视频会议会话可以开始为基于IR.94或基于WebRTC，并且可以因此实施针对个体化音量控制的合适的流程(例如，图8A或图8B)。如鉴于本公开将认识的，根据一些实施例，在基于IR.94的会话中，给定的用户可以具有发出影响视频会议会话中的其他用户的个体化音量控制请求的能力。如将进一步认识的，根据一些实施例，在基于WebRTC的会话中，给定用户的个体化音量控制请求可以不影响视频会议会话中的其他用户。在更一般的意义上，在一些实施例中，在给定视频会议会话内针对个体化音量控制的用户控制的级别可以至少部分地取决于所述会话是否是基于IR.94或基于WebRTC。

鉴于本公开，关于图8A和图8B的方法的各种变化将变得明显。如将认识的，并且根据一些实施例，在图8A和图8B中示出的功能框(例如，501；503；505；507；509；511)中的每一个可以被实现为例如模块或子模块，所述模块或子模块当由一个或多个处理器120执行或以其他方式操作时使本文描述的相关联的功能被执行。模块/子模块可以例如在软件(例如，存储在一个或多个计算机可读介质上的可执行指令)、固件(例如，微控制器或可以具有用于从用户征求输入并提供针对用户请求的响应的I/O能力的其他设备的嵌入式线程)、和/或硬件(例如，门电平逻辑、现场可编程门阵列、特定用途的硅等)中实现。

根据一些实施例，与给定参与者相关联的视频流可以维持基本上不变，同时执行个体化音量控制的基于IR.94的实现方式(例如，图8A的流程500A)或基于WebRTC的实现方式(例如，图8B的流程500B)，如本文所述。然而，根据一些实施例，与给定参与者的个体化音量控制相关联的任何图形(例如，虚拟切换按钮、虚拟滑动条、或其他合适的音量调整特征)可以由端点设备100生成、与传入视频流合成、并且被渲染为呈现在所述设备100的显示器130处的GUI的一部分。在示例情况下，在GUI中显示的给定参与者的代表性视频流可以与(例如，如在图7A和图7B中可见的，例如)一个或多个音量控制相关的图形重叠。

根据一些实施例，可以例如在硬件级别(例如，SOC设计)处和/或在服务提供方级别处实现与个体化音量控制(如本文所述)相关联的操作，如针对给定目标应用或终端用途所期望的。在一些情况下，与个体化音量控制相关联的操作可以仅涉及目的地侧处理(例如，在给定的端点设备100处)并且可以不涉及任何(或以其他方式可以仅涉及最少的)源侧处理(例如，在服务提供方服务器/网络200处和/或在给定的源设备100处)。根据一些实施例，可以例如在图2的流程的点205处实现与个体化音量控制相关联的操作。如本文所描述的，个体化音量控制的其他合适实现方式将取决于给定的应用并且鉴于本公开将变得明显。

自适应视频采集和处理

根据一些实施例，在参与视频会议会话的源设备处采集的视频数据的分辨率和/或帧率可以例如在采集和/或处理过程中在编码之前自适应地变化。根据一些实施例，这种自适应调整可以部分地或完全地基于源设备100的用户的检测到的音频活动水平。更具体地，在这种自适应采集和处理方案下，给定参与者的检测到的音频活动水平可以在他的/她的源设备100处(例如，经由音频分析模块160)被分析，并且，根据一些实施例：(1)源设备100的图像采集设备180的采集分辨率和/或采集帧率可以改变(例如，增加；减小)以调整由其采集的视频数据的分辨率和/或帧率；和/或(2)由源设备100的图像采集设备180采集的视频数据可被处理(例如，放大；缩小)以改变其分辨率和/或帧率。根据一些实施例，在将所产生的编码上行链路视频传输至服务器/网络200以及任何(多个)下游端点设备100之前，可以执行基于音频分析结果对分辨率和/或帧率的这种自适应调整。在一些情况下，如果采集分辨率和/或采集帧率变化，那么可选地可以在随后的预编码处理过程中放弃对采集视频数据的缩放。在一些其他情况下，如果采集分辨率和/或采集帧率固定，那么采集视频数据可选地可以在随后的预编码处理过程中经历缩放。鉴于本公开，各种变化将变得明显。

根据一些实施例，在所公开的自适应采集和处理方案中，给定的源设备100初始地可以输出具有中间质量级别(例如，具有某个中间分辨率和/或帧率)的采集视频数据，所述中间质量级别可以根据需要是标准的、任意的或用户可配置的。在下文中，根据一些实施例，可以(例如，经由源设备100处的音频分析模块160)对所述设备100的用户的音频输入进行分析，以确定所述用户的音频活动水平。根据一些实施例，基于用户的检测到的音频活动水平，与所述参与者相关联的视频流的分辨率和/或帧率可以在源设备100处被自适应地调整(例如，通过调整采集分辨率和/或采集帧率；通过放大/缩小采集视频数据)，如下：

然而，应注意的是，本公开不如此仅限于这些示例分辨率和帧率，因为在更一般的意义上，并且根据一些实施例，可以定制由给定源设备100采集且处理的视频数据的分辨率和帧率，如针对给定的目标应用或终端用途所期望的。

根据一些实施例，如果用户的音频活动水平足够降低(例如，落到给定的关注音频阈值以下)，那么在编码和传输之前可以相应地减小在用户的源设备100处采集的视频数据的分辨率和/或帧率(例如，以减小的分辨率和/或帧率采集的；缩小或以其他方式被处理以减小分辨率和/或帧率)。反之，根据一些实施例，如果用户的音频活动水平足够增加(例如，升至给定的关注音频阈值以上)，那么在编码和传输之前可以相应地增加在用户的源设备100处采集的视频数据的分辨率和/或帧率(例如，以增加的分辨率和/或帧率采集的；放大或以其他方式被处理以增加分辨率和/或帧率)。

在一些情况下，例如，可以利用所公开的自适应视频数据采集和处理方案，以提供：(1)针对(例如，在给定的源设备100处的)给定传输参与者的传输带宽的减小；和/或(2)针对(例如，在端点设备100处的)视频会议会话的全部或部分子集参与者的整体通信带宽的减小。图9是曲线图，示出了随着分辨率和比特率而变的主观质量(SSIM)。在这个图形内：曲线P1代表四分之一VGA(QVGA)(320*240)分辨率；曲线P2代表半尺寸VGA(HVGA)(480*320)分辨率；曲线P3代表视频图形阵列(VGA)(640*480)分辨率；曲线P4代表720p 3:2(720*480)分辨率；并且曲线P5代表示例目标(例如，最优)分辨率。如从这些曲线中可见的，主观质量随分辨率和比特率两者变化。根据一些实施例，图9的曲线P1-P5演示了质量对分辨率和比特率减小，所述减小可以例如在给定的源设备100处利用所公开的自适应视频采集和处理方案来提供。

在一些实例中，所公开的自适应采集和处理方案可被利用，例如，以在参与者空闲(例如，音频活动状态A0)或否则具有低音频活动水平(例如，音频活动状态A1)的实例中减小传输带宽。在一些情况下，所公开的方案可被利用，例如，以减小最终分配给参与视频会议会话的(多个)端点设备100的视频数据的量。在一些实例中，所公开的方案可被利用，例如，以针对具有足够高音频活动水平(例如，音频活动状态A2)的视频会议参与者最优地使用网络带宽。在一些这种实例中，网路带宽使用的最优性可以例如聚焦于以给定的带宽提供相对较好的视频质量。在一些其他这种实例中，网路带宽使用的最优性可以例如聚焦于针对给定的视频质量使带宽最小。因此，在一般的意义上，所公开的自适应视频数据采集和处理方案在一些实施例中可以被考虑为带宽受控的。

在一些情况下，所公开的方案可被利用，例如，以针对具有足够低音频活动水平(例如，音频活动状态A0和A1)的视频会议参与者减少资源使用。在一些情况下，可以执行所公开的方案的应用，例如，以适应在其中期望低功率使用的实例。然而，应注意的是，本公开不如此仅限于带宽和/或资源使用的优化，因为在更一般的意义上，并且根据一些实施例，所公开的自适应采集和处理方案可被利用以减小、优化或以其他方式定制带宽使用和/或资源使用，如针对给定的目标应用或终端用途所期望的。例如，如果服务器/网络200拥塞，则针对那些不主动的视频会议参与者(例如，音频活动状态A0和A1)，其视频流的分辨率和/或帧率可以在其源设备100处被减小或以其他方式被调整以努力减小其对带宽消耗的贡献，而主动的视频会议参与者(例如，音频活动状态A2)可以保持相对较高的分辨率和/或帧率，如针对给定的目标应用或终端用途所期望的。

在一些实例中，所公开的自适应采集和处理方案可以提供实时自适应视频编码选项，所述选项可以使源设备100、服务器/网络200、和/或端点设备100受益。例如，在一些情况下，使用所公开的方案可以最小化或以其他方式减小从给定的源设备100传送至服务器/网络200和/或至(多个)下游端点设备100的浪费的视频数据。在一些实例中，可以利用所公开的方案实现服务质量(QoS)的提高。在一些情况下，应用所公开的方案可以简化上行链路编码并降低经由服务器/网络200发送视频流所利用的传输带宽。在一些实例中，应用所公开的方案可以提供参与视频会议会话的给定设备100的功率使用的优化或其他定制。

在一些情况下，通过应用一个或多个关注音频阈值对参与者的音频活动水平进行分析可以用于为给定的下游用户提供关于他/她是否被分类为在视频会议会话背景下的主动参与者的反馈(例如，通过观察他/她在端点设备100处的视频流的质量)。在一些实例中，使用所公开的自适应视频数据采集和处理方案可以实现例如网络带宽、处理时间、和/或资源使用方面的改进，与现有视频会议程序相比。例如，在示例情况下，利用所公开的自适应视频数据采集和处理方案可以提供约40％的带宽减小(例如，±10％)。在另一种示例情况下，利用所公开的自适应视频数据采集和处理方案可以提供约30％的电池功率使用提高(例如，±10％)。

根据一些实施例，可以例如在硬件级别(例如，SOC设计)处和/或在服务提供方级别处实现与自适应视频数据采集和处理(如本文所述)相关联的操作，如根据一些实施例针对给定目标应用或终端用途所期望的。在一些情况下，与自适应视频数据采集和处理相关联的操作可以仅涉及源侧处理(例如，在给定的源设备100处)并且可以使源侧处理受益(例如，在下游服务提供方服务器/网络200处和/或在下游源设备100处)。根据一些实施例，可以例如在图2的流程的点207处实现与自适应视频数据采集和处理相关联的操作。如本文所描述的，自适应视频数据采集和处理方案的其他合适的实现方式将取决于给定的应用并且鉴于本公开将变得明显。

示例系统

图10根据一些实施例展示了可以执行如本文所描述的用于在视频会议中增强用户体验的技术的示例系统600。在一些实施例中，尽管系统600不限于此上下文，但系统600可以是媒体系统。例如，系统600可以并入个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板计算机、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如智能电话、智能平板计算机或智能电视)、移动互联网设备(MID)、消息设备、数据通信设备、机顶盒、游戏控制台、或其他能够执行图形渲染操作的此类计算环境。

在一些实施例中，系统600包括耦合到显示器620的平台602。平台602可以从内容设备接收内容，内容设备诸如内容服务设备(多个)630或内容传递设备(多个)640或其他类似内容源。导航控制器650包括可以用于与如平台602和/或显示器620交互的一个或多个导航特征。以下将更详细地描述这些示例部件中的每个部件。

在一些实施例中，平台602可以包括芯片组605、处理器610、存储器612、存储设备614、图形子系统615、应用616和/或无线电设备618的任意组合。芯片组605可以提供处理器610、存储器612、存储设备614、图形子系统615、应用616和/或无线电618之间的互通信。例如，芯片组605可以包括能够提供与存储设备614的交互通信的存储适配器(未示出)。

处理器610可以被实现为例如复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核处理器、或任何其他微处理器或中央处理器单元(CPU)。在某些实施例中，处理器610可以包括(多个)双核处理器、(多个)双核移动处理器等等。存储器612可以被实现为例如易失性存储器设备，诸如但不限于：随机访问存储器(RAM)、动态随机访问存储器(DRAM)或静态RAM(SRAM)。存储设备614可以被实现例如为非易失性存储设备，如但不限于磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附属存储设备、闪存、电池应急SDRAM(同步DRAM)和/或网络可接入的存储设备。在某些实施例中，当包括如多个硬盘驱动器时，存储设备614可以包括为有价值的数据媒体提高存储性能加强保护的技术。

图形子系统615可以执行对如用于显示的静态或视频图像的处理。例如，图形子系统615可以是图形处理单元(GPU)或视觉处理单元(VPU)。可以使用模拟或数字接口将图形子系统615和显示器620通信地耦合。例如，接口可以是高清晰度多媒体接口(HDMI)、显示端口、无线HDMI和/或符合无线HD的技术中的任何一个。图形子系统615可以集成到处理器610或芯片组605中。图形子系统615可以是通信地耦合到芯片组605的独立卡。本文所述的用于在视频会议中增强用户体验的技术可以在各种硬件架构中实现。例如，如本文所提供的用于在视频会议中增强用户体验的技术可以集成在图形和/或视频芯片组内。替代性地，可以使用分立的安全处理器。在又另一个实施例中，包括用于在视频会议中增强用户体验的技术的图形和/或视频功能可以由通用处理器(包括多核处理器)来实现。

无线电618可以包括能够使用各种适合的无线通信技术发送和接收信号的一个或多个无线电。这些技术可以涉及跨一个或多个无线网络的通信。示例无线网络可以包括，但不限于，无线局域网(WLAN)、无线个人局域网(WPAN)、无线城域网(WMAN)、蜂窝网和卫星网。在跨这种网络进行通信时，无线电618可以根据任何版本中的一个或多个可适用标准进行操作。

在一些实施例中，显示器620可以包括任意电视机或计算机类型的监视器或显示器。显示器620可以包括例如液晶显示器(LCD)屏幕、电泳显示器(EPD)或液体纸显示器、平板显示器、触摸屏显示器、电视机类型设备、和/或电视机。显示器620可以是数字的和/或模拟的。在一些实施例中，显示器620可以是全息或三维(3-D)显示器。并且，显示器620可以是可以接收视觉投影的透明表面。这种投影可以传达各种形式的信息、图像和/或物体。例如，这样的投影可以是移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用616的控制下，平台602可以在显示620上显示用户界面622。

在一些实施例中，(多个)内容服务设备630可以发起于任意国家的、国际的和/或独立的服务，并因此可以例如经由互联网或其他网络可接入平台602。(多个)内容服务设备630可以耦合到平台602和/或显示620。平台602和/或(多个)内容服务设备630可以耦合到网络660以将媒体信息传达至网络660或从网络660接收(例如，发送和/或接收)。(多个)内容传递设备640也可以耦合至平台602和/或至显示器620。在一些实施例中，内容服务设备630可以包括有线电视盒、个人电脑(PC)、网络、电话、能够传送数字信息和/或内容的可接入因特网的设备或装置，以及在内容提供者和平台602和/或显示器620之间通过网络660或直接地单向或双向传输内容的任意其他类似设备。应理解的是，内容可以经由网络660被单向地和/或双向地传达到系统600中的部件中的任何一个部件和内容提供方且从系统中的部件中的任何一个部件和内容提供方被传达。内容的示例可以包括任何媒体信息，包括例如视频、音乐、图形、文本、医疗和游戏内容等。

(多个)内容服务设备630接收例如包含媒体信息、数字信息和/或其他内容的有线电视节目的内容。内容提供者的示例可以包括任何有线或卫星电视或无线电或因特网内容提供者。提供的示例并不意在限制本公开。在一些实施例中，平台602可以从具有一个或多个导航特征的导航控制器650接收控制信号。控制器650的导航特征可以用来与例如用户界面622交互。在一些实施例中，导航控制器650可以是定位设备，该定位设备可以是允许用户输入空间(如连续的和多维的)数据到计算机的计算机硬件部件(特别是人机接口设备)。诸如图形用户接口(GUI)和电视机和监视器的许多系统允许用户使用物理姿势控制计算机或电视机并向计算机或电视机提供数据。

可以通过指针、光标、对焦环或其他在显示器上显示的视觉指示器的移动在显示器(例如，显示器620)上回应控制器650的导航特征的移动。例如，在软件应用716的控制下，位于导航控制器650上的导航特征可以映射到显示在用户接口622上的虚拟导航特征。在一些实施例中，控制器650可以不是独立部件而是集成在平台602和/或显示器620内。然而，如将认识的，各实施例不限于本文示出或描述的元素或上下文。

在一些实施例中，驱动器(未示出)可以包括使用户能够通过例如在初始启动后启动的按钮的触摸立刻打开和关闭类似电视的平台602的技术。当平台被“关闭”时，程序逻辑可以允许平台602流出内容到媒体适配器或其他(多个)内容服务设备630或(多个)内容传递设备640。另外，芯片组605可以包括用于支持如5.1环绕声音频和/或高清7.1环绕声音频的硬件和/或软件。驱动器可以包括用于综合的图形平台的图形驱动器。在一些实施例中，图形驱动器可以包括外围部件互连(PCI)高速图形卡。

在各实施例中，可以对系统600中示出的任何一个或多个部件进行集成。例如，平台602和内容服务设备630可以是集成的；或者平台602和内容传递设备640可以是集成的；或者平台602、内容服务设备630和内容传递设备640可以是集成的。在各种实施例中，平台602和显示器620可以是集成的单元。例如，显示620和内容服务设备630可以是集成的，或者显示620和内容传递设备640可以是集成的。这些示例并不意在限制本公开。

在各实施例中，系统600可以被实现为无线系统、有线系统、或二者的组合。当实现为无线系统时，系统600可以包括适合于通过如一个或多个天线、发送器、接收器、收发器、放大器、过滤器、控制逻辑等的无线共享介质通信的部件和接口。无线共享介质的示例可以包括无线光谱部分，诸如无线电频率(RF)谱等等。当被实现为有线系统时，系统600可以包括适用于通过有线通信介质(如输入/输出(I/O)适配器、利用相应有线通信介质连接I/O适配器的物理连接器、网络接口卡(NIC)、光盘控制器、视频控制器、音频控制器等)进行通信的部件和接口。有线通信介质的示例可以包括导线、电缆、金属引线、印刷电路板(PCB)、背板、交换光纤、半导体材料、双绞线、同轴电缆、光纤等。

平台602可以建立一个或多个逻辑或物理信道以传达信息。所述信息可以包括媒体信息和控制信息。媒体信息可以指表示针对用户的内容的任何数据。内容的示例可以包括例如来自语音对话、视频会议、流式视频、电子邮件或文本消息、语音邮件消息、字母符号、图形、图像、视频、文本等等的数据。控制信息可以指表示针对自动化系统的命令、指令或控制字的任何数据。例如，控制信息可以用于通过系统路由媒体信息、或者指示节点以预定方式处理所述媒体信息(例如，使用用于在视频会议中增强用户体验的技术，如本文所描述的)。然而实施例不限于图10中示出或描述的元素或上下文。

如上所述，系统600可以用变化的物理风格或形状系数来体现。图11展示了可以在其中具体化系统600的小形状因数设备700的实施例。在一些实施例中，例如，设备700可以被实现为具有无线能力的移动计算设备。例如，移动计算设备可以指具有处理系统和移动电源或供电(诸如一个或多个电池)的任何设备。

如之前所描述的，移动计算设备的示例可以包括个人计算机(PC)、膝上计算机、超级膝上计算机、平板计算机、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合式蜂窝电话/PDA、电视、智能设备(例如智能电话、智能平板计算机或智能电视)、移动互联网设备(MID)、消息设备、数据通信设备等。

移动计算设备的示例还可以包括被安排来由人佩戴的计算机，例如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、服装计算机和其他可以佩带的计算机。在某些实施例中，例如移动计算设备可以被实现为能够执行计算机应用、以及语音通信和/或数据通信的智能电话。尽管一些实施例可以用作为示例实现为智能电话的移动计算设备描述，但应理解，其他实施例也可以使用其他无线移动计算设备实现。实施例不限于此上下文。

如图11所示，设备700可以包括：壳体702、显示器704、输入/输出(I/O)设备706、和天线708。设备700可以包括用户接口(UI)710。设备700还可以包括导航特征712。显示器704可以包括适合于移动计算设备的用于显示信息的任何适当的显示单元。I/O设备706可以包括用于将信息输入移动计算设备中的任何适当的I/O设备。I/O设备706的示例可以包括：字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、摇杆式开关、麦克风、扬声器、语音识别设备和软件等。信息也可以通过麦克风输入到设备700中。这种信息可以由话音识别设备数字化。实施例不限于此上下文。

可以使用硬件元件、软件元件、或两者的组合来实现各实施例。硬件元件的示例可以包括：处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等等)、集成电路(IC)、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可以包括：软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码片段、计算机代码片段、字、值、符号、或其任意组合。是否使用硬件元件和/或软件元件可以根据任何数量的因子而在实施例之间变化，如预期的计算速率、功率电平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。

一些实施例可以使用例如机器可读介质或制品来实现，所述机器可读介质或制品可以存储指令或指令集，所述指令或指令集在被机器执行的情况下可以使机器执行根据实施例的方法和/或操作。这样的机器可以包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，并且可以使用硬件和软件。机器可读介质或制品可以包括例如任何合适类型的存储器单元、存储器设备、存储器制品、存储介质、存储设备、存储制品、存储介质和/或存储单元，例如存储器、可移动或可移动介质、不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可记录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁介质、磁光介质、可移动存储卡或盘、各种类型的数字通用盘(DVD)、磁带、盒式磁带等。这些指令可以包括任何适当类型的可执行代码，使用任何适当的高级、低级、面向对象、可视、编译和/或翻译编程语言实现该可执行指令。

除非另有特别说明，否则可以理解，诸如“处理”、“计算”、“运算”、“确定”等术语是指计算机或计算系统或类似计算机的动作和/过程，其对表示为计算系统的寄存器和/或存储器内的物理量(例如电子)的数据进行操纵和/或变换成类似地表示为计算系统的存储器、寄存器或此类信息存储、传输或显示设备内的物理量的其它数据。实施例不限于此上下文。

进一步的示例实施例

以下示例属于进一步的实施例，许多置换和配置将从这些实施例变得明显。

示例1是一种系统，所述系统包括：处理器；与所述处理器通信耦合的存储器；音频分析模块，所述音频分析模块被配置成用于分析在视频会议会话中接收的音频数据，并且用于从中确定所述视频会议会话的至少一个参与者的音频活动水平；以及用户界面(UI)模块，所述UI模块被配置成用于执行以下各项中的至少一项：基于远程参与者的所述音频活动水平，对由所述系统本地呈现的图形用户界面(GUI)的视频组成进行调整；基于本地参与者的输入，对由所述系统本地呈现的GUI的视频组成进行调整；基于本地参与者的输入，对与远程参与者相关联的本地呈现的音频流的音量水平进行调整；以及基于本地参与者的所述音频活动水平，自动地对由所述系统传输的视频数据的分辨率和帧率中的至少一者进行调整。

示例2包括如示例1和3-9中任一项所述的主题，其中，为了确定所述至少一个参与者的所述音频活动水平，所述音频分析模块被配置成用于：对在所述视频会议会话中接收的所述音频数据进行采样，并从中计算音频签名以识别哪个参与者与所述音频数据相关联；以及将所述音频数据与音频阈值进行比较。

示例3包括如示例2所述的主题，其中，所述音频阈值包括音量水平值和持续时间值中的至少一者。

示例4包括如示例2所述的主题，其中，所述音频阈值是用户可配置的。

示例5包括如示例1-4和6-9中任一项所述的主题，其中，所述UI模块被配置成用于执行所述四种调整中的至少三种调整。

示例6包括如示例1-5和7-9中任一项所述的主题并且进一步包括：触敏显示器，其中，所述GUI呈现在所述触敏显示器上，并且其中，所述UI模块被配置成用于：基于经由所述触敏显示器所接收的输入来调整所述GUI的所述视频组成。

示例7包括如示例1-6和8-9中任一项所述的主题，其中，所述系统包括以下各项中的至少一项：膝上计算机/笔记本计算机、子笔记本电脑、平板计算机、移动电话、智能电话、个人数字助理(PDA)、便携式媒体播放器(PMP)、蜂窝手持机、手持式游戏设备、游戏平台、台式计算机、电视机、视频会议系统、以及被配置成用于主控视频会议会话的服务器。

示例8包括示例1-7和9中任一项所述的主题，其中，通过以下操作来调整所述视频组成：当远程参与者主动地参与所述视频会议会话时，增加所述参与者的显著性；或者当远程参与者没有主动地参与所述视频会议会话时，降低所述参与者的显著性。

示例9包括如示例1-8中任一项所述的主题，其中，所述音频分析模块被配置成用于：以用户可配置的间隔对所述音频数据进行分析。

示例10是一种非瞬态计算机程序产品，所述非瞬态计算机程序产品以指令来编码，当所述指令被一个或多个处理器执行时使得过程被实施的指令，所述过程包括：在视频会议会话中接收音频数据；分析所述音频数据以确定所述视频会议会话的至少一个参与者的音频活动水平；以及基于所述至少一个参与者的所述音频活动水平，对图形用户界面(GUI)的视频组成进行调整。

示例11包括如示例10和12-22中任一项所述的主题，其中，分析所述音频数据以确定所述至少一个参与者的所述音频活动水平包括：对在所述视频会议会话中接收的所述音频数据进行采样并从中计算音频签名以识别哪个参与者与所述音频数据相关联；以及将所述音频数据与音频阈值进行比较。

示例12包括如示例11所述的主题，其中，在将所述音频数据与所述音频阈值进行比较时，如果所述音频数据超过所述音频阈值，则对所述GUI的所述视频组成进行调整包括：将对代表所述参与者的视频流的呈现从所述GUI的缩略图区域自动地转换至所述GUI的显著区域；将对代表所述参与者的视频流的呈现从所述GUI的缩略图区域自动地转换至所述GUI的显著区域以及将对代表另一个参与者的视频流的呈现从所述GUI的所述显著区域自动地转换至所述GUI的所述缩略图区域；或者将对代表所述参与者的视频流的呈现维持在所述GUI的显著区域内。

示例13包括如示例11所述的主题，其中，在将所述音频数据与所述音频阈值进行比较时，如果所述音频数据未超过所述音频阈值，则对所述GUI的所述视频组成进行调整包括：将对代表所述参与者的视频流的呈现从所述GUI的显著区域自动地转换至所述GUI的缩略图区域；或者将对代表所述参与者的视频流的呈现维持在所述GUI的缩略图区域内。

示例14包括如示例11所述的主题，其中，所述音频阈值包括音量水平值和持续时间值中的至少一者。

示例15包括如示例11所述的主题，其中，所述音频阈值是用户可配置的。

示例16包括如示例10-15和17-22中任一项所述的主题，其中，调整所述GUI的所述视频组成包括以下各项中的至少一项：在所述GUI的显著区域与所述GUI的缩略图区域之间转换对代表远程参与者和关注对象/场景中的至少一者的视频流的呈现；对代表至少一个远程参与者的视频流的分辨率进行调整；以及对代表至少一个远程参与者的视频流的帧率进行调整。

示例17包括如示例10-16和18-22中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整是基于引起所述调整的本地或远程参与者的所述音频活动水平而自动执行的。

示例18包括如示例10-17和19-22中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整进一步基于经由触敏显示器而接收的输入，所述GUI呈现在所述触敏显示器上。

示例19包括如示例10-18和20-22中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整是实时执行的。

示例20包括如示例10-19和21-22中任一项所述的主题，其中，分析所述音频数据以确定所述至少一个参与者的所述音频活动水平是以用户可配置的间隔执行的。

示例21包括如示例10-20中任一项所述的主题，其中，所述过程的至少一部分是经由基于IR.94的实现方式来执行的。

示例22包括如示例10-20中任一项所述的主题，其中，所述过程的至少一部分是经由基于WebRTC的实现方式来执行的。

示例23是一种非瞬态计算机程序产品，所述非瞬态计算机程序产品以指令来编码，当所述指令被一个或多个处理器执行时使得过程被实施，所述过程包括：在视频会议会话中接收音频数据，所述音频数据包括与个体远程视频会议参与者相关联的至少一个音频流；以及对与所述个体远程视频会议参与者相关联的所述至少一个音频流的音量水平进行调整。

示例24包括如示例23和25-28中任一项所述的主题，其中，所述过程进一步包括：对图形用户界面(GUI)的视频组成进行调整以包括与所述个体远程视频会议参与者相关联的音量控制特征。

示例25包括如示例23-24中任一项所述的主题，其中，所述过程的至少一部分是经由基于WebRTC的实现方式来执行的。

示例26包括如示例23-24和27-28中任一项所述的主题，其中，在对与所述个体远程视频会议参与者相关联的所述至少一个音频流的所述音量水平进行调整之前，所述过程进一步包括将所述音频数据分割成多个音频流，所述多个包括与所述个体远程视频会议参与者相关联的所述至少一个音频流。

示例27包括如示例26所述的主题，其中，在对与所述个体远程视频会议参与者相关联的所述至少一个音频流的所述音量水平进行调整之后，所述过程进一步包括将所述多个音频流重新合成为单个音频流。

示例28包括如示例23-24和26-27中任一项所述的主题，其中，所述过程的至少一部分是经由基于IR.94的实现方式来执行的。

示例29是一种非瞬态计算机程序产品，所述非瞬态计算机程序产品以指令来编码，当所述指令被一个或多个处理器执行时使得过程被实施，所述过程包括：在视频会议会话中接收音频数据；分析所述音频数据以从中确定所述视频会议会话的本地参与者的音频活动水平；以及基于所述本地参与者的所述音频活动水平，对在所述视频会议会话中传输的视频数据的分辨率和帧率中的至少一者进行调整。

示例30包括如示例29和31-41中任一项所述的主题，其中，对在所述视频会议会话中传输的所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括：在对所述视频数据进行编码之前，对被配置成用于采集所述视频数据的图像采集设备的采集分辨率和采集帧率中的至少一者进行调整。

示例31包括如示例29-30和32-41中任一项所述的主题，其中，对在所述视频会议会话中传输的所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括：在对采集视频数据进行编码之前，对所述采集视频数据的所述分辨率和所述帧率中的至少一者进行缩放。

示例32包括如示例29-31和33-41中任一项所述的主题，其中，分析所述音频数据以从中确定所述本地参与者的所述音频活动水平包括：对在所述视频会议会话中接收的所述音频数据进行采样，并从中计算音频签名以识别哪个参与者与所述音频数据相关联；以及将所述音频数据与音频阈值进行比较。

示例33包括如示例32所述的主题，其中，在将所述音频数据与所述音频阈值进行比较时，如果所述音频数据超过所述音频阈值，则对所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括以下各项中的至少一项：在对所述视频数据进行编码之前，自动地增大被配置成用于采集所述视频数据的图像采集设备的采集分辨率和采集帧率中的至少一者；以及在对所述视频数据进行编码之前，自动地放大所述视频数据的所述分辨率和所述帧率中的至少一者。

示例34包括如示例32所述的主题，其中，在将所述音频数据与所述音频阈值进行比较时，如果所述音频数据未超过所述音频阈值，则对所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括以下各项中的至少一项：在对所述视频数据进行编码之前，自动地减小被配置成用于采集所述视频数据的图像采集设备的采集分辨率和采集帧率中的至少一者；以及在对所述视频数据进行编码之前，自动地缩小所述视频数据的所述分辨率和所述帧率中的至少一者。

示例35包括如示例32所述的主题，其中，所述音频阈值包括音量水平值和持续时间值中的至少一者。

示例36包括如示例32所述的主题，其中，所述音频阈值是用户可配置的。

示例37包括如示例32所述的主题，其中，所述视频数据是由静止相机或视频相机提供的。

示例38包括如示例32所述的主题，其中，调整所述视频数据的所述分辨率和所述帧率中的至少一者是实时地执行的。

示例39包括如示例29-38和40-41中任一项所述的主题，其中，分析所述音频数据以从中确定所述视频会议会话的本地参与者的音频活动水平是以用户可配置的间隔来执行的。

示例40包括如示例29-39中任一项所述的主题，其中，所述过程的至少一部分是经由基于IR.94的实现方式来执行的。

示例41包括如示例29-39中任一项所述的主题，其中，所述过程的至少一部分是经由基于WebRTC的实现方式来执行的。

示例42是一种非瞬态计算机程序产品，所述非瞬态计算机程序产品以指令来编码，当所述指令被一个或多个处理器执行时使得过程被实施，所述过程包括：在视频会议会话中接收视频数据；以及基于本地参与者的输入，对图形用户界面(GUI)的视频组成进行调整。

示例43包括如示例42和44-49中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整包括：在所述GUI内定位显著区域和缩略图区域；将所述视频数据分割成多个视频流，所述多个视频流至少包括针对所述显著区域的第一视频流以及针对所述缩略图区域的第二视频流；以及基于所述本地参与者的所述输入，将所述多个视频流重新组成为单个视频流。

示例44包括如示例42-43和45-49中任一项所述的主题，其中，调整所述GUI的所述视频组成包括：将对代表远程参与者的视频流的呈现从所述GUI的缩略图区域转换至所述GUI的显著区域；或者将对所述远程参与者的视频流的呈现维持在所述GUI的显著区域内。

示例45包括如示例42-44和46-49中任一项所述的主题，其中，调整所述GUI的所述视频组成包括：将对代表远程参与者的视频流的呈现从所述GUI的显著区域自动地转换至所述GUI的缩略图区域；或者将对代表所述远程参与者的视频流的呈现维持在所述GUI的缩略图区域内。

示例46包括如示例42-45和47-49中任一项所述的主题，其中，调整所述GUI的所述视频组成包括：对经由所述GUI本地呈现的代表远程参与者的视频流的分辨率和帧率中的至少一者进行调整。

示例47包括如示例42-46和48-49中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整是实时执行的。

示例48包括如示例42-47中任一项所述的主题，其中，所述过程的至少一部分是经由基于IR.94的实现方式来执行的。

示例49包括如示例42-47中任一项所述的主题，其中，所述过程的至少一部分是经由基于WebRTC的实现方式来执行的。

示例50是一种增强视频会议会话中的用户体验的方法，所述方法包括：分析在视频会议会话中接收的音频数据；从所述接收的音频数据中确定所述视频会议会话的至少一个参与者的音频活动水平；以及以下各项中的至少一项：基于远程参与者的所述音频活动水平，对本地呈现的图形用户界面(GUI)的视频组成进行调整；基于本地参与者的输入，对本地呈现的GUI的视频组成进行调整；基于本地参与者的输入，对与远程参与者相关联的本地呈现的音频流的音量水平进行调整；以及基于本地参与者的所述音频活动水平，对在所述视频会议会话中传输的视频数据的分辨率和帧率中的至少一者自动地进行调整。

示例51包括如示例50和52-66中任一项所述的主题，其中，调整所述GUI的所述视频组成包括：将对代表所述参与者的视频流的呈现从所述GUI的缩略图区域自动地转换至所述GUI的显著区域；或者将对代表所述参与者的视频流的呈现维持在所述GUI的显著区域内。

示例52包括如示例50-51和53-66中任一项所述的主题，其中，调整所述GUI的所述视频组成包括：将对代表所述参与者的视频流的呈现从所述GUI的显著区域自动地转换至所述GUI的缩略图区域；或者将对代表所述参与者的视频流的呈现维持在所述GUI的缩略图区域内。

示例53包括如示例50-52和54-66中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整是自动执行的。

示例54包括如示例50-53和55-66中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整进一步基于经由所述GUI而接收的输入。

示例55包括如示例50-54和56-66中任一项所述的主题，其中，对所述GUI的所述视频组成进行调整是实时执行的。

示例56包括如示例50-55和57-66中任一项所述的主题，其中，对所述本地呈现的音频流的所述音量水平进行调整包括：放大所述音量水平。

示例57包括如示例50-56和58-66中任一项所述的主题，其中，对所述本地呈现的音频流的所述音量水平进行调整包括：衰减所述音量水平。

示例58包括如示例50-57和59-66中任一项所述的主题，其中，对所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括以下各项中的至少一项：在对所述视频数据进行编码之前，增加被配置成用于采集所述视频数据的图像采集设备的采集分辨率和采集帧率中的至少一者；以及在对所述视频数据进行编码之前，放大所述视频数据的所述分辨率和所述帧率中的至少一者。

示例59包括如示例50-58和60-66中任一项所述的主题，其中，对所述视频数据的所述分辨率和所述帧率中的至少一者进行调整包括以下各项中的至少一项：在对所述视频数据进行编码之前，减小被配置成用于采集所述视频数据的图像采集设备的采集分辨率和采集帧率中的至少一者；以及在对所述视频数据进行编码之前，缩小所述视频数据的所述分辨率和所述帧率中的至少一者。

示例60包括如示例50-59和61-66中任一项所述的主题，其中，分析所述音频数据以从中确定所述至少一个参与者的所述音频活动水平包括：对在所述视频会议会话中接收的所述音频数据进行采样，并从中计算音频签名以识别哪个参与者与所述音频数据相关联；以及将所述音频数据与音频阈值进行比较。

示例61包括如示例60所述的主题，其中，所述音频阈值包括音量水平值和持续时间值中的至少一者。

示例62包括如示例60所述的主题，其中，所述音频阈值是用户可配置的。

示例63包括如示例50-62和65-66中任一项所述的主题，其中，对在所述视频会议会话中接收的音频数据进行分析是实时执行的。

示例64包括如示例50-62和65-66中任一项所述的主题，其中，对在所述视频会议会话中接收的音频数据进行分析是以用户可配置的间隔来执行的。

示例65包括如示例50-64中任一项所述的主题，其中，所述方法的至少一部分是经由基于IR.94的实现方式来执行的。

示例66包括如示例50-64中任一项所述的主题，其中，所述方法的至少一部分是经由基于WebRTC的实现方式来执行的。

前述对示例实施例的描述是出于展示和描述的目的介绍的。所述描述不旨在是穷尽的或将本公开限制为所公开的确切形式。鉴于本公开，许多修改和变化都是可能的。本公开的范围旨在不受此详细说明限制，而是受所附权利要求书的限制。要求本申请的有限群的未来提交的申请可以通过不同的方式要求所公开的主题，并且总体上可以包括如之前所公开的或另外在此所演示的一种或多种限制的集合。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R·瑟苏拉曼;R·比恩;R·巴斯卡;J-P·贾卡龙
技术所有人：英特尔公司
我是此专利的发明人

上一篇：相机用滤光器更换器结合装置的制造方法
上一篇：用于改变设备的模式的装置和方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。