音视频会议系统及设备的制作方法

文档序号：19989792发布日期：2020-02-21 21:13阅读：203来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及通信技术领域，尤其涉及一种音视频会议系统及设备。

背景技术：

随着企业全球化扩张及生态系统的多元化，跨地区跨国的实时音视频会议的需求越来越多。

目前，为了实现多会场之间的音视频会议，可在多个会场分别布设会议设备，由会场设备采集并分享会场内的音视频内容。但是，在音视频会议中，多个会场间的交互不够灵活，会议效果并不佳。

技术实现要素：

本申请的多个方面提供一种音视频会议系统及设备，用以提高音视频会议中多个会场间的交互灵活性。

本申请实施例提供一种音视频会议系统，包括服务器以及可供布设于不同会场或位置的多个会议设备，所述多个会议设备通过互联网与所述服务器连接，所述多个会议设备中包含主控设备和受控设备；所述主控设备响应对目标会场的音视频内容的播放要求，通过所述服务器向所述目标会场中的目标受控设备发送与所述播放要求对应的主控参数；所述目标受控设备按照所述主控参数调整其音视频采集组件的工作状态，基于工作状态调整后的音视频采集组件采集所述目标会场的音视频内容并通过所述服务器将所述音视频内容共享至所述主控设备。

本申请实施例还提供一种电子设备，包括设备主体，所述设备主体上装配有音视频采集组件、主板和网络组件，其中，所述音视频采集组件及所述网络组件与所述主板集成，所述主板通过所述网络组件接收控制参数，按照所述控制参数调整所述音视频采集组件的工作状态，并基于工作状态调整后的音视频采集组件采集音视频内容。

本实施例还提供一种电子设备，包括：设备主体，所述设备主体上装配有显示屏、网络组件和主板，所述显示屏和所述网络组件与所述主板集成；所述主板获取用户通过所述显示屏输入的对音视频会议系统中的目标设备的控制参数，并通过网络组件将所述控制参数传输至所述目标设备，以控制所述目标设备调整其音视频采集组件的工作状态以按照用户要求采集音视频内容。

在本申请实施例中，通过音视频会议系统中布设主控设备，可由主控设备按照对多个会场中的任意目标会场的音视频内容的播放要求，向服务器发送控制请求，服务器可基于主控设备的控制请求，控制目标会场中的目标受控设备进行音视频采集组件的工作状态调整，以使目标受控设备按照所述播放要求采集目标会场的音视频内容。据此，本申请实施例中，可基于主控设备宏观调控多个会场中的音视频内容采集过程，这使得音视频会议系统中多个会场的音视频内容的播放效果更具可控性，多个会场间的交互更加灵活，不再受到地域限制，可有效改善会议效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一实施例提供的一种音视频会议系统的结构示意图；

图2为本申请一实施例提供的另一种音视频会议系统的结构示意图；

图3为本申请一实施例提供的一种音视频会议系统的使用场景示意图；

图4a为本申请一实施例提供的第一类设备的结构示意图；

图4b为本申请一实施例提供的第二类设备的结构示意图；

图4c为本申请一实施例提供的一种主板芯片的端口使用状态示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在音视频会议中，多个会场间的交互不够灵活，会议效果并不佳。为了解决现有技术存在的问题，在本申请的一些实施例中：通过音视频会议系统中布设主控设备，可由主控设备按照对多个会场中的任意目标会场的音视频内容的播放要求，向服务器发送控制请求，服务器可基于主控设备的控制请求，控制目标会场中的目标受控设备进行音视频采集组件的工作状态调整，以使目标受控设备按照所述播放要求采集目标会场的音视频内容。据此，本申请实施例中，可基于主控设备宏观调控多个会场中的音视频内容采集过程，这使得音视频会议系统中多个会场的音视频内容的播放效果更具可控性，多个会场间的交互更加灵活，不再受到地域限制，可有效改善会议效果。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一实施例提供的音视频会议系统的结构示意图。如图1所示，该系统包括服务器10以及可供布设于不同会场或位置的多个会议设备，多个会议设备通过互联网与服务器10连接，多个会议设备中包含主控设备20和受控设备30。

本实施例中的会场可理解为会议子系统，会场中包含电源、网络设备等等能够支持受控设备30工作的辅助设备。不同的会场可处于不同的地域，多个会议设备可布设在不同的会场中，多个会议设备也可布设在不同位置，其中，不同位置包括同一会场中的不同位置。值得说明的是，本实施例中的会议设备是指待能够支持会议功能的一类电子设备，例如，会议设备可具有音视频采集、音视频播放或者用户交互等等中的一种或多种会议功能，当然，本实施例对各个会议设备所能支持的会议功能不作具体限定。

在一种实际应用中，可在每个会场中分别布设一个受控设备30，其中，受控设备30至少具备音视频采集功能。当然，本实施例对此并不做限定，某些会场中也可采用其它不同于本实施例中的受控设备30，但能够支持音视频采集功能的终端设备代替本实施例中的受控设备30，这种情况下，可通过制定通信协议等方式实现这些终端设备与本实施例中的主控设备20及服务器10之间的通信。为方便描述，后文中将以每个会场中均布设有本实施例提供的受控设备30为例进行技术方案的说明。

其中，在物理实现上，服务器10既可以是实体服务器，也可以是云端服务器，包括公有云、私有云/专有云、混合云提供的服务能力，也包括边缘计算场景、未来其他场景中的具有服务能力的处理设备。

另外，多个会议设备可通过互联网与服务器10连接，连接的方式包括但不限于2g/3g/4g/5g/wifi/蓝牙1.0/2.0/3.0以及未来的6g/7g之类的通讯网络技术实现的网络连接。

在一场音视频会议中，可安排一位主持人，其中，主持人可以处在多个会场中的任意会场，本实施例中，可将主持人所在的会场中配置主控设备20。主控设备20可提供用户交互界面，主持人可对主控设备20进行操控，主控设备20可响应主持人的各种操控并获取这些操控所产生的各种指令、参数等等。为了便于主持人操控，主控设备20可采用桌面终端的形式，这样，主控设备20对主持人来说变得触手可及，从而可提供沉浸式的人际交互效果，为主持人提供流畅的操控体验。另外，主控设备20还可提供语音识别功能，主持人可基于语音指令实现对主控设备20的操控。

值得说明的是，本实施例中提及的主持人是一种泛指，在一场音视频会议中，多个会场均有可能有主持需求，而且在会议期间，主持需求可能会在多个会场之间切换，因此，主持人可指代音视频会议中具有主持需求的会场中的会议设备操作者。而对应于主持需求的切换，在音视频会议中也存在着主持人的切换。为了避免出现控制混乱的情况，在一些实际应用中，可通过主持权限传递的方式切换主持人，同时，为了支持主持需求，可在可能具有主持需求的各个会场中布设能够支持主控设备相关功能的会议设备。当然，本实施例还可采用其它方式来支持主持人切换，例如，在可能具有主持需求的各个会场中增加单独承担主控设备功能的会议设备等等，本实施例对此不作限定。为了方面描述，后文中将以其中一个获得主持权限的会场为例进行主控设备的相关阐述，但这不应造成对本申请保护范围的损失。

基于音视频会议系统中多个会场之间的音视频内容共享机制，主持人可在其会场中观看到多个会场的音视频内容，基于此，主持人可根据获取到的多个会场的音视频内容的播放效果，针对需要改进播放效果的任意目标会场提出播放要求。

对主控设备20来说，可按照对目标会场的音视频内容的播放要求，向服务器10发送主控请求，主控请求中包含与播放要求对应的主控参数。其中，目标会场可以是一个或多个，而且，主持人对不同目标会场的播放要求可不完全相同；相应地，不同目标会场对应的主控参数也可不完全相同。

本实施例中，对目标会场的音视频内容的播放要求可以是调整画面视角、提高播放精度、聚焦某位参会人员、静音等等。对目标会场的音视频内容的播放要求可来自主持人，主持人可根据实际需求对目标会场的音视频内容提出各种播放要求，当然，也可来自其它渠道，本实施例对此不作限定。后文中，将以播放要求来自主持人--也即是主控设备的操作者为例进行技术方案的阐述，但显然本实施例并不限于此，针对来自其它渠道的播放要求，主控设备可解析这类播放要求并作出响应。

基于主持人对目标会场的音视频内容的不同播放要求，主持人可通过对主控设备20进行操控以向主控设备20输入与播放要求相对应的主控参数。例如，当主持人希望调整目标会场的画面视角时，主控设备20可提供针对目标会场的摄像头控制界面，主持人可根据所需的画面视角，在该界面上触摸控制摄像头转动角度的相关控件或者向主控设备20发出语音指令，据此，主控设备20可获取到摄像头的转动角度这一主控参数。

与主持人的各种播放要求相对应地，主控参数可以包含摄像头的转动角度、焦距、分辨率或者麦克风的音量参数中的一种或多种参数。当然，这些参数类型也仅是示例性地，本实施例并不限于此，主控参数还可以包含与主持人的播放要求相对应的其它类型的参数。

基于获取到的主控参数，主控设备20可生成主控请求，并通过自身的通信组件将主控请求发送至服务器10。在一些实际应用中，主控设备20发出的主控请求中可携带目标会场的标识，以便服务器10正确地确定出主控设备20希望调控的目标会场。

对服务器10来说，根据主控设备20发送的主控请求，可将主控参数发送给目标会场中的目标受控设备。其中，正如目标会场可以是多个会场中的任意会场，目标受控设备也可以是多个受控设备30中的任意一个，据此，本文中对目标受控设备的相关描述在通常情况下适用于多个受控设备30中的任意一个。

服务器10在获取到主控设备20发送的主控请求时，可确定出目标会场及目标会场中的目标受控设备。在一种实际应用中，音视频会议系统中的多个会场中的会场设备可预先将设备标识及其所在的会场标识上报至服务器10，服务器10中可记录会场与会场设备之间的关联关系。在确定出目标受控设备后，服务器10可将主控请求中的主控参数下发至目标受控设备。可选地，服务器10可基于主控参数生成主控信令，并以主控信令的形式将主控参数发送至目标受控设备，当然，本实施例对服务器10向目标受控设备下发主控参数的形式并不限于此。

对于目标受控设备来说，在接收到服务器10下发的主控参数后，可按照主控参数调整其音视频采集组件的工作状态，基于工作状态调整后的音视频采集组件采集目标会场的音视频内容并将音视频内容回传至服务器10。其中，目标受控设备的音视频采集组件可包括摄像头、麦克风等组件。

如上文提及的，主控参数可包含多种类型的参数，以上文中提到的几种参数类型为例：

当主控参数包括摄像头的转动角度时，目标受控设备可按照转动角度调整其摄像头的拍摄角度，基于调整后的拍摄角度采集目标会场的音视频内容。

当主控参数包括摄像头的焦距时，目标受控设备可按照焦距调整其摄像头的焦距，基于调整后的焦距采集目标会场的音视频内容。

当主控参数包括摄像头的分辨率时，目标受控设备可按照分辨率调整其摄像头的拍摄精度，基于调整后的拍摄精度采集目标会场的音视频内容。

当主控参数包括音量参数时，目标受控设备可按照音量参数调整其麦克风的音量，基于调整后的音量采集目标会场的音视频内容。

值得说明的是，上文对目标受控设备响应主控参数所包含的不同类型的参数的过程进行了分别描述，但应当理解的是，目标受控设备可按照上文中多种类型的参数分别调整或者同时调整音视频采集组件的工作状态，以期将其音视频采集组件调整为能够满足主持人对目标会场中音视频内容的播放要求的工作状态。

据此，目标受控设备可基于工作状态调整后的音视频采集组件，采集到符合主持人的播放要求的音视频内容，当目标受控设备将据此采集到的音视频内容回传给服务器10时，服务器10可将目标受控设备回传的符合播放要求的音视频内容共享至主控设备20，以供主控设备20输出。当然，服务器10也可将目标受控设备回传的符合播放要求的音视频内容共享至当前会议中的其它受控设备30，以实现目标会场的音视频内容的共享，使当前会议的各个会场中所观看到的目标会议的音视频内容的播放效果随主持人的播放要求同步调整，这可大大优化会议效果。

本实施例中，通过音视频会议系统中布设主控设备，可由主控设备按照对多个会场中的任意目标会场的音视频内容的播放要求，向服务器发送控制请求，服务器可基于主控设备的控制请求，控制目标会场中的目标受控设备进行音视频采集组件的工作状态调整，以使目标受控设备按照所述播放要求采集目标会场的音视频内容。据此，本申请实施例中，可基于主控设备宏观调控多个会场中的音视频内容采集过程，这使得音视频会议系统中多个会场的音视频内容的播放效果更具可控性，多个会场间的交互更加灵活，不再受到地域限制，可有效改善会议效果。

在上述或下述实施例中，服务器10还可将当前会议的会议文档以及当前会议中的其它受控设备采集到的音视频内容共享至目标受控设备。

其中，当前会议的会议文档是指会议过程中涉及的与会议内容相关的pdf文件、图片、文本文件等等类型的文档。服务器10可将会议文档共享至各个会场，以供各个会场中的参会人员使用。另外，对于目标会场来说，其可通过目标受控设备获取到当前会议中其它会场的音视频内容并进行展示，当然，目标会场中也可展示其自身的音视频内容以供其了解自身的音视频内容采集效果。

对于目标受控设备来说，可在目标会场中展示服务器10共享的会议文档及音视频内容。根据目标受控设备的硬件实现上的不同，目标受控设备的展示方式也可能有所不同。

在一种实现方式中，目标受控设备可包含显示屏，也即显示屏集成在设备主体上。在该实现方式中，目标受控设备可利用其显示屏展示会议文档以及其它受控设备30采集到的音视频内容。

可选地，目标受控设备可采用分区的方式同时展示会议文档及音视频内容；目标受控设备也可排它性地单独展示会议文档或音视频内容，实际应用中可由其操作者对两种展示对象进行切换。当然，本实现方式中还可采用其它方式在目标受控设备的显示屏中进行会议文档及音视频内容的展示，而并不限于本文中提供的示例性方式。

在另一种实现方式中，目标受控设备可外接至少两个显示器。实际应用中，目标受控设备外接的显示器可布设在目标会场中视野开阔的位置，以便目标会场中所有的参会人员都能无障碍地观看到。在该实现方式中，目标受控设备可基于多屏异显技术，将会议文档以及其它受控设备30采集到的音视频内容发送至不同的显示器进行展示。

以目标受控设备外接两个显示器为例，目标受控设备中可装配至少两个hdmi接口，基于双屏异显技术，目标受控设备可通过两个hdmi将会议文档和音视频内容作为两条媒体流，分别传输至两个显示器，这样，在其中一个显示器中展示会议文档，而在另一个显示器中可展示音视频内容。当然，目标受控设备还可外界更多的显示器，基于更多的显示器，目标受控设备可对音视频内容进行进一步的分流，例如，可将不同会场的音视频内容传输至不同的显示器进行分别展示，本实施例对此不作限定。

另外，基于上述的目标受控设备的任意硬件实现方式，目标受控设备可基于会议文档的展示界面提供文档操作控件，目标受控设备的操作者可通过触控操作实现对会议文档的注释、画面缩放等等文档操作。目标受控设备还可将针对会议文档的文档操作数据回传至服务器10，以通过服务器10将这些文档操作共享至其它会场中的受控设备30。而服务器10中则可将这些文档操作数据与会议文档关联保存，以对相关人员提供下载服务。

本实施例中，不同的会场中可采用硬件实现方式不完全相同的受控设备30，多个会场可根据会场空间大小、参会人员数量等因素选择合适的受控设备30，以期获得更好的展示效果。

在上述或下述实施例中，目标受控设备还可在监测到目标会场中出现人声信号时，利用其麦克风阵列确定目标会场中发言人的位置；根据发言人的位置，计算将摄像头的拍摄角度对准发言人所需的摄像头的转动角度；按照计算出的转动角度，控制其摄像头转动，以使其摄像头的拍摄角度对准发言人。

本实施例中，目标受控设备的麦克风可采用麦克风阵列。目标受控设备可对目标会场中的各种声音进行分析，以判断目标会场中是否出现人声信号，而当发现目标会场中出现人声信号时，可基于麦克风阵列采集到的人声信号进行声源定位，以确定出目标会场中发言人与目标受控设备的相对位置。

基于此，目标受控设备可根据其摄像头的当前拍摄角度以及其与发言人的相对位置，计算出将摄像头的拍摄角度对准发言人所需的摄像头的转动角度。根据该转动角度，目标受控设备可控制器摄像头的拍摄角度对准发言人，以实现对发言人的音源跟随。这使得目标会议的音视频内容的播放画面中，画面视角随着发言人的变化自动调整，当前会议中的其它会场中可更方便地观看到发言人的相关画面，可为其它会场中参会人员提供对目标会场的场景沉浸式体验。

进一步，若发言人的发言时长超过预设时长，目标受控设备可按照预设放大倍数放大其摄像头的焦距，以对发言人进行聚焦。据此，目标受控设备可在发言人持续发言时，对发言人进行自动聚焦，更加凸显发言人的相关画面，可进一步优化前述的场景沉浸式体验。

另外，目标受控设备的麦克风阵列的拾音距离可达5-8m，支持远场拾音。

本实施例中，目标受控设备可对目标会场中的发言人进行音源跟踪及自动聚焦，使得目标会场的音视频内容的播放效果更具场景沉浸性，可进一步优化会议效果。

在上述或下述实施例中，若目标受控设备采集到的音视频内容中包含目标会场中至少一个参会人员的图像；则服务器10可基于人脸识别技术，从音视频内容中分别提取各参会人员的人脸特征；根据人脸特征与人物身份标识的关联关系，确定各参会人员的身份标识；在音视频内容中标注各参会人员的身份标识，以生成目标受控设备对应的人物标注后音视频内容；将目标受控设备对应的人物标注后音视频内容共享至当前会议中的其它受控设备，以通过其它受控设备展示目标受控设备对应的人物标注后音视频内容。

本实施例中，服务器10对目标受控设备采集到的音视频内容进行人脸识别，以从中提取出至少一个人脸特征，并可基于人脸特征确定对应的参会人员的身份标识，在此基础上，服务器10可对目标受控设备采集到的音视频内容中的参会人员进行身份标识的标注。这样，当目标受控设备采集到的音视频内容被播放时，其播放画面上将同步展示播放画面中的参会人员的身份标识。进一步，服务器10还可将身份标识的标注位置与相应参会人员在播放画面中的位置进行匹配，以使播放画面中关联展示各参会人员的图像及身份标识。据此，当前会议中的其它会场在播放目标会场的音视频内容时，可直观地获知目标会场中各参会人员的身份，结合前述实施例中提及的发言人聚焦方案，可获得更好的会议互动性，使得多个会场间的音视频会议的会议效果得到进一步改善。

图2为本申请一实施例提供的另一种音视频会议系统的结构示意图。如图2所示，在上述实施例的基础上，本实施例中，多个会议设备中还可包括布设在部分会场中的至少一个次控设备40。

在一些场景中，基于期望采集会场中的全局画面等原因，会场中的受控设备30将被布设在距离参会人员较远的位置，这导致会场中的参会人员对受控设备30的控制非常不便，本实施例中，提出在这类会场中布设次控设备40的解决方案。其中，在硬件实现上，次控设备40可采用与所述主控设备10相似的硬件结构。例如，次控设备40可采用与主控设备20类似的桌面终端的形式，以提高用户的操控便利性，以及更契合用户的操控习惯。

以目标会场为例，当目标受控设备所在的目标会场中布设有目标次控设备时，目标次控设备可与目标受控设备直连。本实施例中，目标次控设备可与目标受控设备可通过wifi直连，也可通过蓝牙、红外等其它点对点的直连方式进行直连，本实施例对两者的直连方式不作限定。无论采用何种直连方式，目标次控设备可将其与目标受控设备的直连通道作为控制链路，并通过控制链路向目标受控设备下发各种次控信令。

对目标次控设备来说，可响应其操作者对目标会场的音视频内容的播放要求，向目标受控设备发送次控参数，以期望控制目标受控设备按照目标次控设备操作者的播放要求采集目标会场的音视频内容。

其中，次控参数与目标次控设备操作者的播放要求相对应。目标次控设备的操作者也可根据实际需求对目标会场的音视频内容提出各种播放要求，目标次控设备操作者对目标会场的音视频内容的播放要求与前文中描述的主持人对目标会场的音视频内容的播放要求类似，可以是调整画面视角、提高播放精度、聚焦某位参会人员、静音等等。

同样，目标次控设备也可提供用户交互界面，其操作者可通过用户交互界面向目标次控设备输入次控参数。例如，当其操作者发现目标会场的网络不佳时，为了保证目标会场的音视频内容可流畅地发送至服务器10，目标次控设备的操作者可通过次控设备40输入更低的摄像头分辨率，以期以更低的画面精度采集目标会场的音视频内容，从而减少单位时间内发送至服务器10的媒体流量，保证音视频内容流畅地发送至服务器10。

与主控设备20对目标受控设备的主控过程不同的是，目标次控设备对目标受控设备的次控过程中，可采用次控信令的方式，利用其与目标受控设备之间的直连通路将次控参数下发至目标受控设备。与目标次控设备的操作者对目标会场的音视频内容的播放要求相对应的，次控参数也可以包含摄像头的转动角度、焦距、分辨率或者麦克风的音量参数中的一种或多种参数。当然，这些参数类型也仅是示例性地，本实施例并不限于此，次控参数还可以包含与目标次控设备的操作者的播放要求相对应的其它类型的参数。

对目标受控设备来说，在接收到目标次控设备发送的次控参数时，可根据次控参数调整其音视频采集组件的工作状态；基于工作状态调整后的音视频采集组件采集目标会场的音视频内容并将音视频内容发送至服务器10。调整音视频采集组件的工作状态、采集音视频内容及向服务器10回传音视频内容的过程，可参考前文对主控过程中的相关技术细节的描述，在此不再赘述。

据此，目标受控设备可在目标次控设备的控制下，调整其采集动作，以采集到符合目标次控设备操作者的播放要求的音视频内容。

在实际应用中，目标受控设备中可能出现同时接收到服务器10下发的主控参数以及目标次控设备下发的次控参数的情形，对此，目标受控设备可对接收到的控制参数进行优先级判断。可选地，目标受控设备可追溯其收到的控制参数的发送者身份，如果为服务器10，则确定其接收到的为主控参数，如果为目标次控设备，则确定其接收到的为次控参数，由此，可优先按照主控参数调整其音视频采集组件的工作状态。而对于次控过程，则可不再响应，并向目标次控设备返回执行失败通知，当然，也可在主控过程结束后的预定时间间隔后，按照收到的次控参数执行次控过程，本实施例对此不作限定。

本实施例中，通过优先级判断操作，可保证目标受控设备优先响应主控设备20的主控过程，从而可优先保证主持人对目标会场的宏观调控，进而保证会议秩序。

在上述或下述实施例中，对于主持人所在的会场来说，其中的主控设备20除了可承担对任意目标受控设备的主控功能外，还可复用为会场中的受控设备30，承担受控设备30的相关功能，这种情况下，主控设备20所在的会场中无需在布设受控设备30。在硬件实现上，主控设备20可装载与受控设备30的相关功能匹配的硬件器件，以支持实现受控设备30的相关功能，例如音视频采集组件等。

当主控设备20承担起其所在会场中的受控设备30的相关功能时，可利用其音视频采集组件采集其所在会场中的音视频内容。其中，主控设备20可按照主持人对其音视频组件的调整操作调整其音视频组件的工作状态，并基于工作状态调整后的音视频采集组件采集其所在会场的音视频内容并将音视频内容回传至服务器。具体的工作状态调整过程以及采集过程等技术细节可参考前文中对目标受控设备的相关描述，在此不再赘述。

据此，当主控设备20复用为其所在会场中的受控设备30时，该会场中的受控设备30与其它会场中的受控设备30的处理过程略有不同，主要体现在该会场中的受控设备30可由主持人直接对其音视频组件进行调整操作，而不再执行按照主控参数或次控参数调整其音视频采集组件的工作状态的处理过程。据此，当发生主持人切换时，该会场中的主控设备20可不再承担主控角色，而仅承担受控设备30的角色，以接受新主持人的控制。

本实施例中，对于主控设备20所在的会场来说，当其中布设有受控设备30时，主控设备20除了可承担对任意目标受控设备的主控功能外，还可作为会场中的次控设备40，承担次控设备40的相关功能。在硬件实现上，主控设备20可装载与次控设备40的相关功能匹配的硬件组件，以支持实现次控设备40的相关功能。

当主控设备20承担起次控设备40的相关功能时，其可与其所在会场中的受控设备30直连。这种情况下，主控设备20承担的次控设备40的功能相关的技术细节可参考前文中对目标次控设备的相关描述，在此不再赘述。

据此，音视频会议系统中的每个会场中均配置了可支持音视频采集功能的受控设备，当然，主控设备所在会场中的受控设备可能是主控设备的复用，而服务器可基于全双工语音交互技术，实现多个会场间的全双工语音交互，使得音视频会议过程中，多个会场之间可同时讲话，可进一步提高多个会场间的交互性。

本实施例中，主控设备20可具备多重产品属性，除了承担本身的主控角色外，还可承担受控设备30的角色，或者承担次控设备40的角色，这使得主控设备20更具多用性，且更具场景通用性，可满足各种场景中的产品属性需求。

在上述或下述实施例中，主控设备20还可承担会议邀请功能。以下将以主控设备20对目标会场进行的会议邀请为例，对音视频会议系统中的会议邀请过程进行详细说明。

在当前会议过程中，主控设备20可随时邀请目标会场加入会议。

对主控设备20来说，可响应于主持人对目标会场的会议邀请操作，向服务器10发送会议邀请请求。其中，主持人的会议邀请操作可以是触控操作也可以是语音操作等，本实施例对此不作限定。

在实际应用中，服务器10可将其记录的各个会场的标识及各会场中受控设备30的标识及次控设备40的标识等信息进行共享，这样，主控设备20可从服务器10中获取到目标会场的标识，还可确定出目标会场中是否存在次控设备40，当然，对主控设备20来说，确定目标会场中是否存在次控设备40的步骤并不是必须的。

在一种情形中，当主控设备20确定目标会场中存在目标次控设备时，可将目标次控设备的标识携带在会议邀请请求中，服务器10可基于会议邀请请求，向目标会场中的目标次控设备下发入会信令。当然，主控设备20也可直接将目标会场的标识携带在会议邀请请求中，服务器10可基于会议邀请请求，在确定目标会场中存在目标次控设备时，向目标会场中的目标次控设备下发入会信令。

对目标会场中的目标次控设备来说，可在接收到服务器10下发的入会信令时，呈现入会邀请通知。可选地，主控设备20发送的会议邀请请求中还可携带当前会议的会议号、会议主题等信息，以便目标次控设备将当前会议的相关信息呈现在入会邀请通知中。例如，目标次控设备可在接收到入会信令时，在其用户交互界面上呈现当前会议的会议号、会议主题、会议发起人、主持人、参会人员等等信息，也可通过语音输出等方式呈现这些信息，以便目标次控设备的操作者获知当前会议的信息，并确定是否同意入会。

基于此，目标次控设备可响应于其操作者的同意入会操作，向服务器10返回同意通知，以加入当前会议。例如，操作者可在确定入会的情况下，通过触控操作或语音操作向目标次控设备输入同意入会指令，目标次控设备可据此生成同意通知，并回传给服务器10。

在这种情形中，由目标次控设备对主控设备20的会议邀请请求作出响应。服务器10在接收到目标次控设备返回的同意通知时，可允许目标受控设备及目标次控设备加入当前会议，也即是赋予目标次控设备及目标受控设备对当前会议的入会权限。

在另一种情形中，当主控设备20确定目标会场中不存在任何次控设备40时，可将目标受控设备的标识携带在会议邀请请求中，服务器10可基于会议邀请请求，向目标会场中的目标受控设备下发入会信令。当然，主控设备20也可直接将目标会场的标识携带在会议邀请请求中，服务器10可基于会议邀请请求，在确定目标会场中不存在目标次控设备时，向目标会场中的目标受控设备下发入会信令。

对目标会场中的目标受控设备来说，可在接收到服务器10下发的入会信令时，呈现入会邀请通知。可选地，主控设备20发送的会议邀请请求中还可携带当前会议的会议号、会议主题等信息，以便目标受控设备将当前会议的相关信息呈现在入会邀请通知中。例如，目标受控设备可在接收到入会信令时，在其用户交互界面上呈现当前会议的会议号、会议主题、会议发起人、主持人、参会人员等等信息，也可通过语音输出等方式呈现这些信息，以便目标受控设备的操作者获知当前会议的信息，并确定是否同意入会。

基于此，目标受控设备可响应于其操作者的同意入会操作，向服务器10返回同意通知，以加入当前会议。例如，操作者可在确定入会的情况下，通过触控操作或语音操作向目标受控设备输入同意入会指令，目标受控设备可据此生成同意通知，并回传给服务器10。

在这种情形中，由目标受控设备对主控设备20的会议邀请请求作出响应。服务器10在接收到目标受控设备返回的同意通知时，可允许目标受控设备加入当前会议，也即是赋予目标受控设备对当前会议的入会权限。

为了避免无关人员参与到当前会议中，当由目标次控设备对主控设备20的会议邀请请求作出响应时，可利用目标次控设备对其操作者进行入会权限的验证；当由目标受控设备对主控设备20的会议邀请请求作出响应时，可利用目标受控设备对其操作者进行入会权限的验证。以下将以利用目标次控设备对其操作者进行入会权限的验证为例进行验证过程的描述，应当理解的是，利用目标次控设备对其操作者进行入会权限的验证过程也同样适用于以下描述。

目标次控设备可响应于其操作者的同意入会操作，利用其摄像头采集其操作者的图像，基于操作者的图像生成同意通知并发送至服务器10。而对服务器10来说，则可基于人脸识别技术，从操作者的图像中提取操作者的人脸特征；根据人脸特征与人物身份标识的关联关系，确定操作者的身份标识；若操作者的身份标识与当前会议具有关联关系，则确定目标次控设备的当前操作者具有入会权限，并执行允许目标受控设备及目标次控设备加入当前会议的操作。

在实际应用中，服务器10中可记录当前会议对应的所有参会人员的标识，通过人脸识别，服务器10可确定目标次控设备的当前操作者，也即是主控设备20发出的会议邀请请求的响应者的身份标识，从而可判断目标次控设备的当前操作者是否具有入会权限。当确定目标次控设备的当前操作者具有入会权限时，服务器10可认为目标次控设备发送的同意通知有效，而当确定目标次控设备的当前操作者不具备入会权限时，服务器10则可认为目标次控设备发送的同意通知无效。

本实施例中，通过对目标次控设备或目标受控设备的当前操作者的入会权限的验证，可有效避免无关人员参与到当前会议中，尤其对于需要保密的会议内容来说，这具有重要的安全意义。

另外，在当前会议过程中，除了可由主控设备20主动邀请目标会场加入当前会议，还可由目标会场主动申请加入当前会议。

当目标会场中布设有目标次控设备时，可由目标次控设备的操作者向目标次控设备发出加入当前会议的指令，例如，触控输入当前会议的会议号，或语音呼出当前会议的会议号等。目标次控设备可据此向服务器10发送加入当前会议的入会请求，服务器10将入会请求转发至主控设备20，主控设备20可响应于主持人的同意加入操作而向服务器10返回同意加入通知。至此，可基于目标会场中的目标次控设备的主动申请允许目标会场加入本次会议。其中，目标次控设备可从服务器10中下载等方式获取到当前会议的会议号等信息。

当目标会场中不存在任何次控设备40时，可由目标会场中的目标受控设备主动申请加入当前会议。具体的申请过程与由目标次控设备作为申请方时的申请过程类似，在此不再赘述。

另外，在上述目标会场主动申请加入当前会议的过程中，也可对相关操作者进行入会权限的验证，具体的验证过程可参考前文，在此也不再重复赘述。

在上述或下述实施例中，主控设备20还可承担会议开启功能。对主控设备20来说，可响应于主持人的会议开启操作，利用其摄像头采集主持人的图像，并将主持人的图像发送至服务器10。

本实施例中，主持人可利用主控设备20随时请求开启目标会议。例如，主持人可在主控设备20的用户交互界面上进行会议开启操作，主控设备20将据此启动其摄像头，以采集主持人的图像。

当主持人在进行会议开启操作时向主控设备20输入了目标会议的标识时，则主控设备20可根据获取到的目标会议的标识和主持人的图像生成会议开启请求，并将会议开启请求发送至服务器10。其中，会议的标识可以是会议号、会议发起人等等标识类信息。

当主持人在进行会议开启操作时位向主控设备20输入任何会议的标识时，则主控设备20可根据获取到的主持人的图像生成会议开启请求，并将会议开启请求发送至服务器10。其中，会议的标识可以是会议号、会议发起人等等标识类信息。

对服务器10来说，在接收到会议开启请求时，可对会议开启请求进行解析，以获取到主持人的图像。

当解析到会议开启请求中还携带有目标会议的标识时，服务器10可基于人脸识别技术，从主持人的图像中提取主持人的人脸特征；根据人脸特征与人物身份标识的关联关系，确定主持人的身份标识；若主持人的身份标识与目标会议具有关联关系，则允许主控设备20开启目标会议。在一些实际应用中，服务器10中可预先包括目标会议与其所有参会人员的身份标识的关联关系，作为会议开启权限验证的基础。

当解析到会议开启请求中未携带任何会议的标识时，服务器10可基于人脸识别技术，从主持人的图像中提取主持人的人脸特征；根据人脸特征与人物身份标识的关联关系，确定主持人的身份标识；若主持人的身份标识关联有已创建的会议，则将主持人对应的会议列表发送至主控设备20，以供主持人通过主控设备20选中目标会议；并在主持人选中目标会议时，允许主控设备20开启目标会议。

值得说明的是，上述对主控设备20的会议开启功能均是在目标会议已经创建的基础上描述的。在实际应用中，主控设备20期望开启的目标会议有可能并未创建，这种情况下，主控设备20还可承担会议创建的功能，例如，主持人可在主控设备20的用户交互界面中进行会议创建操作，将会议主题、会议时间、参会人员等信息输入主控设备20，主控设备20可向服务器10发送会议创建请求，服务器10根据资源调配情况确定时否同意该会议创建请求；在同意该会议创建请求时，生成该会议的会议号等标识并记录该会议及其参会人员的关联关系，以及将该会议的标识返回给主控设备20，至此完成会议创建。当然，本实施例中，会议创建的功能也可由音视频会议系统中的次控设备40或者受控设备30承担，具体的创建过程与主控设备20执行的上述创建过程类似，在此不再赘述。

以上描述了音视频会议系统中主控设备、次控设备和受控设备的内部功能和结构，实际中，主控设备、次控设备和受控设备可实现为电子设备。从硬件结构上，这些电子设备可分为两类：如图4a所示的第一类设备和图4b所示的第二类设备。其中，第一类设备可作为音视频会议系统中的主控设备或者次控设备，在音视频会议中提供会控功能，也可作为音视频会议系统中的受控设备，在音视频会议中提供音视频内容采集或展示功能；第二类设备则可作为作为音视频会议系统中的受控设备，在音视频会议中提供音视频内容采集或展示功能。以下将分别对第一类设备和第二类设备进行详细说明。

图4a为本申请一实施例提供的第一类设备的硬件结构示意图，如图4a所示，第一类设备可包括设备主体50，设备主体50上装配有显示屏41、网络组件46和主板49，显示屏41及网络组件46集成在主板49上；主板49获取用户通过显示屏41输入的对音视频会议系统中的目标设备的控制参数，并通过网络组件46将控制参数传输至目标设备，以控制目标设备调整其音视频采集组件的工作状态以按照用户要求采集音视频内容。

其中，显示屏41可采用多点触控屏幕，并可集成高清cmos传感器，显示屏41可提供用户交互界面，网络组件46可提供wifi双频和蓝牙，网络组件46除了可用于与音视频系统内的电子设备及服务器进行通信外，还可控制和接入音视频系统之外的其他设备和系统。而且，第一类设备中还可装配电池47，电池47可无线充电，电池47的容量可满足第一类设备日常的电力需求，因此，基于其大容量的电池47支持，第一类电子设备可满足用户的移动使用需求。另外，在设备主体的形态上，第一类设备可采用桌面终端的形态，以赋予其体积小、便携性高、人机交互性强等优势。

当第一类设备作为音视频会议系统中的主控设备时，可通过显示屏41获取对目标受控设备的主控参数，主板49可通过服务器将主控参数发送至目标受控设备，以供目标受控设备按照主控参数调整其音视频采集组件的工作状态，并将采集到的符合播放要求的音视频内容通过服务器回传至作为主控设备的第一类设备。

当第一类设备作为音视频会议系统中的次控设备时，第一类设备可与其所在会场中的受控设备直连，主持人可通过显示屏41输入对受控设备的次控参数，主板49可通过网络组件46将次控参数发送至受控设备，以供受控设备按照次控参数调整其音视频采集组件的工作状态并将采集到的符合次控设备操作者要求的音视频内容回传至音视频会议系统中的服务器。

当第一类设备作为音视频会议系统中的受控设备时，第一类设备的设备主体上还装配有音视频采集组件，音视频采集组件集成在主板49上，音视频采集组件采集第一类设备所在会场的音视频内容，主板49通过网络组件46将音视频内容共享至音视频会议系统中的服务器，以供服务器将其音视频内容共享至音视频会议系统中其它作为受控设备的电子设备。

其中，音视频采集组件可包括摄像头44和麦克风42，摄像头44和麦克风42集成在主板49上，摄像头44和麦克风42可分别采集视频信号和声音信号并发送至主板49，主板49可根据摄像头44和麦克风42分别采集到视频信号和声音信号生成音视频内容。

另外，麦克风42与主板49之间还可设置音频数字信号处理芯片48，以对会议过程中的音频信号进行处理。麦克风42可支持全双工语音交互。

在第一类电子设备作为主控设备时，在主持人利用显示屏执行会议开启操作时，主板49可控制摄像头44采集主持人的图像并发送至服务器，以供服务器对主持人的会议开启权限进行验证。

进一步，如图4a所示，第一类设备还包括：扬声器43、物理按键45等其它器件。而且，图4a中仅示意性给出部分器件，并不意味着第一类设备只包括图4a所示器件。

图4b为本申请一实施例提供的第二类设备的硬件结构示意图，如图4b所示，第二类设备可包括设备主体60，设备主体上装配有音视频采集组件、主板61和网络组件62，其中，音视频采集组件及网络组件62集成在主板61上，主板61通过网络组件62接收控制参数，按照控制参数调整音视频采集组件的工作状态，并基于工作状态调整后的音视频采集组件采集音视频内容。

对第二类设备来说，其可根据外来的控制参数自动调整自身的音视频采集组件的工作状态，并按照工作状态调整后的音视频采集组件采集音视频内容，这使得音视频会议系统中多个会场间的远程程控变得具备可行性。

如前述实施例中提及的，第二类设备可按照音视频会议系统中作为主控设备的第一类设备发出的主控参数自动调整音视频采集组件的工作状态；也可按照音视频会议系统中作为次控设备的第一类设备发出的次控参数自动调整音视频采集组件的工作状态。据此，第二类设备不再需要用户通过手动或其它更不方便的方式来调整其音视频采集组件的工作状态，便可在远程或近程控制下实现音视频采集组件的工作状态的自动调整，从而可在音视频会议中灵活控制各会场的播放效果。

在一可选实现方式中，第二类设备的音视频采集组件包括摄像头63和摄像头角度调节件68，摄像头角度调节件68与摄像头63连接，摄像头角度调节件68与主板61集成，当控制参数包含摄像头的转动角度时，主板61控制摄像头角度调节件68调整摄像头63至目标角度。可选地，摄像头63可装配在第二类设备的设备主体60的正面，以更方便地进行会场内的视频内容采集。

其中，摄像头63可采集包括第二类设备所在会场中的多个参会人员的图像的音视频内容并发送至音视频会议系统中的服务器，以供服务器对音视频内容进行人物标注。

在一可选实现方式中，第二类设备的音视频采集组件还包括麦克风阵列64，麦克风阵列64采集声音信号并发送至主板61，主板61根据麦克风阵列64采集到的声音信号确定发言人的位置，并控制摄像头63转动以跟踪发言人，以及在发言人的发言时长超过预设时长时，调整摄像头63的焦距，以对发言人聚焦。优选地，麦克风阵列64可装配在第二类设备的设备主体60的正面。进一步，麦克风阵列64可装配在摄像头63的周围。另外，麦克风阵列64与主板61之间可配置音频数字信号处理芯片69，以对麦克风阵列采集到的声音信号进行处理。

在一可选实现方式中，第二类设备的设备主体上还包括显示器接口65，显示器接口65外接至少两台显示器66，主板61接收音视频会议系统中服务器共享的会议文档及多个会场的音视频内容，并基于多屏异显技术，将会议文档和多个会场的音视频内容分散至不同显示器66中进行显示。可选地，显示器接口65可装配在第二类设备的设备主体60的背面。其中，显示器接口65可采用hdmi接口。

也即是，当第二类设备外接两台显示器66时，可将会议文档显示在其中一台显示器中，而将多个会场的音视频内容显示在另一台显示器中；当然，当第二类设备外接更多的显示器时，还可对多个会场的音视频内容进行进一步的分散显示。

进一步，如图4b所示，第二类设备还包括：扬声器67、物理按键70等其它器件。而且，图4b中仅示意性给出部分器件，并不意味着第二类设备只包括图4b所示器件。

对于第一类设备和第二类设备来说，均可采用硬件高度集成的方式，将相关的计算处理单元和控制单元集成在主板上，例如，本案中涉及的音视频采集组件、电池、显示屏、网络组件、物理按键、显示器接口等等，均可与主板集成。而且，主板可采用安卓等开放性的硬件平台，提高产品扩展性。

其中，第一类设备和第二类设备可采用相同的主板芯片，例如，可采用型号为rk3399的芯片。图4c为本申请一实施例提供的一种主板芯片的端口使用状态示意图。如图4c所示，该主板芯片中的电源管理单元pmu可连接前述的电池，显示屏端口displayport可连接前述的显示屏，hdmi可连接前述的hdmi接口，音频总线端口i2s08ch可连接前述的麦克风阵列，uart0、sdio0sd3.0以及pcie端口则可连接前述的网络组件，如图4c中示出的4g、wifi及蓝牙等，以提供wifi双频及蓝牙等网络功能，前述的物理按键、扬声器等组件则可通过usb端口连接至主板芯片。另外，值得说明的是，主板芯片的端口及其连接的组件并不限于图4c所示，图4c中示出的各组件也可通过其它端口连接至主板芯片，本实施例并不限于此。

另外，基于第一类设备和第二类设备组成的音视频会议系统中的各电子设备之间的部署关系、交互关系等等，可参考前文有关音视频会议系统的相关实施例的描述，在此不再赘述。

图3为基于第一类设备和第二类设备构成的音视频会议系统的一种示例性使用场景示意图，在图3提供的示例性使用场景中，包括服务器和三个会场，在会场1中，由第一类设备承担主控设备20的角色，主持人处于该会场中；在会场2中，由第二类设备承担受控设备30的角色，并由第一类设备承担次控设备40的角色，第一类设备和第二类设备通过wifi直连，会场2中配置一会场负责人操控次控设备40；在会场3中，由第二类设备承担受控设备30的角色。会场1、2、3中的第一类设备和第二类设备均通过互联网与服务器连接。为方便描述，以下将以第一类设备及第二类设备在图3提供的使用场景中担任的角色进行方案的阐述。

主持人可利用会场1中的主控设备20开启一场音视频会议，并利用会场1中的主控设备20向服务器10发起针对会场2的会议邀请，会场2中的次控设备40可在其用户交互界面中展示当前会议的入会邀请通知，会场2的负责人可在次控设备40中进行同意入会操作，会场2得以加入当前会议。会场3可基于会场中参会人员的语音指令，向服务器10主动申请加入当前会议，主控设备20在接收到会场3的入会申请时，可同意会场3的入会申请，会场3得以加入当前会议。至此，可建立起包含会场1、2、3参与的音视频会议系统。

在上述过程中，服务器10可对主持人的会议开启权限以及会场2和会场3的入会权限进行验证。

基于建立起的音视频会议系统，主控设备20可基于主持人的播放要求，通过服务器10对会场2和3中的受控设备30进行主控，会场2和3中的受控设备30可按照主控参数调整其音视频采集组件的工作状态，以采集到符合主持人播放要求的音视频内容并回传给服务器10。会场2的会场负责人可通过会场2中的次控设备40对会场2中的受控设备30进行次控，会场2中的受控设备30可按照次控参数调整其音视频采集组件的工作状态，以采集到符合会场2的会场负责人的播放要求的音视频内容并回传给服务器10。另外，会场1中的主控设备20还可承担对会场1的音视频内容的采集工作并回传给服务器10。这大大提高了音视频会议系统中对会场进行控制时的灵活性和秩序性。

至此，服务器10可根据会场1、2和3回传的音视频内容，进行会场间的音视频内容共享，而且，会场1可通过主控设备20向服务器10发送会议文档以供服务器10进行会议文档的共享。会场1、2或3中的参会人员可观看到会议文档及远端会场的音视频画面，且观看到的音视频画面中可包含相关参会人员的身份标识，音视频画面中还可包含发言人的聚焦画面等等，这使得参会人员均可获得较高的会场沉浸式体验，增强了会场间的交互效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱滨;李帅;祁越
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种放置在桌面的安卓会议终端一体机的制作方法
上一篇：一种智能楼宇用对讲视频终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。