电子云台、视频会议系统及方法与流程

文档序号：19321726发布日期：2019-12-04 00:36阅读：437来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及视频会议技术，尤其涉及一种电子云台、视频会议系统及方法。

背景技术：

视频会议在各个领域具有广泛的应用，视频会议中通过将与会者的图像和音频进行共享，提升会议效果。

现有技术中，通过应用软件对与会者的图像和音频进行处理，以使得在会议视频中显示需要的画面，例如使会议视频中始终显示正在讲话的与会者的画面。

由于这种方式依赖于应用软件的处理，对于不同的应用软件，视频会议的播放设备的适应性不同，从而使用户的使用受到限制。

技术实现要素：

本发明提供一种电子云台、视频会议系统及方法，通过电子云台实现对视频会议中的视频处理，提高了适配性。

第一方面，本发明提供一种电子云台，包括：至少两个麦克风、音频处理芯片、摄像头和图像处理芯片；

所述至少两个麦克风与所述音频处理芯片电连接；所述音频处理芯片与所述图像处理芯片电连接；所述摄像头与所述图像处理芯片电连接；

所述音频处理芯片用于根据所述至少两个麦克风接收到的音频确定声源定位信息，并将所述声源定位信息发送给所述图像处理芯片，以及将所述音频发送给视频播放设备；

所述图像处理芯片用于根据所述声源定位信息以及图像识别算法对所述摄像头拍摄的图像进行调整，并将调整后的图像发送给所述视频播放设备。

可选的，所述音频处理芯片用于通过串口将所述声源定位信息发送给所述图像处理芯片。

可选的，所述音频处理芯片用于通过通用串行总线usb将所述声源定位信息发送给所述视频播放设备；

所述视频播放设备用于通过usb将所述声源定位信息发送给所述图像处理芯片。

可选的，所述电子云台还包括：微处理器mcu；

所述音频处理芯片用于将所述声源定位信息发送给所述mcu；

所述mcu用于将所述声源定位信息发送给所述图像处理芯片。

可选的，所述音频处理芯片用于通过串口将所述声源定位信息发送给所述mcu；

所述mcu用于通过串口将所述声源定位信息发送给所述图像处理芯片。

可选的，所述音频处理芯片用于通过usb将所述声源定位信息发送给所述视频播放设备；

所述视频播放设备用于通过usb将所述声源定位信息发送给所述mcu；

所述mcu用于通过串口将所述声源定位信息发送给所述图像处理芯片。

可选的，所述音频处理芯片用于通过usb将所述音频发送给视频播放设备；

所述图像处理芯片用于通过usb将调整后的图像发送给所述视频播放设备。

可选的，所述图像处理芯片用于根据所述声源定位信息以及人脸识别算法对所述摄像头拍摄的图像进行缩放，以将声源位置的人像调整至图像中央位置。

第二方面，本发明提供一种视频会议系统，包括：视频播放设备和电子云台；

所述电子云台为第一方面中任一项所述的电子云台；所述视频播放设备用于根据所述电子云台发送的视频和图像进行会议视频播放。

第三方面，本发明提供一种视频会议方法，应用于电子云台，所述电子云台包括至少两个麦克风、音频处理芯片、摄像头和图像处理芯片，所述方法包括：

所述音频处理芯片根据至少两个麦克风接收到的音频确定声源定位信息，并将所述声源定位信息发送给所述图像处理芯片，以及将所述音频发送给视频播放设备；

所述图像处理芯片根据所述声源定位信息以及图像识别算法对所述摄像头拍摄的图像进行调整，并将调整后的图像发送给所述视频播放设备，以使所述视频播放设备根据所述音频和所述调整后的图像进行会议视频播放。

本发明提供一种电子云台、视频会议系统及方法，该电子云台包括：至少两个麦克风、音频处理芯片、摄像头和图像处理芯片；该至少两个麦克风与该音频处理芯片电连接；该音频处理芯片与该图像处理芯片电连接；该摄像头与该图像处理芯片电连接；该音频处理芯片用于根据该至少两个麦克风接收到的音频确定声源定位信息，并将该声源定位信息发送给该图像处理芯片，以及将该音频发送给视频播放设备；该图像处理芯片用于根据该声源定位信息以及图像识别算法对该摄像头拍摄的图像进行调整，并将调整后的图像发送给该视频播放设备。通过该电子云台对视频会议的视频进行处理，之后发送给视频播放设备，从而使得会议视频的处理不局限于视频播放设备上的特定应用软件，提高了适配性，也减少了应用软件对视频播放设备的系统资源的占用。此外，本实施例中电子云台通过两个单独的音频处理芯片和图像处理芯片分别对音频和图像进行处理，提高了电子云台在硬件结构上布局的灵活性，也增大了音频处理芯片和图像处理芯片的选型范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种电子云台的结构示意图一；

图2为本发明提供的一种电子云台的应用场景图一；

图3为本发明提供的一种电子云台的应用场景图二；

图4为本发明提供的一种电子云台的应用场景图三；

图5为本发明提供的一种电子云台的结构示意图二；

图6为本发明提供的一种电子云台的结构示意图三；

图7为本发明提供的一种电子云台的结构示意图四；

图8为本发明提供的一种电子云台的结构示意图五；

图9为本发明提供的一种电子云台的结构示意图六；

图10为本发明提供的一种视频会议系统的结构示意图；

图11为本发明提供的一种视频会议方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频会议在各个领域具有广泛的应用，视频会议中通过将与会者的图像和音频进行共享，提升会议效果。现有技术中，在视频会议中，通过摄像头对与会者进行拍摄，然后通过应用软件对与会者的图像和音频进行处理，以使得在会议视频中显示需要的画面，例如使会议视频中始终显示正在讲话的与会者的画面。由于这种方式依赖于应用软件的处理，对于不同的应用软件，视频会议的播放设备的适应性不同，从而使用户的使用受到限制。为了解决上述问题，本发明提供一种电子云台，包括：至少两个麦克风、音频处理芯片、摄像头和图像处理芯片，通过电子云台对视频会议的声音和图像进行处理后发送给视频播放设备，避免了由于应用软件的适配性而产生的使用限制的问题。以下结合具体的实施例对本发明提供的电子云台做示例说明。

图1为本发明提供的一种电子云台的结构示意图一。如图1所示，该电子云台包括：至少两个麦克风11、音频处理芯片12、摄像头21和图像处理芯片22。

该至少两个麦克风11与音频处理芯片12电连接；音频处理芯片12与图像处理芯片22电连接；摄像头21与图像处理芯片22电连接。

音频处理芯片12用于根据该至少两个麦克风11接收到的音频确定声源定位信息，并将该声源定位信息发送给图像处理芯片22，以及将该音频发送给视频播放设备。

图像处理芯片22用于根据该声源定位信息以及图像识别算法对摄像头21拍摄的图像进行调整，并将调整后的图像发送给视频播放设备。

本实施例中电子云台的应用场景如图2、图3或图4所示。视频会议的与会者分别坐在会议桌的不同位置，至少两个麦克风11位于可以接收到与会者声音的位置，例如，可以在每个与会者的位置处放置麦克风，或者也可以在会议桌的中间位置放置多个麦克风以便于可以接收每个与会者的声音，或者也可以使用阵列麦克风，阵列麦克风由多个麦克风所组成，即阵列麦克风即包括至少两个麦克风11。与会者周围可以放置至少一个摄像头21用于拍摄与会者的图像，图2中以三个摄像头21、且每个与会者旁放置一个独立麦克风为例进行示例，图3以一个摄像头21、以及一个阵列麦克风为例进行示例，图4以三个摄像头21、以及一个阵列麦克风为例进行。摄像头的数量可以根据实际需要进行设置，只要全部摄像头所拍摄到的画面能够涵盖所有的与会者。

本实施例中的至少两个麦克风11与音频处理芯片12电连接，用于将接收到的音频发送给音频处理芯片12。摄像头21与图像处理芯片22电连接，用于将拍摄到的图像发送给图像处理芯片22。这里，麦克风11所接收到的音频即为正在讲话的与会者所发出的声音。音频处理芯片12根据接收到的音频确定声源定位信息，也就是声源的方向和角度等信息，即，确定出正在讲话的与会者的定位信息。之后，音频处理芯片12将该声源定位信息发送给图像处理芯片22。此外，音频处理芯片12还将接收到的音频发送给视频播放设备。

图像处理芯片22根据接收到的声源定位信息对其所接收到的摄像头21所拍摄的图像进行调整处理，例如根据声源定位信息将声源位置的与会者的图像调整至画面的中央位置，使得其他与会者能够清楚看到该正在讲话的与会者的画面，之后，图像处理芯片22将调整后的图像发送给视频播放设备。这样，视频播放设备就可以根据接收到的音频和图像进行会议视频的播放。本实施例中视频播放设备可以根据实际需要进行选择，例如，视频播放设备可以为每个与会者面前的个人计算机(personalcomputer，简称pc)，或者视频播放设备也可以为会议室中的交互式平板设备等，本实施例对此不作具体限定。

可选的，图像处理芯片22用于根据该声源定位信息以及人脸识别算法对该摄像头拍摄的图像进行缩放，以将声源位置的人像调整至图像中央位置。

图像处理芯片22对图像所进行的调整可以根据具体需要进行设定，例如，为了使得与会者都能清楚看到当前讲话者的画面，图像处理芯片22根据声源定位信息，将声源位置的当前讲话者的人像进行放大并调整至图像中央位置。或者，为了使与会者清楚看到正在讨论问题的两个人的画面，将声源位置的两个人的图像分别调整至位于画面左右两侧。

本实施例提供的一种电子云台，包括：至少两个麦克风、音频处理芯片、摄像头和图像处理芯片；该至少两个麦克风与该音频处理芯片电连接；该音频处理芯片与该图像处理芯片电连接；该摄像头与该图像处理芯片电连接；该音频处理芯片用于根据该至少两个麦克风接收到的音频确定声源定位信息，并将该声源定位信息发送给该图像处理芯片，以及将该音频发送给视频播放设备；该图像处理芯片用于根据该声源定位信息以及图像识别算法对该摄像头拍摄的图像进行调整，并将调整后的图像发送给该视频播放设备。通过该电子云台对视频会议的视频进行处理，之后发送给视频播放设备，从而使得会议视频的处理不局限于视频播放设备上的特定应用软件，提高了适配性，也减少了应用软件对视频播放设备的系统资源的占用。

此外，本实施例中电子云台通过两个单独的音频处理芯片和图像处理芯片分别对音频和图像进行处理，提高了电子云台在硬件结构上布局的灵活性，也增大了音频处理芯片和图像处理芯片的选型范围。

在上述实施例的基础上，对电子云台的结构做进一步说明。根据电子云台中音频处理芯片12和图像处理芯片22所支持的通信方式的不同，音频处理芯片12向图像处理芯片22发送声源定位信息可以采用不同的结构进行具体实现。

图5为本发明提供的一种电子云台的结构示意图二。如图5所示，在图1所示实施例的基础上，音频处理芯片12用于通过串口将该声源定位信息发送给图像处理芯片22。

音频处理芯片12用于通过通用串行总线(universalserialbus，简称usb)将该音频发送给视频播放设备31；图像处理芯片22用于通过usb将调整后的图像发送给视频播放设备31。

本实施例中的音频处理芯片12和图像处理芯片22之间可以直接通过串口发送数据。例如，音频处理芯片12采用通用异步收发传输器(universalasynchronousreceiver/transmitter，简称uart)将声源定位信息发送给图像处理芯片22。并且音频处理芯片12通过usb将音频作为标准的usb视频类(usbvideoclass，简称uvc)设备发送给视频播放设备31，视频播放设备31可以为pc。图像处理芯片22根据声源定位信息对摄像头21所拍摄的图像进行调整后，通过usb将调整后的图像作为标准的uvc设备发送给视频播放设备31。视频播放设备31根据接收到的音频和图像进行会议视频的播放。

图6为本发明提供的一种电子云台的结构示意图三。如图6所示，在图1所示实施例的基础上，该电子云台还包括：微处理器mcu41。音频处理芯片12用于将该声源定位信息发送给该mcu41；mcu41用于将该声源定位信息发送给该图像处理芯片22。

可选的，音频处理芯片12用于通过串口将该声源定位信息发送给该mcu41；该mcu用于通过串口将该声源定位信息发送给该图像处理芯片。

音频处理芯片12用于通过usb将该音频发送给视频播放设备31；图像处理芯片22用于通过usb将调整后的图像发送给视频播放设备31。

本实施例中，音频处理芯片12和图像处理芯片22之间通过mcu41进行串口通信。音频处理芯片12对至少两个麦克风11的音频进行处理后获得声源定位信息，并将该声源定位信息通过串口发送给mcu41,mcu41再通过串口将该声源定位信息转发给图像处理芯片。图像处理芯片22根据声源定位信息对摄像头21所拍摄的图像进行调整后，通过usb将调整后的图像作为标准的uvc设备发送给视频播放设备31。并且音频处理芯片12，通过usb将音频作为标准的uvc设备发送给视频播放设备31，视频播放设备31可以为pc。视频播放设备31根据接收到的音频和图像进行会议视频的播放。

图7为本发明提供的一种电子云台的结构示意图四。如图7所示，在图1所示实施例的基础上，音频处理芯片12用于通过通用串行总线usb将该声源定位信息发送给视频播放设备31；视频播放设备31用于通过usb将该声源定位信息发送给图像处理芯片22。

音频处理芯片12用于通过usb将该音频发送给视频播放设备31；图像处理芯片22用于通过usb将调整后的图像发送给视频播放设备31。

本实施例中，音频处理芯片12和图像处理芯片22之间不能直接通过串口发送数据，而图像处理芯片支持usb的人机交互设备(humaninterfacedevice，简称hid)协议。音频处理芯片12采用usb的hid协议将声源定位信息发送给视频播放设备31，视频播放设备31再通过usb的hid协议将声源定位信息发送给图像处理芯片22。图像处理芯片22根据声源定位信息对摄像头21所拍摄的图像进行调整后，通过usb将调整后的图像作为标准的uvc设备发送给视频播放设备31。并且音频处理芯片12通过usb将音频作为标准的uvc设备发送给视频播放设备31，视频播放设备31可以为pc。视频播放设备31根据接收到的音频和图像进行会议视频的播放。

图8为本发明提供的一种电子云台的结构示意图五。如图8所示，在图1所示实施例的基础上，该电子云台还包括：微处理器mcu41。

该音频处理芯片12用于通过usb将该声源定位信息发送给该视频播放设备31；该视频播放设备31用于通过usb将该声源定位信息发送给该mcu41；该mcu41用于通过串口将该声源定位信息发送给该图像处理芯片22。

音频处理芯片12用于通过usb将该音频发送给视频播放设备31；图像处理芯片22用于通过usb将调整后的图像发送给视频播放设备31。

本实施例中，音频处理芯片12和图像处理芯片22之间不能直接通过串口发送数据，而图像处理芯片不支持usb的人机交互设备(humaninterfacedevice，简称hid)协议，因此需要通过mcu41进行数据转发。音频处理芯片12通过usb的hid协议将声源定位信息发送给视频播放设备31，视频播放设备31再通过usb的hid协议将该声源定位信息转发给mcu41，mcu41通过串口将该声源定位信息发送给图像处理芯片22。图像处理芯片22根据声源定位信息对摄像头21所拍摄的图像进行调整后，通过usb将调整后的图像作为标准的uvc设备发送给视频播放设备31。并且音频处理芯片12通过usb将音频作为标准的uvc设备发送给视频播放设备31，视频播放设备31可以为pc。视频播放设备31根据接收到的音频和图像进行会议视频的播放。

可选的，在图8的基础上，该电子云台还包括usb集线器51，如图9所示，usb集线器51一端与视频播放设备31电连接，另一端分别与图像处理芯片22和微处理器41电连接。视频播放设备31通过usb集线器51与微处理器41连接的通道采用hid协议将该声源定位信息转发给微处理器41，图像处理芯片22通过与usb集线器51连接的通道将调整后的图像作为标准的uvc设备发送给视频播放设备31。

图10为本发明提供的一种视频会议系统的结构示意图。如图10所示，该视频会议系统100包括：视频播放设备101和电子云台102。

该电子云台102为上述实施例中任一项的电子云台；视频播放设备101用于根据该电子云台102发送的视频和图像进行会议视频播放。视频播放设备101可以为每个与会者面前的pc，或者视频播放设备也可以为会议室中的交互式平板设备等，本实施例对此不作具体限定。

本实施例所提供的视频会议系统，其实现原理和技术效果与上述实施例类似，此处不再赘述。

图11为本发明提供的一种视频会议方法的流程示意图。该视频会议方法应用于电子云台，该电子云台包括至少两个麦克风、音频处理芯片、摄像头和图像处理芯片。该电子云台可以为上述实施例中任一项中的电子云台。该方便包括：

s111、音频处理芯片根据至少两个麦克风接收到的音频确定声源定位信息，并将该声源定位信息发送给该图像处理芯片，以及将该音频发送给视频播放设备。

s112、图像处理芯片根据该声源定位信息以及图像识别算法对该摄像头拍摄的图像进行调整，并将调整后的图像发送给该视频播放设备，以使该视频播放设备根据该音频和该调整后的图像进行会议视频播放。

可选的，s111中音频处理芯片将该声源定位信息发送给该图像处理芯片，包括：

音频处理芯片通过串口将该声源定位信息发送给图像处理芯片。

可选的，s111中音频处理芯片将该声源定位信息发送给该图像处理芯片，包括：

音频处理芯片通过通用串行总线usb将该声源定位信息发送给该视频播放设备；视频播放设备通过usb将该声源定位信息发送给该图像处理芯片。

可选的，s111中音频处理芯片将该声源定位信息发送给该图像处理芯片，包括：

音频处理芯片将该声源定位信息发送给该mcu；mcu将该声源定位信息发送给该图像处理芯片。

可选的，音频处理芯片将该声源定位信息发送给该mcu，包括：

该音频处理芯片通过串口将该声源定位信息发送给该mcu。

可选的，音频处理芯片将该声源定位信息发送给该mcu，包括：

该音频处理芯片用于通过usb将该声源定位信息发送给该视频播放设备；视频播放设备用于通过usb将该声源定位信息发送给该mcu。

可选的，mcu将该声源定位信息发送给该图像处理芯片，包括：

mcu通过串口将该声源定位信息发送给该图像处理芯片。

可选的，s111中音频处理芯片将该音频发送给视频播放设备，包括：

音频处理芯片通过usb将该音频发送给视频播放设备。

可选的，s112中图像处理芯片将调整后的图像发送给该视频播放设备，包括：

图像处理芯片通过usb将调整后的图像发送给该视频播放设备。

可选的，s112中图像处理芯片根据该声源定位信息以及图像识别算法对该摄像头拍摄的图像进行调整，包括：

该图像处理芯片用于根据该声源定位信息以及人脸识别算法对该摄像头拍摄的图像进行缩放，以将声源位置的人像调整至图像中央位置。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林治印
技术所有人：广州视源电子科技股份有限公司;广州视睿电子科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。