视频与音频处理装置及其视频会议系统的制作方法

文档序号：10660924阅读：414来源：国知局

视频与音频处理装置及其视频会议系统的制作方法
【专利摘要】本发明提出一种视频会议系统，其包括至少一客户端装置以及可连线于客户端装置与远端装置的主机装置。主机装置将取得至少一笔候选视频数据以及多笔待整合音频数据，根据待整合音频数据筛选出其中一笔候选视频数据，并且整合待整合音频数据，以及将整合后的音频数据以及筛选后的视频数据传送至远端装置，其中待整合音频数据包括客户端音频数据以及主机音频数据，候选视频数据包括至少其中一笔客户端视频数据以及主机视频数据。本发明还提出分别对应于客户端装置以及远端装置的视频与音频处理装置。
【专利说明】
视频与音频处理装置及其视频会议系统
技术领域
[0001]本发明是有关于一种视频与音频处理的技术，且特别是有关于一种视频与音频处理装置及其视频会议系统。
【背景技术】
[0002]随着电子科技以及通信网络不断地发展，视频的硬设备、软件技术及操作功能已大幅提升。现今的视频可随时提供多个用户通过例如是计算机、智能型手机、平板计算机等电子装置进行同步连线，以让用户之间在进行语音通话时，还可以通过屏幕看到其它用户的动态图像，从而增强交流的真实感以及临场感。基此，视频会议已应用于商业沟通上，借此企业得以进行跨地域的内外部沟通。
[0003]然而，一般在进行多人对多人的视频会议时，往往会因为视频设备的镜头广角或是麦克风的收音范围不足而导致所有人必须紧靠在视频设备，进而影响到了视频会议的质量与效率。

【发明内容】

[0004]有鉴于此，本发明提供一种视频与音频处理装置及其视频会议系统，其可提供具有主讲者聚焦效果的多人视频会议。
[0005]本发明提出一种视频与音频处理装置，包括通信电路、图像捕获设备、收音装置、存储器以及处理器。通信电路用以连线至另一视频与音频处理装置。图像捕获设备用以撷取图像信号。收音装置用以撷取声音信号。存储器用以储存档案数据。处理器耦接通信电路、图像捕获设备、收音装置以及存储器，并且用以执行下列步骤。首先，自图像捕获设备以及收音装置分别接收第一图像信号以及第一声音信号，以产生第一视频数据以及第一音频数据。接着，判断第一音频数据是否符合至少一传输条件。若是，通过通信电路将第一音频数据以及第一视频数据传送至另一视频与音频处理装置。若否，通过通信电路仅将第一音频数据传送至另一视频与音频处理装置。
[0006]在本发明的一实施例中，视频与音频处理装置还包括屏幕以及播音装置。屏幕用以显示画面，而播音装置用以播放声音。处理器还耦接屏幕以及播音装置，并且用以通过通信电路自另一视频与音频处理装置接收远端视频数据以及远端音频数据，以及分别通过屏幕以及播音装置播放远端视频数据以及远端音频数据。
[0007]在本发明的一实施例中，第一音频数据包括音频频率，而处理器用以判断音频频率是否符合人声频率。
[0008]在本发明的一实施例中，第一音频数据还包括收音装置的收音音量，而处理器还用以判断收音音量是否大于音量门限值。
[0009]在本发明的一实施例中，第一音频数据还包括收音装置的收音噪声比，而处理器还用以判断该收音噪声比是否大于噪声比门限值。
[0010]本发明提出一种视频与音频处理装置，包括通信电路、图像捕获设备、收音装置、存储器以及处理器。通信电路用以连线至另一视频与音频处理装置。图像捕获设备用以撷取图像信号。收音装置用以撷取声音信号。存储器用以储存档案数据。处理器接屏幕、通信电路、图像捕获设备、收音装置、播音装置以及存储器，并且用以执行下列步骤。首先，取得至少一笔候选视频数据以及多笔待整合音频数据，其中各笔候选视频数据对应于其中一笔所述待整合音频数据。接着，根据各笔候选视频数据所对应的待整合音频数据，选择其中一笔候选视频数据，以产生筛选后的视频数据，并且整合各笔待整合音频数据，以产生整合后的音频数据。通过通信电路将整合后的音频数据以及筛选后的视频数据传送至远端装置。
[0011]在本发明的一实施例中，处理器更用以通过通信电路自远端装置接收远端视频数据以及远端音频数据，并且通过通信电路传输远端视频数据以及远端音频数据至各个其它视频与音频处理装置。
[0012]在本发明的一实施例中，视频与音频处理装置还包括屏幕以及播音装置。屏幕用以显示画面，而播音装置用以播放所接收的声音数据。处理器还耦接屏幕以及播音装置，并且用以分别通过屏幕以及播音装置播放远端视频数据以及远端音频数据。
[0013]在本发明的一实施例中，各笔待整合音频数据包括收音音量，而处理器用以选择具有最大收音音量的待整合音频数据所对应的候选视频数据作为筛选后的视频数据。
[0014]在本发明的一实施例中，各笔待整合音频数据包括收音噪声比，而处理器用以选择具有最大收音噪声比的待整合音频数据所对应的候选视频数据作为筛选后的视频数据。
[0015]在本发明的一实施例中，各所述待整合音频数据包括收音时间，而处理器用以选择具有最长收音时间的待整合音频数据所对应的候选视频数据作为筛选后的视频数据。
[0016]在本发明的一实施例中，各所述待整合音频数据包括收音时间，而处理器用以选择收音时间大于时间门限值的音频数据所对应的候选视频数据作为筛选后的视频数据。
[0017]在本发明的一实施例中，处理器用以针对各笔待整合音频数据进行混音处理以及/或除噪处理，以产生整合后的音频数据。
[0018]在本发明的一实施例中，处理器更用以执行下列步骤。自图像捕获设备以及收音装置分别接收第二图像信号以及第二声音信号，以产生第二视频数据以及第二音频数据。接着，判断第二音频数据是否符合至少一传输条件。若是，分别设定第二视频数据以及第二音频数据为其中一笔候选视频数据以及其中一笔待整合音频数据。若否，仅设定第二音频数据为其中一笔待整合音频数据。
[0019]在本发明的一实施例中，第二音频数据包括音频频率，而处理器用以判断音频频率是否符合人声频率。
[0020]在本发明的一实施例中，第二音频数据还包括收音装置的收音音量，而处理器更用以判断收音音量是否大于音量门限值。
[0021]在本发明的一实施例中，第二音频数据还包括收音装置的收音噪声比，而处理器更用以判断收音音量是否大于音量门限值。
[0022]本发明提出一种视频与音频处理装置，包括至少一客户端装置以及可连线于客户端装置与远端装置的主机装置。各个客户端装置将分别产生客户端视频数据以及客户端音频数据。主机装置将取得至少一笔候选视频数据以及多笔待整合音频数据，根据待整合音频数据选择其中一笔候选视频数据，以产生筛选后的视频数据，并且整合各笔待整合音频数据，以及将整合后的音频数据以及筛选后的视频数据传送至远端装置，其中待整合音频数据包括客户端音频数据以及主机音频数据，候选视频数据包括至少其中一笔客户端视频数据以及主机视频数据，各笔候选视频数据对应于其中一笔所述音频数据。
[0023]在本发明的一实施例中，对于各个客户端装置将判断客户端音频数据是否符合至少一传输条件，若是，客户端装置将客户端音频数据以及客户端视频数据传送至主机装置，若否，客户端装置仅将客户端音频数据传送至主机装置。
[0024]在本发明的一实施例中，主机装置还自远端装置接收远端视频数据以及远端音频数据，并且传送远端视频数据以及远端音频数据至各所述客户端装置。
[0025]基于上述，本发明所提出的视频与音频处理装置及其视频会议系统，主机装置除了将整合本地端所产生的各笔音频数据并且传送整合后的音频数据至远端装置外，还根据各笔音频数据的声音参数来传送其中一笔视频数据至远端装置，以使本地端在具有多个视频会议参与者的前提下，远端装置的用户视觉仍可聚焦于本地端的主讲者上，以提升视频会议的质量与效率。
[0026]为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附附图作详细说明如下。
【附图说明】
[0027]图1A绘示依据本发明一实施例的视频会议系统的示意图。
[0028]图1B绘示依据本发明一实施例的客户端装置的示意图。
[0029]图1C绘示依据本发明一实施例的主机装置的示意图。
[0030]图2绘示依据本发明一实施例的音频与视频处理方法的流程图。
[0031 ]图3绘示依据本发明一实施例的音频与视频处理方法的流程图。
[0032]图4绘示依据本发明一实施例的音频与视频处理方法的流程图。
[0033]图5A绘示依据本发明一实施例的音频与视频处理方法的流程图。
[0034]图5B绘示图5A的应用情境示意图。
[0035]【符号说明】
[0036]100:视频会议系统
[0037]I1A?IlOD:客户端装置
[0038]W0:主机装置
[0039]130:远端装置
[0040]111、121:屏幕
[0041]112、122:通信电路
[0042]113、123:图像捕获设备
[0043]114、124:播音装置
[0044]115、125:收音装置
[0045]116、126:存储器
[0046]117、127:处理器
[0047]S202?S208、S302?S308、S402?S408、S502?S512:
[0048]音频与视频处理方法的流程
[0049]C1、C2、H、R:用户
[0050]VC1、VC2、VH、VR、M:音频数据
[0051]LAN、WAN:网络
【具体实施方式】
[0052]本发明的部分实施例接下来将会配合附图来详细描述，以下的描述所引用的元件符号，当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本发明的一部分，并未揭示所有本发明的可实施方式。更确切的说，这些实施例只是本发明的权利要求中的装置以及系统的范例。
[0053]图1A绘示依据本发明一实施例的视频会议系统的示意图。
[0054]请参照图1A，视频会议系统100包括客户端装置IlOA?IlOD以及主机装置120，其中主机装置120可分别连线至客户端装置IlOA?IlOD以及远端装置130。客户端装置IlOA?IlOD以及主机装置120为本地端装置，而客户端装置IlOA?IlOD可以是利用局域网络与主机装置120进行无线连线，或者是直接与主机装置120进行有线连接。此外，主机装置120可以是利用因特网与远端装置130进行连线。必须说明的是，视频会议系统100中的客户端装置IlOA?IlOD仅是为了方便说明实作方式。在其它的实施例中，视频会议系统100还可提供任意数量的客户端装置来与主机装置120进行连线，本发明不在此设限。
[0055]图1B绘示依据本发明一实施例的客户端装置的示意图。
[0056]请参照图1B，客户端装置IlOA?IlOD皆包括屏幕111、通信电路112、图像捕获设备113、播音装置114、收音装置115、存储器116以及处理器117。在本实施例中，客户端装置IlOA?IlOD例如是个人计算机、笔记本电脑、智能型手机、平板计算机、个人数字助理等具有音频与视频处理功能的电子装置，然而本发明并不以此为限。为了方便说明，以下仅将针对客户端装置IlOA来进行描述。
[0057]屏幕111用以显示客户端装置IlOA输出的画面而提供给用户观看。在本实施例中，屏幕111例如是外接或是内建于客户端装置I1A的液晶显示器(Liquid Crystal Display,LCD)、发光二极管(Light-Emitting D1de，LED)显示器、场发射显示器(Field Emiss1nDisplay，FED)或其他种类的显示器。
[0058]通信电路112用以通过通信网络与其它装置连接，其可以例如是支持WiMAX通信协议、W1-Fi通信协议、3G通信协议、4G通信协议等无线网络连线，ADSL宽带或光纤网络等有线网络连线的元件，然而本发明不在此设限。
[0059]图像捕获设备113用以撷取其前方的图像，其可以是采用电荷耦合元件(chargecoupled de V i ce，CCD)、互补性氧化金属半导体(Comp I emen tary Metal-OxideSemiconductor，CMOS)元件或其他元件镜头的照相机。图像捕获设备113可以是内建于客户端装置110A，也可以是外接于客户端装置110A的网络摄影机、数字相机、单眼相机、数字摄影机等。
[0060]播音装置114用以播放声音，其包括喇叭。收音装置115用以接收声音，其包括麦克风。播音装置114以及收音装置115可以是内建于客户端装置110A，也可以是外接于客户端装置110A。此外，当播音装置114以及收音装置115外接于客户端装置110A时，更可以整合为例如是耳机麦克风等单一装置。
[0061]存储器116用以储存档案资料，其可以例如是任意型式的固定式或可移动式随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash memory)、硬盘或其他类似装置或这些装置的组合。
[0062]处理器117耦接于屏幕111、通信电路112、图像捕获设备113、播音装置114、收音装置115以及存储器116，其用以控制以及整合此些元件之间的作动。处理器117可以例如是中央处理单元(Central Processing Unit，CPU)，或是其他可编程的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor ,DSP)、可编程控制器、特殊应用集成电路(Applicat1n Specific Integrated Circuits，ASIC)、可编程逻辑设备(Programmable Logic Device，PLD)或其他类似装置或这些装置的组合。
[0063]除此之外，在一实施例中，客户端装置IlOA也可以是仅由通信电路112、图像捕获设备113、收音装置115、存储器116以及处理器117所组成的电子装置，并且可外接于包括屏幕111以及播音装置114的另一电子装置(例如是电视)。
[0064]图1C绘示依据本发明一实施例的主机装置的示意图。
[0065]请参照图1C，主机装置120包括屏幕121、通信电路122、图像捕获设备123、播音装置124、收音装置125、存储器126以及处理器127。在本实施例中，主机装置120也可以例如是个人计算机、笔记本电脑、智能型手机、平板计算机、个人数字助理等具有音频与视频处理功能的电子装置，然而本发明并不以此为限。屏幕121、通信电路122、图像捕获设备123、播音装置124、收音装置125、存储器126以及处理器127分别类似于图1B中客户端装置110A?110D的屏幕111、通信电路112、图像捕获设备113、播音装置114、收音装置115、存储器116以及处理器117，其相关说明请参照前述段落，于此不再赘述。
[0066]在本实施例中，视频会议系统100的多个本地端装置(即客户端装置110A?110D以及主机装置120)与远端装置130进行视频会议时，各个客户端装置110A?110D会将所产生的客户端音频数据传送至主机装置120，还会利用客户端音频数据决定是否进一步将所产生的客户端视频数据传送至主机装置120。主机装置120本身也会产生主机音频数据以及主机视频数据。之后，主机装置120会整合音频数据以及筛选视频数据，并且将整合后的音频数据以及筛选后的视频数据传送到远端装置130，据以实现具有主讲者聚焦效果的视频会议。以下将分别说明客户端装置110A?110D以及主机装置120进行音频与视频处理的具体方式。
[0067]图2绘示依据本发明一实施例的音频与视频处理方法的流程图。本实施例的方法适用于图1B的客户端装置110A?110D，以下即搭配客户端装置110A中的各个元件说明其音频与视频处理方法的详细步骤，而客户端装置110B?110D可依此类推。然而，就以实际操作上而言，本实施例的方法也适用于仅包括以通信电路112、图像捕获设备113、收音装置115、存储器116以及处理器117所组成的电子装置，本发明不在此设限。
[0068]请同时参照图1B以及图2，首先，客户端装置110A的处理器117将自图像捕获设备113以及收音装置115分别接收第一图像信号以及第一声音信号，以产生第一视频数据以及第一音频数据(步骤S202)。在此，第一图像信号为图像捕获设备113所撷取到客户端装置110A的用户的动态图像，而第一声音信号为收音装置115所撷取到客户端装置110A的周遭环境声音。处理器117可将图像捕获设备113以及收音装置115所撷取到的第一图像信号以及第一声音信号进行数字转换，以产生第一视频数据以及第一音频数据。此外，处理器117也可选择性地压缩第一视频数据，以适应后续网络传输带宽的不同需求，本发明不在此设限。
[0069]接着，处理器117将判断第一音频数据是否符合至少一传输条件(步骤S204)，以通过第一音频数据的声音参数来判定收音装置114所撷取到的第一声音信号是否为客户端装置IlOA的用户的说话声以及判定客户端装置IlOA的用户是否为视频会议的可能主讲者，从而判定第一音频数据是否符合传输条件。在此的声音参数可以是收音频率、收音音量以及收音噪声比等参数。
[0070]具体来说，在一实施例中，由于第一声音信号为收音装置115所撷取到的周遭环境声音，因此处理器117会先判断第一音频数据的收音频率是否符合人声频率。若是符合，则处理器117直接判定客户端装置IlOA的用户为视频会议的可能主讲者。举例而言，男性说话声的频率范围为85?180Hz，女性说话声的频率范围为165?255Hz，而处理器117可判断第一音频数据的收音频率是否落入于此些区间内，藉以判定第一音频数据是否对应于人声。当第一音频数据的收音频率确实对应于人声时，则处理器117将判定其符合传输条件。
[0071 ]在一实施例中，处理器117在判定出第一音频数据对应于人声后，还会判断第一音频数据的收音音量是否大于预设的音量门限值来判定客户端装置IlOA的用户是否为视频会议的可能主讲者。一般而言，平常一般人说话的音量为60dB左右，而音量门限值可以例如是预设为55dB，以预留容许侦测误差范围。此外，处理器117也可根据随时根据视频会议的周围环境或者是客户端装置IlOA的用户的手动调整来更改预设的音量门限值。当第一音频数据的收音频率确实对应于人声并且第一音频数据的收音音量大于音量门限值时，则处理器117将判定其符合传输条件。
[0072]在一实施例中，类似于收音音量的概念，处理器117在判定出第一音频数据对应于人声后，还会利用第一音频数据的第一音频数据的收音噪声比是否大于预设的噪声比门限值来判定客户端装置IlOA的用户是否为视频会议的可能主讲者，其中噪声比门限值可以例如是预设为55dB。此外，处理器117也可根据随时根据客户端装置IlOA的周围环境或者是客户端装置IlOA的用户的手动调整来更改预设的噪声比门限值。当第一音频数据的收音频率确实对应于人声并且第一音频数据的噪声比门限值大于噪声比门限值时，则处理器117将判定其符合传输条件。
[0073]在一实施例中，处理器117也可同时利用第一音频数据的收音频率、收音音量以及收音噪声比来判定客户端装置IlOA的用户是否为视频会议的可能主讲者。当第一音频数据的收音频率确实对应于人声、第一音频数据的收音音量大于音量门限值并且第一音频数据的噪声比门限值大于噪声比门限值时，则处理器117将判定其符合传输条件。
[0074]接着，当处理器117判定第一音频数据符合传输条件时，则代表客户端装置I1A的用户为视频会议的可能主讲者，因此处理器117将通过通信电路112传送第一音频数据以及第一视频数据至主机装置120(步骤S206)。另一方面，当处理器117判定第一音频数据不符合任何传输条件时，则代表客户端装置I1A的用户并非为视频会议的可能主讲者，因此处理器117仅将通过通信电路112传送第一音频数据至主机装置120(步骤S208)，以减少本地端数据量的传输。必须先说明的是，在此传送至主机装置120的第一视频数据仅为后续将传送至远端装置130的其中一笔候选视频数据，也就是说主机装置120仍会在多笔候选视频数据中筛选出其中一笔来传送至远端装置130。此外，传送至主机装置120的第一音频数据也会在后续与其它音频数据进行整合。详细细节将于稍后进行说明。
[0075]主机装置120除了将接收客户端装置IlOA?IlOD的音频数据以及任何可能的视频数据之外，本身也会产生音频数据以及视频数据。详细来说，图3绘示依据本发明一实施例的音频与视频处理方法的流程图。本实施例的方法适用于图1C的主机装置120，以下即搭配主机装置120中的各个元件说明其音频与视频处理方法的详细步骤。然而，就以实际操作上而言，本实施例的方法也适用于仅包括以通信电路122、图像捕获设备123、收音装置125、存储器126以及处理器127所组成的电子装置，本发明不在此设限。
[0076]请同时参照图1C以及图3，首先，主机装置120的处理器127将自图像捕获设备123以及收音装置125接收第二图像信号以及第二声音信号，以分别产生第二视频数据以及第二音频数据(步骤S302)，并且处理器127将判断第二音频数据是否符合至少一传输条件(步骤S304)。在此主机装置120的处理器127执行步骤S302以及步骤S304的方式类似于客户端装置IlOA?IlOD执行步骤S202以及步骤S204的方式，相关说明请参照前述段落，于此不再赘述。
[0077]不同于图2的实施例，由于主机装置120本身将于稍后进行音频数据的整合以及视频数据的筛选，因此当处理器127判定第二音频数据符合传输条件时，也就是主机装置120的用户为视频会议的可能主讲者，处理器127将第二视频数据设定为其中一笔候选视频数据以及将第二音频数据设定为其中一笔待整合音频数据(步骤S306)。另一方面，当处理器127判定第二音频数据不符合任何传输条件时，仅会将第二音频数据设定为其中一笔待整合音频数据(步骤S308)，也就是主机装置120的用户并非为视频会议的可能主讲者。
[0078]主机装置120在取得本身以及客户端装置IlOA?IlOD所有待整合的音频数据以及候选视频数据后，将会分别进行整合以及筛选，以作为传送至远端装置130的传输数据。详细来说，图4绘示依据本发明一实施例的音频与视频处理方法的流程图。本实施例的方法适用于图1C的主机装置120，以下即搭配主机装置120中的各个元件说明其音频与视频处理方法的详细步骤。
[0079]请同时参照图1C以及图4，首先，主机装置120的处理器127将取得至少一笔候选视频数据以及多笔待整合音频数据(步骤S402)。在此的候选视频数据以及待整合音频数据即为客户端装置IlOA?IlOD在执行完图2的流程以及主机装置120在执行完图3的流程后所取得的数据。
[0080]接着，处理器127将根据各笔待整合音频数据，自所有候选视频数据中选择其中之一者，以产生筛选后的视频数据(步骤S404)。详细来说，候选视频数据仅为视频会议中的可能主讲者的视频数据，处理器127将比较所有候选视频数据所对应的待整合音频数据(也就是，与候选视频数据相同来源装置的待整合音频数据)，以进一步地选出将传送至远端装置130的视频数据。由于所有候选视频数据所对应的待整合音频数据已符合人声频率，因此处理器127将根据所有对应的待整合音频数据的声音参数来选择所欲传送的视频数据。在此的声音参数可以是收音时间、收音音量以及收音噪声比等参数。
[0081]在一实施例中，处理器127将选择所有候选视频数据所对应的待整合音频数据之中具有最长收音时间者来作为筛选后的视频数据。此实施例是则是直接将先说话的用户视为视频会议当下的主讲者。
[0082]在一实施例中，处理器127将选择所有候选视频数据所对应的待整合音频数据之中收音时间大于时间门限值者来作为筛选后的视频数据，其中时间门限值可以例如是0.5秒。此实施例是考虑到多个用户抢话的情形，因此处理器127仅将收音时间大于时间门限值所对应的用户视为视频会议当下的主讲者，以避免在后续远端装置130在极短的时间内不断地切换显示不同装置用户的视频画面。
[0083]在一实施例中，处理器127将选择所有候选视频数据所对应的待整合音频数据之中具有最大收音音量者来作为筛选后的视频数据。此实施例则是考虑到其它候选视频数据所对应的用户可能在进行私下讨论，而并非为视频会议的主讲者。
[0084]在一实施例中，类似于收音音量的概念，处理器127将选择所有候选视频数据所对应的待整合音频数据之中具有最大收音噪声比者来作为筛选后的视频数据。
[0085]在一实施例中，处理器127也可利用收音时间、收音音量以及收音噪声比的不同组合来作为选择依据，以使筛选后的结果更为精确。
[0086]在一实施例中，当仅有单一笔候选视频数据时，处理器127可直接将其设定为筛选后的视频数据。在又另一实施例中，当没有任何候选视频数据时，即代表本地端的用户并未发言，处理器127可持续地传送前个时点的主讲人的视频数据来作为筛选后的视频数据。
[0087]另一方面，处理器127也会一并整合所有待整合音频数据，以产生整合后的音频数据(步骤S406)。详细来说，处理器127可针对所有待整合音频数据进行混音处理(Aud1Mixing)以及/或除噪处理(Aud1 Denoising)，以使整合后的音频数据具有更好的质量。
[0088]之后，处理器127将通过通信电路112传输整合后的音频数据以及筛选后的视频数据至远端装置130(步骤S408)。换句话说，远端装置130自主机装置120所接收的音频数据以及视频数据为本地端整合后的声音以及主讲者的视频画面，从而达到具有主讲者聚焦效果的视频会议。
[0089]附带说明的是，主机装置120同时将一并通过通信电路122自远端装置130接收远端视频数据以及远端音频数据，并且分别通过屏幕121以及播音装置124播放远端视频数据以及远端音频数据。此外，主机装置120也会传送远端视频数据以及远端音频数据至客户端装置IlOA?110D，而客户端装置IlOA?IlOD将通过屏幕111以及播音装置114播放远端视频数据以及远端音频数据。
[0090]图5A绘示依据本发明一实施例的音频与视频处理方法的流程图来说明图1A的视频会议系统100的应用情境。图5B绘示图5A的应用情境示意图。
[0091]请同时参照图1A以及图5A，首先，视频会议系统100的主机装置120将取得至少一笔候选视频数据以及多笔待整合音频数据(步骤S502)。在此的候选视频数据为本地端的装置用户当中可能为主讲者的视频画面，而待整合音频数据为本地端的装置用户的说话声。接着，主机装置120将根据候选视频数据所对应的待整合音频数据来判断本地端的主讲者(步骤S504)，以产生主讲者的视频数据(步骤S506)。另一方面，主机装置120会将待整合音频数据进行混音处理以及/或除噪处理(步骤S508)，以产生整合后的音频数据(步骤S510)。之后，主机装置120会将主讲者的视频数据以及整合后的音频数据传送至远端装置(步骤S512)。在此步骤S502?S512的细节请参照前述实施例的相关说明，于此不再赘述。
[0092]请再参照图5B，在本实施例中，客户端装置11OA?11OB分别利用网络LAN与主机装置120进行连线，而主机装置120利用网络WAN与远端装置130进行连线。假设主机装置120在图5A中判定客户端装置IlOA的用户Cl为主讲者后，会将用户Cl的视频数据传送至远端装置130。此外，主机装置120也会将用户Cl、C2以及H的音频数据VCl、VC2与VH所整合出的音频数据M传送至远端装置130，而远端装置130将播放用户Cl的视频画面以及用户C1、C2与H的声音。此外，主机装置120也会接收并且传送远端装置130的用户R的视频数据以及音频数据VCl至客户端装置IlOA?110B，而客户端装置IlOA?IlOB以及主机装置120将同时播放用户R的视频画面以及声音。
[0093]综上所述，本发明所提出的视频与音频处理装置及其视频会议系统，主机装置除了将整合本地端所产生的各笔音频数据并且传送整合后的音频数据至远端装置外，还根据各笔音频数据的声音参数来传送其中一笔视频数据至远端装置，以使本地端在具有多个视频会议参与者的前提下，远端装置的用户视觉仍可聚焦于本地端的主讲者上，以提升视频会议的质量与效率。
[0094]虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中普通技术人员，在不脱离本发明的精神和范围内，当可作部分的更改与修饰，故本发明的保护范围当视权利要求所界定者为准。
【主权项】
1.一种视频与音频处理装置，其特征在于，包括: 通信电路，用以连线至另一视频与音频处理装置；图像捕获设备，用以撷取图像信号；收音装置，用以撷取声音信号；存储器，用以储存档案数据；以及处理器，耦接该通信电路、该图像捕获设备、该收音装置以及该存储器，用以执行下列步骤: 自该图像捕获设备以及该收音装置分别接收第一图像信号以及第一声音信号，以产生第一视频数据以及第一音频数据；判断该第一音频数据是否符合至少一传输条件；若是，通过该通信电路传送该第一音频数据以及该第一视频数据至该另一视频与音频处理装置；以及若否，通过该通信电路仅传送该第一音频数据至该另一视频与音频处理装置。2.根据权利要求1所述的视频与音频处理装置，其特征在于，还包括: 屏幕，用以显示画面；以及播音装置，用以播放声音；其中该处理器还耦接该屏幕以及该播音装置，并且用以执行下列步骤: 通过该通信电路自该另一视频与音频处理装置接收远端视频数据以及远端音频数据；以及分别通过该屏幕以及该播音装置播放该远端视频数据以及该远端音频数据。3.根据权利要求1所述的视频与音频处理装置，其特征在于，该第一音频数据包括音频频率，而该处理器用以判断该第一音频数据是否符合所述传输条件的步骤包括: 判断该音频频率是否符合人声频率。4.根据权利要求3所述的视频与音频处理装置，其特征在于，该第一音频数据还包括该收音装置的收音音量，而该处理器用以判断该第一音频数据是否符合所述传输条件的步骤还包括: 判断该收音音量是否大于音量门限值。5.根据权利要求3所述的视频与音频处理装置，其特征在于，该第一音频数据还包括该收音装置的收音噪声比，而该处理器用以判断该第一音频数据是否符合所述传输条件的步骤还包括: 判断该收音噪声比是否大于噪声比门限值。6.一种视频与音频处理装置，其特征在于，包括: 通信电路，用以连接至至少一其它视频与音频处理装置以及远端装置；图像捕获设备，用以撷取图像信号；收音装置，用以撷取声音信号；存储器，用以储存档案数据；以及处理器，耦接该通信电路、该图像捕获设备、该收音装置以及该存储器，用以执行下列步骤: 取得至少一笔候选视频数据以及多笔待整合音频数据，其中各所述候选视频数据对应于其中一笔所述待整合音频数据；根据各所述候选视频数据所对应的该待整合音频数据，选择其中一笔所述候选视频数据，以产生筛选后的视频数据；整合所述待整合音频数据，以产生整合后的音频数据；以及通过该通信电路传输该整合后的音频数据以及该筛选后的视频数据至该远端装置。7.根据权利要求6所述的视频与音频处理装置，其特征在于，该处理器还用以执行下列步骤: 通过该通信电路自该远端装置接收远端视频数据以及远端音频数据；以及通过该通信电路传输该远端视频数据以及该远端音频数据至各所述其它视频与音频处理装置。8.根据权利要求7所述的视频与音频处理装置，其特征在于，还包括: 屏幕，用以显示画面；以及播音装置，用以播放声音；其中该处理器还耦接至该屏幕以及该播音装置，并且用以执行下列步骤: 分别通过该屏幕以及该播音装置播放该远端视频数据以及该远端音频数据。9.根据权利要求6所述的视频与音频处理装置，其特征在于，各所述待整合音频数据包括收音音量，而该处理器根据各所述候选视频数据所对应的该待整合音频数据，选择其中一笔所述候选视频数据，以产生该筛选后的视频数据的步骤包括: 选择具有最大收音音量的该待整合音频数据所对应的该候选视频数据作为该筛选后的视频数据。10.根据权利要求6所述的视频与音频处理装置，其特征在于，各所述待整合音频数据包括收音噪声比，而该处理器根据各所述候选视频数据所对应的该待整合音频数据，选择其中一笔所述候选视频数据，以产生该筛选后的视频数据的步骤包括: 选择具有最大收音噪声比的该待整合音频数据所对应的该候选视频数据作为该筛选后的视频数据。11.根据权利要求6所述的视频与音频处理装置，其特征在于，各所述待整合音频数据包括收音时间，而该处理器根据各所述候选视频数据所对应的该待整合音频数据，选择其中一笔所述候选视频数据，以产生该筛选后的视频数据的步骤包括: 选择具有最长收音时间的该待整合音频数据所对应的该候选视频数据作为该筛选后的视频数据。12.根据权利要求6所述的视频与音频处理装置，其特征在于，各所述待整合音频数据包括收音时间，而该处理器根据各所述音频数据，选择所述候选视频数据其中之一者，以产生该筛选后的视频数据的步骤包括: 选择收音时间大于时间门限值的该音频数据所对应的该候选视频数据作为该筛选后的视频数据。13.根据权利要求6所述的视频与音频处理装置，其特征在于，该处理器用以整合所述待整合音频数据，以产生整合后的音频数据的步骤包括: 针对所述待整合音频数据进行混音处理以及/或除噪处理，以产生该整合后的音频数据。14.根据权利要求6所述的视频与音频处理装置，其特征在于，该处理器还用以执行下列步骤: 自该图像捕获设备以及该收音装置分别接收第二图像信号以及第二声音信号，以产生第二视频数据以及第二音频数据；判断该第二音频数据是否符合至少一传输条件；若是，分别设定该第二视频数据以及该第二音频数据为其中一笔所述候选视频数据以及其中一笔所述待整合音频数据；以及若否，仅设定该第二音频数据为其中一笔所述待整合音频数据。15.根据权利要求14所述的视频与音频处理装置，其特征在于，该第二音频数据包括音频频率，而该处理器用以判断该第二音频数据是否符合所述传输条件的步骤包括: 判断该音频频率是否符合人声频率。16.根据权利要求14所述的视频与音频处理装置，其特征在于，该第二音频数据还包括该收音装置的收音音量，而该处理器用以判断该第二音频数据是否符合所述传输条件的步骤包括: 判断该收音音量是否大于音量门限值。17.根据权利要求14所述的视频与音频处理装置，其特征在于，该音频数据还包括该收音装置的收音噪声比，而该处理器用以判断该第二音频数据是否符合所述传输条件的步骤还包括: 判断该收音音量是否大于音量门限值。18.一种视频会议系统，其特征在于，包括: 至少一客户端装置，其中各所述客户端装置分别产生客户端视频数据以及客户端音频数据；以及主机装置，连线于各所述客户端装置以及远端装置，其中该主机装置取得至少一笔候选视频数据以及多笔待整合音频数据，根据各所述待整合音频数据，选择其中一笔所述候选视频数据，以产生筛选后的视频数据，整合所述待整合音频数据，以产生整合后的音频数据，传输该整合后的音频数据以及该筛选后的视频数据至该远端装置，其中所述待整合音频数据包括所述客户端音频数据以及该主机音频数据，所述候选视频数据包括至少其中一笔所述客户端视频数据以及主机视频数据，各所述候选视频数据对应于其中一笔所述音频数据。19.根据权利要求18所述的视频会议系统，其特征在于，对于各所述客户端装置: 该客户端装置判断该客户端音频数据是否符合至少一传输条件；若是，该客户端装置传送该客户端音频数据以及该客户端视频数据至该主机装置；以及若否，该客户端装置仅传送该客户端音频数据至该主机装置。20.根据权利要求18所述的视频会议系统，其特征在于，该主机装置还自该远端装置接收远端视频数据以及远端音频数据并且传送该远端视频数据以及该远端音频数据至各所述客户端装置。
【文档编号】H04L29/08GK106027589SQ201610016778
【公开日】2016年10月12日
【申请日】2016年1月12日
【发明人】詹婕妤, 翁明哲
【申请人】仁宝电脑工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹婕妤;翁明哲;
技术所有人：仁宝电脑工业股份有限公司;
我是此专利的发明人

上一篇：用于车辆的遥感传感器数据的制作方法
上一篇：一种语音识别车载终端控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。