一种视频会议智能前端系统的制作方法

文档序号:7995516阅读:507来源:国知局
专利名称:一种视频会议智能前端系统的制作方法
技术领域
本发明涉及视频会议系统领域,尤其涉及一种视频会议智能前端系统。
背景技术
随着视频摄像技术、网络宽带技术、视频压缩技术以及存储技术的飞速发展,视频会议被广泛地使用于多种场合下的本地或远程的会议中。如图1所示,视频会议系统的基本工作原理是通过麦克风和摄像头前端采集设备10采集音频信号和视频信号,利用视频会议主机20对采集到的音频和视频信号压缩后存储于本地或利用网络设备30传送到远端,根据主控系统40的控制信号选择本地的或远端的经压缩音视频信号,经视频会议主机20解码,并送往相应的显示设备50显示。现有的视频会议系统大致分为传统型和智能型两类,传统型系统中音视频信号是分离的独立采集的;智能型系统中音视频信号的采集是相互关联的,通常利用音频信号控制摄像头的相关参数以便采集到的视频图像中能看清发言者的脸部。现有的智能型视频会议系统的摄像头控制系统一般采用麦克风阵列进行声音信号的采集,通过分析声音信号确定声音的来源位置,控制摄像头进行转动,以期拍摄到会议发言人的面部。但该方案一方面,容易受到噪声或非发言人的声音影响导致声音的来源判断不准确,从而导致控制摄像头转动不到位,不能拍摄到发言者的脸部;另一方面,摄像头的放置位置或转动控制比较复杂,而且更大的不足在于即使摄像头能调整到位,也只能看清发言者,而会场全貌无法看到,这样跟我们的真实的会议现场有很大的差别。

发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提出了一种改进型的智能前端系统,一方面,能准确地捕捉到发言者的视频图像;另一方面,视频会议画面不仅能看清发言者的脸部,同时也能看到会场的全貌。为实现上述目的,本发明通过以下技术手段实现
一种视频会议智能前端系统,包括一组语音视频摄入设备、一个视频会议摄像机、一个会议系统控制单元、一个视音频矩阵切换器和一个视频处理器,其中
所述语音视频摄入设备,对会议现场的发言者声音和视频图像的采集后,发送给视音频矩阵切换器;
所述视频会议摄像机,对会议现场的全景视频图像的采集后,发送给视频处理器; 所述会议系统控制单元,对整个会议系统的声音和视频信号的优先级管理控制; 所述视音频矩阵切换器,根据会议系统控制单元发送的控制信号,实现会议系统中多路音视频信号的同步切换;
所述视频处理器,接收来自视音频矩阵切换器输出的视频信号,完成发言者视频图像的恢复、发言者人脸的检测与裁剪、会议现场的全景视频图像的恢复、发言者人脸图像同会议现场的全景视频图像的叠加、编码生成混合视频信号输出。
所述语音视频摄入设备,由多组麦克风和微型摄像机构成,每组麦克风和微型摄像机采集同一个发言者的声音和视频图像,即麦克风和微型摄像机分成若干组且每组内部一一对应采集同一个发言者的声音和视频图像。所述视频会议摄像机,是一个广角的长焦的视频摄像机,以便于能清晰地摄取会议现场的全景。所述会议系统控制单元,其控制过程为每位发言者的面前都有一个设备,通过操作设备面板上的按键来控制自己的话筒开关状态,如需要发言,先按设备上的请求发言键, 如此时无其它人发言,控制面板的指示灯变为红色,话筒上的光管也变为红色;如此时有其它人发言,控制面板上的指示灯变为闪动的绿色,会议系统控制单元的中央控制器会根据现有请求进行排队,在其余人先发言完毕后,申请发言人即可发言,此时控制面盘上的指示灯及话筒上的指示光管均为红色;最后,会议系统控制单元将控制结果送给视音频矩阵切换器。所述视音频矩阵切换器,通常的视音频矩阵切换器是专门用于对视频信号和音频信号进行切换和分配,可将多路信号从输入通道切换输送到输出通道中的任一通道上,并且输出通道间彼此独立;本系统中的视音频矩阵切换器,是其中的一种特殊形式,即根据会议系统控制单元的控制信号,从多路音视频信号中将发言者的那路信号从输入通道切换输送到一个输出通道上。所述视频处理器,由微型摄像机视频图像恢复单元、微型摄像机视频图像预处理单元、人脸检测单元、会议全景摄像机视频图像恢复单元、会议全景摄像机视频图像预处理单元、人脸叠加混合单元、复合视频信号编码生成单元组成;视音频矩阵切换器输出的发言者模拟复合视频信号先传输给微型摄像机视频图像恢复单元,再依次经过微型摄像机视频图像预处理单元、人脸检测单元,传输给人脸叠加混合单元;视频会议摄像机输出的会议全景模拟复合视频信号先传输给会议全景摄像机视频图像恢复单元,再经过会议全景摄像机视频图像预处理单元传输给人脸叠加混合单元;两路信号在人脸叠加混合单元叠加后经复合视频信号编码生成单元传输给视频会议主机。总体上,视音频矩阵切换器输出的发言者的音频信号、视频处理器输出的含有发言者人脸的混合视频信号,一起发送到视频会议主机处理。以下具体分析视频处理器的工作的实现原理 一、微型摄像机视频图像恢复单元
视音频矩阵切换器输出为微型摄像机采集的发言者的模拟复合视频信号(CVBS),首先进行模数转换,接着对CVBS信号亮色分离与U/V分离(其中U为蓝差分量,V为红差分量), 这样可以恢复出微型摄像机所摄入的图像,发送给微型摄像机视频图像预处理单元。二、微型摄像机视频图像预处理单元
对微型摄像机视频图像恢复单元恢复出的图像解交错,并对解交错后的图像进行降噪滤波,然后将经过处理的图像数据发送给人脸检测单元。三、人脸检测单元
微型摄像机视频图像预处理单元处理后的图像,是包含了发言者脸部完整信息的图像。由于发言者离微型摄像机的远近不一,导致发言者脸部图像像素大小差别很大,这样视觉效果很差。为了使得发言者脸部图像像素大小基本统一,人脸检测单元,其检测步骤为第一步,接收来自微型摄像机视频图像预处理单元处理后的图像信号,利用人脸检测技术对整个图像进行人脸检测,确定发言者人脸的位置; 第二步,截取发言者人脸画面; 第三步,缩放成指定的大小,发送给人脸叠加混合单元。四、会议全景摄像机视频图像恢复单元
视频会议摄像机输出为会议全景的模拟复合视频信号(CVBS),首先进行模数转换,接着对CVBS信号亮色分离与U/V分离(其中U为蓝差分量,V为红差分量),这样可以恢复出会议全景摄像机所摄入的图像,发送给会议全景摄像机视频图像预处理单元。五、会议全景摄像机视频图像预处理单元
对会议全景摄像机视频图像恢复单元恢复出的图像解交错,并对解交错后的图像进行降噪滤波,然后将经过处理的图像数据发送给人脸叠加混合单元。六、人脸叠加混合单元
为了使得在一个视频画面既能看清发言者的脸部又能看到会场的全貌,我们将人脸检测单元送来的发言者人脸图像通过图像叠加的方式,叠加到会议全景摄像机视频图像预处理单元送来的会场全景图像的指定位置,并将叠加后的混合视频数据发送给复合视频信号编码生成单元。七、复合视频信号(CVBS)编码生成单元
复合视频信号(CVBS)编码生成单元,对来自人脸叠加混合单元的图像数据加上行场同步信号以及色同步信号,并对色度信号进行平衡调幅调制,一起叠加生成复合视频信号 (CVBS),通过同轴线传输给视频会议系统主机的视频输入端。采用本发明的有益效果在于与现有的前端系统相比,一方面,本发明克服了原系统完全依赖语音识别判断发言者,容易受到噪声或非发言人的声音影响导致声音的来源判断不准确,导致摄像头不能准确拍摄到发言者脸部;另一方面,本发明使得在一个视频画面中既能准确看清发言者的脸部,又能看到会场的全景;另外,利用本发明,可以在基本不改变原有视频会议系统的情况下,实现视频会议系统的智能化升级。


图1 现有视频会议系统基本组成的结构示意图。图2 本发明视频会议智能前端系统的结构示意图。图3 本发明视频处理器的结构示意图。其中图1、图2和图3的符号说明如下
10、前端采集设备,20、视频会议主机,30、网络设备,40、主控系统,50、显示设备,101、 一组语音视频摄入设备,102、视频会议摄像机,103、会议系统控制单元,104、视音频矩阵切换器,105、视频处理器,VI、第1路微型摄像机,Al、第1路麦克风,V2、第2路微型摄像机, A2、第2路麦克风,Vn-I、第n-1路微型摄像机,An-I、第n_l路麦克风n_l,Vn、第η路微型摄像机,An、第η路麦克风,Vx、第χ路视频信号,Αχ、第χ路声音信号,V、视频信号,Α、声音信号,201、微型摄像机视频图像恢复单元,202、微型摄像机视频图像预处理单元,203、人脸检测单元,204、会议全景摄像机视频图像恢复单元,205、会议全景摄像机视频图像预处理单元,206、人脸叠加混合单元,207、复合视频信号编码生成单元。
具体实施例方式如图2、图3所示,分别是本发明视频会议智能前端系统和视频处理器的结构示意图。一种视频会议智能前端系统,包括一组语音视频摄入设备101、一个视频会议摄像机102、一个会议系统控制单元103、一个视音频矩阵切换器104和一个视频处理器105,其中
所述语音视频摄入设备101,对会议现场的发言者声音和视频图像的采集后,发送给视音频矩阵切换器104 ;
所述视频会议摄像机102,对会议现场的全景视频图像的采集后,发送给视频处理器
105 ;
所述会议系统控制单元103,对整个会议系统的声音和视频信号的优先级管理控制; 所述视音频矩阵切换器104,根据会议系统控制单元103发送的控制信号,实现会议系统中多路音视频信号的同步切换;
所述视频处理器105,接收来自视音频矩阵104切换器输出的视频信号,完成发言者视频图像的恢复、发言者人脸的检测与裁剪、会议现场的全景视频图像的恢复、发言者人脸图像同会议现场的全景视频图像的叠加、编码生成混合视频信号输出。所述语音视频摄入设备101,由η组麦克风和微型摄像机构成,η为正整数,具体可以根据会场发言者人数的多少进行增减。比如第1路微型摄像机Vl和第1路麦克风Al采集第一位发言者的声音和视频图像,第2路微型摄像机V2和第2路麦克风Α2采集第二位发言者的声音和视频图像,依次类推,直到第η路微型摄像机Vn和第η路麦克风An采集第 η位发言者的声音和视频图像。所述视频会议摄像机102,是一个广角的长焦的视频摄像机,以便于能清晰地摄取会议现场的全景。所述会议系统控制单元103,其控制过程为每位发言者的面前都有一个设备,通过操作设备面板上的按键来控制自己的话筒开关状态,如需要发言,先按设备上的请求发言键,如此时无其它人发言,控制面板的指示灯变为红色,话筒上的光管也变为红色;如此时有其它人发言,控制面板上的指示灯变为闪动的绿色,会议系统控制单元103的中央控制器会根据现有请求进行排队,在其余人先发言完毕后,申请发言人即可发言,此时控制面盘上的指示灯及话筒上的指示光管均为红色;最后,会议系统控制单元103将控制结果送给视音频矩阵切换器104。所述视音频矩阵切换器104,本系统中的视音频矩阵切换器104,根据会议系统控制单元103的控制信号,从多路音视频信号中将发言者的那路信号从输入通道切换输送到一个输出通道上,即从η路视音频信号中选取发言者(标记为χ,χ为小于等于η的正整数) 的那路第χ路视频信号Vx切换输送到视频处理器105,第χ路声音信号Ax切换输送到视频会议主机20。所述视频处理器105,由微型摄像机视频图像恢复单元201、微型摄像机视频图像预处理单元202、人脸检测单元203、会议全景摄像机视频图像恢复单元204、会议全景摄像机视频图像预处理单元205、人脸叠加混合单元206、复合视频信号编码生成单元207组成;视音频矩阵切换器104输出的发言者模拟复合视频信号先传输给微型摄像机视频图像恢复单元201,再依次经过微型摄像机视频图像预处理单元202、人脸检测单元203,传输给人脸叠加混合单元206 ;视频会议摄像机102输出的会议全景模拟复合视频信号先传输给会议全景摄像机视频图像恢复单元204,再经过会议全景摄像机视频图像预处理单元205传输给人脸叠加混合单元206 ;两路信号在人脸叠加混合单元206叠加后经复合视频信号编码生成单元207传输给视频会议主机20。总体上,视音频矩阵切换器104输出的发言者的音频信号A、视频处理器105输出的含有发言者人脸的混合视频信号V,一起发送到视频会议主机20处理。以下具体分析视频处理器105的工作的实现原理 一、微型摄像机视频图像恢复单元201
视音频矩阵切换器104输出为微型摄像机采集的发言者的模拟复合视频信号(CVBS), 首先进行模数转换,接着对CVBS信号亮色分离与U/V分离(其中U为蓝差分量,V为红差分量),这样可以恢复出微型摄像机所摄入的图像,发送给微型摄像机视频图像预处理单元 202。二、微型摄像机视频图像预处理单元202
对微型摄像机视频图像恢复单元201恢复出的图像解交错,并对解交错后的图像进行降噪滤波,然后将经过处理的图像数据发送给人脸检测单元203。三、人脸检测单元203
微型摄像机视频图像预处理单元202处理后的图像,是包含了发言者脸部完整信息的图像。由于发言者离微型摄像机的远近不一,导致发言者脸部图像像素大小差别很大,这样视觉效果很差。为了使得发言者脸部图像像素大小基本统一,人脸检测单元203,其检测步骤为
第一步,接收来自微型摄像机视频图像预处理单元202处理后的图像信号,利用人脸检测技术对整个图像进行人脸检测,确定发言者人脸的位置; 第二步,截取发言者人脸画面;
第三步,缩放成指定的大小,发送给人脸叠加混合单元206。四、会议全景摄像机视频图像恢复单元204
视频会议摄像机102输出为会议全景的模拟复合视频信号(CVBS),首先进行模数转换,接着对CVBS信号亮色分离与U/V分离(其中U为蓝差分量,V为红差分量),这样可以恢复出会议全景摄像机所摄入的图像,发送给会议全景摄像机视频图像预处理单元205。五、会议全景摄像机视频图像预处理单元205
对会议全景摄像机视频图像恢复单元204恢复出的图像解交错,并对解交错后的图像进行降噪滤波,然后将经过处理的图像数据发送给人脸叠加混合单元206。六、人脸叠加混合单元206
为了使得在一个视频画面既能看清发言者的脸部又能看到会场的全貌,我们将人脸检测单元203送来的发言者人脸图像通过图像叠加的方式,叠加到会议全景摄像机视频图像预处理单元205送来的会场全景图像的指定位置,并将叠加后的混合视频数据发送给复合视频信号编码生成单元207。七、复合视频信号(CVBS)编码生成单元207复合视频信号(CVBS)编码生成单元207,对来自人脸叠加混合单元206的图像数据加上行场同步信号以及色同步信号,并对色度信号进行平衡调幅调制,一起叠加生成复合视频信号(CVBS),通过同轴线传输给视频会议系统主机的视频输入端。
权利要求
1.一种视频会议智能前端系统,其特征在于包括一组语音视频摄入设备101、一个视频会议摄像机102、一个会议系统控制单元103、一个视音频矩阵切换器104和一个视频处理器105,其中所述语音视频摄入设备101,对会议现场的发言者声音和视频图像的采集后,发送给视音频矩阵切换器104 ;所述视频会议摄像机102,对会议现场的全景视频图像的采集后,发送给视频处理器105 ;所述会议系统控制单元103,对整个会议系统的声音和视频信号的优先级管理控制;所述视音频矩阵切换器104,根据会议系统控制单元103发送的控制信号,实现会议系统中多路音视频信号的同步切换;所述视频处理器105,接收来自视音频矩阵104切换器输出的视频信号,完成发言者视频图像的恢复、发言者人脸的检测与裁剪、会议现场的全景视频图像的恢复、发言者人脸图像同会议现场的全景视频图像的叠加、编码生成混合视频信号输出。
2.如权利要求1所述的视频会议智能前端系统,其特征在于所述语音视频摄入设备 101,由多组麦克风和微型摄像机构成,每组麦克风和微型摄像机采集同一个发言者的声音和视频图像。
3.如权利要求1所述的视频会议智能前端系统,其特征在于所述会议系统控制单元 103,其控制过程为每位发言者的面前都有一个设备,通过操作设备面板上的按键来控制自己的话筒开关状态,如需要发言,先按设备上的请求发言键,如此时无其它人发言,控制面板的指示灯变为红色,话筒上的光管也变为红色;如此时有其它人发言,控制面板上的指示灯变为闪动的绿色,会议系统控制单元103的中央控制器会根据现有请求进行排队,在其余人先发言完毕后,申请发言人即可发言,此时控制面盘上的指示灯及话筒上的指示光管均为红色;最后,会议系统控制单元103将控制结果送给视音频矩阵切换器104。
4.如权利要求1所述的视频会议智能前端系统,其特征在于所述视频处理器105, 由微型摄像机视频图像恢复单元201、微型摄像机视频图像预处理单元202、人脸检测单元 203、会议全景摄像机视频图像恢复单元204、会议全景摄像机视频图像预处理单元205、人脸叠加混合单元206、复合视频信号编码生成单元207组成;视音频矩阵切换器104输出的发言者模拟复合视频信号先传输给微型摄像机视频图像恢复单元201,再依次经过微型摄像机视频图像预处理单元202、人脸检测单元203,传输给人脸叠加混合单元206 ;视频会议摄像机102输出的会议全景模拟复合视频信号先传输给会议全景摄像机视频图像恢复单元204,再经过会议全景摄像机视频图像预处理单元205传输给人脸叠加混合单元206 ;两路信号在人脸叠加混合单元206叠加后经复合视频信号编码生成单元207传输给视频会议主机20。
5.如权利要求4所述的视频会议智能前端系统,其特征在于所述人脸检测单元203, 其检测步骤为第一步,接收来自微型摄像机视频图像预处理单元202处理后的图像信号,利用人脸检测技术对整个图像进行人脸检测,确定发言者人脸的位置;第二步,截取发言者人脸画面;第三步,缩放成指定的大小,发送给人脸叠加混合单元206。
6.如权利要求4所述的视频会议智能前端系统,其特征在于所述人脸叠加混合单元 206,将人脸检测单元203送来的发言者人脸图像通过图像叠加的方式,叠加到会议全景摄像机视频图像预处理单元205送来的会场全景图像的指定位置,并将叠加后的混合视频数据发送给复合视频信号编码生成单元207。
全文摘要
本发明公开了一种视频会议智能前端系统,包括一组语音视频摄入设备、一个视频会议摄像机、一个会议系统控制单元、一个视音频矩阵切换器和一个视频处理器,通过对会议现场的发言者声音和视频图像、会议现场的全景视频图像的采集,对整个会议系统的声音和视频信号的优先级管理控制,对会议系统中多路音视频信号的同步切换,对发言者人脸进行检测与裁剪、会议现场的全景视频图像进行恢复、发言者人脸图像同会议现场的全景视频图像的叠加。其有益效果在于在一个视频画面中既能准确看清发言者的脸部,又能看到会场的全景;在基本不改变原有视频会议系统的情况下,实现视频会议系统的智能化升级。
文档编号H04N7/15GK102368816SQ201110391129
公开日2012年3月7日 申请日期2011年12月1日 优先权日2011年12月1日
发明者崔镭, 曹水婧, 李军, 薛亮, 谢正茂, 赵敏, 邵春伟 申请人:中科芯集成电路股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1