一种内置投影和摄像头阵列的视频处理方法和会议系统与流程

文档序号:14523176阅读:764来源:国知局
一种内置投影和摄像头阵列的视频处理方法和会议系统与流程

本发明涉及多媒体通信领域,特别涉及一种内置投影和摄像头阵列的视频处理方法和会议系统。



背景技术:

视频会议作为一种多媒体通信手段,需要实现音视频数据的采集、编码、传输、解码和显示。视频会议系统由视频终端、麦克风、摄像头和显示设备等几部分组成。一般情况,视频终端只完成音视频编解码功能,麦克风实现音频采集,摄像头可外置,也可集成到视频终端里,显示设备采用外接投影仪或者大屏幕电视墙等。各种外接设备需要通过繁杂的线缆连接起来,会场存在布线混乱、维护困难、唇音同步难度高、回声处理困难等问题。

当视频终端需要实现说话人跟踪、特写镜头等功能时。常规方法是根据声音或者图像实现说话人的定位,然后控制带云台的摄像头聚焦到说话人。缺点是当说话人来回切换时需要反复转动摄像头,由于云台是机械结构,存在说话人跟踪反应慢、频繁使用缩短寿命等缺点。另外由于单个摄像头的角度有限,当视频会议需要覆盖整个会场里的所有人,常规方法是使用广角镜头,这时图像的边缘畸变大。

通过上述分析可知,现有技术方案实现的视频会议终端布线安装复杂,成本高,使用较不方便等缺点。因此,有必要开发新的技术改进视频会议系统的用户体验。



技术实现要素:

本发明提供一种内置投影和摄像头阵列的视频处理方法和会议系统,本发明的技术方案如下:

一种内置投影和摄像头阵列的视频处理方法和会议系统,包括微控制器,连接在微控制器上的网络单元、存储单元、人机交互单元和数字信号处理器;连接在数字信号处理器上的麦克风单元、扬声器单元、摄像头阵列和投影单元;投影单元包括投影控制器、光源单元、数字微镜阵列和投影镜头,光源单元和数字微镜阵列受连接到数字信号处理器的投影控制器控制。所述的数字信号处理器将摄像头阵列输出的多个图像拼接,合成一个广角图像,根据用户的需要裁剪图像,然后做图像编码,再通过网络传输到对方。所述的投影单元将数字信号处理器输出的视频数据转换成光信号并显示输出。

本发明的特征在于,包括:一个麦克风单元,用于采集会场的声音并送给数字信号处理器处理。

本发明的特征在于,包括:一个扬声器单元,用于播放数字信号处理输出的声音。

本发明的特征在于,包括:两个以上的摄像头,圆周放置。

本发明的特征在于,包括:内置一个投影单元,用于将数字信号处理器输出的视频数据转换成光信号并显示输出。

本发明还包括人机交互模块,供用户控制视频终端。

根据本发明的一方面,提供了一种利用摄像头阵列实现电子云台的方法,包含步骤:使用摄像头阵列同时采集多幅图像,然后拼接成一个广角图像,基于唇动识别说话人,然后裁剪得到说话人的特写图像。

根据本发明的另一方面,提供一种生成全景图像的方法,包含步骤:从摄像头阵列得到一个广角图像,根据图像编码,合成一个多画面图像,然后经过图像编码、网络传输到对方。

本发明克服现有技术的不足,利用投影模块直接显示数字信号处理器输出的图像,本发明提供的技术方案具有低延迟、便携易用等优点,减少安装接线、降低安装复杂性。内置多个摄像头,根据业务需要通过数字信号处理单元合成需要的图像提供给远端输出,实时快捷可靠,内置投影实时输出远端图像延迟极小。拼接宽广角图像和声源定位替换使用机械云台实现的摄像头跟踪说话人,提升了说话人切换时特写镜头的切换速度。本发明使视频会议系统无需外接视频输入设备和视频显示设备,音视频信号处理同步完成,无需常规终端的复杂接线,方便携带,音视频有机配合大大提高用户体验。

附图说明

图1是本发明第一实施例的系统框图;

图2是本发明第一实施例提供的麦克风单元、扬声器单元、摄像头阵列和投影单元的位置分布图;

图3是本发明第一实施例的用户使用场景;

图4是本发明第一实施例实现说话人跟踪的流程图;

图5是本发明第一实施例输出的拼接图像和说话人跟踪图像;

图6是本发明第二实施例生成全景图像的流程图;

图7是本发明第二实施例输出的全景图像。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面结合附图及具体实施例就本发明的技术方案做进一步的说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1是本发明的系统框图:包括微控制器110,连接在微控制器上的人机交互单元120、网络单元130、存储单元140和数字信号处理器180;连接在数字信号处理器180上的摄像头阵列150、麦克风单元160、扬声器单元170和投影单元190;投影单元190包括投影控制器191、光源单元192、数字微镜阵列194和投影镜头193,光源单元192和数字微镜阵列194受连接到数字信号处理器180的投影控制器191控制。所述的数字信号处理器180将摄像头阵列150输出的多个图像拼接,合成一个广角图像,根据用户的需要裁剪图像,然后做图像编码,再通过网络传输到对方。所述的投影单元190将数字信号处理器180输出的视频数据转换成光信号并显示输出。图像输出直接控制内置的投影单元190输出,从而达到会议中视频音频的低延迟输出,避免了常规视频终端唇音同步困难和信号畸变大的缺点。

图2是本发明第一实施例提供的麦克风单元210、投影单元230、摄像头阵列220和扬声器单元240的位置分布图。麦克风单元210典型使用3个指向性麦克风211、212、213圆周摆放,实现360度拾音。扬声器单元240放置在中心位置。摄像头阵列220包括2~6个摄像头,典型情况是:每个摄像头水平方向覆盖60度,3个摄像头221、222、223圆周布局环绕在扬声器单元四周,实现180度覆盖。同时内置的投影模块230直接将远端的视频投影出。麦克风单元210通过多个麦克风拾音强度和相位等信息借助常规的麦克风阵列定位算法初步判断发言人的位置,摄像头阵列220通过常规的人脸识别和运动检测从而较为精确的给出说话人位置,通过内置数字信号处理单元的旋转拼接从而将说话人显示在图像大致中间位置。

图3是本发明第一实施例的用户使用场景。

图4是本发明第一实施例实现说话人跟踪的流程图。图像拼接的首要条件是两幅图像拥有共同的图像内容,即重叠区。图像拼接算法就是要确定两个图像之间的重叠区域,并根据重叠区的位置在一个统一的坐标系下确定两幅图像的位置。为了保证拼接算法的正常运行,摄像头阵列的安装位置需要保证相邻摄像头的图像存在重叠区域。该方法包括:

步骤s401摄像头阵列同时输出多副图像。

步骤s402将所有图像拼接,得到一副广角图像。至于拼接多幅图像获得全景图像已经有很成熟的算法,比如基于区域相关的拼接算法、基于特征相关的拼接算法。

步骤s403根据唇动识别说话人的方位。

步骤s404输出说话人的特写图像。降低了摄像头的机械复杂度,不需要通过机械云台转动解决说话人跟踪问题。

图5是本发明第一实施例输出的拼接图像和说话人跟踪图像。黑框图像是最终送给编码的图像。各种输出采用算法快速处理,无需常规的机械云台转动来实现。

图6是本发明第二实施例生成全景图像的流程图。该方法包括:

步骤s601摄像头阵列同时输出多副图像。

步骤s602将所有图像拼接,得到一副广角图像。

步骤s603对广角图像根据人像分割图像。

步骤s604根据用户控制生成全景图像。比如将分割图像缩放以多画面形式生成全景图像;或者将分割图像去掉没有人像的多余边缘,再按照标准的720p或者1080p大小拼接得到一个完整图像,模拟人的自然视角范围,动态生成图像输出到远端。从而解决常规视频会议系统对与会人员位置的要求。

图7是本发明第二实施例以多画面形式输出的全景图像。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1