一种基于语音跟踪的全景视频录制设备及录制方法与流程

文档序号:13516504阅读:225来源:国知局
一种基于语音跟踪的全景视频录制设备及录制方法与流程

本发明涉及全景视频录制技术领域,特别涉及一种基于语音跟踪的全景视频录制设备及录制方法。



背景技术:

通常的使用遥控器的视频会议摄像机位调整方位,需要与会人员或者专门的人手进行手动控制,该方式显然是影响会议体验的,与会者无法全心全意的投入会议,无形之中降低了会议的效率。

同样根据发言者开启传声器来进行摄像机机位自动判断和调整的方法也存在其不足,比如需要在每个与会人员面前都设置一个单独的传声器,而现在视频会议通常会采用一个全向麦替代每个人面前的单独的传声器,可以增加设备的集成度也保持了会议桌面的整洁。

宝利通的方案(中国专利cn102256098a)采用了一个语音定位装置、2个高清摄像头、一个主机;采用的设备及外设数目比较多,而且该方案在双摄像头的情况下,只能特写两个发言人,具体实现是当第二个人同时发言的时候,经过策略判断后,将房间画面摄像头也用于拍摄发言人特写;这种方案下,如果有更多的人发言的话,需要增加摄像头,进一步添加外接设备。

因此,有必要提出一种新的录制设备。



技术实现要素:

本发明的主要目的是提出一种基于语音跟踪的全景视频录制设备及录制方法,旨在采用单一全景视频录制设备结合语音定位和图像识别的方式,实现视频中发言人的跟踪及特写功能,同时具有特写和会议全貌无缝切换的功能。

为实现上述目的,本发明提出的基于语音跟踪的全景视频录制设备,包括外壳,所述外壳上设置有视频采集装置和音频采集装置,所述外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块;所述视频采集装置和音频采集装置嵌入设置在所述外壳上,并分别与外壳内设置的视频处理装置和音频处理装置对应连接,所述微处理器分别与所述视频处理装置、所述音频处理装置、所述网络传输模块和所述人机交互模块通讯连接。

优选地,所述外壳设置为球型外壳,所述视频采集装置包括设置在球型外壳顶部的第一摄像头、以及均匀排布在球型外壳侧边的若干第二摄像头。

优选地,所述音频处理装置包括均衡设置在球型外壳侧边的若干麦克风阵列,每一麦克风阵列包括均匀排布在球型外壳侧边的若干麦克风。

优选地,所述球型外壳底部还设置有一底部支架。

优选地,所述音频处理装置包括音频定位模块和音频处理模块,所述音频处理模块用于处理所述音频采集装置采集的音频数据的音频质量,所述音频定位模块通过tdoa算法确定发言者的位置并将方位信息发送给所述视频处理装置。

优选地,所述视频处理装置包括全景视频拼接模块和视频处理模块,所述全景视频拼接模块用于对所述视频采集装置采集到的视频进行全景拼接,所述视频处理模块用于处理视频参数,以及根据所述音频处理装置发送的发言者方位信息进行图像识别并获取发言者的特写画面视频。

优选地,还包括音视频输出接口,所述音视频输出接口用于输出处理后的音视频数据。

本发明还提出一种全景视频的录制方法,采用上述任意一项所述的全景视频录制设备,所述方法的步骤如下:

s1:录制开始,默认视频显示方式为全貌画面显示,并将视频画面输出;

s2:根据音频定位模块及音频处理模块的数据处理结果判断是否有人发言,是则将全貌画面切换为单个特写画面显示,并继续执行s3,否则继续s1;

s3:根据音频定位模块及音频处理模块的数据处理结果进行判断,是否有多人发言,是则根据获取发言人数目截取多个特写画面,并对特写画面的截取分辨率进行计算,并继续执行s4,否则继续s2;

s4:根据声源在一定时间内在声场的位置变化对发言人是否移动进行判断,若发言人位置有误差范围之外的变动则判断为发言人在移动;音频定位模块重新发送发言人方位信息至视频处理模块,重新截取特写画面,保持发言人始终在特写画面的正中间;

s5:返回执行步骤s2直至结束。

优选地,通过微处理器设定切换画面的时间阀值t,每次切换画面后需等待的时间值为t,t大于时间阀值t时才能继续切换。

本发明技术方案的有益效果如下:

1,本发明将语音定位功能与全景视频系统结合。通过语音定位功能,可以实现视频会议中的发言人自动跟踪及特写,也可以实现自动跟踪声源的录播系统。

2,本发明实现了自动的视频会议发言人跟踪及特写功能。并且,本发明未使用多个单独摄像头组合使用的方案,避免了会议全貌画面和特写画面不能流畅切换的问题。本发明采用的全景视频拼接技术,可以随意截取发言人的特写画面,并根据需求进行排版显示。

3,本发明使用单一设备实现录制,最大限度不去改变现场原有环境;本发明使用语音定位加上图像识别的技术,定位精度大于传统的红外线跟踪等方法,也优于单纯使用图像识别方法的跟踪技术;而且本发明提出的全景视频录制是一个全新的录制方法,尽可能实现了对现场的还原,不会错失重要场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明中录制设备的结构示意图;

图2为本发明中录制设备的工作原理图;

图3为本发明中录制设备的另一的结构示意图;

图4为视频画面截取的示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

本发明提出一种基于语音跟踪的全景视频录制设备及录制方法。

在本发明实施例中,如图1所示,该基于语音跟踪的全景视频录制设备,包括外壳,外壳上设置有视频采集装置和音频采集装置,外壳内设置有视频处理装置、音频处理装置、微处理器、人机交互模块和网络传输模块;视频采集装置和音频采集装置嵌入设置在外壳上,并分别与外壳内设置的视频处理装置和音频处理装置对应连接,微处理器分别与视频处理装置、音频处理装置、网络传输模块和人机交互模块通讯连接。其中,视频处理装置用于视频采集装置采集到的各个视频进行全景拼接,得到一个全景视频,并将全景视频根据人机交互模块的参数处理;也可以根据音频处理装置提供的发言者的方位信息,在该区域运行图像识别算法,精确定位到发言者,并将发言者所在区域按人机交互模块提供的分辨率等参数进行截取,获取到特写画面并传输到控制处理器。

工作过程中,如图2所示,本发明的录制设备对现场进行视频采集和音频采集,对视频采集的结果进行全景视频拼接得到全景视频,与此同时对音频采集的结果进行音频处理提升录制的音频效果,音频处理包括但不限于降噪、自动增益控制、自动房间均衡器、混响抑制、自动音频调整等。使用者通过人机接口模块对系统进行设置,若设置为输出全貌画面则全景视频拼接的结果按人机接口模块设定的配置输出到音视频输出;若设置为特写画面视频,则对音频采集获取到的多路音频数据运用波束成形、声源定位等算法对发言者在声场中的方位进行定位,并将定位结果发送至视频处理模块,并利用对发言者的定位结果对全景视频进行图像识别,获取到以发言者人脸为中心的区域参数,并按人机接口模块设定的配置进行视频处理,对发言者所在区域进行截取,获得的视频连同音频处理获取到的音频一同进行音视频输出。音视频输出通过网络传输模块发送至远处的节点。

在本发明实施例中,如图3所示,本发明录制设备100的外壳110设置为球型,视频采集装置包括设置在球型外壳110顶部的第一摄像头120、以及均匀排布在球型外壳侧边的若干第二摄像头130。全景视频拼接需要各摄像头的画面之间有重叠,视频拼接算法根据重叠的区域进行匹配、拼接、融合等操作。在与所拍摄的场景水平方向摆设若干第二摄像头130,每个第二摄像头130摆放的角度不同,分别同时对场景的某一个特定角度进行拍摄,使之能够拍摄到场景的全景。在与所拍摄场景垂直方向即场景的顶部放置第一摄像头120,这样就可以实现对场景进行全景拍摄。

在本发明实施例中,如图3所示,音频处理装置包括均衡设置在球型外壳110侧边的若干麦克风阵列,每一麦克风阵列包括均匀排布在球型外壳110侧边的若干麦克风140。

在本发明实施例中,如图3所示,球型外壳110底部还设置有一底部支架150。平时用于手持,因为本发明的录制设备100是球形,不方便握持,所以有这个部件,方便手抓。其中底部支架150下面有一个接口,可以将本发明的录制设备100连通上面的设备一起安置在相机架上或者倒吊在录播系统自动升降设备上。

在本发明实施例中,音频处理装置包括音频定位模块和音频处理模块,音频处理模块用于处理音频采集装置采集的音频数据的音频质量,音频定位模块通过tdoa算法确定发言者的位置并将方位信息发送给视频处理装置。其中,tdoa(timedifferenceofarrival)表示到达时间差,它是一种通过声音到达麦克风阵列中不同麦克风的时间差结合麦克风阵列空间位置进行声源定位的方法。

在本发明实施例中,视频处理装置包括全景视频拼接模块和视频处理模块,全景视频拼接模块用于对视频采集装置采集到的视频进行全景拼接,视频处理模块用于处理视频参数,以及根据音频处理装置发送的发言者方位信息进行图像识别并获取发言者的特写画面视频。

在本发明实施例中,还包括音视频输出接口,音视频输出接口用于输出处理后的音视频数据。音视频输出接口用于将接受到并经微处理器解码后的音视频数据发往周边外设,比如显示屏、音响等。

本发明还提出一种全景视频的录制方法,采用上述任意一项的全景视频录制设备,方法的步骤如下:

s1:录制开始,默认视频显示方式为全貌画面显示,并将视频画面输出;

s2:根据音频定位模块及音频处理模块的数据处理结果判断是否有人发言,是则将全貌画面切换为单个特写画面显示,并继续执行s3,否则继续s1;

s3:根据音频定位模块及音频处理模块的数据处理结果进行判断,是否有多人发言,是则根据获取发言人数目截取多个特写画面,并对特写画面的截取分辨率进行计算,并继续执行s4,否则继续s2;

s4:根据声源在一定时间内在声场的位置变化对发言人是否移动进行判断,若发言人位置有误差范围之外的变动则判断为发言人在移动;音频定位模块重新发送发言人方位信息至视频处理模块,重新截取特写画面,保持发言人始终在特写画面的正中间;

s5:返回执行步骤s2直至结束。

优选地,通过微处理器设定切换画面的时间阀值t,每次切换画面后需等待的时间值为t,t大于时间阀值t时才能继续切换。为了避免画面不停切换,进行切换时间阈值判断,每次画面切换后需要等待至时间t大于预设时间阈值t,再进行再次判断进行确认后才进行输出视频画面切换。

在工作中,如图4所示,会议全貌画面200为拼接后的全景视频,根据人机交互模块的设置参数进行适当处理后,符合常规视频高宽比的视频画面。该画面通常可以囊括本地全体与会人员。

发言人的特写画面根据发言人数目或者人机交互模块的预设参数有所不同。201a为一个发言人或者人机交互模块的预设为单个特写画面的情况下的特写画面截屏模式;201b为两个发言人或者人机交互模块的预设为两个特写画面同时显示的情况下的特写画面截屏模式;201c为三个发言人或者人机交互模块的预设为三个特写画面同时显示的情况下的特写画面截屏模式。其中中的特写画面宽度为:其中wh表示单个特写画面时候的横向分辨率,wf表示当前特写画面的横向分辨率,n表示同时显示的特写画面个数。如图所示101c表示n=3的情形,但不意味着n不能更大,适当调整设置特写画面高宽比,n可以继续增大。具体地,wf也可以不是均分的,可以通过人机交互模块进行设置,满足使用者不同需求;例如,n=3时,3个特写画面的大小可以通过人机交互模块设置,将其中特定的一个特写画面放大,另外两个相对较小。

本发明技术方案的有益效果如下:

1,本发明将语音定位功能与全景视频系统结合。通过语音定位功能,可以实现视频会议中的发言人自动跟踪及特写,也可以实现自动跟踪声源的录播系统。

2,本发明实现了自动的视频会议发言人跟踪及特写功能。并且,本发明未使用多个单独摄像头组合使用的方案,避免了会议全貌画面和特写画面不能流畅切换的问题。本发明采用的全景视频拼接技术,可以随意截取发言人的特写画面,并根据需求进行排版显示。

3,本发明使用单一设备实现录制,最大限度不去改变现场原有环境;本发明使用语音定位加上图像识别的技术,定位精度大于传统的红外线跟踪等方法,也优于单纯使用图像识别方法的跟踪技术;而且本发明提出的全景视频录制是一个全新的录制方法,尽可能实现了对现场的还原,不会错失重要场景。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1