一种视频会议控制系统及其控制方法与流程

文档序号:13675072阅读:246来源:国知局
技术领域本发明涉及一种视频会议控制系统及其控制方法,属于通信领域。

背景技术:
视频会议是现代通信中常用的一项沟通手段。通过视频会议,与会人员可以实现远程语音和视频的交流,十分方便快捷。远程视频会议控制系统使得位于不同地方的人们能够面对面地进行远程交流和协作,从而与会者具有了增强的会议体验。在现有的视频会议控制系统中通常包括多个终端,以及对这些终端进行管理和控制的服务器,多个终端连接到服务器,发送各自的音频/视频数据到服务器,由服务器根据实际情况进行音频/视频数据的混合和处理,之后将这些数据以流媒体的形式发送到各个终端,在各个终端设备上输出。但在现有的视频会议控制中存在以下一些问题:首先现有的控制系统通常采用手工切换画面的形式以突出显示发言者,由于手工切换而存在人工操作错误以及延时的问题;其次在现有的控制系统中会议的每次发起需要用户配置复杂的终端配置信息表,例如设定参会者的类型、终端的基本信息等,从而使得会议的发起过于繁琐。

技术实现要素:
为解决现有技术的不足,本发明的目的在于提供一种视频会议控制系统及其控制方法。为了实现上述目标,本发明采用如下的技术方案:一种视频会议控制方法,包括:终端发起会议,设置会议中参会各终端的配置信息;视频会议管理器接收配置信息,保存之后转发到视频会议调度器;视频会议调度器根据配置信息连接各终端;终端获得音频数据,根据声音能量衰减模型和最大似然估计法,构造似然函数,使用似然函数计算平均最优位置,将该平均最优位置结合历史数据定位发言人位置,控制摄像机取景该定位的位置,并抽取获得的视频流的属性,将终端获得的视频流、视频流属性以及音频流上传到视频会议调度器;视频会议调度器根据配置信息、视频流、视频流属性以及音频流生成发送到上述连接的终端的视频流的序列。进一步的,终端发起会议时,终端创建会议室,判断是否在之前发起过相同的会议,即会议成员以及各成员的类型相同,如果未发起过相同的会议,则终端获得会议中各终端的配置信息;如果发起过相同的会议,则终端选择该相同的会议,并进一步获得除会议成员以及各成员类型之外的其他会议配置信息;将这些配置信息发送到视频会议管理器。进一步的,视频会议管理器接收终端发送的配置信息,如果是未发起过的会议,则视频会议管理器记录将发起的会议的各个终端的会议参数,保存到配置文件;如果是已发起过的会议,则视频会议管理器从配置信息存储器中检索配置文件,获得参会各个终端的配置信息。进一步的,终端根据音频定位发言人位置,并控制摄像机取景该定位的位置之后,视频定位器获得取景定位的位置的视频,对获得的视频进行图像分析进一步确定对视频中的发言人定位是否准确。进一步的,视频会议调度器根据配置信息、视频流、视频流属性以及音频流生成发送到连接的终端的视频流的序列包括:视频会议调度器基于接收到的视频流以及视频流中携带的属性信息重新布局接收的视频图像,并抽取重新布局后的视频流的显示信息,并将处理后的视频流以及抽取的显示信息发送到编解码器;编解码器对视频流信息、视频流显示信息以及音频信息进行编码;根据各终端的配置信息发送编码后的信息流。本发明还涉及一种视频会议控制系统,包括:终端,包括收集音频的麦克风;音频定位器,根据麦克风收集的音频数据,根据声音能量衰减模型和最大似然估计法,构造似然函数,使用似然函数计算平均最优位置,将该平均最优位置结合历史数据定位发言人位置;可作出摇移、俯仰和推拉的动作的摄像机,根据定位的发言人的位置获得视频流;属性抽取器,抽取获得的视频流的属性;编解码器,对提取的音频、视频信息以及信息的属性进行编码解码;发起器,创建会议室,并将会议配置信息发送到视频会议管理器;该视频会议控制系统理器还包括信息管理器,将接收的各个终端的配置信息存储在配置信息存储器中,并在终端发起会议时,读取各个参会终端的配置信息,将其发送到视频会议调度器中;该视频会议系统还包括视频会议调度器,根据配置信息、视频流、视频流属性以及音频流生成发送到每一端点的视频流的序列。进一步的,终端还包括视频定位器,在音频定位器获得平均最优位置之后,摄像机获取定位的位置的影像,视频定位器对摄像机获得的定位的位置的影像进行分析,进一步根据分析结果调整摄像机的位置。进一步的,视频会议管理器接收终端发送的配置信息,如果是未发起过的会议,则视频会议管理器记录将发起的会议的各个终端的会议参数,保存到配置文件;如果是已发起过的会议,则视频会议管理器从配置信息存储器中检索配置文件,获得参会各个终端的配置信息。进一步的,视频会议调度器包括集成调度器、编解码器以及图像处理器,其中图像处理器基于接收到的视频流以及视频流中携带的属性信息重新布局接收的视频流,并抽取重新布局后的视频流的显示信息,将处理后的视频流以及抽取的显示信息发送到编解码器;集成调度器接收视频会议管理器发送的终端配置信息,连接各终端,控制编解码器对视频流信息、视频流显示信息以及音频信息进行编码,之后根据各终端的配置信息发送编码后的信息流。进一步的,编解码器对接收的视频/音频流解码,对将要发送到各个终端的视频/音频流以及视频流显示信息编码,并发送信息流。进一步的,其中发起器,创建会议室,判断是否在之前发起过相同的会议,如果未发起过相同的会议,则终端发起器获得会议信息,如果发起过相同的会议,则选择该相同的会议,并进一步获得除会议成员以及各成员类型之外的其他会议配置信息,并将该配置信息发送到视频会议管理器。本发明的有益之处在于:可自动定位发言人,精确调整摄像机位置,避免了手工布局的延迟,同时可选取已有会议的配置信息,避免对参会终端的重复配置。附图说明图1为本申请视频会议系统的结构图;图2为示范性终端;图3为视频会议管理器结构图;图4为视频会议调度器结构图;图5为视频会议控制系统的方法流程图;图6为终端确定发言人的方法流程图。具体实施方式以下结合附图和具体实施例对本发明作具体的介绍。图1示出了多终端视频会议系统,该系统包括多个终端,视频会议调度器101以及视频会议管理器102。以下结合图2-4详细描述各个部分的组成结构。一、终端终端发起会议,提取音频、视频信息,对提取的信息进行分析,定位发言人,并抽取这些信息的属性,之后对提取的音频、视频信息以及信息的属性进行编码解码,其结构如图2所示。终端包括麦克风204,该麦克风204可为桌式麦克风、吸顶式麦克风,或者是麦克风箱、最好是正交排列的麦克风阵列,用于收集音频。获得的音频信息传送给音频定位器201进行发言人定位,之后处理器203进行属性抽取以及音频编解码。终端还包括拍摄视频资料的多部摄像机205,这些摄像机可作出摇移、俯仰和推拉的动作,从而调整摄像机的拍摄角度。摄像机205将获得的视频资料传送到视频定位器202,视频定位器202进行视频定位,接着将定位结果以及视频资料传送给处理器203进行属性抽取以及视频编解码。终端的音频定位器201根据获得的音频和历史数据确定发言人的位置。麦克风204可包括可以水平地、垂直地,或组合地排列的一系列分隔的麦克风,这些麦克风中的至少一个可以被指定为参考麦克风。可以预定若干个候选位置,其中,候选位置与每一个麦克风的距离是已知的。由每一个麦克风捕捉到的声信号可以相对于由参考麦克风捕捉到的声信号延迟。此延迟可以部分地是候选源位置和麦克风位置相对于参考麦克风的函数。可以确定与每一候选位置相关联的每个被延迟的信号的信号能量。选择与最高信号能量相关联的候选位置作为最佳估计音频源的实际位置的位置。通过使用最大似然率估计,可以选择平均最优位置作为定位位置。其中使用最大似然率估计的步骤为:根据声音能量衰减模型和最大似然估计法,构造似然函数,使用似然函数计算平均最优位置。音频定位器201还可记录来自被定位发言人的话音的特性,发言的次数和时间,和其它历史数据,并在之后的定位中使用这些历史数据,以便更精确的定位发言人。视频定位器202使用面部检测、运动检测、焦距、肤色检测以及历史数据定位确定视频中的发言人。在音频定位器201作出定位之后,处理器203控制多个摄像机205获取定位的位置的影像,摄像机将获得的影像传送到视频定位器202进行图像分析,进一步根据分析结果调整摄像机205的位置。终端还包括处理器203,处理器203中的发起器2033可创建会议室,判断是否在之前发起过相同的会议,这里的相同指会议成员以及各成员的类型(例如主持人、参与者、旁听者)相同,这可通过记录已发起过的会议,并显示给终端来实现,如果未发起过相同的会议,则终端获得会议信息,例如会议名称、时间、会议成员以及各成员的类型,包括主持人、参与者、旁听者等等,可通过例如终端用户输入获得会议信息;如果发起过相同的会议,则终端选择该相同的会议,并进一步获得除会议成员以及各成员类型之外的其他会议信息,包括会议名称、时间等;终端将这些配置信息发送到视频会议管理器102。处理器203中的编解码器2031对麦克风204获得的音频以及摄像机205获得的视频进行编解码。处理器203中的属性抽取器2032抽取获得的视频流的属性,包括获取视频流的摄像机的位置属性,基于所摄取对象的属性,例如演示者、观众、发言人等。进一步的,处理器203将抽取的视频流的属性添加到相应的视频流中,并对视频流、音频流进行编码,最终将编码数据发送到视频会议调度器101进行调度。二、视频会议管理器102视频会议管理器102包括信息管理器201,配置信息存储器203以及收发器201,其中信息管理器201管理终端的配置信息,将通过收发器201接收的各个终端的配置信息存储在配置信息存储器203中,并在某一终端发起会议时,读取各个参会终端的配置信息,将其发送到视频会议调度器101中,以便视频会议调度器101根据配置信息配置各个参会终端,并按照配置信息中设定的角色向各个终端发送音频/视频。进一步的,信息管理器201可使用例如tinyxml技术记录已发起过的会议的各个终端的配置信息,从而避免每次都重复配置,通过例如tinyxml技术保存每个终端的信息,下次开启相同会议时可直接读取配置文件加载,这样就节约了时间,提高了效率。终端的配置信息包括但不限于:1)终端名称:与终端编码一一对应,唯一标示一台终端。2)终端编号:终端在视频会议管理器102上的注册编号。3)编码模式:有两种输入方式(DVI、HDMI),每种输入方式又分为高清和标清,共四种编码模式。4)解码模式:支持的解码分为一路高清、四路高清、12路标清和16路标清,可以根据终端的类型进行配置。5)终端类型:按照发起会议的终端的指定,分配参会各终端的类型,例如可分为参会方(支持编码和解码)、电视墙(只解码不编码)、直播源(只编码不解码)6)默认编码:默认的编码类型。配置信息存储器203保存上述配置文件信息。在发起会议的终端是第一次发起会议时,需要指定参会各终端的类型,这时发起会议的终端创建会议室,并填写会议信息,例如会议名称、时间、会议成员以及各成员的类型,包括主持人、参与者、旁听者等等,并将这些信息发送到信息管理器201,以发起会议,并将已发起的会议的信息保存在配置信息存储器203中。信息管理器201将获得的配置信息进一步通过收发器201发送到视频会议调度器101,视频会议调度器101依据配置信息以及接收到的视频/音频流完成视频的显示布局,并将处理之后的视频/音频流发送到配置信息中指定的各个终端,以下将详细描述视频会议调度器101的具体结构。三、视频会议调度器101视频会议调度器101包括集成调度器301、编解码器302以及图像处理器303。图像处理器303基于接收到的视频流以及视频流中携带的属性信息重新组合接收的视频图像,例如将带有“发言人”属性的视频流指定到显示设备的中间位置,并突出显示。进一步的,图像处理器303抽取重新布局后的视频流的显示信息,例如该视频流显示的相对位置,视频流中是否包括数字内容、发言人信息等,并将处理后的视频流以及抽取的显示信息发送到编码器302。集成调度器301接收视频会议管理器102发送的终端配置信息,连接各终端,控制编解码器302对视频流信息、视频流显示信息以及音频信息进行编码,之后根据各终端的配置信息发送编码后的信息流。编解码器302对接收的视频/音频流解码,对将要发送到各个终端的视频/音频流以及视频流显示信息编码,并发送信息流。以下结合图5和图6描述本发明的方法流程。图5示出了本视频会议控制系统的方法流程,包括:步骤1:终端发起会议。终端使用发起器创建会议室,判断是否在之前发起过相同的会议,这里的相同指会议成员以及各成员的类型(例如主持人、参与者、旁听者)相同,这可通过记录已发起过的会议,并显示给终端来实现,如果未发起过相同的会议,则终端获得会议信息,例如会议名称、时间、会议成员以及各成员的类型,包括主持人、参与者、旁听者等等,可通过例如终端用户输入会议信息;如果发起过相同的会议,则终端选择该相同的会议,并进一步获得除会议成员以及各成员类型之外的其他会议信息,包括会议名称、时间等;终端将这些配置信息发送到视频会议管理器102;步骤2:视频会议管理器102接收配置信息。视频会议管理器102接收终端发送的配置信息,如果是未发起过的会议,则视频会议管理器102中的信息管理器201使用例如tinyxml技术记录将发起的会议的各个终端的会议参数,从而避免每次都重复配置,保存每个终端的信息,下次开启相同会议时可直接读取配置文件加载,这样就节约了时间,提高了效率。终端的信息包括但不限于:1)终端名称:与终端编码一一对应,唯一标示一台终端。2)终端编号:终端在视频会议管理器102上的注册编号。3)编码模式:有两种输入方式(DVI、HDMI),每种输入方式又分为高清和标清,共四种编码模式。4)解码模式:支持的解码分为一路高清、四路高清、12路标清和16路标清,可以根据终端的类型进行配置。5)终端类型:按照发起会议的终端的指定,分配参会各终端的类型,例如可分为参会方(支持编码和解码)、电视墙(只解码不编码)、直播源(只编码不解码)6)默认编码:默认的编码类型。配置信息存储器203保存上述配置文件信息。如果是已发起过的会议,则视频会议管理器102中的信息管理器201从配置信息存储器203中检索配置文件,获得各个终端的配置信息。步骤3:根据配置信息连接各终端。信息管理器201在成功接收或检索到会议中各个终端的配置信息之后,将配置信息发送到视频会议调度器101,视频会议调度器101根据配置信息连接各终端。步骤4:终端上传视频/音频信息以及视频属性信息到视频会议调度器101。在成功连接各终端之后,根据配置信息中的终端类型从各终端接收信息,例如终端类型为参会方或直播源的,可从其接收视频/音频信息,但终端类型为电视墙的,则不能从其接收信息。其中终端获取视频/音频信息以及视频属性信息的过程,如图6所示,包括:步骤4.1:使用音频和历史数据定位发言人位置。终端包括麦克风204,该麦克风204可为桌式麦克风、吸顶式麦克风,或者是麦克风箱、最好是正交排列的麦克风阵列,用于收集音频。音频定位器201根据获得的音频和历史数据确定发言人的位置。麦克风204可包括可以水平地、垂直地,或组合地排列的一系列分隔的麦克风,这些麦克风中的至少一个可以被指定为参考麦克风。可以预定若干个候选位置,其中,候选位置与每一个麦克风的距离是已知的。由每一个麦克风捕捉到的声信号可以相对于由参考麦克风捕捉到的声信号延迟。此延迟可以部分地是候选源位置和麦克风位置相对于参考麦克风的函数。可以确定与每一候选位置相关联的每个被延迟的信号的信号能量。选择与最高信号能量相关联的候选位置作为最佳估计音频源的实际位置的位置。通过使用最大似然率估计,可以选择平均最优位置作为定位位置。其中使用最大似然率估计的步骤为:根据声音能量衰减模型和最大似然估计法,构造似然函数,使用似然函数计算平均最优位置。音频定位器201还可记录来自被定位发言人的话音的特性,发言的次数和时间,和其它历史数据,并在之后的定位中使用这些历史数据,以便更精确的定位发言人。步骤4.2:控制摄像机取景。终端包括拍摄视频资料的多部摄像机205,这些摄像机205可在音频定位器和视频定位器的控制下作出摇移、俯仰和推拉的动作,从而可调整摄像机的拍摄角度。在终端的音频定位器201定位发言人之后,可控制摄像机205取景定位的位置。步骤4.3:定位准确?视频定位器202取景定位的位置后,将获得的图像使用面部检测、运动检测、焦距、肤色检测以及历史数据定位等图像分析技术确定对视频中的发言人定位是否准确。如果判断结果是定位准确,则继续步骤4.4,否则返回步骤4.2。步骤4.4抽取视频流属性。抽取获得的视频流的属性,这些属性例如获取视频流的摄像机的位置属性,基于所摄取对象的属性,例如演示者、观众、发言人等。进一步的,将抽取的视频流的属性添加到相应的视频流中。步骤4.5:发送编码数据。对视频流、音频流进行编码,最终将编码数据发送到视频会议调度器101进行调度。步骤5:视频会议调度器101生成发送到每一端点的视频流的序列。视频会议调度器101中的图像处理器303基于接收到的视频流以及视频流中携带的属性信息重新组合接收的视频图像,例如将带有“发言人”属性的视频流指定到显示设备的中间位置,并突出显示。进一步的,图像处理器303抽取重新布局后的视频流的显示信息,例如该视频流显示的相对位置,视频流中是否包括数字内容、发言人信息等,并将处理后的视频流以及抽取的显示信息发送到编码器302。集成调度器301接收视频会议管理器102发送的终端配置信息,控制编解码器302对视频流信息、视频流显示信息以及音频信息进行编码,之后根据各终端的配置信息发送编码后的信息流。需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1