一种多画面视讯会议中的画面控制方法、设备及系统的制作方法

文档序号:7852063阅读:246来源:国知局
专利名称:一种多画面视讯会议中的画面控制方法、设备及系统的制作方法
技术领域
本发明涉及视讯会议领域,尤其是涉及一种多画面视讯会议中的画面控制方法、设备及系统。
背景技术
在视讯会议系统中,由于与会会场个数多,且分布各地,为使与会者能与其他会场与会人员进行面对面的直接交流,在同一时间内能看到其他会场的与会人员,普遍采用了多画面的技术,与会者通过观看多画面,可以同时与多个会场的与会人员进行交流。当前视讯会议系统显示多画面的方案为预先设定多画面的模式,如4画面、9画面等,然后将固定的几个会场填入到多画面的子画面中,会议时各会场看到的多画面均为这种预先设定的模式。发明人在实现本发明的过程中发现采用现有技术中这种方案时,子画面中的会场可能一直未发言,而其他发言踊跃的会场却未在多画面中显示,使得视讯会 议达不到预期的效果;此外现有技术中的多画面显示形式固定,无法根据现场情况进行调難
iF. O

发明内容
本发明实施例的目的是提供一种多画面视讯会议中的画面控制方法、设备及系统,以根据现场各会场的情况实时调整子画面从而有效提高会议效果。本发明实施例公开了一种多画面视讯会议的画面控制方法,所述方法包括接收会场的音频数据;根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态;根据各个会场的激活状态从所述多个会场中选择指定会场;将所述指定会场的图像作为子画面填充到多画面中,以对所述多画面进行实时更新。本发明实施例还公开了一种多画面视讯会议的画面控制设备,所述设备包括音频接收单元,用于接收会场的音频数据;语音特征值获取单元,用于根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态;会场筛选单元,用于根据各个会场的激活状态从所述多个会场中选择指定会场;子画面更新单元,用于将所述指定会场的图像作为子画面填充到多画面中,以对所述多画面进行实时更新。本发明实施例还公开了一种多画面视讯会议的画面控制系统,所述系统包括上述设备以及一个或多个会场终端,所述会场终端用于显示经所述设备控制生成的多画面。本发明实施例以时间段为统计单位,通过统计该时间段内的一些特征值来判断某会场是否处于激活状态,并作为参与多画面合成的依据,从而实现了多画面中子画面内容的动态调整,显著提高了会议效果,大大改善了与会者的会议体验。此外,本发明实施例还可以动态调整多画面中子画面的个数及位置,从而也有效的提高了会议效果。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本发明一实施例方法的流程图;图2是本发明一实施例中音视频解码示意图;图3是本发明一实施例中多画面等比切分方式示意图; 图4是本发明一实施例中多画面大小子画面嵌套切分方式示意图;图5是本发明一实施例中多方混音不意图;图6是本发明另一实施例设备的示意图;图7是本发明再一实施例系统的示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图I是本发明一实施例方法的流程图,所述方法包括SlOl :接收会场的音频数据。所述会场可以是一个或多个。在本实施例中,具体可以是MCU (Multipoint Control Unit,多点控制单元)接收各会场的RTP (实时传送协议,Real-time Transport Protocol)码流,并根据对应的音视频协议进行解码处理,RTP包解码后输出为音视频裸码流,参见图2所示,图2中Site表示会场,Site I码流解码后音频数据为AudioData I,视频数据为VideoDatal…Site X码流解码后音频数据为AudioDataX,视频数据为VideoData X。S102 :根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态。要选择哪些会场应该进入到多画面中,首先要有一个评判标准,在本实施例中,这一评判标准就是各个会场的语音特征值。若某一会场的语音特征值满足某种条件,则该会场就可以看为一个激活会场,或称活跃会场,就可以作为进入多画面的一个备选会场了。在本实施例中,可以有多种方式对语音特征值进行定义及评价,下面以举例的方式进行说明。需要指出的是,在本发明其他实施例中,同样还可以有其他多种方式对语音特征值进行定义及评价,对此本发明实施例不做限制。方式一获取相应会场在第一指定时间段内的音频能量值,并将所述音频能量值作为所述语音特征值,若所述音频能量值大于指定的能量阈值,则判定会场处于激活状态。优选的,获取音频能量值可以有以下两种方法
第一种方法是在所述第一指定时间段内选取多个第二指定时间段,在每个第二指定时间段内获取多个样点音频能量数据,根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据,再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。具体来讲,可以以TO (典型的如I分钟)为第一指定时间段,然后获取各会场在TO内的语音特征值。获取的步骤是对于一个会场,在TO中选取多个第二指定时间段Tl (如20ms),即以Tl为能量计算子单元,然后在Tl内进行采样获取该会场的多个音频能量数据,如在一个Tl内进行N次采样,每次采样获取的音频能量数据分别为χι、χ2、…xN,则该会场一个Tl的音频能量数据X·可通过以下公式计算
权利要求
1.一种多画面视讯会议的画面控制方法,其特征在于,所述方法包括 接收会场的音频数据; 根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态; 根据各个会场的激活状态从所述多个会场中选择指定会场; 将所述指定会场的图像作为子画面填充到多画面中,以对所述多画面进行实时更新。
2.根据权利要求I所述的方法,其特征在于,获取相应会场在第一指定时间段内的语音特征值的步骤,具体包括 获取相应会场在第一指定时间段内的音频能量值,并将所述音频能量值作为所述语音特征值,若所述音频能量值大于指定的能量阈值,则判定会场处于激活状态。·
3.根据权利要求2所述的方法,其特征在于,获取相应会场在第一指定时间段内的音频能量值的步骤,具体包括 在所述第一指定时间段内选取多个第二指定时间段,在每个第二指定时间段内获取多个样点音频能量数据,根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据,再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。
4.根据权利要求2所述的方法,其特征在于,获取相应会场在第一指定时间段内的音频能量值的步骤,具体包括 在所述第一指定时间段内选取多个第二指定时间段,再在每个第二指定时间段内选取多个第三指定时间段;在每个第三指定时间段内获取多个样点音频能量数据,根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据;再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据;最后将每个第二指定时间段的音频能量数据进行加权处理后相加,将结果作为所述音频能量值;其中所述加权处理的规则是距当前时刻越近则权重越大。
5.根据权利要求I所述的方法,其特征在于,获取相应会场在第一指定时间段内的语音特征值的步骤,具体包括 统计相应会场在所述第一指定时间段内处于连续语音态的时长,并将所述时长作为语音特征值,若所述时长大于指定的时长阈值,则判定会场处于激活状态;或者, 获取相应会场在第一指定时间段内的音频能量值和连续语音态时长,并将所述音频能量值和所述时长的组合作为语音特征值,若所述组合满足指定规则,则判定会场处于激活状态。
6.根据权利要求I所述的方法,其特征在于,根据各个会场的激活状态从所述多个会场中选择指定会场的步骤,具体包括 将当前处于激活状态的会场作为指定会场;或者, 将上次处于激活状态的会场和当前处于激活状态的会场都作为指定会场;或者, 将当前处于激活状态的会场,以及上次处于激活状态且语音特征值大于当前处于激活状态的会场的语音特征值最小值的会场,作为指定会场。
7.根据权利要求I所述的方法,其特征在于,将所述指定会场的图像作为子画面填充到多画面中的步骤,具体包括 根据所述指定会场的数量,采用等比切分的方式将所述多画面进行切分,并将所述指定会场按照指定顺序填入切分后得到的子画面中;或者, 根据所述指定会场的数量,采用大画面嵌套小画面的方式将所述多画面进行切分,并将所述指定会场按照指定顺序填入切分后得到的子画面中。
8.根据权利要求7所述的方法,其特征在于,所述指定顺序具体为 语音特征值较大的会场填入到较大的子画面中;或者, 优先填入在所述多画面中的历史位置的顺序。
9.根据权利要求I所述的方法,其特征在于,根据各个会场的激活状态从所述多个会场中选择指定会场的步骤之后,还包括 从所述激活会场中选择指定数量的会场进行多方混音,和/或,按照不向会场输出本会场声音的规则进行多方混音。
10.一种多画面视讯会议的画面控制设备,其特征在于,所述设备包括 音频接收单元,用于接收会场的音频数据; 语音特征值获取单元,用于根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态; 会场筛选单元,用于根据各个会场的激活状态从所述多个会场中选择指定会场; 子画面更新单元,用于将所述指定会场的图像作为子画面填充到多画面中,以对所述多画面进行实时更新。
11.根据权利要求10所述的设备,其特征在于,所述语音特征值获取单元具体包括 音频能量值获取子单元,用于获取相应会场在第一指定时间段内的音频能量值,并将所述音频能量值作为所述语音特征值,若所述音频能量值大于指定的能量阈值,则判定会场处于激活状态;或者, 连续语音态时长获取子单元,用于统计相应会场在所述第一指定时间段内处于连续语音态的时长,并将所述时长作为语音特征值,若所述时长大于指定的时长阈值,则判断会场处于激活状态。
12.根据权利要求11所述的设备,其特征在于,所述音频能量值获取子单元具体包括 第一采样子单元,用于在所述第一指定时间段内选取多个第二指定时间段,在每个第二指定时间段内获取多个样点音频能量数据; 第一计算子单元,用于根据所述多个样点音频能量数据的均方根值获取第二时间段的音频能量数据,再将所述多个第二指定时间段的音频能量数据的均值作为所述音频能量值。
13.根据权利要求11所述的设备,其特征在于,所述音频能量值获取子单元具体包括 第二采样子单元,用于在所述第一指定时间段内选取多个第二指定时间段,再在每个第二指定时间段内选取多个第三指定时间段;在每个第三指定时间段内获取多个样点音频能量数据; 第二计算子单元,用于根据所述多个样点音频能量数据的均方根值获取第三时间段的音频能量数据;再根据所述多个第三指定时间段的音频能量数据的均值获取每个第二指定时间段的音频能量数据; 加权处理子单元,用于将每个第二指定时间段的音频能量数据进行加权处理后相加,将结果作为所述音频能量值;其中所述加权处理的规则是距当前时刻越近则权重越大。
14.一种多画面视讯会议的画面控制系统,其特征在于,所述系统包括权利要求1(Γ13任一项所述的设备以及一个或多个会场终端,所述会场终端用于显示经所述设备控制生成的多画面。
全文摘要
本发明实施例公开了一种多画面视讯会议的画面控制方法、设备及系统,所述方法包括接收会场的音频数据;根据所述会场中每个会场的音频数据,实时获取相应会场在第一指定时间段内的语音特征值,所述语音特征值用于表征会场的激活状态;根据各个会场的激活状态从所述多个会场中选择指定会场;将所述指定会场的图像作为子画面填充到多画面中,以对所述多画面进行实时更新。通过统计时间段内的特征值来判断某会场是否处于激活状态,并作为参与多画面合成的依据,实现了多画面中子画面内容的动态调整,显著提高了会议效果,改善了与会者的会议体验。此外还可以动态调整多画面中子画面的个数及位置,从而也有效的提高了会议效果。
文档编号H04N7/15GK102857732SQ20121016663
公开日2013年1月2日 申请日期2012年5月25日 优先权日2012年5月25日
发明者詹五洲, 韦海斌, 吴姣黎 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1