调节视频会议系统中的空间一致性的制作方法

文档序号:11637400阅读:128来源:国知局
调节视频会议系统中的空间一致性的制造方法与工艺

相关申请的交叉引用

本申请要求2014年11月19日提交的中国专利申请no.201410670297.2和2014年12月2日提交的美国临时专利申请no.62/086,235的优先权,该申请的内容通过引用被整体结合于此。

本文公开的示例实施例一般涉及音频内容处理,更特别地,涉及用于调节特别是在视频会议系统中的空间一致性的方法和系统。



背景技术:

当实施视频会议时,视觉信号与听觉信号一起被生成且从呼叫的一端传输至其他(一个或多个)端,使得当一个或多个与会者正在发言时,在其他(一个或多个)端产生的声音应当被同步化且同时播放。有可以存在于视频会议中的在音频和视频之间的两种类型的差异:时间上的差异和空间一致性上的差异。音频和视频流之间的时间上的差异导致同步问题,例如从发言的与会者传出的声带话语(vocalutterance)(例如语音)可能不与每个与会者的嘴型同步。另一方面,空间一致性描述正在被播放的声场如何与正在显示的视觉场景相匹配。可替代地,空间一致性可以定义听觉场景和视觉场景之间校准的程度。本文描述的示例实施例目的在于调节视频会议中的空间一致性,使得听觉场景与视觉场景彼此匹配,从而为多端的与会者提供身临其境的视频会议体验。

如果音频信号是在大多数现存的视频会议系统中广泛采用的单声道格式,则用户不需要关注上述空间一致性问题。但是,如果至少两个声道被采用(例如立体声)则空间一致性可以发生。现今,声音可以被多于两个麦克风所采集,这将以诸如5.1或7.1环绕格式之类的多声道格式进行传输,并被(一个或多个)终端用户的多个换能器表现及播放。在通常的会议环境中,多个与会者围绕用于采集其语音的设备并且每个与会者可以被视为单个音频对象,其在发言时产生一系列音频信号。

如在本文中使用的,术语“音频对象”指的是在声场中存在限定时间期间的个体音频元素。音频对象可以是动态或静态的。例如,与会者可以围绕音频采集设备行走,且相应的音频对象的位置也相应地改变。

对于视频会议和各种其它涉及空间一致性问题的应用而言,不一致的听觉-视觉表现导致不自然的感受,这可能导致会议体验降低。一般而言,小于5°的差异可以被视为可接受的,因为这样的角度差异对于大多数用户而言并不明显。如果角度差异多于20°,大多数用户都会显著地觉得不舒服。

有鉴于此,本领域有需要引入调节听觉场景以与视觉场景校准的方案,或者是调节视觉场景以与听觉场景校准的方案。



技术实现要素:

为了解决前述和其它潜在的问题,本文公开的示例实施例提出了用于调节视频会议系统中的空间一致性的方法和系统。

在一个方面,本文公开的示例实施例提供了用于调节视频会议中的空间一致性的方法。该方法包括这样的步骤:将由视频端点设备采集的视觉场景展开为至少一个直线场景。该视频端点设备被配置成以全向方式采集视觉场景。附加步骤包括检测至少一个直线场景与听觉场景之间的空间一致性,该听觉场景由相对于视频端点设备定位的音频端点设备所采集。该空间一致性为听觉场景与至少一个直线场景之间校准的程度并且响应于所检测的空间一致性低于阈值而调节空间一致性。关于该方面的实施例进一步包括相应的计算机程序产品。

在另一个方面,本文公开的示例实施例提供了用于调节视频会议中的空间一致性的系统。该系统包括:被配置成以全向方式采集视觉场景的视频端点设备、被配置成采集听觉场景的音频端点设备,该音频端点设备相对于视频端点设备被定位、被配置成将所采集的视觉场景展开为至少一个直线场景的展开单元、被配置成检测至少一个直线场景与听觉视觉场景之间的空间一致性的空间一致性检测单元,空间一致性为听觉场景与视觉场景之间校准的程度;以及被配置成响应于所检测的空间一致性低于该阈值而调节空间一致性的空间一致性调节单元。

通过以下的描述,将要理解的是,根据本文公开的示例实施例,空间一致性可以响应于听觉场景与从全向视觉场景获得的直线场景之间的任何差异而被调节。相对于视觉场景所调节的听觉场景或者相对于听觉场景所调节的视觉场景被多个换能器(包括扬声器、耳机等)以及至少一个显示器自然地呈现。本发明实现了以三维音频呈现的视频会议。本文公开的示例实施例所实现的其它优点将通过以下描述而变得清楚。

附图说明

通过参照附图的以下详细描述,示例实施例的上述和其它目的、特征和优点将变得更容易理解。在附图中,数个示例实施例将以示例以及非限制性的方式进行说明,其中:

图1图示了根据示例实施例的音频端点设备的示意图;

图2图示了用于图1中所示的音频端点设备的示例坐标系;

图3图示了根据示例实施例的由视频端点设备所采集的全向视觉场景;

图4图示了根据示例实施例的用于调节视频会议中的空间一致性的方法的流程图;

图5图示了根据示例实施例的从所采集的全向视觉场景展开的单个直线场景;

图6图示了根据示例实施例的从所采集的全向视觉场景展开的两个直线场景;

图7图示了根据示例实施例的用于检测空间一致性的方法的流程图;

图8图示了根据示例实施例的用于调节视频会议中的空间一致性的系统的框图;以及

图9图示了适于实施实施例的示例计算机系统的框图。

在全部附图中,相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对示例实施例的原理进行说明。应当理解,这些实施例的描述仅仅是使本领域技术人员能够更好地理解并进一步实施这些实施例,而不意在以任何方式限制本发明的范围。

本文公开的示例实施例涉及包含在视频会议系统中的技术。为了使得视频会议中的音频信号以三维(3d)呈现,必须有至少两方加入会议,确立有效的会话。双方可以被命名为呼叫方和被呼叫方。在一个实施例中,呼叫方包括至少一个音频端点设备和一个视频端点设备。音频端点设备被适配为采集听觉场景,而视频端点设备被适配为采集视觉场景。所采集的听觉场景和所采集的视觉场景可以被传输至被呼叫方,使得所采集的听觉场景在被呼叫方被多个换能器播放并且所采集的听觉场景被至少一个屏幕显示。这样的换能器可以具有许多形式。例如,它们可以被构建作为置于主屏幕下方的声音条、具有许多分布在被呼叫方的被呼叫者空间中的扬声器的多声道扬声器系统、在被呼叫方的与会者的对应的个人电脑(诸如笔记本电脑)上的立体声扬声器、或者佩戴在与会者头上的耳机或头戴式耳机。显示屏可以是悬挂在墙上的大型显示器或者多个在与会者的个人设备上的小型显示器。

在被呼叫方,可以包括用于采集听觉场景的音频端点设备以及用于采集视觉场景的视频端点设备,所采集的听觉场景和视觉场景各自将在呼叫方被播放及观看。然而,在该特定实施例中,应当注意的是在被呼叫方的端点设备是可选的,并且一旦在呼叫方提供至少一个音频端点设备与至少一个视频端点设备,视频会议或会话就可以被建立。在其它实施例中,例如,在呼叫方并不提供任何端点设备,但是在被呼叫方提供至少一个音频端点设备与至少一个视频端点设备。而且,呼叫方和被呼叫方可以互换,这取决于谁发起了该视频会议。

图1图示了根据示例实施例的音频端点设备100的示意图;一般而言,音频端点设备100包含至少两个麦克风,每个麦克风用于采集或收集向着它的声压。在一个实施例中,如图1所示,在单个音频端点设备100中设置了面对三个不同的方向的三个心形麦克风101、102、103。根据该特定实施例的每个音频端点设备100具有前方向,其被用来促进所采集的音频数据的转换。在如图1所示的该特定实施例中,由箭头所示的前方向相对于该三个麦克风被固定。可以设置指向第一方向的右侧麦克风101、指向第二方向的背侧麦克风102、以及指向第三方向的左侧麦克风103。在该特定实施例中,第一方向相对于前方向被顺时针旋转大约60度而得到,第二方向相对于前方向被顺时针旋转大约180度而得到,第三方向相对于前方向被逆时针旋转大约60度而得到。

应当注意的是,尽管在一个音频端点设备中可能存在多于三个麦克风,三个麦克风在多数情况下已经可以被用来在空间中采集到身临其境的听觉场景。在如图1所图示的麦克风的配置中,前方向被例如预设定并相对于麦克风被固定,以便于将从三个麦克风所采集的音频信号转换为“wxy”b格式。针对如图1所图示的在音频端点设备100中使用三个麦克风101、102和103的示例,音频端点设备100可以通过左侧麦克风103、右侧麦克风101以及背侧麦克风102生成lrs信号,其中l表示由左侧麦克风103采集及生成的音频信号,r表示由右侧麦克风101采集及生成的音频信号,以及s表示由背侧麦克风102采集及生成的音频信号。在一个实施例中,lrs信号可以通过以下等式被转换为wxy信号:

在等式(1)中,w表示从所有的三个麦克风101、102、103相等加权的总信号,这意味着其可以被用作在音频信号内不包括位置或方向信息的单声道输出,而x和y表示音频对象在如图2所示的x-y坐标系中各自沿x轴和y轴的位置。在图2所示的示例中,x轴由音频端点设备100的前方向所定义,并且y轴相对于x轴逆时针旋转90度而得到。

这样的坐标系可以从x轴逆时针被旋转任意角度θ,并且新的wxy声场可以通过以下等式(2)而获得:

通过使用等式(2),音频端点设备100的旋转可以被补偿。

继续考虑环绕声场被生成为b格式信号的示例。将易于理解的是,一旦b格式信号被生成,w、x和y通道可以被转换为适于空间表现的各种格式。环绕立体声(ambisonics)的解码和重现取决于用于空间表现的扬声器系统。一般而言,从环绕立体声信号向一组扬声器信号的解码基于以下假设,如果所解码的扬声器信号被重播,在扬声器阵列的几何中心处录制的“虚拟”环绕立体声信号应当与用于解码的环绕立体声信号相同。这可以被表示为:

c·l=b(3)

其中l={l1,l2,...,ln}t表示一组扬声器信号,b={w,x,y,z}t表示“虚拟”环绕立体声信号,其假设与用于解码的输入环绕立体声信号相同,并且c是已知作为由扬声器阵列的几何定义(例如每个扬声器的方位、仰角)所限定的“重新编码”矩阵。例如,在一个示例场景中设置方形扬声器阵列,其中扬声器被水平地放置在方位{45°,-45°,135°,-135°}以及仰角{0°,0°,0°,0°},这将c定义为:

基于此,扬声器信号可以被导出为:

l=d·b(5)

其中d表示通常被定义为c的伪逆矩阵的解码矩阵。

根据一些实施例,在双声道表现中,音频通过一对耳机或头戴式耳机被重播。b格式至双声道的转换可以通过相加“虚拟”扬声器阵列馈送而大致实现,每一个被头部相关传递函数(hrtf)匹配扬声器位置而滤波。在空间聆听中,方向性的声音源行经两个不同的传播路径以各自到达左耳和右耳。这导致了两耳进入信号之间的到达时间和强度的差别,这随后被人类听觉系统利用以实现本地聆听。这两个传播路径可以通过一对依据方向的声学滤波器很好地建模,该滤波器被称为头部相关传递函数。例如,假设声音源s位于方向耳进入信号sleft和sright可以被建模为:

其中表示方向的hrtf。在实践中,给定方向的hrtf可以通过插入对象(或者是人或者是假人头)的耳朵中的探针麦克风以从置于该方向的脉冲(或已知的刺激)拾得响应。

这些hrtf测量可以被用来从单声道源合成虚拟耳进入信号。通过利用对应于某方向的一对hrtf对该源进行滤波并且经由耳机或头戴式耳机向听众呈现产生的左信号和右信号,具有在所需的方向空间化的虚拟声音源的声场可以被仿真。使用如上所述的四个扬声器阵列,因而可以将w、x和y通道转换为如下的双声道信号:

其中hleft,n表示从第n个扬声器到左耳的传递函数,并且hright,n表示从第n个扬声器到右耳的传递函数。这可以被延伸至更多扬声器的情况:

其中n表示扬声器的总数量。

将要理解的是,当声场通过扬声器阵列或耳机被表现时,以后要引入的更复杂的声场处理根据前述的解码方法而构建。

在一个实施例中,视频端点设备可以是全向视频摄像机,其能够采集可以由图3所图示的全向视觉场景。视频端点设备可以位于音频端点设备附近。在一个特定实施例中,端点设备位于音频端点设备之上。一般而言,根据示例实施例的视频端点设备相对于音频端点设备被固定定位或直接被固定至音频端点设备上,这是有利的,因为视频采集设备和音频采集设备之间的关系已知作为先验知识。这排除了用于在建立会议的一开始的空间一致性的校正或校准过程。而且,设备的任何移动(诸如旋转)将不会改变两个设备之间的关系。如由图3可见,通常的全向摄像机可以采集“圆环形”图像或场景,使得没有采集图像的具有一定直径的圆形位于中心。全向摄像机对于采集360°影像而言可以是有用的,这意味着空间中的所有与会者可以被采集在一个影像中。

首先参考图4,其示出了根据示例实施例的用于调节视频会议中的空间一致性的方法400的流程图。

在一个实施例中,诸如图1所示的音频端点设备相对于视频端点设备被定位。在一方的通常的会议设置中,可以提供悬挂在墙壁上的屏幕以及固定在音频端点设备之上或附近的全向视频摄像机。同时,一些与会者于屏幕前方就座,使得全向视频摄像机位于所有与会者前方。这样的在一方的典型设置可以被视频端点设备所采集,作为结果,所采集的视觉场景由图3所图示。

在图3中,五个与会者301、302、303、304和305围绕桌子就座,在该桌子上放置有音频端点设备。在该特定设置中,视频端点设备306a被整体放置于音频端点设备306b之上,这意味着视频端点306a将与音频端点设备306b一起移动。

然而应当注意的是,在一个示例实施例中,视频端点设备306a可以以可拆卸方式相对于音频端点设备306b被定位(未示出)。在一些其它实施例中,视频端点设备306a可以以一定距离相对于音频端点设备306b被定位(未示出)。示例实施例并不旨在限制视频端点设备306a应当被如何相对于音频端点设备306b而固定放置。

在步骤s401,由视频端点设备所采集的视觉场景被展开为至少一个直线场景。在实际使用中,与由图3所示的原始采集图像相比,直线场景直觉和自然得多。不论最终生成多少个直线场景,指派所采集的全向视觉场景的标称原方向可以是有用的。如图3所示,仅通过举例的方式,从“圆环形”图像的中心向图像的底部延伸的方向可以被指派作为所采集的视觉场景的标称原方向。然而应当注意的是,任何方向可以被指派作为标称原方向,并且该指派步骤是便于计算的目的。

此外,“圆环形”图像的中心可以被假设为(cx,cy),而(0,0)通常指的是所采集的全向视觉场景的左上角(例如,图3的左上角)。该“圆形环”图像由半径为r1的内圆和半径为r2的外圆构成。因此,产生的展开图像的高度可以通过hd=r2-r1而计算,并且展开的直线场景的宽度可以被表示为:

wd=2πr,r1≤r≤r2(9)

将被本领域技术人员理解的是,如果展开的场景所需的宽度是2πr2,需要对原图像半径小于r2的部分进行上采样或插值。相似地,如果所需的宽度为2πr1,需要对原图像半径大于r1的部分进行降采样或抽取。在一个实施例中,为了对内圆执行更少插值(以上采样)以及对外圆执行更少抽取(以降采样),宽度被假设为:

wd=2π(r1+r2)/2(10)

假设(x,y)表示展开的直线场景的像素位置,并且(xs,ys)表示原始全向视觉场景的像素位置,其中(0,0)指的是每个场景的左上角,而x轴沿着如图3所示的标称原方向,并且y轴从x轴逆时针旋转90度而得到。因此,当所采集的“圆环形”视觉场景被展开为如图5所示的单个直线场景时,所采集的全向视觉场景以及展开的单个直线场景可以通过以下等式(11)至(14)进行映射:

r=(y/hd)(r2-r1)+r1(11)

θ=2π(x/wd)(12)

xs=cx+r·cos(θ)(13)

ys=cy+r·sin(θ)(14)

其中θ表示从在全向视觉场景中的标称原方向逆时针旋转的角度,这意味着单个直线场景从标称原方向分割开。

一旦展开的单个直线场景的像素位置与原始全向视觉场景的像素位置形成映射,可以通过已知的诸如opencv提供的重映射方法之类的图像处理方法等进行该映射。

此外,视觉场景旋转可以通过在执行展开函数之前添加等式(12)中的偏移角度而被实现:

θ=2π(x/wd)+θ0(15)

其中θ0表示从标称原方向的偏移角度值。

旋转原始圆形图像对应于在展开期间改变直线场景的开始位置,以后将理解的是这可以被用来调节视觉场景以实现空间一致性。

在可替代实施例中,所采集的全向视觉场景可以被展开为如图6所示的两个直线场景,每一个直线场景表现所采集的视觉场景的180度。该映射过程可以通过对等式(12)至(15)的一些修改而简单地实现。可能需要在映射期间的图像翻转运算以便于生成两个直线场景,使得图6的顶部场景对应于图3的所采集的视觉场景的左半球,并且图6的底部场景对应于图3的所采集的视觉场景的右半球。这意味着两个直线场景从图3所示的标称原方向以及从关于标称原方向的相对方向分割开,并且展开的顶部场景的右端与展开的底部场景的右端接续,而展开的顶部场景的左端与展开的底部场景的左端接续。

在步骤s402,直线场景与所采集的听觉场景之间的空间一致性被检测,并且该检测为实时检测。空间一致性可以被不同的指标所表示。例如,空间一致性可以被角度所表示。在一个示例实施例中,考虑到音频对象或与会者的位置可以与由摄像机定义的空间中的直线场景进行比较,空间一致性可以被距离或百分数所表示。该特定步骤s402可以在整个视频会议通话期间被实时进行,包括在刚开始视频会议通话以后的空间一致性的初始检测。

在步骤s403,所检测的空间一致性与预定(predefined)的阈值进行比较。这可以特别是当利用等式(15)来操作全向视觉场景的旋转时发生,使得例如对音频对象的分割可以得以避免。该情景可以通过图5和图6进行图解,在其中,音频对象501和601被分割为两部分。在特定示例中,如上所述,空间一致性被表示为角度,预定的阈值可以是10°,意味着所采集的听觉场景与直线场景相比较偏移了10°。其结果是,大于10°的角度上的差异将会触发步骤s404的调节,其将在以下进行描述。

在步骤s404,响应于例如所采集的听觉场景与直线场景之间的差异超过预定阈值或者空间一致性低于如上所述的阈值,对空间一致性进行调节。应当注意的是,差异或空间一致性可以通过将听觉场景与至少一个直线场景比较或与所采集的全向视觉场景比较而获得。

在一个实施例中,音频端点设备和视频端点设备被设置为彼此固定。两个设备一起的任何运动都可能触发展开处理,以及检测,比较,并且如果差异超出了预定阈值则对空间一致性进行调节。

通过使用诸如嵌入音频端点设备或视频端点设备的陀螺仪之类的传感器以用于检测运动,音频端点设备的任何转动可以立即被检测,使得空间一致性的实时检测成为可能。

参照图7,其示出了根据示例实施例的用于检测空间一致性的方法700的流程图。

除了如上所述的需要利用某些先验知识(例如,由嵌入音频端点设备或视频端点设备中的传感器得到的定向信息)的方法之外,当这样的信息不可用时,基于分析所采集的视觉和/或听觉场景的盲测方法可以是有用的。

在步骤s701,可以根据所采集的听觉场景执行听觉场景分析(asa)以便识别音频对象的听觉分布,其中听觉分布为音频对象相对于音频端点设备的分布。例如,通过参照图3,与会者301、302、303、304、305和306围绕音频端点设备,并因而组成了空间中的听觉分布。

在一个实施例中,asa可以通过多个技术而实现。例如,针对每个音频对象可以执行到达方向(doa)分析。一些本领域常见的和已知的doa方法包括广义互相关相位变换(gcc-phat)、转向响应功率相位变换(srp-phat)、多信号分类(music)等。本领域已知的大部分doa方法已经能够分析音频对象的分布,例如视频会议中的与会者的分布。asa还可以通过估计音频对象的深度/距离、信号水平、以及扩散性而执行。音频对象的扩散性表示从特定源到达麦克风位置的声学信号回响的程度有多大。此外或可替代地,发言者识别或发言者日记(diarization)方法可以被用来进一步改进asa。发言者识别系统采用频谱分析和模式匹配以针对(against)现存的发言者模型识别与会者身份。发言者日记系统可以划分及聚集历史会议记录,使得每个语音分段指派有与会者身份。此外或可替代地,会话分析可以被执行以检查与会者之间的互动模式,例如音频对象之间的会话互动。以最简易的形式,一个或多个主要或关键的音频对象可以通过检查每个与会者的发言长度被识别。知道哪个与会者说话最多不仅有助于更好地校准音频对象,还使得当不能获得完整的空间一致性时做出最佳的权衡。即,至少可以确保关键音频对象具有满意的一致性。

应当注意的是,大部分已知asa技术能够识别音频对象的听觉分布,因而在本文中将不对这些技术做出详细阐述。

在步骤s702,可以根据直线场景执行视觉场景分析(vsa)以便识别音频对象的视觉分布,其中视觉分布为音频对象相对于视频端点设备的分布。例如,参照图5,与会者501、502、503、504和505被分布在单个直线场景中,并因而组成了相对于视频端点设备的视觉分布。

在一个实施例中,vsa也可以通过多个技术而实现。大多数技术可以涉及对象检测和分类。在本上下文中,作为能够发言的与会者的视频和音频对象是主要考量并且要被检测。例如,通过分析所采集的视觉场景,本领域已知的脸部检测/识别算法对于识别对象在空间中的位置可能是有用的。此外,感兴趣区域(roi)分析或其它对象识别方法可以可选地被用来识别目标视频对象的边界,例如,当脸部不能被简单地检测到时识别肩膀和手臂。一旦与会者的脸部在所采集的视觉场景中被发现,针对脸部的roi可以被创建并且随后可以对脸部可选地应用唇部检测,因为唇部动作是将与会者与音频对象相关联并检查与会者是否在说话的有用线索。

应当注意的是,大部分已知vsa技术能够识别音频对象的视觉分布,因而在本文中将不对这些技术做出详细阐述。

在一个实施例中,与会者的身份可以被识别,这对于将音频与视频信号匹配以便于实现一致性是有用的。在步骤s703,空间一致性可以依据产生的asa和/或vsa被检测。

一旦获得了空间一致性,可以在步骤s404执行空间一致性的调节。空间一致性的调节可以包括听觉场景调节和视觉场景调节中的一个或两个。如上所述,如果所检测的空间一致性低于某阈值(步骤s403),该调节可以被触发。以上的示例使用角度值来表示视觉场景与听觉场景匹配或不匹配。然而,还可以使用更复杂的表示法来表示匹配或不匹配。例如,可以生成仿真的三维空间以使得一个或多个与会者映射在空间中,每个与会者具有对应于他/她在声场中的感知位置的值。可以生成另外的仿真的三维空间以使得相同的与会者映射在空间中,每个与会者具有对应于他/她听觉位置的值。两个生成的空间可以被比较以生成空间一致性或被解译以便于促进空间一致性的调节。

可以使用多个方法来调节空间一致性。在一个实施例中,如上所述,等式(2)可以被用来将所采集的听觉场景旋转任意优选的角度。旋转可以是调节空间一致性简单却有效的方式,例如,响应于音频端点设备被旋转而进行的旋转。相似地,当在视频会议通话期间音频端点设备被移位时,所采集的听觉场景可以相对于音频端点设备被平移。

在另外的实施例中,所采集的听觉场景可以相对于由视频端点设备所定义的轴线被镜像。特别地,可以执行声场镜像操作,使得音频对象相对于诸如标称原方向之类的轴线被反射(θ是音频对象与用于反射的轴线之间的角度)。听觉场景的镜像可以通过以下等式(16)而执行,其将被本领域技术人员理解为欧几里得几何中的反射运算:

该镜像处理对于当如图6所示般生成两个直线场景时调节听觉场景可能是有用的,在图6中,底部场景如上所述般被翻转。在生成两个直线场景的情形中,听觉场景可以有意地被缩小或压缩,因为如图6所示的图像或场景的宽度仅为由图5所示的单个直线场景的宽度的一半。

有鉴于此,所采集的听觉场景可能需要被缩放、移位、或压缩以与所采集的视觉场景相匹配。移动声场或听觉场景包括使用欧几里得几何的项的平移运算。与缩放或压缩声场一起,需要以上所述的b格式解码处理的改变。

多个示例技术在以下进行描述:将wxy的b格式转换为双声道立体声信号(所谓c格式)的uhj降混;或者将完全360°环绕声场“压缩”为更小声场的压缩。例如,声场可以被压缩为60°立体声声场,有如声场通过一对在用户的前方的立体声扬声器被表现,与由图5所示的直线场景相匹配。可替代地,可以利用正面耳机虚拟化,环绕用户的360°声场通过该虚拟化被重新映射至用户前方的垂直平面中的封闭形状,例如圆形或椭圆形。

实现空间一致性并不被限于对声场进行处理。将理解的是,除了听觉场景调节之外,有时可以调节视觉场景以用于改进空间一致性。例如,视觉场景可以被旋转,或者直线场景可以被处理(诸如裁切、平移等),以用于将所采集的视觉场景与所采集的听觉场景校准。

在一个实施例中,如在步骤s402中所述的空间一致性的检测可以被现场执行,这意味着所采集的听觉场景和视觉场景处于同一地点并且相应的信号在被发送至被呼叫方之前在呼叫方被生成。可替代地,空间一致性可以在呼叫方与被呼叫方之间进行传输的服务器处被检测,使得从呼叫方仅发送所采集的听觉数据和视觉数据。在服务器处执行检测将会减小对呼叫方的计算需求。

在一个实施例中,如步骤s404所描述的空间一致性的调节可以在呼叫方与被呼叫方之间进行传输的服务器处被执行。可替代地,空间一致性可以在传输已经完成之后在被呼叫方被调节。在服务器处执行调节将会减小对被呼叫方的计算需求。

当生成单个直线场景时,如在另一方所见到的生成的场景将会是视觉上自然的,因为音频对象(诸如图5所示的与会者501、502、503、504和505)被相继显示。这可以在当与会者通常围绕视频端点设备静止就座时被采用。然而,例如,当与会者从单个直线场景的左端向左移动时,他/她将会逐渐从该单个直线场景的右端出现,这种巨大的视觉变化不是优选的。此外,听觉场景可以不与最左边的与会者的移动一起同时被调节,导致与会者出现在最右端但是他/她的语音却仍然从最左端传出。

当生成两个直线场景时,在另一方处所见到的生成的场景在水平方向上将会是与单个直线模式相比的仅仅一半大小。在一些示例中,顶部场景和底部场景的右端是接续的,而顶部场景和底部场景的左端也是接续的。在该模式下,音频对象(诸如图6中的与会者601、602、603、604和605)的移动将不会从一端跳到另一端,这使得音频转换尽可能地平滑。

当执行所采集的视觉场景的展开以及空间一致性的调节时,可以预设规则以便于避免某些情景或者强调某些特定的对象。仅以示例的方式举例,一种规则可以是任何与会者都不应当被分割或分开为两部分。

可替代地,也可以生成多于两个直线场景。此外,诸如白板之类的视觉对象也可以被检测并被剪裁为用于强调显示写在白板上的内容的独立场景。在可选的示例中,视觉对象将被检测并且被剪裁以用于生成多个独立的场景,每个场景均与听觉场景的一部分相匹配,使得音频对象对应于各自的视觉对象。

图8示出了根据所示的一个示例实施例的用于调节视频会议中的空间一致性的系统800的框图。如图所示,系统800包括:被配置成采集听觉场景的音频端点设备801;被配置成以全向方式采集视觉场景的视频端点设备802;被配置成将所采集的视觉场景展开为至少一个直线场景的展开单元803、被配置成检测至少一个直线场景与所采集的听觉场景之间的空间一致性的空间一致性检测单元804、被配置成将所检测的空间一致性与预定阈值比较的空间一致性比较单元805;以及被配置成响应于所检测的空间一致性低于预定阈值而基于所检测的空间一致性调节所采集的听觉场景的听觉场景调节单元806。

在一些实施例中,展开单元803可以包括被配置成指派所采集的视觉场景的标称原方向的标称原方向指派单元;以及被配置成将所采集的视觉场景展开为从标称原方向分割的一个直线场景的分割单元。

在一些实施例中,展开单元803可以包括被配置成指派所采集的视觉场景的标称原方向的标称原方向指派单元;以及被配置成将所采集的视觉场景展开为从标称原方向以及从关于标称原方向相对的方向分割的两个直线场景的分割单元。

在一些实施例中,空间一致性检测单元804可以包括被配置成基于所采集的听觉场景执行听觉场景分析以便于识别音频对象的听觉分布的听觉场景分析单元,听觉分布为音频对象相对于音频端点设备801的分布;被配置成基于直线场景执行视觉场景分析以便于识别音频对象的视觉分布的视觉场景分析单元,视觉分布为音频对象相对于视频端点设备802的分布;以及被配置成根据听觉场景分析以及视觉场景分析检测空间一致性的空间一致性检测单元。在这些实施例中,听觉场景分析单元可以进一步包括以下中的至少一个:被配置成分析音频对象的到达方向的doa分析单元、被配置成分析音频对象的深度的深度分析单元、被配置成分析关键音频对象的关键对象分析单元、以及被配置成分析音频对象之间的会话互动的会话分析单元。在这些实施例中,视觉场景分析单元可以进一步包括以下中的至少一个:被配置成执行针对音频对象的脸部检测或识别的脸部分析单元、被配置成分析针对所采集的视觉场景或直线场景的感兴趣区域的区域分析单元;以及被配置成执行针对音频对象的唇部检测的唇部分析单元。

在一些实施例中,听觉场景调节单元806可以包括以下中的至少一个:被配置成旋转所采集的听觉场景的听觉场景旋转单元、被配置成相对于由视频端点设备定义的轴线镜像所采集的听觉场景的听觉场景镜像单元、被配置成平移所采集的听觉场景的听觉场景平移单元、被配置为缩放所采集的听觉场景的听觉场景缩放单元以及被配置成旋转所采集的视觉场景的视觉场景旋转单元。

在一些实施例中,空间一致性可以被现场检测或在服务器处被检测。在一些实施例中,所采集的听觉场景可以在服务器处被调节或在视频会议的接收端处被调节。

为了清楚起见,系统800的一些可选部件在图8中并未示出。然而应当理解的是,如上述参照图1至7所描述的特征均适用于系统800。此外,系统800的部件可以是硬件模块或软件单元模块。例如,在一些实施例中,系统800可以部分地或完全地以软件/或固件实现,例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地,系统800可以部分地或完全地基于硬件实现,例如作为集成电路(ic)、应用专用集成电路(asic)、片上系统(soc)、场可编程门阵列(fpga)等。本发明的范围并不局限于该方面。

图9示出了适于实施本发明的实施例的示例计算机系统900的框图。如图所示,计算机系统900包括中央处理单元(cpu)901,其能够根据存储在只读存储器(rom)902中的程序或从存储部分908加载到随机存取存储器(ram)903的程序而执行各种处理。在ram903中,当cpu901执行各种处理等等时,还根据所需存储有所需的数据。cpu901、rom902和ram903经由总线904彼此相连。输入/输出(i/o)接口905也连接到总线904。

以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等的显示器以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网之类的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等,根据需要安装在驱动器910上,使得从其上读出的计算机程序根据需要被安装入存储部分908。

特别地,根据本发明的实施例,上文参考图1至图8描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行方法400和/或700的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。

一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑、或其任何组合中实施。某些方面可以在硬件中实施,而其它方面可以在可由控制器、微处理器或其它计算设备执行的固件或软件中实施。当本发明的示例实施例的各方面被图示和描述为框图、流程图或使用某些其它图形表示时,将理解本文描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备,或其某些组合中实施。

而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为被构造以执行相关(一个或多个)功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,其包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为执行上文描述方法的程序代码。

在本公开的上下文中,机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一个或多个导线的电气连接、便携式计算机磁盘、硬盘、随机存储存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储设备、磁存储设备,或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其它可编程的数据处理装置的处理器,使得程序代码在被计算机的处理器或其它可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外,尽管操作以特定顺序被描绘,但这并不应该被理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务和并行处理可能是有利的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或者任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得清楚。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其它实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1