多区域视频会议编码的制作方法_2

文档序号：8461029阅读：来源：国知局

言人的面部。这个区域212可使用区域I确定模块421来确定。区域I确定模块421可包括面部识别模块，以定位视频帧200中的发言人面部210。面部识别模块可采用与计算硬件或者其它硬件解决方案相结合的计算机应用从视频帧200来识别一人或多人的位置。另外，面部识别模块可识别一人或多人的身份。定位帧中的头部的一种方法是检测面部特征(例如头部的形状)、诸如眼睛、嘴和鼻之类的特征的位置。示例面部识别系统包括:在betaface [dof] com可得到的Betaface，以及从Warsaw University (Technology in Warsaw，Poland)可得到的 SemanticVis1n Technologies。
[0016]区域I确定模块421可包括面部跟踪模块，以跟踪发言人面部的位置。使用这个面部跟踪模块，区域I可调整成当发言人在帧中来回移动时跟踪发言人的面部。面部跟踪可使用面部的特征、例如鼻孔、嘴角和眼角以及皱纹，来跟踪移动。这种技术可使用主动外观模型、主成分分析、本征跟踪、可变形表面模型、逐帧跟踪预期面部特征的其它技术、其组合等。可依次应用于视频的帧、从而引起面部跟踪的示例面部跟踪技术包括Neven Vis1n系统(以前的Eyematics，现在由Google, Inc.获得)，其允许实时2D面部跟踪，其中无需个人特定训练。
[0017]按照各个实施例的一部分，(一个或多个)区域确定模块420可重新指配第一区域以包括新发言人的面部。这可例如使用对已经所述的面部识别技术的扩展来实现。面部识别机制用来通过检测面部特征(例如头部的形状)、诸如眼睛、嘴和鼻之类的特征的位置，来定位帧中的头部。可将特征与已知实体的数据库进行比较，以识别特定用户。当指示另一用户正发言时，(一个或多个)区域确定模块420可重新指配第一区域，以包括新发言人的面部到另一个所识别用户。指示另一个用户正发言可来自系统的用户和/或自动地来自(一个或多个)确定模块420本身。例如，面部识别的一些基于视觉的方式还可具有检测和分析唇和/或舌移动的能力。通过跟踪唇和舌移动，系统还可以能够识别哪一个发言人在任何一个时间正说话，并且使区域I中的调整以包括和/或移动到这个潜在的新发言人。
[0018]按照本发明的各个实施例的一部分，可采用附加区域确定模块。例如，第三区域确定模块可将覆盖附加实体232、234、236和238的面积识别为第三区域330。这个区域可使用附加区域确定模块422来识别。这个模块可使用与区域2确定模块422相似的技术来识别附加参与者232、234、236和238驻留在(一个或多个)帧中的位置。另外，第四区域确定模块可将覆盖附加对象240等的面积识别为第四区域342。这个区域可使用自动化系统(其配置成识别这类对象)来识别，和/或该区域可由用户来识别。例如，用户可在帧的某个区域周围绘制线条，以指示这个面积是第四区域342 (图3A和图3B)。备选地，呈现可包括对象、例如白板，其可识别为区域、例如第四区域342。
[0019]如先前所述，该帧的其余部分(背景)可识别为第二区域222。为了实现这个方面，可从包含完整帧200的面积中减去其它区域(例如212、330和342)。但是，在一些实施例中，背景可按照其它方式来确定。例如，可采用例如色度(或颜色)键控等技术、采用预定遮蔽形状等，来确定背景。色度键控是一种用于基于色调(色度范围)将两个图像或视频流共同合成(分层)的技术。但是，本技术和本技术的方面可用来从视频的(一个或多个)主体来识别背景。换言之，颜色范围可被识别并且用来创建图像遮蔽。在各个实施例的一部分中，遮蔽可用来限定区域、例如第二(例如背景)区域222。色度键控技术的变化通常称作绿屏和蓝屏。可以均匀和不同的任何颜色的背景执行色度键控，但是更通常使用绿色和蓝色背景，因为它们的色调与大多数人类肤色最明显不同。市场销售的计算机软件、例如Pinnacle Stud1和Adobe Premiere使用具有绿屏和/或蓝屏套件的“色度键”功能性。
[0020]图5是按照本发明的一实施例的方面的另一个多区域视频会议编码器的框图。具体来说，这个框图示出示例电话会议装置140实施例，其配置成处理总共四个区域(212、222,330和342 ;图3A和图3B)的视频515。区域确定模块520可采用四个区域确定模块(521、522、523和524)(各配置成在由(一个或多个)编码器模块540来编码之前识别和处理不同区域)来处理视频515。
[0021]区域I可以是覆盖主要参与者、例如积极发言人210 (图2A)的面积212。区域I确定模块521可配置成识别视频帧515中的区域I面积212，并且生成那个所识别区域的区域I数据531。区域I数据531可由区域I编码器模块541以第一质量等级来编码。
[0022]区域2可以是覆盖背景222 (图2B)的面积212。区域2确定模块522可配置成识别视频帧515中的区域2面积，并且生成那个所识别区域的区域2数据532。区域2数据532可由区域2编码器模块542以第二质量等级来编码。
[0023]区域3可以是覆盖电话会议中的附加实体/参与者的面积330。区域3确定模块523可配置成识别视频帧515中的区域3面积，并且生成那个所识别区域的区域3数据533。区域3数据533可由区域3编码器模块543以第三质量等级来编码。
[0024]区域4可以是覆盖感兴趣视频帧515的附加面积、例如(一个或多个)感兴趣对象240、白板、其组合等的面积342。区域4确定模块524可配置成识别视频帧515中的区域4面积，并且生成那个所识别区域的区域4数据534。区域4数据533可由区域4编码器模块544以第四质量等级来编码。
[0025]为了降低编码视频的比特率，各种区域数据(531、532、533和534)可使用不同质量等级来编码。质量等级可指示压缩等级。一般来说，压缩等级越低，则输出流的质量越高。较高压缩等级一般产生较低比特率输出，而较低压缩等级一般产生较高比特率输出。在图5的示例中，区域I数据531可按照比区域2数据532、区域3数据533和区域4数据534要高的质量来编码。在各个实施例的一部分中，区域2数据532可按照比区域3数据533和区域4数据534要高的质量来编码。在一些情况下，区域3数据可需要以较高质量来编码，以显示电话会议的重要主体。因此，本领域的技术人员将会知道，可采用不同区域的质量编码的其它组合。另外，可以是区域I编码器模块541、区域2编码器模块542、区域3编码器模块543和/或区域4编码器模块544中的一个或多个可按照相似和/或相同质量等级来编码。在各个实施例的一部分中，区域I编码器模块541、区域2编码器模块542、区域3编码器模块543和/或区域4编码器模块544中的一个或多个可以是配置成以不同质量等级来处理不同区域的相同编码器。
[0026]图6是按照本发明的一实施例的方面的示例多区域视频会议编码机制的框图。以虚线所示的框是可选动作。流程图可实现为使用硬件和/或与数字硬件相结合的软件的方法。另外，流程图可实现为非暂时机器可读介质上的一系列一个或多个指令，其在由处理器运行时使计算机实现该流程图。
[0027]可在610定位包含发言人面部的一个或多个帧的第一区域。可在帧中定位附加区域。例如:在630，可定位包含附加面部的一个或多个帧的第三区域；一个或多个帧的第四区域可由用户来定位；以及在620，可定位包含背景的一个或多个帧的第二区域。这些面积可使用先前所述技术来定位。
[0028]第一区域可采用先前所述面部识别技术来识别。面部跟踪技术可用来调整第一区域，以在发言人在视频帧中来回移动时跟踪发言人的面部。另外，第一区域可周期地重新指配给新发言人的面部。
[0029]区域的每个可按照不同质量来编码。例如，第一区域可在650以第一质量来编码，第二区域可在660以第二质量来编码，第三区域可在670以第三质量来编码，以及第四区域可在680以第四质量来编码。
[0030]质量等级可相对彼此来设置。例如，第三质量可低于第二质量，第二质量可低于第一质量，和/或第四质量可低于第一质量。根据诸如预期最终输出比特率、各个区域的预期图像质量、其组合等的限制，各种组合是可能的。在一些实施例中，一个或多个质量等级可以是相同的。一般来说，在视频会议应用中，区域I的质量等级将设置成最高，除非帧的另一个面积被认为更为重要。
[0031

完整全部详细技术资料下载

当前第2页1 2 3 4 5