用于视音频通信的方法和系统的制作方法

文档序号：6431827阅读：105来源：国知局

专利名称：用于视音频通信的方法和系统的制作方法
技术领域：
本发明涉及用于视音频通信(audio-Video communication)的方法和系统，尤其与视频电话或电话会议有关。
背景技术：
对于现有的视频电话技术，需要将视频相机放置在离在会话期间看着相机的对象适当距离处。在办公室环境中，当用户面向电脑终端和键盘时，电话通常被放置在与用户成一角度的地方以方便获取。当使用“普通”视频电话进行视频呼叫时，用户或者转向以对着视频电话讲话或者被从侧面显示并且似乎正远离电话地讲话。同样，由于用户和电话之间的高度差，除非用户充分倾斜其头部以直接面向相机，否则他们实际上被显示为在空中讲话(speak overhead)0对于具有视频电话能力的膝上型或桌面型电脑，视频相机通常位于监视器上以使得正在观看监视器上的视频的对象也以适当的距离和观看角度朝视频相机观看。该布置是尽力而为的并需要监视器相对于用户的适当放置，并且要求用户面向相机。在诸如可从思科泰德(Tandberg，Cisco)获得的E20 VoIP视频电话(http://www. tandberg. com/products/tandberg_e20. jsp)之类的可获得的SIP视频电话的情况中，电话和用户的仔细定位对于提供用户正在对着远端一方讲话的样子是必需的。作为替代，用户可能忽视视频相机放置并且看起来没有与远端一方讲话。这还可能导致用户移到和移离焦点或者部分地或完全离开视频框。对于现有视频电话技术，图像还包括用户的背景和环境，包括用户在做什么和穿戴如何。这可能还包括可能经过或不知不觉地进入相机的视场的其他人和用户周围的周围图像。为了避免这种情况发生，视频相机可被放置在空房间和/或非彩色(neutral)环境中并且注意谁进入相机的视场。更普遍的是，视频相机的视场不被监视并且远端一方能够观察到视场内或进入视场的每样事物。一种替代是美国专利公布20080240517中Okamoto，Masayoshi (日本大阪)建议的使背景图像模糊。然而，模糊或扭曲的图像可能会转移远端用户的注意力。同样，图像处理技术可允许从模糊或扭曲的版本重建原始图像。这里公开的系统和方法提供了用于视频电话或电话会议的通信方法和系统以消除或减轻至少前述某些缺点。

发明内容
根据本发明的一个方面，一种用于视音频通信的终端包括IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。
根据本发明的另一方面，一种处理用于视音频通信的图像的方法包括捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面向相机的图像以供显示。

将参考附图从以下详细说明进一步理解本发明，附图中图1例示了能够使用本公开的实施例的视音频通信系统；图2示意性地例示了能够使用本公开的实施例的IP视频电话；图3以流程图的方式例示了根据本公开的实施例的图像处理方法；图4以流程图的方式例示了根据本公开的另一实施例的图像处理方法；以及图5以流程图的方式例示了根据本公开的又一实施例的图像处理方法。
具体实施例方式本公开的一个目的是提供改进的视音频通信系统和方法。因此，即使当用户没有直接面向相机时，用户也被示为对准焦点并面向远端一方。用户的面向前的图像被显示给远端一方，而不管用户在相机视区内的位置如何。用户的图像被展现为面向观看者，而不管相机和用户之间的实际角度如何。具有安装在顶部的带有广角镜头的视频相机的IP视频电话捕捉相对大的视区。被捕捉的图像经由IP套接字连接被发送到视频处理能力。当用户位于视区内时，对周期性视频帧执行视频处理以找出用户的脸部，而不管观看角度或距离如何。还使用图像转换和内插技术来执行视频处理以渲染用户的正面图像。对象脸部的正面图像可通过IP套接字来获得用于显示。根据一个实施例，对特定用户的校准可通过将相机和视频画面放置在它们将用于面向前视频呼叫的地方来完成。用户随后面向相机，忽视视频画面的放置，并且用户的图像被拍摄。用户随后面向视频画面，并且用户的另一图像被拍摄。用户随后(以另一角度) 将脸转离视频画面和相机并且用户的另一图像被拍摄。这些图像随后被处理以获得特定于该用户的校准信息，以在处理后续的面向前视频呼叫时使用。根据另一实施例，相机视区内的背景和周围被从图像中移除。非彩色背景随后被应用于相机视区，除了 “焦点对象”(subject of focus)之外。图像的“焦点对象”可被静态或动态地确定。非彩色背景可包括预定的、生成的图像或视频序列。非彩色背景还提供在视频呼叫期间打广告的机会。来自视频相机的图像通过IP套接字连接被发送到视频处理能力。图像分析被应用以找到并隔离出“焦点对象”。视频处理能力随后用非彩色背景图像代替“焦点对象”周围的图像。产生的图像可通过IP套接字来获得用于显示。参考图1，例示了可实施本公开的实施例的视音频通信系统。用于双向视频电话会议的视音频通信系统100包括经由通信链路106耦合的最终用户终端102和104。最终用户终端102包括都耦合到处理器的视频处理器部件110、用户接口 112、显示器114、为了方便起见被示为内置的扬声器116和麦克风118、视频相机设备120和存储设备122。通信链路106可以是专用链路或者可以通过数据通信网，例如通过互联网，来实现。通信链路可包
4括代理124。本示例中的用户接口 112是键盘。本说明书涉及在办公室环境中提供IP面向前视频电话能力。提供的示例可利用特定于用户的视频校准和IP电话或代理内的面向前视频处理部件。然而，本公开同样适用于其他面向前视频电话部署。参考图2，示意性的例示了能够使用本公开的实施例的IP视频电话。IP视频电话 102具有显示器114和通常安装在IP视频电话顶部附近的具有广角(或鱼眼)镜头的视频相机120以捕捉相对大的视场。参考图3，以流程图的方式例示了根据本公开的实施例的图像处理方法。预定事件时，视频图像被捕捉310并通过IP套接字发送到320例如面向前视频处理部件提供的视频处理能力。使用的视频图像的分辨率和帧率受视频处理能力限制；但是，它还可由应用或设备配置、远端设备和/或视频呼叫传输带宽决定。对于本示例，预定事件在视频呼叫建立之前，例如在初始呼叫设置和帧率协商期间。这为视频处理能力提供了在将渲染的视频图像提供给远端以供显示之前处理用户图像的交付期(lead time)。视频处理部件中的视频处理器能力对视频帧的输入流执行分析330。对于每一帧，采用在先前图像帧上采用的转换和变换因子的知识，来应用以下步骤。视频处理器能力应用(一个或多个)转换算法来对相机的已知图像扭曲进行校正 3400这是使用可获得的图像校正技术(例如，http://photo.net/learn/fisheye)来完成的。大概最有名的全景图像拼合软件PanoTools 实际上是用于操纵各种影像而不仅仅用于拼合的一个高度通用的工具/插件集。视频处理器能力随后使用面部定位技术(例如，The International Arab Journal of Information Technology, Vol. 4, No. 1, January 2007 文章"Efficient Realtime Face Tracking Operator Study and Implementation Within Virtex FPGA Technology, http://www.face_rec.org/ 和 http://www.ccis2k.Org/iajit/PDF/vol.4， no. 1/2-Mostefai. pdf)来在视频帧内找出用户的脸部。使用的技术由先前帧中的脸部的知识以及在先前配置阶段获得的视频用户校准信息补充。视频处理器能力随后使用已知做法(例如，Understanding the Transformation Matrix in Flash 8.http://www. senocular. corn/flash/tutorials/transformmatrix/) 来确定将脸部角度从图像中的角度改变成面向前图像所需的变换因子。内插算法和用户视频校准图像被应用以在不能获得相机图像时填充面向前图像 (例如，在原始图像是左侧面的情况下，填充用户脸部的右侧)。脸部对称和图像重构技术被应用，以在缺少更精确的内插算法时填充表情(例如，“facial Image Reconstruction by SVDD-Based Pattern De-noising", Jooyoung Park, Daesung Kang, James T. Kwok, Sang—Woong Lee, Bon—Woo Hwang and Seong-ffhan Lee Advances in Biometrics Lecture Notes in Computer Science,2005, Volume 3832/2005,129-135, DOI 10. 1007/11608288_18http://www. springerlink. com/content/p037627183g24438/)。进一步分析按需要由视频处理器能力执行，以细化适用的转换、变换和内插算法并校正用户的运动和焦点。视频处理器能力随后通过对接收图像应用图像校正、转换和内插算法来渲染对象脸部的正面图像350。渲染的图像将用户示为面向前，同时周围的图像和背景可被视频处理大大扭曲。背景排除处理被应用以在产生的图像中将用户展现为相对于非彩色背景而面向
、r -以上分析和渲染被逐帧重复直到预定事件，丢弃到来的帧同时处理前一帧。待处理的下一帧是在分析和渲染完成之后接收的帧。渲染的图像随后通过IP套接字被从面向前视频处理部件发送到IP视频电话102 以传送到远端视频设备并在远端视频设备处展现。本说明书利用办公室环境中的面向前视频电话。更具体地，本示例利用具有面向前视频处理部件的IP面向前视频电话并支持用于可重新定位电话显示器的蓝牙高速视频。然而，本发明同样适用于其他面向前视频部署。具有面向前视频处理部件的IP面向前视频电话被放置在用户桌子上的正常位置。可重新定位电话显示器也被放置在用户桌子上的正常位置以便舒适地使用。在IP视频电话处，视频校准用户接口可被提供给用户。该接口与语音优先视频电话能力有关并在首次使用电话或用户发起电话使用时使用户逐步通过初始设置过程。参考图4，以流程图的方式例示了根据本公开另一实施例的图像处理方法。视频校准用户接口提供了 410校准过程的简要说明并提示用户确认IP电话和视频显示设备被放置在它们的正常位置并且发光级别正常。视频校准用户接口提示415用户直接面向IP电话面向前视频电话上的相机(位于设备的顶部边缘处)并且对着相机看。一选项被提供给用户以指示在他们能够直接面向相机之前、IP视频电话的放置是否需要调整(以及所涉及的以度为单位的顺时针旋转近似角度)。用户还被提示处于离电话的预定最小和最大距离之内。类似的选项被提示给用户以指示IP视频电话的放置是否需要被调整到适当距离(以及更近或更远的英寸/厘米数)。在用户确认后，对象的图像被捕捉420。如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。视频校准用户接口随后(使用在先前步骤中摄取的图像的面向前视频渲染)提示用户直接面向视频显示设备并对着所显示脸部的眼睛看425。一选项被提供给用户以指示在他们能够直接面向图像之前、视频显示设备的放置是否需要调整(以及所涉及的以度为单位的顺时针旋转近似角度)。在用户确认后，对象的图像被捕捉430。视频校准用户接口提示用户从右侧以大约45度的角度面向位于设备顶部边缘的相机并对着相机看435。选项像先前提到地那样被提供给用户，并且在用户确认后，对象的图像被捕捉440。如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。视频校准用户接口提示445用户从左侧大约45度的角度面向位于设备顶部边缘的IP视频电话上的相机并对着相机看。选项像先前提到地那样被提供给用户，并且在用户确认后，对象的图像被捕捉450。如果在初始图像捕捉期间需要调整，则视频校准用户接口提示用户将IP视频电话返回到其先前位置。
图像处理由面向前视频处理部件使用捕捉的图像来执行以获得校准信息455。这可以在每个图像被捕捉时或者在所有图像被捕捉后完成。一组参考点被标识在每个图像上并且相关的测量被确定。参考点包括诸如瞳孔和眼睑、面颊突出部、鼻子、嘴唇和下巴之类的脸部特征。或者，将正确地渲染用于面向前视频的每个图像的变换算法被计算，并且用于每个变换算法的相关参数被确定。对面向前视频图像渲染有帮助的左右侧面之间的额外差别也可被确定并被包括。校准信息随后被存储在IP面向前视频电话中以便后来由面向前视频测量部件在面向前视频呼叫期间使用。作为替代，为承载IP视频电话的、承载通信引导通信系统中的用户存储校准信息。本说明书涉及在办公室环境中为IP视频电话提供IP面向前视频电话能力。本示例还利用面向前视频电话。然而，本公开同样适用于其他视频电话和部署。具有广角镜头的视频相机通常被安装在IP视频电话上以捕捉相对大的视场。该视场可包括紧邻的办公室环境内的个人和商务素材二者，潜在地包括相邻隔间的那些素材。参考图5，以流程图的方式例示了根据本公开的又一实施例的图像处理方法。在面向前视频呼叫期间，视频图像被捕捉并被视频处理能力处理，并且相关的面向前图像被渲染 510，如图3所详示的。当每个图像被渲染时，“焦点对象”被视频处理能力识别520为用户的脸部。作为替代，图像处理技术被应用以确定“焦点对象”的周界(例如，这些技术在上面提到的有关美国专利申请中有所描述)。从适合于在呼叫期间使用的环境和/或设置的视频序列中逐帧地获取、配置或生成非彩色背景图像530。该非彩色背景图像在视频呼叫的整个持续过程中被使用以替换来自相机视场或相关渲染图像的背景和周围。该图像被视频处理能力修改MO以用来自非彩色背景图像的相应内容来替换不在“焦点对象”内的内容。该图像修改通过像素、向量或其他可用的图像处理技术来执行，例如参见 http://en. wikipedia. org/wiki/Image_processing。以上分析和替换被逐帧重复直到预定事件为止。经修改的图像随后通过IP套接字被发送到面向前视频电话以传送到远端面向前视频电话并在远端视频电话处展现。视频处理可被执行以渲染不只仅对象脸部，例如，包括上部躯干和手臂，渲染视场内的不只一个对象，或者基于不同于对象脸部的标准来渲染。其他视角也可被渲染，这是因为本发明不限于前视图。视频相机可通过代理提供、物理地被附接或者被内置。视频相机可在电话旁边/ 后面相对于脸部固定或旋转。使用一系列连续静止图像，静止相机也可被利用。一个或多个静止相机和/或多个视频相机可被结合起来使用以捕捉(一个或多个)相同对象的不同视角或更宽的视场。用于相机、视频处理能力和显示器之间的信息传送的IP套接字的使用可被任何充分信息传送机制(例如，直接存储器访问)代替。渲染的图像的帧率受可用的视频处理能力的限制。视频处理可在一个或多个顺序或并列的处理阶段中、一个或多个处理引擎上以及一个或多个硬件平台上执行。渲染的图像的质量可基于处理硬件的可用性、订户服务级别、呼叫重要性或其他因素而被降低或提高。视频处理能力被提供在电话设备内、由专用服务器或由代理提供。
7
视频处理可采用适当的优化和技术来降低处理需求。视频处理可在视频呼叫已被建立之后在视频展现开始的相关延迟时、或者可选地在由对象发起或由系统配置确定的呼叫期间或之前的任意时刻被发起。手持接送话器或手持设备在视频图像中的位置也可用来辅助视频处理。用于脸部搜索和图像渲染的视频处理可转而使用来自最可能的(一个或多个)对象的已知脸部特点。用户视频校准也可被用来改善视频处理能力的有效性。校准可涉及小道具(props)、辅助物(accessories)或附件(attachments)的使用来改善结果。校准可自动发起和/或由用户发起，仅一次地或周期性地发起或作为视频处理能力对信息不正确的判定结果而发起。校准还可被应用于不同对象事物(以及脸部)。可对单个用户执行多个校准以容纳眼镜、隐形眼镜、流行配件、头饰等的佩戴。要使用的校准的选择可以是自动的、由用户选择的或者其他选择方法(例如，一天的时间)。任意数目的图像可被用于校准。用来确定校准信息的参考点可包括被捕捉的图像共有的脸部特征的任意组合。被捕捉的视频而不是图像可被采用来进行校准。经校准的信息可被捕捉并存储在视频电话内、视频服务器处或由代理存储。视频处理可在一个或多个顺序或并列的处理阶段中、一个或多个处理弓丨擎上以及一个或多个硬件平台上执行。视频处理还可在视频电话内或由代理执行。渲染的图像的质量可基于处理硬件的可用性、订户服务级别、呼叫重要性或其他因素而被降低或提高。虽然特别适用于视频电话设备，本发明还可被用于协作系统，例如视频会议、视频介绍系统(例如公寓大堂相机)，或者作为存储和转发产生的视频图像的单独设备而被使用。本发明还适用于安全监视装置，其中对象脸部的正面图的初始和/或周期性捕捉补充了由监视相机捕捉的视频。另一应用是需要视频访问来查看某人在寄养场(boarding kennel)的宠物的情况。相机和显示器的布置受环境的影响。作为替代，视频处理能力脸部识别和校准算法可在视频呼叫中针对宠物种类来修改。视频校准可应用于安全和监视检测中的脸部识别或其他技术。虽然特别适用于面向前视频电话设备，本发明还可被用于协作系统，例如视频会议、视频介绍系统(例如公寓大堂相机)，或者作为存储和转发产生的视频图像的单独设备而被使用。在安全敏感的环境中，本发明可部分地被应用以确保可能包括危及安全的信息的背景和周围图像不被捕捉。这也适用于其中敏感信息可能落入相机视场内的、涉及视频相机和被捕捉图像的显示的其他协作环境。在不脱离权利要求限定的本公开的范围的情况下，可对上述具体实施例进行多个修改、变换和变更。
权利要求
1.一种用于视音频通信的终端，包括 IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。
2.根据权利要求1所述的终端，其中用于校正图像的模块包括图像扭曲校正模块。
3.根据权利要求1所述的终端，其中用于校正图像的模块包括图像旋转校正模块。
4.根据权利要求1所述的终端，其中用于校正图像的模块包括焦点对象识别模块。
5.根据权利要求1所述的终端，其中用于校正图像的模块包括图像校准模块。
6.根据权利要求5所述的终端，其中所述图像校准模块包括图像校准用户接口。
7.根据权利要求5所述的终端，其中所述图像校准模块包括背景替换模块。
8.—种处理用于视音频通信的图像的方法，所述方法包括捕捉一个或多个视频图像；分析捕捉的图像以判断是否需要校正；对捕捉的图像应用校正以渲染一个或多个面向相机的图像；以及提供所述面向相机的图像以供显示。
9.根据权利要求8所述的方法，其中捕捉视频图像包括在对象位于相对于视频相机的预定朝向的情况下捕捉图像以及从所捕捉图像获取针对该对象的校准信息以在稍后分析所捕捉图像时使用。
10.根据权利要求9所述的方法，其中分析所捕捉的图像包括识别所述图像内的感兴趣对象，并且应用校正包括用非彩色图像代替所述感兴趣对象后面的背景图像。
全文摘要
本发明公开了用于视音频通信的方法和系统。一种用于视音频通信的终端包括IP使能的视频电话；以及视频处理器部件，所述视频处理器部件耦合到所述IP使能的视频电话，并包括用于校正来自视频相机的图像来渲染面向相机的图像以用于传送到远程观看者的模块。校正图像可包括针对特定用户的校准图像的使用并可用非彩色图像代替背景图像。
文档编号G06K9/00GK102572366SQ20111025143
公开日2012年7月11日申请日期2011年8月24日优先权日2010年12月10日
发明者保罗·安德鲁·赫伯, 迈克尔·詹姆士·寇纳申请人:米特尔网络公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：保罗·安德鲁·赫伯;迈克尔·詹姆士·寇纳
技术所有人：米特尔网络公司
我是此专利的发明人

上一篇：一种文档保护方法及系统的制作方法
上一篇：调整网页排序的搜索结果提供方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。