用于处理具有特征指示的合成视频图像的方法

文档序号:7856410阅读:267来源:国知局
专利名称:用于处理具有特征指示的合成视频图像的方法
技术领域
本发明涉及处理视频图像的领域,包括处理合成图像的方法,该合成图像包括对合成图像中的至少一个特征的视觉指示。
背景技术
全球宽带因特网访问的易获得性和可负担性已经使得如视频消息和视频会议之类的通信方法的采用呈指数增长。来自诸如Microsoft、Yahoo、Skype和America Online之类公司的用于使能这些通信方法的免费软件的多样性和可获得性也帮助增强了这些通信方法的普及。当前,也有越来越多的装置被用于视频会议。这些装置可以采用或不采用 前述通信软件来进行视频会议。一般而言,在视频会议期间,彼此通信的各方只看见彼此。第一方要想对第二方强调/指出与在视频会议装置中的图像捕获装置的视野之外的对象相关的特征并仍然能够看见彼此会存在某些不便。这种限制在多方之间的某些通信实例期间可能导致某些问题。

发明内容
在第一方面中,提供了一种用于处理合成视像的方法。该方法包括通过第一图像捕获装置获得场景的第一图像,该第一图像包括用于将接收者的注意力引导至第一图像的至少一部分的视觉表示。还通过第二图像捕获装置获得该第二图像捕获装置的用户的外观的第二图像。第二图像优选地是在获得第一图像的同时获得的。第二图像可以是第二图像捕获装置的用户的脸或上身。随后生成包括第一图像和第二图像两者的合成图像,所述第一图像构成合成图像的主要部分,所述第二图像被放在产生用户正在向接收者作出所述视觉表示的感觉的位置上。合成图像随后被发送给接收者。合成图像可以在发送给接收者之前经过透视法凝视校正,经凝视校正的图像与第二图像捕获装置的用户观看第一图像的场景类似。优选地,第一图像捕获装置和第二图像捕获装置包括例如如下种类的镜头标准的(50_)、广角的和鱼眼的。第一和第二图像捕获装置中的至少一个具有固定的或可变的视野。第一图像捕获装置的第一视野与第二图像捕获装置的第二视野可以重合或不重合。优选地,视觉表示可以是手臂、手、手指或用于指向的物体。视觉表示可以利用波阵面编码被视觉上增强以使其能够呈现为光学上聚焦的物体。优选地,第一图像捕获装置和第二图像捕获装置被集成在单个设备中,该单个设备例如是手持媒体播放器、移动电话、手持数码相机、网络相机等等。提供了另一用于处理合成视频图像的方法。该方法包括通过第一图像捕获装置的第一镜头获得场景的第一图像;使用所述第一图像的预览图像,并在预览图像上叠加用于将接收者的注意力引导至所述场景的至少一部分的视觉表示;所述第一图像捕获装置被关注点锁定到所述第一图像的至少一部分;所述关注点锁定使得所述视觉表示在所述第一图像捕获装置的视野变化时移动。随后生成包括所述视觉表示的合成图像并将合成图像发送给接收者。第一镜头可以具有例如标准的(50_)、广角的、鱼眼的等类型。第一图像捕获装置可以具有固定的或可变的视野。优选地,视觉表示具有例如箭头、交叉瞄准线、指针、十字等形式。关注点锁定可以优选地保持第一图像的至少一部分在所述预览图像中的位置。所述第一图像捕获装置的视野的变化可以使用用于检测第一图像捕获装置的移动的技术来检测,例如用于检测使用轴承的水平摆动的电子罗盘、用于检测垂直倾动的惯性仪、用于检测垂直倾动的倾动传感器、用于检测具体像素移动的光学流分析、等等。


为了可以全面地理解并容易实施本发明,现在将参考附图来以非限制性示例的方 式描述仅仅本发明的优选实施例。图I示出本发明第一实施例的流程图。图2示出本发明第二实施例的流程图。图3示出用于在优选实施例中使用的设备的第一设置。图4示出用于在优选实施例中使用的设备的第二设置。图5示出用于在优选实施例中使用的设备的第三设置。图6示出用于在优选实施例中使用的设备的第四设置。图7示出根据优选实施例产生的合成视频图像的第一示例。图8示出根据优选实施例产生的合成视频图像的第二示例。图9A-C示出第二实施例在使用中的表示。
具体实施例方式图I示出记作方法20的用于处理合成视频图像的流程图。图7和8指示合成视频图像98的示例。方法20包括通过第一图像捕获装置获取场景的第一图像102(22)。第一图像102可以包括用于指示接收者关注第一图像102的至少一部分的视觉表示104。该视觉表示104可以具有例如手臂(如图7和8所示)、手、手指、用于指向的物体、等等。可以通过第二图像捕获装置获得第二图像捕获装置的用户的外貌的第二图像106(24)。应该注意,第一图像102可以在获得第二图像106之后获得。获得第一图像102和第二图像106的顺序是可变的。第二图像106还可以在获得第一图像102时同时获得。第一和第二图像捕获装置可以包括各种镜头,例如,标准的(50_)、广角的、鱼眼的等等。第一和第二图像捕获装置中的至少一个可以具有固定的视野。类似地,第一和第二图像捕获装置中的至少一个可以具有可变的视野。关于第一和第二图像捕获装置的进一步论述将在随后的描述部分中提供。第一图像捕获装置和第二图像捕获装置两者可以被集成在单个设备中,该单个设备可以例如是手持媒体播放器、移动电话、手持数码相机、网络相机等等。随后,生成(26)包括第一图像102和第二图像106两者的合成图像98。第一图像102可以构成合成图像98的绝大部分,而第二图像106被放在产生第二图像捕获装置的用户正在向接收者作出视觉表示104的感觉的位置上。参考图7,可以看出,第二图像捕获装置的用户正在作出对汽车的视觉表示(指向汽车)。第二图像106可以是第二图像捕获装置的用户的脸或者上身。图7示出第二图像捕获装置的用户的上身。当第二图像106仅是一张脸时,可以将脸叠放在可以为人形的形状上。例如,脸可以被叠放以替代一虚拟卡通人物的头部、或者脸可以被叠放在水果上等等。在图7中,第二图像106被示出在合成图像98的第一侧108。第二图像106可以位于合成图像98的另一部分,因为第二图像捕获装置的用户在合成图像中的位置取决于视觉表示104在第一图像102中的位置。第二图像106可以使用已知的用于不重叠区域的图像填充方法被(优选为无缝地)接合(110)到视觉表示104。如果视觉表示104的位置不断改变,第二图像106甚至可以围绕合成图像98移动。当视觉表示104与第一图像102相比可能失焦(out of focus)时,可以使用波阵面编码(wavefront coding)(常用于显微镜和内诊镜)在视觉上增强视觉表示104以使其呈现为光学上聚焦的物体。参考图8,示出了已经过凝视校正(gaze correction)的合成图像98。合成图像98的凝视校正为接收者提供了与第二图像捕获装置的用户观看第一图像102的场景时类 似的视图。凝视校正一般在发送到接收者之前执行。经过凝视校正的合成图像98创建第二图像捕获装置的用户向接收者呈现/指出第一图像102上的特征的外观。在图8中,第二图像106被示出在合成图像98的第一侧108。第二图像106可以位于合成图像98的另一部分,因为第二图像106在经凝视校正后的合成图像中的位置取决于视觉表示104在第一图像102中的位置。第二图像106可以使用已知的用于不重叠区域的图像填充方法被(优选为无缝地)接合(110)到视觉表示104。如果视觉表示104的位置不断改变,第二图像106甚至可以围绕合成图像98移动。当视觉表示104与第一图像102相比可能失焦时,可以在视觉上增强视觉表示104以使其呈现为光学上聚焦的物体。最后,合成图像98可以被发送给接收者(28)。接收者从而能够观看合成图像98,其中第二图像捕获装置的用户能够指示第一图像102中的特征来辅助与接收者的通信。参考图3-6,示出具有可被用在方法20中的双图像捕获装置的设备的某些示例。如前所述,该设备可以例如是手持媒体播放器、移动电话、手持数码相机、网络相机等等。图3示出设备40的第一示例。设备40包括包含第一图像捕获装置44和第二图像捕获装置46的主体42。在设备40的第一示例中,第一图像捕获装置44和第二图像捕获装置46两者都利用广角/鱼眼镜头。在该实例中,由第一图像捕获装置44和第二图像捕获装置46所捕获的图像的组合提供围绕设备40的大致360°视野48。如果某个广角镜头具有高达200°的视野,则第一图像捕获装置44和第二图像捕获装置46的视野可能重叠。在视野重叠的实例中,可能无需采用图像填充方法来在合成图像98中将第一图像102中的视觉表示104接合到第二图像106。但是,可以仍旧对合成图像98应用失真校正。图4示出设备40的第二示例。设备40包括包含第一图像捕获装置44和第二图像捕获装置46的主体42。在设备40的第二示例中,第一图像捕获装置44和第二图像捕获装置46两者都利用标准(50mm)镜头。在该实例中,第一图像捕获装置44和第二图像捕获装置46都具有介于120° -160°之间的视野50。在该第二示例中,显而易见,第一图像捕获装置44和第二图像捕获装置46的视野不重叠。在视野不重叠的实例中,可以采用图像填充方法来在合成图像98中将第一图像102中的视觉表示104接合到第二图像106。可以仍旧对合成图像98应用失真校正。图5示出设备40的第三示例。设备40包括包含第一图像捕获装置44和第二图像捕获装置46的主体42。在设备40的第三示例中,第一图像捕获装置44和第二图像捕获装置46两者可以使用诸如标准(50mm)、广角、鱼眼等的镜头。第一图像捕获装置44不一定利用与第二图像捕获装置46相同的镜头。但是,在本实例中,第一图像捕获装置44和第二图像捕获装置46的视野不仅仅依赖于镜头。这是因为第一图像捕获装置44和第二图像捕获装置46可以旋转/摆动。在本实例中,视野可以重叠或不重叠。图6示出设备40的第四示例。设备40包括包含第一图像捕获装置44和第二图像捕获装置46的主体42。在设备40的第四示例中,第一图像捕获装置44和第二图像捕获装置46两者可以使用诸如标准(50mm)、广角、鱼眼等的镜头。第一图像捕获装置44不一定利用与第二图像捕获装置46相同的镜头。在本实例中,第一图像捕获装置44和第二图像捕获装置46的视野也不仅仅依赖于镜头。这是因为第一图像捕获装置44和第二图像捕获装置46可以包括用于数字地将各个视野从第一状态52旋转/摆动到第二状态54的软件。 在本实例中,视野可以重叠或不重叠。参考图2和图9A-9C,提供了用于处理合成视频图像的替换方法60。方法60包括通过第一图像捕获装置204的第一镜头203获得场景的第一图像202^2)。第一图像捕获装置204可以与前述设备40类似。这在图9A的窗口 200中示出。第一图像捕获装置204的第一镜头203可以具有例如标准(50mm)、广角、鱼眼等的类型。第一图像捕获装置204可以具有固定或可变的视野。用于将接收者的关注点引导至场景的至少一部分的视觉表示206被叠加在预览图像208上¢4)。预览图像208可以是从第一图像202剪切出的210。视觉表示206被示为交叉瞄准线(cross hair),但是,其也可以例如是箭头、十字、指针等等。视觉表示206可以使用第一图像捕获装置204上的控件在预览图像208中移动。可替换地,预览图像208可以被示为触摸敏感显示,并且使用在触摸敏感显示上的触感来移动视觉表示206。第一图像捕获装置204被关注点锁定¢6)在第一图像202的至少一部分(图9A-C所示的花瓶)上。关注点锁定使得视觉表示能够在第一图像捕获装置204的视野变化时移动(68)。图9A的窗250中示出第一图像捕获装置204的视野变化。在窗口 250中,第一图像捕获装置204被从窗口 200中所示的位置移动。第一图像捕获装置204可以使用例如用于检测使用轴承(bearing)的水平摆动(panning)的电子罗盘、用于检测垂直倾动(tilting)的惯性仪、用于检测垂直倾动的倾动传感器、用于检测具体像素移动的光学流分析等等来检测移动。当检测到移动时,视野的变化被相应地确定。基于窗口 200和窗口 250的比较,可以看出,第一图像捕获装置204的视野向左侧移位(摆动)。随后,在第一图像202中的花瓶被向右移动,但是由于关注点锁定,第一图像202中的花瓶呈现为静止的。这如图9C所示。从图9C可以看出,视觉表示206与图9B的位置相比被向左移动。这种效果与在第一图像202向右移动的同时与视觉表示206的重叠静止类似。可替换地,关注点锁定可以使得捕获第一图像202中的花瓶的静止图像,其中视觉表示206的移动受控于第一图像捕获装置204的移动。第一图像捕获装置204的用户可以向左摆动第一图像捕获装置204以使得视觉表示206向左移动。可以看出,这样的过程本质上是凭直觉的。虽然所示示例涉及第一图像捕获装置204的摆动,但是应该注意,方法60也覆盖第一图像捕获装置204的上下倾动。然后,与预览图像208相同的合成图像被生成(70),其包括第一图像202和视觉表示206。最后,合成图像可以被发送到接收者(72)。接收者从而能够观看合成图像98,其中,第一图像捕获装置204的用户能够指示第一图像202中的特征,从而 辅助与接收者的通 目。虽然已经描述了本发明的优选实施例,但是本领域技术人员将会理解,在不脱离本发明的情况下可以在设计或构造上进行很多变化或修改。
权利要求
1.一种用于处理合成视频图像的方法,该方法包括 通过第一图像捕获装置的第一镜头获得场景的第一图像; 使用所述第一图像的预览图像,并在所述预览图像上叠加用于将接收者的注意力引导至所述场景的至少一部分的视觉表示; 所述第一图像捕获装置被关注点锁定到所述第一图像的至少一部分; 所述关注点锁定使得所述视觉表示在所述第一图像捕获装置的视野变化时移动; 生成包括所述视觉表示的合成图像;并且 将所述合成图像发送给所述接收者。
2.如权利要求I所述的方法,其中,所述第一镜头具有从如下群组中选择的类型标准的(50mm)、广角的和鱼眼的。
3.如权利要求I所述的方法,其中,所述第一图像捕获装置具有固定的或可变的视野。
4.如权利要求I所述的方法,其中,所述视觉表示具有从如下群组选择的形式箭头、交叉瞄准线、指针和十字。
5.如权利要求I所述的方法,其中,所述第一图像捕获装置的视野的变化是使用从如下群组选择的用于检测所述第一图像捕获装置的移动的技术来检测的用于检测使用轴承的水平摆动的电子罗盘、用于检测垂直倾动的惯性仪、用于检测垂直倾动的倾动传感器、以及用于检测具体像素移动的光学流分析。
6.如权利要求I所述的方法,其中,所述关注点锁定保持所述第一图像的至少一部分在所述预览图像中的位置。
全文摘要
本发明提供了用于处理具有特征指示的合成视频图像的方法,提供了用于处理合成视频图像的第一和第二方法。这些方法一般包括通过第一图像捕获装置获得场景的第一图像以及生成合成图像,该合成图像包括用于将接收者的注意力引导至第一图像的至少一部分的视觉表示。优选地,该视觉表示可以是手臂、手、手指或用于指向的物体。
文档编号H04N5/262GK102833491SQ20121025447
公开日2012年12月19日 申请日期2008年9月5日 优先权日2007年9月5日
发明者沈望傅, 道·恩·德斯蒙德·许 申请人:创新科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1