图像处理方法及装置与流程

文档序号:13287385阅读:153来源:国知局
图像处理方法及装置与流程

本发明涉及终端技术领域,尤其涉及一种图像处理方法及装置。



背景技术:

随着手机、平板电脑等移动终端的普及,视频聊天在人们日常沟通中越来越普遍。视频聊天时,出现在聊天画面中的不仅包括视频用户,还包括背景。但聊天过程中背景枯燥,私密性差,聊天背景容易被对方看到,常常需要对聊天背景进行虚拟化,同时在虚拟背景中增加虚拟的动物,以增加聊天的趣味性和参与性。因此,如何更好地实现用户与虚拟背景中的物体更好地互动成为亟待解决的技术问题。



技术实现要素:

本发明的实施例提供了一种图像处理方法、图像处理装置、电子装置和计算机可读存储介质。

本发明实施方式的图像处理方法用于电子装置,所述图像处理方法包括:获取当前用户的场景视频,及对应的多帧深度图像;

根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;

将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;

根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

本发明实施方式的图像处理装置,用于电子装置。所述图像处理装置包括:第一获取模块,用于获取当前用户的场景视频,所述场景视频包括各帧场景图像;

第二获取模块,用于获得各帧场景图像对应的多帧深度图像;

处理模块,用于根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;

融合模块,用于将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;

深度调整模块,用于根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

本发明实施方式的电子装置包括一个或多个处理器、存储器和一个或多个程序。其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述的图像处理方法的指令。

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成上述的图像处理方法。

本发明实施方式的图像处理方法、图像处理装置、电子装置和计算机可读存储介质通过获取当前用户的场景视频,及对应的多帧深度图像;根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。该方法通过获取更为精确的各帧人物区域图像实现融合得到的合并图像的画面效果更好,此外通过获取人物区域的深度调整背景物体在合并图像中的深度,可以实现呈现出不同效果的视频画面,实现了用户可以与虚拟背景中的物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,

图1是本发明某些实施方式的图像处理方法的流程示意图。

图2是本发明某些实施方式的图像处理方法的流程示意图。

图3是本发明某些实施方式的图像处理方法的流程示意图。

图4是本发明某些实施方式的图像处理方法的流程示意图。

图5是本发明某些实施方式的图像处理方法的流程示意图。

图6(a)至图6(e)是根据本发明一个实施例的结构光测量的场景示意图。

图7(a)和图7(b)根据本发明一个实施例的结构光测量的场景示意图。

图8是本发明某些实施方式的图像处理装置的模块示意图。

图9是本发明某些实施方式的电子装置的模块示意图。

图10是本发明某些实施方式的图像处理电路的模块示意图。

图11是本发明某些实施方式的电子装置的模块示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的图像处理方法、装置、电子装置和计算机可读存储介质。

图1是本发明某些实施方式的图像处理方法的流程示意图。该方法的执行主体为图像处理装置,该装置可集成在终端中。其中,终端可以包括手机、平板电脑、智能穿戴式设备等具有各种操作系统的硬件设备。

如图1所示,该方法包括以下步骤:

s101、获取当前用户的场景视频,及对应的多帧深度图像。

本实施例中的场景视频可以理解为由终端设备上的取像装置不断获取的多帧场景图像,在场景图像中即包括视频用户以及视频用户所处的环境,该场景图像以聊天画面的形式显示在终端。例如,图像处理装置包括可见光摄像头11,通过可见光摄像头11获取当前视频用户的场景视频以及场景视频包括的多帧场景图像。可见光摄像头11可以是rgb摄像头,所拍摄出的图像可以为彩色图像。

举例来说,图像处理装置包括深度图像采集组件12,通过深度图像采集组件12获取所述当前视频用户的多帧深度图像。深度图像中每个像素的灰度值可以表征拍摄场景中的某一点到深度图像采集组件12的距离,在本实施例中,深度图像包含表征当前视频用户所在的场景中各个人或物体的深度信息。深度图像的相关技术参见现有技术,在此不再赘述。

s102、根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度。

现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割,但这种分割方法易受外界光照等环境因素的影响。

由于都是对当前视频用户所处的场景进行拍摄,各帧场景图像的场景范围与深度图像的场景范围基本一致,且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。基于深度图像的获取不易受光照、场景中色彩分布等因素的影响,因此,通过深度图像提取到的人物区域更加准确,尤其可以准确标定出人物区域的边界。

图2是本发明某些实施方式的图像处理方法的流程示意图。本实施例对“根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像”进行优化。

在一种可能的实现方式中,“根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像”的具体实现方式如图2所示,包括以下步骤:

s21、逐帧识别所述场景图像中的人脸区域。

s22、从所述深度图像中获取与所述人脸区域对应的深度信息。

s23、根据所述人脸区域的深度信息确定所述人物区域的深度范围。

s24、根据所述人物区域的深度范围确定与所述人脸区域连接且落入所述深度范围内的人物区域以获得各帧所述人物区域图像。

举例来说,步骤21、步骤22、步骤23和步骤24均可以由处理器20实现。

也即是说,处理器20可进一步用于逐帧识别所述场景图像中的人脸区域;从所述深度图像中获取与所述人脸区域对应的深度信息;根据所述人脸区域的深度信息确定所述人物区域的深度范围;和根据所述人物区域的深度范围确定与所述人脸区域连接且落入所述深度范围内的人物区域以获得各帧所述人物区域图像。

具体地,首先可采用已训练好的深度学习模型识别出场景图像中的人脸区域,随后根据场景图像与深度图像的对应关系可确定出人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征,因此,人脸区域中的各个特征在深度图像中所对应的深度数据是不同的,例如,在人脸正对深度图像采集组件12时,深度图像采集组件12拍摄得的深度图像中,鼻子对应的深度数据可能较小,而耳朵对应的深度数据可能较大。因此,上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中,当人脸区域的深度信息为一个数值时,该数值可通过对人脸区域的深度数据取平均值得到;或者,可以通过对人脸区域的深度数据取中值得到。

由于人物区域包含人脸区域,也即是说,人物区域与人脸区域同处于某一个深度范围内,因此,处理器20确定出人脸区域的深度信息后,可以根据人脸区域的深度信息设定人物区域的深度范围,再根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域以获得人物区域图像。

如此,即可根据深度信息从场景图像中提取出人物区域图像。由于深度信息的获取不受环境中光照、色温等因素的影像响,因此,提取出的人物区域图像更加准确。

s103、将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体。

图像融合是图像处理中重要部分,能够协同利用同一场景的多种传感器图像信息,输出一幅更适合于人类视觉感知或计算机进一步处理与分析的融合图像。它可明显的改善单一传感器的不足,提高图像的清晰度及信息包含量,有利于更为准确、更为可靠、更为全面地获取目标或场景的信息。

s104、根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

具体地,合并图像的帧数与场景视频的帧数或深度图像的帧数关联,当场景视频的帧数或深度图像的帧数为多帧时,合并图像的帧数也为多帧,进而使使用终端的用户观看到流畅的视频画面。

由于深度信息可以表征拍摄场景中的某一点到深度图像采集组件12的距离。本实施例通过对背景物体的深度进行调整,实现多种视频画面的效果。例如,将背景物体的深度调整大于用户的深度,这样视频画面呈现出背景物体处于用户的身后的效果。例如,将背景物体的深度调整小于用户的深度,这样视频画面呈现出背景物体处于用户的前方的效果。例如,将背景物体的深度调整与用户的手部的深度相当,这样视频画面呈现出背景物体处与用户的手部在同一平面的效果。本实施例根据合并图像中人物区域的深度控制背景物体的深度,可以实现呈现出不同效果的视频画面,实现了视频用户可以与虚拟背景中的物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

本实施例提供的图像处理方法,获取当前用户的场景视频,及对应的多帧深度图像;根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。该方法通过获取更为精确的各帧人物区域图像实现融合得到的合并图像的画面效果更好,此外通过获取人物区域的深度调整背景物体在合并图像中的深度,可以实现呈现出不同效果的视频画面,实现了用户可以与虚拟背景中的物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

图3是本发明某些实施方式的图像处理方法的流程示意图。本实施例在上述实施例的基础上进行优化。本实施例将“根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整”优化为“针对每一帧人物区域图像,进行身体部位识别,以确定出目标身体部位图像;

根据所述人物区域的深度,确定所述目标身体部位的深度;调整所述背景物体在所述合并图像中的深度,以改变所述背景物体的深度与所述目标身体部位的深度之间的深度差值。”

如图3所示,该方法包括以下步骤:

s201、获取当前用户的场景视频,及对应的多帧深度图像。

s202、根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度。

s203、将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体。

本实施例步骤s201、s202、s203的实现方式分别与上述实施例中的步骤s101、s102、s103的实现方式相同,在此不再赘述。

s204、针对每一帧人物区域图像,进行身体部位识别,以确定出目标身体部位图像,以及根据所述人物区域的深度,确定所述目标身体部位的深度。

举例来说,人物的身体部位可划分为头颈部(可细分为头部、颈部)、躯干部(可细分为胸部、背部、脊椎部)、上肢部(可细分为肩部、上臂、前臂、手部)、下肢部(可细分为臀部、大腿、小腿、足部),但并不限于举例说明。

本实施例确定目标身体部位的深度可以参见上述关于人脸区域的深度信息的描述。例如,可采用已训练好的深度学习模型识别出场景图像中的目标身体部位(诸如手部),随后根据场景图像与深度图像的对应关系可确定出手部的深度信息。需要指出的是,确定目标身体部位的深度并不限于举例说明。

s205、调整所述背景物体在所述合并图像中的深度,以改变所述背景物体的深度与所述目标身体部位的深度之间的深度差值。

以目标身体部位为用户的手部为例,将背景物体的深度调整大于手部的深度(即深度差值大于0),这样视频画面呈现出背景物体处于手部的后面的效果。或者,将背景物体的深度调整小于手部的深度(即深度差值小于0),这样视频画面呈现出背景物体处于手部的前方的效果。或者,将背景物体的深度调整小于手部的深度(即深度差值小于0),这样视频画面呈现出背景物体处于手部的前方的效果。例如,将背景物体的深度调整与用户的手部的深度相当(即深度差值接近0),这样视频画面呈现出背景物体处与用户的手部在同一平面的效果。

在一种可能的实现方式中,统计目标身体部位在合并图像中对应的各个像素的深度,计算目标身体部位在合并图像中的参考深度值;根据参考深度值调整所述背景物体在所述合并图像中的深度,以改变所述合并图像中所述背景物体与所述目标身体部位的深度之间的深度差值。举例来说,目标身体部位为手部,手部在合并图像中的尺寸为(第200行-第100行)*(第200列-第100列),即手部对应的像素数目为100*100。对100*100个像素对应的深度进行统计,统计方法可以为求平均值,将平均值作为参考深度值,以参考深度值为参考,调整背景物体中各个像素的深度。进一步地,统计目标身体部位对应的轮廓在合并图像中对应的各个像素的深度,计算目标身体部位对应的轮廓在合并图像中的参考深度值;根据参考深度值调整所述背景物体对应的轮廓在所述合并图像中的深度,以改变所述合并图像中所述背景物体与所述目标身体部位对应的轮廓的深度之间的深度差值。这样,在保证不改变背景物体的主体的深度的情况下,通过使背景物体的轮廓的深度与目标身体部位的轮廓的深度相当,确保背景物体和目标身体部位部分或全部重合时,不会出现较大的画面违和感。

本实施例通过获取人物的各个身体部位的深度,可以灵活地调整背景物体与各个身体部位的深度差值,实现了视频用户可以与虚拟背景中的各个物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

进一步地,在步骤s205之后,还可以包括步骤s206。

s206、调整所述背景物体在所述合并图像中的图像位置,以改变所述合并图像中所述背景物体与所述目标身体部位之间的距离。

具体地,背景物体在合并图像中的图像位置可以理解为背景物体包括的各个像素点在合并图像中形成的区域。相应地,目标身体部位在合并图像中的图像位置可以理解为目标身体部位包括的各个像素点在合并图像中形成的区域。

在一种可能的实现方式中,统计目标身体部位在合并图像中对应的各个像素的像素位置信息,计算目标身体部位在合并图像中的参考像素位置;根据参考像素位置调整所述背景物体在所述合并图像中的图像位置,以改变所述合并图像中所述背景物体与所述目标身体部位之间的距离。

举例来说,以目标身体部位为用户的手部,背景物体为猫咪为例,根据用户的意图调整猫咪与手部的远近,可以将猫咪调整到远离手部,也可以将猫咪调整到接近手部,甚至可以将猫咪调整到手部上(即是视频画面中出现用户在手上玩耍猫咪的效果)。

具体地,建立合并图像对应的坐标系。以合并图像的尺寸为800*600(即有800行像素和600列像素)个像素为例,水平坐标沿像素的行方向,垂直坐标沿像素的列方向。

调整前,手部在合并图像中的尺寸为(第200行-第100行)*(第200列-第100列),即手部对应的像素数目为100*100。猫咪在合并图像中的尺寸为(第300行-第250行)*(第10列-第90列),即猫咪对应的像素数目为50*80。

若用户想把猫咪调整到手部上,则首先根据手部的尺寸信息可知,计算手部在合并图像中的参考像素位置为(第150行,第150列)。接着,以参考像素位置为(第150行,第150列)为参考,调整猫咪对应的50*80个像素的像素坐标,调整后的猫咪的尺寸为(第175行-第125行)*(第190列-第110列),这时猫咪的图像与手部图像部分或全部重合,即实现了猫咪调整到手部上。

本实施例调整背景物体在合并图像中的图像位置,可以灵活地改变合并图像中背景物体与目标身体部位之间的距离,进而实现了用户可以与虚拟背景中的各个物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

本实施例提供的图像处理方法,通过获取人物的各个身体部位的深度,可以灵活地调整背景物体与各个身体部位的深度差值;进一步地,通过调整背景物体在合并图像中的图像位置,可以灵活地改变合并图像中背景物体与目标身体部位之间的距离,实现了视频用户可以与虚拟背景中的各个物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。例如,用户可以控制背景中猫咪跳到用户的手上,并调节猫咪的深度与手部的深度相当,尽可能地降低画面的违和感。

图4是本发明某些实施方式的图像处理方法的流程示意图。本实施例在上述实施例的基础上进行优化。本实施例对“获取所述当前用户的多帧深度图像”进行优化。

在一种可能的实现方式中,“获取所述当前用户的场景视频对应的多帧深度图像”的具体实现方式如图4所示,包括以下步骤:

s11、多次向所述当前用户投射结构光。

s12、多次拍摄经所述当前视频用户调制的多帧结构光图像。

s13、逐帧解调所述结构光图像的各个像素对应的相位信息以得到各帧结构光图像对应的所述深度图像。

请再参阅图10,在某些实施方式中,深度图像采集组件12包括结构光投射器121和结构光摄像头122。步骤s11可以由结构光投射器121实现,步骤s12和步骤s13可以由结构光摄像头122实现。

也即是说,结构光投射器121可用于向当前用户透射结构光;结构光摄像头122可用于拍摄经当前用户调制的结构光图像,以及解调结构光图像的各个像素对应的相位信息以得到深度图像。

具体地,结构光投射器121将一定模式的结构光投射到当前用户的面部及躯体上后,在当前用户的面部及躯体的表面会形成由当前用户调制后的结构光图像。结构光摄像头122拍摄经调制后的结构光图像,再对结构光图像进行解调以得到深度图像。其中,结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

图5是本发明某些实施方式的图像处理方法的流程示意图。本实施例对“逐帧解调所述结构光图像的各个像素对应的相位信息以得到各帧结构光图像对应的所述深度图像”进行优化。

在一种可能的实现方式中,“逐帧解调所述结构光图像的各个像素对应的相位信息以得到各帧结构光图像对应的所述深度图像”的具体实现方式如图5所示,包括以下步骤:

s131、解调所述结构光图像中各个像素对应的相位信息。

s132、将所述相位信息转化为深度信息。

s133、根据所述深度信息生成所述深度图像。

请再参阅图10,在某些实施方式中,步骤s131、步骤s132和步骤s133均可以由结构光摄像头122实现。

也即是说,结构光摄像头122可进一步用于解调结构光图像中各个像素对应的相位信息,将相位信息转化为深度信息,以及根据深度信息生成深度图像。

具体地,与未经调制的结构光相比,调制后的结构光的相位信息发生了变化,在结构光图像中呈现出的结构光是产生了畸变之后的结构光,其中,变化的相位信息即可表征物体的深度信息。因此,结构光摄像头122首先解调出结构光图像中各个像素对应的相位信息,再根据相位信息计算出深度信息,从而得到最终的深度图像。

为了使本领域的技术人员更加清楚的了解根据结构来采集当前用户的面部及躯体的深度图像的过程,下面以一种应用广泛的光栅投影技术(条纹投影技术)为例来阐述其具体原理。其中,光栅投影技术属于广义上的面结构光。

如图6(a)所示,在使用面结构光投影的时候,首先通过计算机编程产生正弦条纹,并将正弦条纹通过结构光投射器121投射至被测物,再利用结构光摄像头122拍摄条纹受物体调制后的弯曲程度,随后解调该弯曲条纹得到相位,再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题,使用结构光进行深度信息采集前需对深度图像采集组件12进行参数标定,标定包括几何参数(例如,结构光摄像头122与结构光投射器121之间的相对位置参数等)的标定、结构光摄像头122的内部参数以及结构光投射器121的内部参数的标定等。

具体而言,第一步,计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位,比如采用四步移相法获取相位,因此这里产生四幅相位差为的条纹,然后结构光投射器121将该四幅条纹分时投射到被测物(图6(a)所示的面具)上,结构光摄像头122采集到如图6(b)左边的图,同时要读取如图6(b)右边所示的参考面的条纹。

第二步,进行相位恢复。结构光摄像头122根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位,此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得,因此结构光调制后的相位被限制在[-π,π]之间,也就是说,每当调制后的相位超过[-π,π],其又会重新开始。最终得到的相位主值如图6(c)所示。

其中,在进行相位恢复过程中,需要进行消跳变处理,即将截断相位恢复为连续相位。如图6(d)所示,左边为受调制的连续相位图,右边是参考连续相位图。

第三步,将受调制的连续相位和参考连续相位相减得到相位差(即相位信息),该相位差表征了被测物相对参考面的深度信息,再将相位差代入相位与深度的转化公式(公式中涉及到的参数经过标定),即可得到如图6(e)所示的待测物体的三维模型。

应当理解的是,在实际应用中,根据具体应用场景的不同,本发明实施例中所采用的结构光除了上述光栅之外,还可以是其他任意图案。

作为一种可能的实现方式,本发明还可使用散斑结构光进行当前用户的深度信息的采集。

具体地,散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件,该衍射元件具有特定相位分布的浮雕衍射结构,横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米,各个台阶的高度不均匀,高度的取值范围可为0.7微米~0.9微米。图7(a)所示结构为本实施例的准直分束元件的局部衍射结构。图7(b)为沿截面a-a的剖面侧视图,横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性,并且会随着距离的不同而变换图案。因此,在使用散斑结构光获取深度信息前,首先需要标定出空间中的散斑图案,例如,在距离结构光摄像头122的0~4米的范围内,每隔1厘米取一个参考平面,则标定完毕后就保存了400幅散斑图像,标定的间距越小,获取的深度信息的精度越高。随后,结构光投射器121将散斑结构光投射到被测物(即当前用户)上,被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头122拍摄投射到被测物上的散斑图案(即结构光图像)后,再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算,进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值,把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

由于普通的衍射元件对光束进行衍射后得到多数衍射光,但每束衍射光光强差别大,对人眼伤害的风险也大。即便是对衍射光进行二次衍射,得到的光束的均匀性也较低。因此,利用普通衍射元件衍射的光束对被测物进行投射的效果较差。本实施例中采用准直分束元件,该元件不仅具有对非准直光束进行准直的作用,还具有分光的作用,即经反射镜反射的非准直光经过准直分束元件后往不同的角度出射多束准直光束,且出射的多束准直光束的截面面积近似相等,能量通量近似相等,进而使得利用该光束衍射后的散点光进行投射的效果更好。同时,激光出射光分散至每一束光,进一步降低了伤害人眼的风险,且散斑结构光相对于其他排布均匀的结构光来说,达到同样的采集效果时,散斑结构光消耗的电量更低。

图8是本发明某些实施方式的图像处理装置的模块示意图。如图8所示,本实施例提供的图像处理装置,包括:

第一获取模块1,用于获取当前用户的场景视频,所述场景视频包括各帧场景图像;

第二获取模块2,用于获得各帧场景图像对应的多帧深度图像;

处理模块3,用于根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;

融合模块4,用于将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;

深度调整模块5,用于根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

进一步地,深度调整模块5具体用于:

针对每一帧人物区域图像,进行身体部位识别,以确定出目标身体部位图像;

根据所述人物区域的深度,确定所述目标身体部位的深度;

调整所述背景物体在所述合并图像中的深度,以改变所述背景物体的深度与所述目标身体部位的深度之间的深度差值。

进一步地,图像处理装置还包括:

距离调整模块,用于调整所述背景物体在所述合并图像中的图像位置,以改变所述合并图像中所述背景物体与所述目标身体部位之间的距离。

关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本实施例提供的图像处理装置,通过获取当前用户的场景视频,及对应的多帧深度图像;根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度;将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体;根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。该装置通过获取更为精确的各帧人物区域图像实现融合得到的合并图像的画面效果更好,此外通过获取人物区域的深度调整背景物体在合并图像中的深度,可以实现呈现出不同效果的视频画面,实现了用户可以与虚拟背景中的物体进行互动,增加了视频聊天的趣味性,提升了用户的体验。

图9是本发明某些实施方式的电子装置的模块示意图。图10是本发明某些实施方式的图像处理电路的模块示意图。本实施例的电子装置1000包括图像处理装置100。图像处理装置100可以利用硬件和/或软件实现。图像处理装置100包括成像设备10和处理器20。如图10所示,为便于说明,仅示出与本发明实施例相关的图像处理技术的各个方面。

成像设备10包括可见光摄像头11和深度图像采集组件12。

具体地,可见光摄像头11包括图像传感器111和透镜112,可见光摄像头11可用于捕捉当前用户的彩色信息以获得场景图像,其中,图像传感器111包括彩色滤镜阵列(如bayer滤镜阵列),透镜112的个数可为一个或多个。可见光摄像头11在获取场景图像过程中,图像传感器111中的每一个成像像素感应来自拍摄场景中的光强度和波长信息,生成一组原始图像数据;图像传感器111将该组原始图像数据发送至处理器20中,处理器20对原始图像数据进行去噪、插值等运算后即得到彩色的场景图像。处理器20可按多种格式对原始图像数据中的每个图像像素逐一处理,例如,每个图像像素可具有8、10、12或14比特的位深度,处理器20可按相同或不同的位深度对每一个图像像素进行处理。

深度图像采集组件12包括结构光投射器121和结构光摄像头122,深度图像采集组件12可用于捕捉当前视频用户的深度信息以得到深度图像。结构光投射器121用于将结构光投射至当前用户,其中,结构光图案可以是激光条纹、格雷码、正弦条纹或者随机排列的散斑图案等。结构光摄像头122包括图像传感器1221和透镜1222,透镜1222的个数可为一个或多个。图像传感器1221用于捕捉结构光投射器121投射至当前用户上的结构光图像。结构光图像可由深度采集组件12发送至处理器20进行解调、相位恢复、相位信息计算等处理以获取当前视频用户的深度信息。

在某些实施方式中,可见光摄像头11与结构光摄像头122的功能可由一个摄像头实现,也即是说,成像设备10仅包括一个摄像头和一个结构光投射器121,上述摄像头不仅可以拍摄场景图像,还可拍摄结构光图像。

除了采用结构光获取深度图像外,还可通过双目视觉方法、基于飞行时间差(timeofflight,tof)等深度像获取方法来获取当前视频用户的深度图像。

处理器20进一步用于将所述人物区域图像与背景图像融合以生成各帧合并图像。在提取人物区域图像时,处理器20可以结合深度图像中的深度信息从场景图像中提取出二维的人物区域图像,也可以根据深度图像中的深度信息建立人物区域的三维图,再结合场景图像中的色彩信息对三维的人物区域进行颜色填补以得到三维的彩色的人物区域图像。因此,融合处理人物区域图像和背景图像时可以是将二维的人物区域图像与、背景图像进行融合以得到合并图像,也可以是将三维的彩色的人物区域图像与背景图像进行融合以得到合并图像。

此外,图像处理装置100还包括图像存储器30。图像存储器30可内嵌在电子装置1000中,也可以是独立于电子装置1000外的存储器,并可包括直接存储器存取(directmemoryaccess,dma)特征。可见光摄像头11采集的原始图像数据或深度图像采集组件12采集的结构光图像相关数据均可传送至图像存储器30中进行存储或缓存。处理器20可从图像存储器30中读取原始图像数据以进行处理得到场景图像,也可从图像存储器30中读取结构光图像相关数据以进行处理得到深度图像。另外,场景图像和深度图像还可存储在图像存储器30中,以供处理器20随时调用处理,例如,处理器20调用场景图像和深度图像进行人物区域提取,并将提后的得到的人物区域图像与背景图像进行融合处理以得到合并图像。其中,背景图像和合并图像也可存储在图像存储器30中。

图像处理装置100还可包括显示器50。显示器50可直接从处理器20中获取合并图像,还可从图像存储器30中获取合并图像。显示器50显示合并图像以供用户观看,或者由图形引擎或图形处理器(graphicsprocessingunit,gpu)进行进一步的处理。图像处理装置100还包括编码器/解码器60,编码器/解码器60可编解码场景图像、深度图像及合并图像等的图像数据,编码的图像数据可被保存在图像存储器30中,并可以在图像显示在显示器50上之前由解码器解压缩以进行显示。编码器/解码器60可由中央处理器(centralprocessingunit,cpu)、gpu或协处理器实现。换言之,编码器/解码器60可以是中央处理器(centralprocessingunit,cpu)、gpu、及协处理器中的任意一种或多种。

图像处理装置100还包括控制逻辑器40。成像设备10在成像时,处理器20会根据成像设备获取的数据进行分析以确定成像设备10的一个或多个控制参数(例如,曝光时间等)的图像统计信息。处理器20将图像统计信息发送至控制逻辑器40,控制逻辑器40控制成像设备10以确定好的控制参数进行成像。控制逻辑器40可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的图像统计信息确定成像设备10的控制参数。

图11是本发明某些实施方式的电子装置的模块示意图。请参阅图11,本发明实施方式的电子装置1000包括一个或多个处理器200、存储器300和一个或多个程序310。其中一个或多个程序310被存储在存储器300中,并且被配置成由一个或多个处理器200执行。程序310包括用于执行上述任意一项实施方式的图像处理方法的指令。

例如,程序310包括用于执行以下步骤所述的图像处理方法的指令:

01:获取当前用户的场景视频,及对应的多帧深度图像。

02:根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度。

03:将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体。

04:根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置1000结合使用的计算机程序。计算机程序可被处理器200执行以完成上述任意一项实施方式的图像处理方法。

例如,计算机程序可被处理器200执行以完成以下步骤所述的图像处理方法:

01:获取当前用户的场景视频,及对应的多帧深度图像。

02:根据所述多帧深度图像,处理所述场景视频的各帧场景图像,以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像,及所述人物区域的深度。

03:将所述人物区域图像与背景图像融合以生成各帧合并图像,其中,所述背景图像包括至少一个背景物体。

04:根据所述合并图像中所述人物区域的深度,对所述背景物体在所述合并图像中的深度进行调整。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1