图像处理方法和装置、电子装置和计算机可读存储介质与流程

文档序号：13287387阅读：188来源：国知局

本发明涉及图像处理技术领域，特别涉及一种图像处理方法和装置、电子装置和计算机可读存储介质。

背景技术：

随着图像处理技术和移动终端的发展，人们对视频的需求越来越大，人们随时随地都可以拍摄视频或者进行视频通话，但是人们进行摄像时，在某些场景下希望隐藏真实的背景，来满足特定摄像场景的需求。更换摄像的背景，就需要将原摄像场景中的人物图像提取出来，并将提取出的人物图像和选定的动态背景进行融合。

现有的将人物与虚拟背景融合的技术通常使用特征点提取人物轮廓，但使用特征点提取的人物轮廓精确度不高，尤其无法准确标定出人物的边界，影响图像融合的效果。

技术实现要素：

本发明的实施例提供了一种图像处理方法、图像处理装置、电子装置和计算机可读存储介质。

本发明实施方式的图像处理方法用于电子装置，所述图像处理方法包括：

采集当前用户的第一场景视频；

获取所述当前用户的多个深度图像；

根据所述多个深度图像，处理所述第一场景视频的各帧场景图像，以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像；

根据所述第一场景视频所采用的视频帧率，从多个动态背景中选取匹配的目标动态背景；

将每一个所述人物区域图像与所述目标动态背景中对应帧的背景图像融合以得到合并图像。

本发明实施方式的图像处理装置，用于电子装置。所述图像处理装置包括可见光摄像头、深度图像采集组件和处理器。

可见光摄像头，所述可见光摄像头用于采集当前用户的第一场景视频。

深度图像采集组件，所述深度图像采集组件用于获取所述当前用户的多个深度图像。

处理器，所述处理器用于：

根据所述多个深度图像，处理所述第一场景视频的各帧场景图像，以获取所述当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像；

根据所述第一场景视频所采用的视频帧率，从多个动态背景中选取匹配的目标动态背景；

将每一个所述人物区域图像与所述目标动态背景中对应帧的背景图像融合以得到合并图像。

本发明实施方式的电子装置包括一个或多个处理器、存储器和一个或多个程序。其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述的图像处理方法的指令。

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置结合使用的计算机程序，所述计算机程序可被处理器执行以完成上述的图像处理方法。

本发明实施方式的图像处理方法、图像处理装置、电子装置和计算机可读存储介质通过获取当前用户的多个深度图像以将各帧场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过多个深度图像提取到的对应人物区域更加准确，尤其可以准确标定出人物区域的边界。另外，由于第一场景视频和目标动态背景的帧率匹配，使得较为精准的人物区域图像与目标动态背景中对应帧的背景图像可以进行很好的融合。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例所提供的图像处理装置的模块示意图；

图2是本发明实施例所提供的电子装置的结构示意图；

图3是本发明实施例一所提供的图像处理方法的流程示意图；

图4是本发明实施例二所提供的图像处理方法的流程示意图；

图5(a)至图5(e)是根据本发明一个实施例的结构光测量的场景示意图；

图6(a)和图6(b)根据本发明一个实施例的结构光测量的场景示意图；

图7是本发明实施例三所提供的图像处理方法的流程示意图；

图8是本发明实施例四所提供的图像处理方法的流程示意图；

图9a为本发明实施例五所提供的图像处理方法的流程示意图；

图9b为本发明实施例六所提供的图像处理方法的流程示意图

图10为本发明实施例所提供的一种电子装置的模块示意图；以及

图11为本发明实施例所提供的另一种电子装置的模块示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的图像处理方法和装置、电子装置和计算机可读存储介质。

用户可以根据自己的喜好，在拍摄视频或者视频通话时，更换动态背景，满足用户对视频拍摄场景的需求，但是，相关技术中，人物与虚拟背景融合的技术通常使用特征点提取视频中各帧场景图像中的人物轮廓，但使用特征点提取的人物轮廓精确度不高，导致无法准确标定出人物边界，影响图像融合的效果。

针对这一问题，本发明实施例提出了一种图像处理方法，本发明实施例的图像处理方法可以由本发明实施例的图像处理装置实现，图像处理装置用于电子装置。

图1为本发明实施例所提供的图像处理装置的模块示意图，以及图2为本发明实施例所提供的电子装置的结构示意图。

如图1和图2所示，本发明实施例中，图像处理装置100用于电子装置1000，也就是说，电子装置1000包括图像处理装置100。

图像处理装置100包括可见光摄像头11、深度图像采集组件12和处理器20。

可见光摄像头11，用于采集用户拍摄的视频。

深度图像采集组件12，用于采集用户的多个深度图像。

处理器20，用于对采集到的数据进行处理。

作为一种可能的实现方式，深度图像采集组件12，还可以包括：结构光投射器121和结构光摄像头122。

其中，结构光投射器121，用于向当前用户投射结构光。

结构光摄像头122，拍摄经用户调制的结构光图像。

电子装置1000可以包括手机、平板电脑、笔记本电脑、智能手环、智能手表、智能头盔、智能眼镜等。

图3为本发明实施例所提供的一种图像处理方法的流程示意图，本实施例的图像处理方法基于上述实施例的图像处理装置和电子装置实现，该图像处理方法包括：

步骤s301，采集当前用户的第一场景视频。

其中，为了描述方便，可以将第一场景视频的帧率称为视频帧率，将动态背景的帧率称为背景帧率。

具体地，电子装置中安装有应用程序，用户打开应用程序，通过可见光摄像头采集用户当前的视频场景图像，称为第一场景视频，其中，第一场景视频包含多帧场景图像。

步骤s302，获取当前用户的多个深度图像。

结构光(structuredlight)为投射特定的光到物体表面，由于物体表面是凹凸不平的，物体表面的变化以及可能的间隙会对照射来的光进行调制，再将发射出去。本实施例中，生成结构光的设备为结构光投射器，由结构光投射器向用户发射结构光，当结构光照射到人体上以后，由于用户身体表面是不平整的，所以身体在对结构光进行反射时，会造成结构光的畸变。进一步地，由电子装置上的结构光摄像头拍摄经当前用户调制的结构光图像，并解调该结构光图像中各个像素对应的相位信息，将相位信息转化为深度信息，根据深度信息以得到多个深度图像中的一个深度图像，进而，得到所有的深度图像。深度图像为多个，可以是视频中的每一帧对应一个深度图像，当视频中人物在多帧场景图像中静止不动时，即会存在静止不动的多帧场景图像对应同一个深度图像。其中，结构光摄像头中采集到的深度图像和可见光摄像头采集到的场景图像对应的是同一帧画面，对应的场景范围相同，且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。

步骤s303，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像。

具体地，针对每一帧场景图像，识别出场景图像中的人脸区域，根据该帧场景图像对应的深度图像中，获取与人脸区域对应的深度信息，根据该人脸区域的深度信息确定人物区域的深度范围，然后，根据该人物区域的深度范围确定与人脸区域连接且落入该深度范围内的人物区域，从而获取人物区域图像，且可以准确确定人物区域图像。

步骤s304，根据第一场景视频所采用的视频帧率，从多个动态背景中选取匹配的目标动态背景。

电子装置的存储单元中或者云端服务器中存储有多个动态背景。具体地，多个动态背景所采用的帧率不同，根据第一场景视频采用的帧率，和预设的阈值，从多个动态背景中，选取目标动态背景，该目标动态背景和第一场景视频所采用的帧率之差小于预设阈值。

一般来说，动态背景和视频均应当采用标准几种帧率，例如30帧/秒、60帧/秒、120帧/秒等等。但考虑到可能会存在非标准帧率的情况，在预设的标准帧率的动态背景中，可能无法查询到完全匹配的动态背景，针对这种情况，可以设定非零的预设阈值，以便查询到帧率近似的动态背景例如，第一场景视频所采用的帧率是30帧/秒，预设阈值是2帧，则目标动态背景的帧率范围是29帧至31帧。优先选取和第一场景视频所采用帧率差值最小的目标动态背景，如本例中的帧率为30帧的目标动态背景；若存在的是和第一场景视频所采用的帧率差值小于阈值的多个目标动态背景，则任选一个目标动态背景，如本例中的帧率为29帧/秒或31帧/秒的目标动态背景。

需要说明的是，当匹配到的目标动态背景为多个时，作为一种可能的实现方式，可将目标动态背景呈现给用户，由用户根据喜好程度进行选择一个目标动态背景。作为另一种可能的实现方式，由电子装置的处理器随机选取一个作为目标动态背景。

步骤s305，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。

具体地，第一场景视频和目标动态背景帧率是匹配的，人物区域图像和第一视频中每一帧图像具有对应关系，人物区域图像可与选取的目标动态背景的对应帧的场景图像进行融合，由于获取得到的每一个人物区域图像其边缘都是比较清晰准确的，融合后得到的合并图像效果较好。

需要解释的，当第一场景视频和目标背景视频的帧率差值不为0，而为数值很小的阈值时，如，1帧或者2帧，在进行融合时，由于帧率的差值较小，融合后，人眼不易察觉出存在没有进行融合的画面。

本发明实施方式的图像处理方法中，采集当前用户的第一场景视频，获取当前用户的多个深度图像，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取各帧场景图像中的人物区域图像，根据第一场景视频的视频帧率，从多个动态背景中选取匹配的目标动态背景，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本发明实施方式的图像处理方法，通过获取当前用户的深度图像以将场景视频中各帧场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，尤其可以准确标定出人物区域的边界。进一步地，获取与用户拍摄的第一场景视频帧率匹配的目标动态背景，实现较为精准的人物区域图像可以与目标动态背景进行很好的融合。

在上述实施例基础上，本发明提出了一种图像处理方法的可能的实现方式，进一步说明了如何得到深度图像的方法，图4是本发明实施例二所提供的图像处理方法的流程示意图，如图4所示，在上一实施例基础上，步骤s302还可以包括如下步骤：

步骤s3021，向当前用户投射结构光。

具体地，电子设备上安装的应用程序调用生成结构光的设备，即结构光投射器，结构光投射器将一定模式的结构光投射到当前用户的面部及躯体上后，在当前用户的面部及躯体的表面会形成由当前用户调制后的结构光图像。其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

步骤s3022，拍摄经当前用户调制的结构光图像。

具体地，深度图像采集组件中的结构光摄像头，拍摄经用户调制的结构光图像。

步骤s3023，解调结构光图像中各个像素对应的相位信息。

具体地，与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头解调出结构光图像中各个像素对应的相位信息。

步骤s3024，将相位信息转化为深度信息，并根据深度信息生成多个深度图像中的一个深度图像。

具体地，图像的相位是空间位置的函数，通过各个像素对应的相位信息，即可获得相位和空间位置确定的函数关系，从而得到各个像素点对应的深度信息，根据各个像素点的位置和深度信息，生成多个深度图像中的一个。

进而，可以根据各帧场景图像对应的深度信息，生成对应的深度图像，从而获取到当前用户的多个深度图像。

为了使本领域的技术人员更加清楚的了解根据结构来采集当前用户的面部及躯体的深度图像的过程，下面以一种应用广泛的光栅投影技术(条纹投影技术)为例来阐述其具体原理。其中，光栅投影技术属于广义上的面结构光。

如图5(a)所示，在使用面结构光投影的时候，首先通过计算机编程产生正弦条纹，并将正弦条纹通过结构光投射器投射至被测物，再利用结构光摄像头拍摄条纹受物体调制后的弯曲程度，随后解调该弯曲条纹得到相位，再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题，使用结构光进行深度信息采集前需对深度图像采集组件进行参数标定，标定包括几何参数(例如，结构光摄像头与结构光投射器之间的相对位置参数等)的标定、结构光摄像头的内部参数以及结构光投射器的内部参数的标定等。

具体而言，第一步，计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位，比如采用四步移相法获取相位，因此这里产生四幅相位差为的条纹，然后结构光投射器将该四幅条纹分时投射到被测物(图5(a)所示的面具)上，结构光摄像头采集到如图5(b)左边的图，同时要读取如图5(b)右边所示的参考面的条纹。

第二步，进行相位恢复。结构光摄像头根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位，此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得，因此结构光调制后的相位被限制在[-π,π]之间，也就是说，每当调制后的相位超过[-π,π]，其又会重新开始。最终得到的相位主值如图5(c)所示。

其中，在进行相位恢复过程中，需要进行消跳变处理，即将截断相位恢复为连续相位。如图5(d)所示，左边为受调制的连续相位图，右边是参考连续相位图。

第三步，将受调制的连续相位和参考连续相位相减得到相位差(即相位信息)，该相位差表征了被测物相对参考面的深度信息，再将相位差代入相位与深度的转化公式(公式中涉及到的参数经过标定)，即可得到如图5(e)所示的待测物体的三维模型。

应当理解的是，在实际应用中，根据具体应用场景的不同，本发明实施例中所采用的结构光除了上述光栅之外，还可以是其他任意图案。

作为一种可能的实现方式，本发明还可使用散斑结构光进行当前用户的深度信息的采集。

具体地，散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件，该衍射元件具有特定相位分布的浮雕衍射结构，横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米，各个台阶的高度不均匀，高度的取值范围可为0.7微米～0.9微米。图6(a)所示结构为本实施例的准直分束元件的局部衍射结构。图6(b)为沿截面a-a的剖面侧视图，横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性，并且会随着距离的不同而变换图案。因此，在使用散斑结构光获取深度信息前，首先需要标定出空间中的散斑图案，例如，在距离结构光摄像头的0～4米的范围内，每隔1厘米取一个参考平面，则标定完毕后就保存了400幅散斑图像，标定的间距越小，获取的深度信息的精度越高。随后，结构光投射器将散斑结构光投射到被测物(即当前用户)上，被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头拍摄投射到被测物上的散斑图案(即结构光图像)后，再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算，进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值，把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

由于普通的衍射元件对光束进行衍射后得到多数衍射光，但每束衍射光光强差别大，对人眼伤害的风险也大。即便是对衍射光进行二次衍射，得到的光束的均匀性也较低。因此，利用普通衍射元件衍射的光束对被测物进行投射的效果较差。本实施例中采用准直分束元件，该元件不仅具有对非准直光束进行准直的作用，还具有分光的作用，即经反射镜反射的非准直光经过准直分束元件后往不同的角度出射多束准直光束，且出射的多束准直光束的截面面积近似相等，能量通量近似相等，进而使得利用该光束衍射后的散点光进行投射的效果更好。同时，激光出射光分散至每一束光，进一步降低了伤害人眼的风险，且散斑结构光相对于其他排布均匀的结构光来说，达到同样的采集效果时，散斑结构光消耗的电量更低。

图7是本发明实施例三所提供的图像处理方法的流程示意图，该方法可由图像处理装置中的处理器实现，通过处理场景图像和深度图像以提取当前用户在场景图像中的人物区域而获得人物区域图像，如图7所示，在上述实施例的基础上，步骤s303还可以包括如下步骤:

步骤s3031，针对每一帧场景图像，识别场景图像中的人脸区域。

具体地，电子设备中的处理器针对每一帧场景图像，可采用已训练好的深度学习模型识别出场景图像中的人脸区域。

步骤s3032，从场景图像对应的深度图像中，获取与人脸区域对应的深度信息。

具体地，根据场景图像与深度图像的对应关系可确定出人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征，因此，人脸区域中的各个特征在深度图像中所对应的深度数据是不同的，例如，在人脸正对深度图像采集组件时，深度图像采集组件拍摄得的深度图像中，鼻子对应的深度数据可能较小，而耳朵对应的深度数据可能较大。因此，上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中，当人脸区域的深度信息为一个数值时，该数值可通过对人脸区域的深度数据取平均值得到；或者，可以通过对人脸区域的深度数据取中值得到。

步骤s3033，根据人脸区域的深度信息确定人物区域的深度范围。

具体地，由于人物区域包含人脸区域，也即是说，人物区域与人脸区域同处于某一个深度范围内，因此，处理器确定出人脸区域的深度信息后，可以根据人脸区域的深度信息设定人物区域的深度范围。

步骤s3034，根据人物区域的深度范围确定与人脸区域连接且落入深度范围内的人物区域以获得人物区域图像。

具体地，根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域以获得人物区域图像。

如此，即可根据深度信息从场景图像中提取出人物区域图像。由于深度信息的获取不受环境中光照、色温等因素的影像响，因此，提取出的人物区域图像更加准确。

在上述实施例基础上，图8是本发明实施例四所提供的图像处理方法的流程示意图，该方法的步骤可由图像处理装置中的处理器实现，如图8所示，作为一种可能的实现方式，图像处理方法还包括以下步骤：

步骤s801，处理场景图像以得到场景图像的全场边缘图像。

具体地，处理器首先对场景图像进行边缘提取以得到全场边缘图像，其中，全场边缘图像中的边缘线条包括当前用户以及当前用户所处场景中背景物体的边缘线条。具体地，可通过canny算子对场景图像进行边缘提取。canny算子进行边缘提取的算法的核心主要包括以下几步：首先，用2d高斯滤波模板对场景图像进行卷积以消除噪声；随后，利用微分算子得到各个像素的灰度的梯度值，并根据梯度值计算各个像素的灰度的梯度方向，通过梯度方向可以找到对应像素沿梯度方向的邻接像素；随后，遍历每一个像素，若某个像素的灰度值与其梯度方向上前后两个相邻像素的灰度值相比不是最大的，那么认为这个像素不是边缘点。如此，即可确定场景图像中处于边缘位置的像素点，从而获得边缘提取后的全场边缘图像。

步骤s802，根据全场边缘图像修正人物区域图像。

具体地，处理器获取全场边缘图像后，再根据全场边缘图像对人物区域图像进行修正。可以理解，人物区域图像是将场景图像中与人脸区域连接并落入设定的深度范围的所有像素进行归并后得到的，在某些场景下，可能存在一些与人脸区域连接且落入深度范围内的物体。因此，为使得提取的人物区域图像更为准确，可使用全场边缘图对人物区域图像进行修正。

进一步地，处理器还可对修正后的人物区域图像进行二次修正，例如，可对修正后的人物区域图像进行膨胀处理，扩大人物区域图像以保留人物区域图像的边缘细节。

处理器得到人物区域图像后，即可将人物区域图像与目标动态背景进行融合，进而得到合并图像。作为一种可能的实现方式，目标动态背景可以是由处理器随机选取，或者由当前用户自行选定。融合后的合并图像可在电子装置的显示屏上进行显示，也可通过与电子装置连接的打印机进行打印。

在某些应用场景中，例如，当前用户与他人进行视频过程中希望隐藏当前的背景，此时，即可使用本发明实施方式的图像处理方法将当前用户对应的人物区域图像与目标动态背景中的对应帧的背景图像融合，再向对方显示融合后的合并图像。由于当前用户正与对方视频通话，因此，可见光摄像头需实时拍摄当前用户的场景图像，深度图像采集组件也需要实时采集当前用户对应的深度图像，并由处理器及时对实时采集的场景图像和深度图像进行处理以使得对方能够看到流畅的由多帧合并图像组合而成的视频画面。

目标动态背景是预先存储于云端服务器或者手机存储器中的，其背景帧率和第一场景视频的视频帧率不一定匹配，当第一场景视频的视频帧率和目标动态背景的背景帧率不匹配时，需要对第一场景视频和/或目标动态背景进行处理，将处理过的使得第一场景视频和目标动态背景的帧率匹配，为此，本发明实施例提出了又一种图像处理方法的可能的实现方式。

图9a为本发明实施例五所提供的图像处理方法的流程示意图，通过抽取帧的方法，实现第一场景视频和目标动态背景帧率匹配，如图9a所示，该方法包括：

步骤s901，采集当前用户的第一场景视频。

步骤s902，获取当前用户的多个深度图像。

步骤s903，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像。

步骤s901至步骤s903，可参照图3对应实施例中的步骤s301至步骤s303，此处不再赘述。

步骤s904，判断第一场景视频所采用的视频帧率是否与多个动态背景的背景帧率均不匹配，若是，执行步骤s906，若否，则执行步骤s905。

具体地，用户拍摄获取第一场景视频，与预先存储的多个动态背景的帧率不一定存在匹配关系，若第一场景视频采用的视频帧率和多个动态背景的背景帧率均不匹配，则从多个动态背景中选取第一动态背景，若多个动态背景中存在和第一场景视频的帧率匹配的动态背景，则从多个动态背景中选取该目标动态背景。

步骤s905，从多个动态背景中选取匹配的目标动态背景。

具体地，从多个动态背景中选取背景帧率与第一场景视频的视频帧率之差小于阈值的动态背景，其中，阈值取值较小，阈值为整数，例如阈值取值为2，第一场景视频的视频帧率为30帧/秒，根据阈值，则和第一场景视频匹配的动态背景的帧率则为29帧/秒，或30帧/秒，或31帧/秒，优先选取帧率之差为0的30帧/秒对应的动态背景，作为匹配的动态背景。

步骤s906，从多个动态背景中选取第一动态背景。

具体地，若动态背景中不存在和第一场景视频匹配的动态背景，则从多个动态背景中，选取第一动态背景，其中，第一动态背景的背景帧率与视频帧率的视频帧率最接近，或第一动态背景的背景帧率与视频帧率的视频帧率存在倍数关系。

步骤s907，判断第一场景视频的视频帧率是否大于第一动态背景的背景帧率，若是，执行步骤s909，若否，执行步骤s908。

步骤s908，对第一动态背景进行帧提取，得到帧率相互匹配的第二场景视频和第二动态背景。

具体地，若第一场景视频的视频帧率小于第一动态背景的背景帧率，对第一动态背景的背景帧率进行帧提取，以使第一场景视频的视频帧率与帧提取得到的第二动态背景的背景帧率匹配，并将第一场景视频作为第二场景视频。

对于帧提取的方法，举例说明，例如，计算第一动态背景和第一场景视频的帧率的差值，如，差值为7帧，则针对第一动态背景，从每一秒的多帧背景图像中随机选取7帧删除，得到第二动态背景，从而使得第二场景视频的视频帧率和第二动态背景的背景帧率完全匹配。

步骤s909，对第一场景视频进行帧提取，得到帧率相互匹配的第二场景视频和第二动态背景。

具体地，若第一场景视频的视频帧率大于第一动态背景的背景帧率，对第一场景视频进行帧提取，以使帧提取得到的第二场景视频的视频帧率与第一动态背景的背景帧率匹配，并将第一动态背景作为第二动态背景。

步骤s910，将每一个人物区域图像与得到的动态背景中对应帧的背景图像融合以得到合并图像。

具体地，得到的第二场景视频和第二动态背景的帧率匹配，第二场景视频中人物区域图像和第二动态背景中每一帧图像具有对应关系，人物区域图像可与选取的目标动态背景的对应帧图像进行融合，由于获取得到的每一个人物区域图像其边缘都是比较清晰准确的，融合后得到的合并图像效果较好。

本发明实施方式的图像处理方法中，采集当前用户的第一场景视频，获取当前用户的多个深度图像，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取各帧场景图像中的人物区域图像，根据第一场景视频的视频帧率，从多个动态背景中选取匹配的目标动态背景，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本发明实施方式的图像处理方法，通过获取当前用户的深度图像以将场景视频中各帧场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，尤其可以准确标定出人物区域的边界。进一步地，通过帧提取的方法使得第一场景视频和目标动态背景的帧率匹配，使得提取得到的精准的人物区域图像与预定的目标动态背景可以进行较好的融合。

图9b为本发明实施例六所提供的图像处理方法的流程示意图，通过相邻帧中插入补充帧的方法，实现第一场景视频和目标动态背景帧率匹配，如图9b所示，该方法包括：

步骤s911，采集当前用户的第一场景视频。

步骤s912，获取当前用户的多个深度图像。

步骤s913，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像。

步骤s911～步骤s913，可参照图3对应实施例中的步骤s301至步骤s303，此处不再赘述。

步骤s914，判断第一场景视频所采用的视频帧率是否与多个动态背景的背景帧率匹配，若是，执行步骤s915，若否，则执行步骤s916。

步骤s915，从多个动态背景中选取匹配的目标动态背景。

步骤s916，从多个动态背景中选取第一动态背景。

步骤s914～步骤s916，可参照上一实施例中的步骤s904～步骤s906，此处不再赘述。

步骤s917，判断第一场景视频的视频帧率是否大于第一动态背景的背景帧率，若是，执行步骤s919，若否，执行步骤s918。

步骤s918，在第一场景视频的相邻帧之间插入补充帧，得到帧率相互匹配的第二场景视频和第二动态背景。

具体地，若第一场景视频的视频帧率小于第一动态背景的背景帧率，在第一场景视频的相邻帧中插入补充帧，以使帧插入得到的第二场景视频的视频帧率与第一动态背景的背景帧率匹配，并将第一动态背景作为第二动态背景。

其中，第一场景视频中插入的补充帧中各像素点的取值是根据相邻帧中对应像素点的取值确定的，即插入的补充帧和相邻帧是完全一样的场景画面。

步骤s919，在第一动态背景的相邻帧之间插入补充帧，得到帧率相互匹配的第二场景视频和第二动态背景。

具体地，若第一场景视频的视频帧率大于第一动态背景的背景帧率，在第一动态背景的相邻帧之间插入补充帧，以使第一场景视频的视频帧率与帧插入得到的第二动态背景的背景帧率匹配，并将第一场景视频作为第二场景视频。

其中，第一动态背景中插入的补充帧中各像素点的取值是根据相邻帧中对应像素点的取值确定的，即得到的补充帧和相邻帧的背景画面是完全一样的。

步骤s920，将每一个人物区域图像与得到的动态背景中对应帧的背景图像融合以得到合并图像。

本发明实施方式的图像处理方法中，采集当前用户的第一场景视频，获取当前用户的多个深度图像，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取各帧场景图像中的人物区域图像，根据第一场景视频的视频帧率，从多个动态背景中选取匹配的目标动态背景，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本发明实施方式的图像处理方法，通过获取当前用户的深度图像以将场景视频中各帧场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，尤其可以准确标定出人物区域的边界。进一步地，通过相邻帧之间插入补充帧的方法使得第一场景视频和目标动态背景的帧率匹配，使得提取得到的精准的人物区域图像与预定的目标动态背景可以进行较好的融合。

为实现上述实施例，本发明还提出了一种电子装置，图10为本发明实施例所提供的一种电子装置的模块示意图。

参照图3和图10，电子装置1000包括图像处理装置100。图像处理装置100可以利用硬件和/或软件实现。图像处理装置100包括成像设备10和处理器20。

成像设备10包括可见光摄像头11和深度图像采集组件12。

具体地，可见光摄像头11包括图像传感器111和透镜112，可见光摄像头11可用于捕捉当前用户的彩色信息以获得场景视频图像，其中，图像传感器111包括彩色滤镜阵列(如bayer滤镜阵列)，透镜112的个数可为一个或多个。可见光摄像头11在获取场景视频图像过程中，图像传感器111中的每一个成像像素感应来自拍摄场景中的光强度和波长信息，生成一组原始图像数据；图像传感器111将该组原始图像数据发送至处理器20中，处理器20对原始图像数据进行去噪、插值等运算后即得到彩色的场景图像。处理器20可按多种格式对原始图像数据中的每个图像像素逐一处理，例如，每个图像像素可具有8、10、12或14比特的位深度，处理器20可按相同或不同的位深度对每一个图像像素进行处理。

深度图像采集组件12包括结构光投射器121和结构光摄像头122，深度图像采集组件12可用于捕捉当前用户的深度信息以得到深度图像。结构光投射器121用于将结构光投射至当前用户，其中，结构光图案可以是激光条纹、格雷码、正弦条纹或者随机排列的散斑图案等。结构光摄像头122包括图像传感器1221和透镜1222，透镜1222的个数可为一个或多个。图像传感器1221用于捕捉结构光投射器121投射至当前用户上的结构光图像。结构光图像可由深度采集组件12发送至处理器20进行解调、相位恢复、相位信息计算等处理以获取当前用户的深度信息。

在某些实施方式中，可见光摄像头11与结构光摄像头122的功能可由一个摄像头实现，也即是说，成像设备10仅包括一个摄像头和一个结构光投射器121，上述摄像头不仅可以拍摄场景图像，还可拍摄结构光图像。

除了采用结构光获取深度图像外，还可通过双目视觉方法、基于飞行时间差(timeofflight，tof)等深度像获取方法来获取当前用户的深度图像。

处理器20进一步用于将由从场景图像和深度图像中提取的人物区域图像，与多个动态背景中选取的匹配的目标动态背景中对应帧的图像融合。在提取人物区域图像时，处理器20可以结合深度图像中的深度信息从场景图像中提取出二维的人物区域图像，也可以根据深度图像中的深度信息建立人物区域的三维图，再结合场景图像中的色彩信息对三维的人物区域进行颜色填补以得到三维的彩色的人物区域图像。因此，融合处理每一个人物区域图像和目标动态背景中对应帧的图像时可以是将二维的人物区域图像与目标动态背景中的二维背景图像进行融合以得到合并图像，也可以是将三维的彩色的人物区域图像与目标动态背景中的二维背景图像进行融合以得到合并图像。

此外，图像处理装置100还包括图像存储器30。图像存储器30可内嵌在电子装置1000中，也可以是独立于电子装置1000外的存储器，并可包括直接存储器存取(directmemoryaccess，dma)特征。可见光摄像头11采集的原始图像数据或深度图像采集组件12采集的结构光图像相关数据均可传送至图像存储器30中进行存储或缓存。处理器20可从图像存储器30中读取原始图像数据以进行处理得到场景图像，也可从图像存储器30中读取结构光图像相关数据以进行处理得到深度图像。另外，场景图像和深度图像还可存储在图像存储器30中，以供处理器20随时调用处理，例如，处理器20调用场景图像和深度图像进行人物区域提取，并将提后的得到的人物区域图像与目标动态背景图像进行融合处理以得到合并图像。其中，目标动态背景图像和合并图像也可存储在图像存储器30中。

图像处理装置100还可包括显示器50。显示器50可直接从处理器20中获取合并图像，还可从图像存储器30中获取合并图像。显示器50显示合并图像以供用户观看，或者由图形引擎或图形处理器(graphicsprocessingunit，gpu)进行进一步的处理。图像处理装置100还包括编码器/解码器60，编码器/解码器60可编解码场景图像、深度图像及合并图像等的图像数据，编码的图像数据可被保存在图像存储器30中，并可以在图像显示在显示器50上之前由解码器解压缩以进行显示。编码器/解码器60可由中央处理器(centralprocessingunit，cpu)、gpu或协处理器实现。换言之，编码器/解码器60可以是中央处理器(centralprocessingunit，cpu)、gpu、及协处理器中的任意一种或多种。

图像处理装置100还包括控制逻辑器40。成像设备10在成像时，处理器20会根据成像设备获取的数据进行分析以确定成像设备10的一个或多个控制参数(例如，曝光时间等)的图像统计信息。处理器20将图像统计信息发送至控制逻辑器40，控制逻辑器40控制成像设备10以确定好的控制参数进行成像。控制逻辑器40可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的图像统计信息确定成像设备10的控制参数。

为实现上述实施例，图11为本发明实施例所提供的另一种电子装置的模块示意图，如图11所示，本发明实施方式的电子装置1000包括一个或多个处理器200、存储器300和一个或多个程序310。其中一个或多个程序310被存储在存储器300中，并且被配置成由一个或多个处理器200执行。程序310包括用于执行上述任意一项实施方式的图像处理方法的指令。

例如，程序310包括用于执行以下步骤所述的图像处理方法的指令：

步骤s301，采集当前用户的第一场景视频。

步骤s302，获取当前用户的多个深度图像。

步骤s303，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像。

步骤s304，根据第一场景视频所采用的视频帧率，从多个动态背景中选取匹配的目标动态背景。

步骤s305，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。

再例如，程序310还包括用于执行以下步骤所述的图像处理方法的指令：

步骤s3023，解调结构光图像中各个像素对应的相位信息；

步骤s3024，将相位信息转化为深度信息，并根据深度信息生成多个深度图像中的一个深度图像。

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置1000结合使用的计算机程序。计算机程序可被处理器200执行以完成上述任意一项实施方式的图像处理方法。

例如，计算机程序可被处理器200执行以完成以下步骤所述的图像处理方法：

步骤s301，采集当前用户的第一场景视频。

步骤s302，获取当前用户的多个深度图像。

步骤s303，根据多个深度图像，处理第一场景视频的各帧场景图像，以获取当前用户在各帧场景图像中的人物区域而得到对应的人物区域图像。

步骤s304，根据第一场景视频所采用的视频帧率，从多个动态背景中选取匹配的目标动态背景。

步骤s305，将每一个人物区域图像与目标动态背景中对应帧的背景图像融合以得到合并图像。

再例如，计算机程序还可被处理器200执行以完成以下步骤所述的图像处理方法：

步骤s3023，解调结构光图像中各个像素对应的相位信息；

步骤s3024，将相位信息转化为深度信息，并根据深度信息生成多个深度图像中的一个深度图像。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张学勇
技术所有人：广东欧珀移动通信有限公司
我是此专利的发明人

上一篇：多路DVI视频一体化分配设备的制作方法
上一篇：图像合成方法、装置、计算机可读存储介质和计算机设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。