图像识别方法及装置、计算机可读存储介质与流程

文档序号：16633818发布日期：2019-01-16 06:49阅读：160来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开涉及图像处理技术领域，尤其涉及一种图像识别方法及装置、计算机可读存储介质。

背景技术：

图像识别技术广泛应用于人们的日常生活中。相关技术中提出利用人体和背景的颜色差异来区分出图像中的人体部分和背景部分。比如，当拍摄背景为草丛时，可以通过人体的肤色与草丛颜色的差异，区分出人体和草丛，从而再对人体部分或草丛部分作进一步处理。

技术实现要素：

本公开提供一种图像识别方法及装置、计算机可读存储介质，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种图像识别方法，包括：

获取被拍摄对象的深度信息；其中，所述被拍摄对象包含主体部分和背景部分；

根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域；

根据确定出的边界区域识别所述主体部分与所述背景部分。

可选的，所述深度信息由深度摄像头采集获得。

可选的，所述根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域，包括：

当任意区域内像素单元的深度信息之间的差值超过预设阈值时，确定所述任意区域属于边界区域。

可选的，所述根据确定出的边界区域识别所述主体部分与所述背景部分，包括：

确定所述边界区域包围的第一部分，以及被拍摄对象中区别于所述第一部分的第二部分；

将所述第一部分作为所述主体部分，所述第二部分作为所述背景部分。

可选的，还包括：

对识别出的主体部分进行人脸识别，以确定所述主体部分的身份信息。

可选的，所述对识别出的主体部分进行人脸识别，包括：

根据所述主体部分的深度信息识别人脸的面部特征。

根据本公开实施例的第二方面，提供一种图像识别装置，包括：

获取单元，获取被拍摄对象的深度信息；其中，所述被拍摄对象包含主体部分和背景部分；

确定单元，根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域；

第一识别单元，根据确定出的边界区域识别所述主体部分与所述背景部分。

可选的，所述深度信息由深度摄像头采集获得。

可选的，所述确定单元包括：

第一确定子单元，当任意区域内像素单元的深度信息之间的差值超过预设阈值时，确定所述任意区域属于边界区域。

可选的，所述第一识别单元包括：

第二确定子单元，确定所述边界区域包围的第一部分，以及被拍摄对象中区别于所述第一部分的第二部分；

处理子单元，将所述第一部分作为所述主体部分，所述第二部分作为所述背景部分。

可选的，还包括：

第二识别单元，对识别出的主体部分进行人脸识别，以确定所述主体部分的身份信息。

可选的，所述第二识别单元包括：

识别子单元，根据所述主体部分的深度信息识别人脸的面部特征。

根据本公开实施例的第三方面，提供一种图像识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现如上述实施例中任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述实施例中任一项所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开根据拍摄主体与拍摄背景之间深度信息的差异，可以识别出主体部分和背景部分，从而可以为对图像作进一步处理(比如人脸识别、抠图、美颜等)提供基础，提高了图像处理的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种图像识别方法的流程图。

图2-3是根据一示例性实施例示出的tof相机的原理示意图。

图4是根据一示例性实施例示出的另一种图像识别方法的流程图。

图5是根据一示例性实施例示出的tof相机20拍摄物体30的示意图。

图6是根据一示例性实施例示出的根据边界区域识别主体部分与背景部分的示意图。

图7是根据一示例性实施例示出的一种图像识别装置的框图。

图8是根据一示例性实施例示出的另一种图像识别装置的框图。

图9是根据一示例性实施例示出的另一种图像识别装置的框图。

图10是根据一示例性实施例示出的另一种图像识别装置的框图。

图11是根据一示例性实施例示出的另一种图像识别装置的框图。

图12是根据一示例性实施例示出的一种用于图像识别装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种图像识别方法的流程图，如图1所示，该方法应用于电子设备中，可以包括以下步骤：

在步骤102中，获取被拍摄对象的深度信息。

在本实施例中，所述被拍摄对象包含主体部分和背景部分；所述深度信息可由深度摄像头采集获得，比如采用双目rgb、结构光、tof(timeofflight，飞行时间)技术的摄像头。

以tof技术为例，如图2-3所示，tof相机20向被拍摄对象10发射光信号(发射信号)并接收返回的光信号(返回信号)。通过发射信号与相应返回信号之间的相位差可以计算得到时间其中，f为光信号的频率。再根据光信号的速度c可得tof相机20与被拍摄对象10之间的距离

在步骤104中，根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域。

在本实施例中，由于主体部分与背景部分之间的距离往往较大(比如主体部分为人体部分，背景部分为山，则人体部分离深度摄像头的距离远小于山离深度摄像头的距离)，当任意区域内像素单元的深度信息之间的差值超过预设阈值时，可以确定所述任意区域属于边界区域。其中，所述边界区域可以是主体部分与背景部分交界处的像素单元形成的线段，也可以是对应于该线段的像素单元以及其周围预设数量的像素单元所形成的区域，本公开并不对此进行限制。

在步骤106中，根据确定出的边界区域识别所述主体部分与所述背景部分。

在本实施例中，基于上述对边界区域的确定，在所述边界区域之内的部分为主体部分，在所述边界区域之外的部分为背景部分。因此，可以确定所述边界区域包围的第一部分，以及被拍摄对象中区别于所述第一部分的第二部分，并将所述第一部分作为所述主体部分，所述第二部分作为所述背景部分。通过上述方式来确定拍摄图像中的边界区域，可以实现对主体部分和背景部分的识别。

在本实施例中，可以进一步对识别出的主体部分进行人脸识别，以确定所述主体部分的身份信息。比如，由于人脸中各个部位的结构不同，即其深度信息存在差异，可以根据所述主体部分的深度信息识别人脸的面部特征，以确定当前识别的主体部分的身份信息。

为了便于理解，下面结合具体场景与附图对本公开的技术方案进行进一步说明。

图4是根据一示例性实施例示出的另一种图像识别方法的流程图，如图4所示，该方法应用于电子设备中，可以包括以下步骤：

在步骤402中，获取被拍摄对象的深度信息。

在本实施例中，图像中的被拍摄对象包含主体部分和背景部分。其中，图像的深度信息可由深度摄像头采集获得，比如采用双目rgb、结构光、tof技术的摄像头。

以tof相机为例，如图5所示，tof相机20拍摄物体30。可以按照预设顺序依次向物体30各个点发射光信号以测量相应点的深度信息，比如可以按照图中从左往右、从上到下的顺序依次测量。同时，可以对物体30进行多次测量得到多组关于物体30的深度信息，再对其进行加权平均计算得到最终的深度信息；其中，权重可以根据实际情况灵活设置，本公开并不对此进行限制。通过对物体30按照预设顺序进行多次测量，可以提高测量深度信息的准确率以及图像的三维效果，从而进一步提高后续识别主体、背景部分的准确率。

在步骤404中，分别计算图像中各个像素单元与预设范围内像素单元之间深度信息的差值。

在本实施例中，预设范围可以是像素单元的上下左右方向上各一定数量的像素单元，或者其他任意范围，本公开并不对此进行限制。

在步骤406中，确定主体部分与背景部分之间的边界区域。

在本实施例中，由于主体部分与背景部分之间的距离往往较大(比如主体部分为人体部分，背景部分为山，则人体部分离深度摄像头的距离远小于山离深度摄像头的距离)，当任意区域内像素单元的深度信息之间的差值超过预设阈值时，可以确定该任意区域属于边界区域。其中，边界区域可以是主体部分与背景部分交界处的像素单元形成的线段，也可以是对应于该线段的像素单元以及其周围预设数量的像素单元所形成的区域，本公开并不对此进行限制。

在步骤408中，根据确定出的边界区域识别主体部分与背景部分。

在本实施例中，基于步骤406中对边界区域的确定，在边界区域之内的部分为主体部分，在边界区域之外的部分为背景部分。因此，可以确定边界区域包围的第一部分，以及被拍摄对象中区别于第一部分的第二部分，并将该第一部分作为主体部分，该第二部分作为背景部分。通过上述方式来确定拍摄图像中的边界区域，可以实现对主体部分和背景部分的识别。

举例而言，如图6所示，拍摄的图像中包含人体部分40、山脉部分50、水面部分60。人体部分40与山脉部分50之间的距离、人体部分40与水面部分60之间的距离较大，而山脉部分50与水面部分60之间的距离较小；因此，当人体部分40的边界的深度信息与周围水面、山脉的深度信息之间的差值超过预设阈值(可根据实际情况灵活设定，比如根据拍摄场景的不同分别设定相应的阈值)时，可以确定该边界为针对人体部分40与其他区域的边界区域，从而进一步确定该边界区域包围的第一部分(即人体部分40的边界包围的部分；其中，该部分可以包括该边界与整个图像边缘共同围成的部分)为主体部分，而图像中区别于该第一部分的第二部分(即山脉部分50和水面部分60)为背景部分。

在步骤410中，对识别出的主体部分进行人脸识别，以确定该主体部分的身份信息。

在本实施例中，由于人脸中各个部位的结构不同，即其深度信息存在差异，可以根据主体部分的深度信息识别人脸的面部特征，以确定当前识别的主体部分的身份信息。比如，可以根据主体部分的深度信息判断出人脸各个部位的位置、轮廓、结构等。例如，耳朵部位内各个像素单元由于同属于耳朵部位，其深度信息之间相差较小；同理，眼睛内各个像素单元的深度信息之间也相差较小。同时，由于耳朵与眼睛相距较远，且眼睛位于耳朵的前方(假定以人脸朝向为正方向，摄像头位于人脸前方)，对应于耳朵与眼睛的像素单元之间的深度则相差较大，且眼睛的深度信息小于耳朵的深度信息。因此，可以根据上述耳朵和眼睛的深度信息之间的差异，分别识别出耳朵和眼睛。而其他部位的深度信息的特点与此类似，在此不再赘述。

综上，本公开根据拍摄主体与拍摄背景之间深度信息的差异，可以识别出主体部分和背景部分，从而可以为对图像作进一步处理(比如人脸识别、抠图、美颜等)提供基础，提高了图像处理的效率。

与前述的图像识别方法的实施例相对应，本公开还提供了图像识别装置的实施例。

图7是根据一示例性实施例示出的一种图像识别装置的框图。参照图7，该装置包括获取单元71、确定单元72和第一识别单元73。

该获取单元71被配置为获取被拍摄对象的深度信息；其中，所述被拍摄对象包含主体部分和背景部分；

该确定单元72被配置为根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域；

该第一识别单元73被配置为根据确定出的边界区域识别所述主体部分与所述背景部分。

可选的，所述深度信息由深度摄像头采集获得。

如图8所示，图8是根据一示例性实施例示出的另一种图像识别装置的框图，该实施例在前述图7所示实施例的基础上，确定单元72可以包括：第一确定子单元721。

该第一确定子单元721被配置为当任意区域内像素单元的深度信息之间的差值超过预设阈值时，确定所述任意区域属于边界区域。

如图9所示，图9是根据一示例性实施例示出的另一种图像识别装置的框图，该实施例在前述图7所示实施例的基础上，第一识别单元73可以包括：第二确定子单元722和处理子单元723。

该第二确定子单元722被配置为确定所述边界区域包围的第一部分，以及被拍摄对象中区别于所述第一部分的第二部分；

该处理子单元723被配置为将所述第一部分作为所述主体部分，所述第二部分作为所述背景部分。

需要说明的是，上述图9所示的装置实施例中的第二确定子单元722和处理子单元723的结构也可以包含在前述图8的装置实施例中，对此本公开不进行限制。

如图10所示，图10是根据一示例性实施例示出的另一种图像识别装置的框图，该实施例在前述图7所示实施例的基础上，还可以包括：第二识别单元74。

该第二识别单元74被配置为对识别出的主体部分进行人脸识别，以确定所述主体部分的身份信息。

如图11所示，图11是根据一示例性实施例示出的另一种图像识别装置的框图，该实施例在前述图10所示实施例的基础上，第二识别单元74可以包括：识别子单元741。

该识别子单元741被配置为根据所述主体部分的深度信息识别人脸的面部特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种图像识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取被拍摄对象的深度信息；其中，所述被拍摄对象包含主体部分和背景部分；根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域；根据确定出的边界区域识别所述主体部分与所述背景部分。

相应的，本公开还提供一种终端，所述终端包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取被拍摄对象的深度信息；其中，所述被拍摄对象包含主体部分和背景部分；根据所述深度信息的差异确定所述主体部分与所述背景部分之间的边界区域；根据确定出的边界区域识别所述主体部分与所述背景部分。

图12是根据一示例性实施例示出的一种用于图像识别装置1200的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(i/o)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当装置1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(mic)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

i/o接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到装置1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈朝喜
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。