图像处理方法、装置、设备及存储介质与流程

文档序号:22472156发布日期:2020-10-09 22:05阅读:81来源:国知局
图像处理方法、装置、设备及存储介质与流程

本申请涉及图像处理技术领域,特别涉及一种图像处理方法、装置、设备及存储介质。



背景技术:

随着图像处理技术的发展,应用人工智能,终端能够自行对图像进行处理,提取图像中一些隐含的信息,根据信息提供相应功能。例如,在一些监控场景中,终端能够对采集的图像进行目标检测,确定目标位置,对其追踪。又例如,在一些场景中能够确定拍摄用户图像,确定用户与屏幕距离,根据距离提供一些便利。

目前,图像处理方法通常是通过摄像头采集图像,对图像进行人脸检测后进行一系列的几何计算,得到人脸与图像之间的距离,再针对距离显示相应的信息。但人脸检测算法通常存在多候选框筛选的过程,复杂度较高,计算量较大,因而处理效率较低。



技术实现要素:

本申请实施例提供了一种图像处理方法、装置、设备及存储介质,能够达到省去大量计算量,提高了图像处理效率,减少了设备的制作成本的效果。所述技术方案如下:

一方面,提供了一种图像处理方法,所述方法包括:

对采集到的图像进行人脸检测;

在检测到所述图像中包括人脸时,根据所述图像中人脸区域在所述图像中的比例,获取所述图像对应的距离指示信息,所述距离指示信息用于指示所述人脸与图像采集设备之间的距离,所述距离为离散距离;

根据所述距离指示信息,控制所述图像采集设备执行目标功能。

一方面,提供了一种图像处理装置,所述装置包括:

检测模块,用于对采集到的图像进行人脸检测;

获取模块,用于在检测到所述图像中包括人脸时,根据所述图像中人脸区域在所述图像中的比例,获取所述图像对应的距离指示信息,所述距离指示信息用于指示所述人脸与图像采集设备之间的距离,所述距离为离散距离;

控制模块,用于根据所述距离指示信息,控制所述图像采集设备执行目标功能。

在一种可能实现方式中,所述获取模块用于根据所述图像中人脸检测框在所述图像中的比例,对所述图像中人脸与图像采集设备之间的距离进行分类,得到所述图像对应的距离指示信息。

在一种可能实现方式中,所述检测模块和所述获取模块用于将所述图像输入图像处理模型中,由所述图像处理模型对所述图像进行人脸检测,在检测到所述图像中包括人脸时,根据所述人脸检测得到的人脸检测框在所述图像中的比例,对所述图像中人脸与图像采集设备之间的距离进行分类,输出所述图像对应的距离指示信息。

在一种可能实现方式中,所述图像处理模型的训练过程包括:

获取样本人脸图像,所述样本人脸图像携带有对应的目标距离指示信息;

将所述样本人脸图像,输入所述图像处理模型中,由所述图像处理模型对样本人脸图像中人脸与图像采集设备之间距离进行分类,输出所述样本人脸图像对应的预测距离指示信息;

基于所述预测距离指示信息和所述目标距离指示信息,获取预测准确度;

基于所述预测准确度,调整所述图像处理模型的模型参数,直至符合目标条件时停止。

在一种可能实现方式中,所述获取样本人脸图像,包括:

对至少两个样本图像进行人脸检测,得到所述至少两个样本图像的人脸检测框;

获取所述至少两个样本图像的人脸检测框在至少两个样本图像中所占的比例;

根据所述比例,确定所述至少两个样本图像对应的裁剪框;

根据所述裁剪框对所述至少两个样本图像进行裁剪,将裁剪后的样本图像确定为样本人脸图像,根据样本图像中人脸检测框和所述裁剪框的大小关系,确定所述样本人脸图像对应的目标距离指示信息。

在一种可能实现方式中,所述根据所述比例,确定所述至少两个样本图像对应的裁剪框,包括:

响应于所述比例大于第一比例阈值,根据所述至少两个样本图像中人脸检测框的尺寸,确定所述至少两个样本图像对应的裁剪框的尺寸,根据所述人脸检测框的位置和目标偏移量,确定所述至少两个样本图像对应的裁剪框的位置,所述裁剪框小于所述人脸检测框;

响应于所述比例小于第二比例阈值,根据所述至少两个样本图像中人脸检测框的尺寸和目标缩放系数,确定所述至少两个样本图像对应的裁剪框的尺寸,按照所述至少两个样本图像中所述裁剪框的尺寸,随机在所述至少两个样本图像中确定所述裁剪框的位置,所述裁剪框大于所述人脸检测框。

在一种可能实现方式中,所述根据所述人脸检测框的位置和目标偏移量,确定所述至少两个样本图像对应的裁剪框的位置,包括:

对于一个样本图像,根据所述人脸检测框的中心点位置和至少一个偏移方向上的目标偏移量,确定所述至少两个样本图像对应的至少一个裁剪框的顶点位置。

在一种可能实现方式中,所述根据样本图像中人脸检测框和所述裁剪框的大小关系,确定所述样本人脸图像对应的目标距离指示信息,包括:

响应于所述裁剪框小于所述人脸检测框,确定所述样本人脸图像对应的目标距离指示信息为第一距离指示信息,所述第一距离指示信息所指示的距离小于距离阈值;

响应于所述裁剪框大于所述人脸检测框,确定所述目标缩放系数对应的距离指示信息为所述至少两个样本图像对应的目标距离指示信息。

在一种可能实现方式中,所述获取样本人脸图像,包括:

对至少两个样本人脸图像进行人脸检测,得到所述至少两个样本人脸图像的人脸检测框;

获取所述至少两个样本人脸图像的人脸检测框在至少两个样本人脸图像中所占的比例;

根据比例与距离指示信息的对应关系,获取所述比例对应的距离指示信息作为所述至少两个样本人脸图像对应的目标距离指示信息。

在一种可能实现方式中,所述控制模块用于执行述任一项:

响应于所述距离指示信息为第一距离指示信息,控制所述图像采集设备的屏幕亮起,显示目标界面,所述第一距离指示信息所指示的距离小于距离阈值;

响应于所述距离指示信息为第一距离指示信息,显示提示信息,所述提示信息用于提示当前距离所述图像采集设备距离太小,所述第一距离指示信息所指示的距离小于距离阈值。

一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述图像处理方法的各种可选实现方式。

一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述图像处理方法的各种可选实现方式。

一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得电子设备能够执行上述任一种可能实施方式的图像处理方法。

本申请实施例通过对采集到的图像进行处理,分析图像中人脸区域在图像中的比例,来确定图像中人脸与图像采集设备之间的离散距离,采用这种离散的距离表示,不需要精确计算人脸与图像采集设备之间的距离,估计出二者相距的远近程度即可,这样省去了对距离的精确计算过程,省去了大量的计算量,还能够提高图像处理效率,且通过对采集到的图像进行距离远近的估计,即可实现目标功能,无需配备其他组件,能够减少设备的制作成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境的示意图;

图2是本申请实施例提供的一种图像处理方法的流程图;

图3是本申请实施例提供的一种图像处理方法的流程图;

图4是本申请实施例提供的一种图像处理装置的结构示意图;

图5是本申请实施例提供的一种近距离换算模块0和近距离换算模块1的换算方式示意图;

图6是本申请实施例提供的一种远距离确定裁剪框的示意图;

图7是本申请实施例提供的一种样本人脸图像的获取过程示意图;

图8是本申请实施例提供的一种使用图像处理模型进行图像处理的过程示意图;

图9是本申请实施例提供的一种图像处理装置的结构示意图;

图10是本申请实施例提供的一种终端的结构框图;

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离各种所述示例的范围的情况下,第一图像能够被称为第二图像,并且类似地,第二图像能够被称为第一图像。第一图像和第二图像都能够是图像,并且在某些情况下,能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上,例如,多个数据包是指两个或两个以上的数据包。

应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。

还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示能够存在三种关系,例如,a和/或b,能够表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

还应理解,根据a确定b并不意味着仅仅根据a确定b,还能够根据a和/或其它信息确定b。

还应理解,术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

下面对本申请涉及到的名词进行说明。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(computervision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr(opticalcharacterrecognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(threedimensional,3d)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术,具体通过如下实施例进行说明。

下面对本申请的实施环境进行说明。

图1是本申请实施例提供的一种图像处理方法的实施环境的示意图。该实施环境包括终端101,或者该实施环境包括终端101和图像处理平台102。终端101通过无线网络或有线网络与图像处理平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、mp3(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)播放器或mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器,膝上型便携计算机,智能机器人,自助支付设备中的至少一种。终端101安装和运行有支持图像处理的应用程序,例如,该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用。

示例性地,该终端101能够具有图像采集功能和图像处理功能,能够对采集到的图像进行处理,并根据处理结果执行相应的功能。该终端101能够独立完成该工作,也能够通过图像处理平台102为其提供数据服务。本申请实施例对此不作限定。

图像处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像处理平台102用于为支持图像处理的应用程序提供后台服务。可选地,图像处理平台102承担主要处理工作,终端101承担次要处理工作;或者,图像处理平台102承担次要处理工作,终端101承担主要处理工作;或者,图像处理平台102或终端101分别能够单独承担处理工作。或者,图像处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地,该图像处理平台102包括至少一台服务器1021以及数据库1022,该数据库1022用于存储数据,在本申请实施例中,该数据库1022中能够存储有样本图像或样本人脸图像,为至少一台服务器1021提供数据服务。

服务器能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

本领域技术人员能够知晓,上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个,或者上述终端101、服务器1021为几十个或几百个,或者更多数量,本申请实施例对终端或服务器的数量和设备类型不加以限定。

在由服务器提供图像处理服务的场景中,本申请实施例能够应用云技术中的云计算服务,由多个服务器并行或批量对图像进行处理。在本申请实施例的一种可选方式中,通过图像处理模型进行图像处理,该图像处理模型能够基于大量的样本人脸图像进行训练得到,该样本人脸图像能够存储于数据库中,在需要训练图像处理模型时,从该数据库中提取样本人脸图像即可。当然,在通过图像处理模型进行图像处理后,也能够将处理的结果以及图像发送至数据库进行存储。

对于云技术,云技术(cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,能够组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。

可选地,本申请具体涉及人工智能云服务,一般也被称作是aiaas(aiasaservice,中文为“ai即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说aiaas平台会把几类常见的ai服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个ai主题商城:所有的开发者都能够通过api(applicationprogramminginterface,应用程序接口)的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还能够使用平台提供的ai框架和ai基础设施来部署和运维自已专属的云人工智能服务。

图2是本申请实施例提供的一种图像处理方法的流程图,该方法应用于电子设备中,该电子设备为终端或服务器,参见图2,以该方法应用于终端为例,该方法包括以下步骤。

201、终端对采集到的图像进行人脸检测。

人脸检测是指对于任意一幅图像,采用一定的策略对其进行搜索以确定其中是否含有人脸,如果是则返回人脸的位置、大小和姿态,也即是人脸区域的信息,该人脸区域能够通过人脸检测框标出。该人脸区域为人脸在图像中的区域。

该采集到的图像能够由该终端采集得到,也即是,该终端即为图像采集设备。具体地,终端能够周期性进行图像采集,在采集到图像时,能够进行人脸检测,确定图像中是否包括人脸,是否需要进行后续分析,确定人距离自己是否很近,是否需要执行目标功能。

可选地,该采集到的图像也能够为其他设备采集到并发送至该终端,本申请实施例对此不作限定。该终端提供图像处理服务。

本实施例以方法应用于终端为例进行说明,可选地,图像处理步骤也能够由服务器执行,终端将采集到的图像发送至服务器,由服务器进行图像处理,并反馈图像处理结果。

202、终端在检测到该图像中包括人脸时,根据该图像中人脸区域在该图像中的比例,获取该图像对应的距离指示信息,该距离指示信息用于指示该人脸与图像采集设备之间的距离,该距离为离散距离。

离散距离指的是目标距离设备发生连续移动时,设备计算得到的离散表示的距离。该离散距离是相较于连续距离来说的,连续距离指的是目标距离设备发生连续移动时,设备计算得到的连续表示的距离。例如,该离散距离能够为一种距离等级,例如,近,远,较远,很远,非常远等。例如,连续距离为45厘米。

203、终端根据该距离指示信息,控制该图像采集设备执行目标功能。

在本实施例中,如果该终端为该图像采集设备,通过上述步骤,分析出图像中人脸与该图像采集设备之间距离近或远,该距离指示信息为一种远近程度的表示,并非距离的数值。终端可以根据设置,在人脸与图像采集设备之间距离远近程度符合要求时,执行相应的功能。

在一种可能实现方式中,在人脸与图像采集设备之间距离较近时,终端可以控制图像采集设备执行相应的功能。具体地,该距离指示信息可以包括第一距离指示信息,该第一距离指示信息用于指示人脸与图像采集设备之间距离小于距离阈值,也即是,该第一距离指示信息用于指示人脸距离图像采集设备较近。

可选地,该距离阈值可以由相关技术人员根据需求设置。可选地,也可以无需设置该距离阈值,在此仅以小于距离阈值来说明该第一距离指示信息所指示的距离比较小。

在该距离指示信息为第一距离指示信息时,终端能够执行相应的功能,例如,显示提示信息,提醒用户距离过近。又例如,唤醒屏幕,显示相应的功能界面等。如果该终端不是该图像采集设备,终端能够向该图像采集设备发送该距离指示信息或者向该图像采集设备发送控制指令,以控制图像采集设备执行目标功能。

本申请实施例通过对采集到的图像进行处理,分析图像中人脸区域在图像中的比例,来确定图像中人脸与图像采集设备之间的离散距离,采用这种离散的距离表示,不需要精确计算人脸与图像采集设备之间的距离,估计出二者相距的远近程度即可,这样省去了对距离的精确计算过程,省去了大量的计算量,还能够提高图像处理效率,且通过对采集到的图像进行距离远近的估计,即可实现目标功能,无需配备其他组件,能够减少设备的制作成本。

图3是本申请实施例提供的一种图像处理方法的流程图,参见图3,该方法包括以下步骤。

301、终端获取样本人脸图像,该样本人脸图像携带有对应的目标距离指示信息。

终端能够获取样本人脸图像,基于样本人脸图像对图像处理模型进行训练。训练得到的图像处理模型能够对输入的图像进行处理,分析图像中人脸与图像采集设备之间距离远近。其中,样本人脸图像为包含人脸的图像,图像中是否包括人脸能够通过人脸检测的方式确定,也即是,该样本人脸图像为通过人脸检测确定图像中包含人脸的图像。

具体的,该样本人脸图像能够通过多种方式获取,本申请实施例能够采用任一种方式获取样本人脸图像。下面提供两种方式,在方式一中,终端能够获取样本图像,通过人脸检测确定出样本图像中包括人脸的样本图像以及该包括人脸的样本图像中人脸检测框的占屏比,根据该占屏比对样本图像进行裁剪得到训练所需的样本人脸图像。在方式二中,终端能够直接获取得到样本人脸图像,通过对样本人脸图像进行人脸识别,根据得到的人脸检测框的占屏比来为样本人脸图像进行划分,确定每个样本人脸图像携带的目标距离指示信息。

该方式二区别于方式一的点在于:方式一中,终端获取到样本图像,该样本图像并未直接被使用,而是通过人脸检测和裁剪步骤,将确定包含人脸且通过裁剪得到的样本图像作为训练所需的样本人脸图像。而方式二中直接获取到样本人脸图像,只是需要对样本人脸图像进行分类。

下面分别对两种方式进行详细说明。

方式一、终端对至少两个样本图像进行人脸检测,得到该至少两个样本图像的人脸检测框;获取该至少两个样本图像的人脸检测框在至少两个样本图像中所占的比例;根据该比例,确定该至少两个样本图像对应的裁剪框;根据该裁剪框对该至少两个样本图像进行裁剪,将裁剪后的样本图像确定为样本人脸图像,根据样本图像中人脸检测框和该裁剪框的大小关系,确定该样本人脸图像对应的目标距离指示信息。

在该方式一中,终端能够对样本图像进行分析,将包含人脸的样本图像中占屏比满足一定条件的样本图像筛选处理,并在筛选出来的样本图像基础上进行裁剪得到样本人脸图像。通过裁剪得到样本,能够很好地控制各个占屏比的样本人脸图像的分布。其中,该占屏比是指人脸区域的面积与样本图像的面积之间的比例。可选地,该人脸区域的面积能够用人脸检测框的面积指代。可选地,该人脸区域的面积能够为该人脸检测框中最大的圆形区域的面积指代。

具体地,终端能够从样本图像中筛选出占屏比较大的图像和占屏比较小的图像,将占屏比较大的图像作为近距离的样本人脸图像的裁剪数据基础,将占屏比较小的图像作为远距离的样本人脸图像的裁剪数据基础。

这样使用样本图像中人脸距离图像采集设备较近的样本图像裁剪得到近距离的样本人脸图像,能够得到足够清晰的样本人脸图像。使用占屏比较小的样本图像进行裁剪时能够裁剪得到多种占屏比的样本人脸图像,能够在确保各占屏比的样本人脸图像的分布相差不多的情况下,得到尽可能多的占屏比的样本人脸图像。这样得到的样本人脸图像的种类全面,且数量可控。可选地,还能够将远距离的样本人脸图像进行更多样化的分类,例如,极远、较远、不太远等。或者直接用数字标识等级,等级为1、2、3、4等。

在一种可能实现方式中,想要不同距离指示信息时,通过人脸检测框确定裁剪框的过程也不同。能够理解地,对于近距离的裁剪框,裁剪框小于人脸检测框,以裁剪得到很近距离的人脸图像。对于远距离的裁剪框,裁剪框需要大于人脸检测框,这样裁剪出来的图像人脸与图像采集设备之间距离也较远,能够为其赋予远距离的距离指示信息。也即是,上述近距离的距离指示信息称之为第一距离指示信息。该远距离的距离指示信息为该第一距离指示信息之外的距离指示信息。

对于近距离,该裁剪框的确定过程能够为:终端响应于该比例大于第一比例阈值,根据该至少两个样本图像中人脸检测框的尺寸,确定该至少两个样本图像对应的裁剪框的尺寸,根据该人脸检测框的位置和目标偏移量,确定该至少两个样本图像对应的裁剪框的位置,该裁剪框小于该人脸检测框。

其中,该第一比例阈值能够由相关技术人员根据需求进行设置,例如,0.6,本申请实施例对此不作限定。

可选地,终端将人脸检测框的宽度确定为该裁剪框的宽度,将人脸检测框的高度与目标系数的乘积确定为该裁剪框的高度。该目标系数能够由相关技术人员根据需求进行设置,例如,该目标系数为0.8,本申请实施例对此不作限定。

可选地,该终端也能够将人脸检测框的宽度与目标系数的乘积确定为该裁剪框的宽度,将人脸检测框的高度确定为该裁剪框的高度。或者,该终端也能够将人脸检测框的宽度与第一目标系数的乘积确定为该裁剪框的宽度,将人脸检测框的高度与第二目标系数的乘积确定为该裁剪框的高度。第一目标系数和第二目标系数能够由相关技术人员根据需求进行设置,本申请实施例对此不作限定。

裁剪框的尺寸确定后,则能够确定裁剪框的具体位置。在一种可能实现方式中,能够通过裁剪框的顶点位置来标识该裁剪框的位置。例如,能够通过裁剪框的左上角顶点位置和右下角顶点位置来表示该裁剪框的位置。当然,也能够通过其他方式标识,本申请实施例对此不作限定。

具体地,对于一个样本图像,终端根据该人脸检测框的中心点位置和至少一个偏移方向上的目标偏移量,确定该至少两个样本图像对应的至少一个裁剪框的顶点位置。

该偏移方向的数量为一个或多个,例如,在一个具体示例中,该近距离的样本人脸图像的裁剪方式如图4所示,图4展示了经过近距离换算模块处理后的效果图,具体展示了表示目标框(也即是人脸区域)与裁剪框的九种相对位置关系的示意图,也即是包括9种偏移方向。其中,u0、u1、u2表示目标框位于裁剪框的左上方,正上方、右上方;m0、m1、m2表示目标框位于裁剪框的左中方向,正中间、右中方向;u0、u1、u2表示目标框位于裁剪框的左下方,正下方、右下方。

可选地,能够通过一个或多个近距离换算模块来执行该裁剪框的确定步骤,不同近距离算换模块所执行的计算方式不同。

例如,如图5所示,图5展示了近距离换算模块0和近距离换算模块1,其中近距离换算模块0用于处理u0,u2,b0,b2四种情况。近距离模块1用于处理m0和m2两种情况。对于u1,m1,b1三种情况,在u0,m0,b0的基础上,将裁剪框向左侧平移一定的距离使得裁剪框能跟人脸检测框在宽度方向重合即可,也即是获取两种情况下横坐标的偏移量,对上述u0,m0,b0的横坐标进行偏移即可,在此不做赘述。

假设圆形区域表示的是目标(也即是人脸区域),例如人头像,点o表示圆形的中心点(也即是人脸检测框的中心点位置)。虚线矩形表示的是刚好包围人头像的人脸检测框,对应的宽度为width,对应的高度为height,实线矩形表示的是裁剪框,裁剪框的左上角为p0,右下角为p1。

下面对用近距离换算模块0处理u0,u2,b0,b2的过程进行说明,在此以对u0的换算过程为例进行说明,假设p0位于圆形的边界上,使得对应的β角为45度。通过下述前三个步骤,能够确定出裁剪框的位置,在得到裁剪框的位置后,执行第四个步骤,为其赋予标签,该标签即为上述距离指示信息,进而后续裁剪后,该图像也携带着该标签。

1)求解出人脸检测框的中心点相对于视频框的左上角原点的位置o=(anchor_x,anchor_y)。

2)由圆形的几何关系可知,点p0与点o之间的距离dp0-o=0.5*width,又β角为45度,那么点p0相对于点o的横坐标偏移量为m*0.5*width,求解得到m=√2/2≈0.7。于是,能够求解出裁剪框的左上角点的位置p0=(x0_u0,y0_u0)=(anchor_x-m*0.5*width,anchor_y-m*0.5*height)。

3)令裁剪框的宽度为expand_w=width,高度为expand_h=0.8*height,求解裁剪框的右下角点的位置p1=(x1_u0,y1_u0)=(x0_u0+expand_w,y0_u0expand_h)。

4)对应的标签设定为近距离标签,用0表示。

下面针对用近距离换算模块1处理m0,m2的过程进行说明,下面以对m0的处理过程为例进行说明,得到包含人脸的裁剪框的坐标以及对应的标签。

1)根据近距离换算模块0所得到的m的值,能够确定裁剪框的左上角点的位置p0=(x0_m0,y0_m0)=(anchor_x-m*0.5*width,anchor_y-1*0.5*height)。

2)令裁剪框的宽度为expand_w=width,高度为expand=0.8*height。

求解裁剪框的左上角点的位置p1=(x1_m0,y1_m0)=(x0_m0+expand_w,y0_m0+expand_h)。

3)对应的标签设定为近距离标签,用0表示。

对于远距离,终端响应于该比例小于第二比例阈值,根据该至少两个样本图像中人脸检测框的尺寸和目标缩放系数,确定该至少两个样本图像对应的裁剪框的尺寸,按照该至少两个样本图像中该裁剪框的尺寸,随机在该至少两个样本图像中确定该裁剪框的位置,该裁剪框大于该人脸检测框。

其中,该第二比例阈值能够由相关技术人员根据需求进行设置,例如,第二比例阈值为0.2,本申请实施例对此不作限定。

对于目标缩放系数,目标缩放系数能够由相关技术人员根据需求进行设置,该目标缩放系数的数量能够为一个或多个,目标缩放系数不同时,裁剪得到的样本人脸图像中人脸的占屏比则不同。例如,该目标缩放系数包括宽度缩放系数α_w和高度缩放系数α_h,假设组合缩放系数(α_h,α_w)=(1.25,2),裁剪后的人脸检测框与裁剪框的占屏比则为1/(1.25*2)=0.4。因而,一个目标缩放系数能确定出一种占屏比对应的裁剪框。

在一种可能实现方式中,该目标缩放系数包括目标宽度缩放系数和目标高度缩放系数。终端获取人脸检测框的尺寸与目标缩放系数的乘积,将该乘积作为裁剪框的尺寸。例如,终端获取人脸检测框的宽度与目标宽度缩放系数的第一乘积,将该第一乘积作为裁剪框的宽度,获取人脸检测框的高度与目标高度缩放系数的第二乘积,将该第二乘积作为裁剪框的高度。

可选的,对于一个目标缩放系数,能够随机在该至少两个样本图像中确定至少一个裁剪框的位置。裁剪框的数量为一个或多个。通过随机确定出多个裁剪框,能够得到同样占屏比的多个不同的样本人脸图像,提高样本人脸图像的多样性。

具体地,终端能够根据该裁剪框的尺寸,从样本图像中的左上角边缘区域中,随机确定出该裁剪框的左上角顶点的位置,根据该左上角顶点的位置以及该裁剪框的尺寸,能够确定出该裁剪框的右下角顶点的位置。

其中,该左上角边缘区域的尺寸与裁剪框的尺寸负相关。例如,该左上角边缘区域的宽度与该裁剪框的宽度之和为该样本图像的宽度,该左上角边缘区域的高度与该裁剪框的高度之和为该样本图像的高度。

例如,在一个具体示例中,图6中(a)展示了远距离的裁剪框的示意图,图6说明了原始视频框(也即是样本图像的框)(h-w)、远距离的裁剪框(h0-w0)以及人脸检测框(height-width)之间的包含关系,即裁剪框应该包含全部人脸检测框,同时也应该被原始视频框所包含。

图6中(b)展示了远距离的裁剪框的左上角点的求解示意图。具体的,假设裁剪框的宽w和高h,对于裁剪框的左上角点,在图6中(b)中的矩形abcd中,该矩形abcd的宽度w-w0与裁剪框的宽度w0之和为原始视频框的宽度w,该矩形abcd的高度h-h0与裁剪框的高度h0之和为原始视频框的宽度h。通过随机的方式选择1个或者多点作为裁剪框的左上角点,如果选一个点作为左上角点,则对应一个裁剪框,如果多个点作为左上角点,则对应多个裁剪框,也即是,对应的裁剪框的数量跟左上角点的数量相同,这是为了保证同一远距离等级(也即是距离指示信息)所生成的远距离的样本的多样性。

图6中(c)展示了远距离待裁剪框的宽高求解流程图。因而,能够先确定想生成的远距离样本的远距离等级(也即是距离指示信息),1表示远距离样本中的最小等级,数字越大,等级越高,说明所得到的远距离样本所表示的目标距离镜头的距离越远。确定出远距离等级后,即可确定目标缩放系数,进行后续的裁剪框的位置求解步骤中选择左上角的位置和确定右下角的位置。

对于远距离等级为1,对应的目标缩放系数(α_h,α_w)=(1.25,2),对应的未经修正的裁剪框的宽高为(h0,w0)=(1.25*height,2*width),其中height和widht分别为人脸检测框的高度和宽度,于是裁剪后的人脸检测框占裁剪框的占屏比为1/(1.25*2)=0.4,该裁剪框对应的标签为远距离标签(距离指示信息),用1表示。

当远距离等级为2时,如果希望裁剪后占屏比为0.3,则应该对目标缩放系数乘以一个阶梯放大因子n=√(4/3),对应的目标缩放系数为(1.25,2)*√(4/3),对应的未经修正的裁剪框的宽高为(1.25*√(4/3)*height,2*√(4/3)*width),该裁剪框对应的标签为远距离标签,用2表示。其余距离等级可依次类推,这里不再赘述。

应当说明的是,在生成多个远距离等级的标签时,能够根据实际的应用场景,确定远距离等级为1的这一基础等级所表示的占屏比,也能够根据实际需要确定下一个等级的占屏比,以表示不同的目标距离镜头的距离,例如远距离等级2也能够设定对应的占屏比为0.3。随着远距离等级的增加,对应的未经修正的裁剪框的面积会越来越大,如果大到超出原始视频帧的范围,此时应停止继续生成更大远距离等级的数据及标签。

鉴于此,能够设定一个停止条件,判定未经修正的裁剪框的宽高是否满足h0<h&&w0<w,根据判定结果确定是否需要停止裁剪。其中,&&为“与”的意思,是指前后两个条件需同时满足,也即是h0<h且w0<w。具体地,如果未经修正的裁剪框的宽高不满足条件“h0<h&&w0<w”,则舍弃该组裁剪框,否则,最终的裁剪框的宽高(h,w)=(h0,w0)。

对于上述样本人脸图像的获取过程,该样本人脸图像的获取过程如图7所示,对于上述样本人脸图像的获取过程,该样本人脸图像的获取过程如图7所示,以连续采集的图像为视频帧为例,终端能够将包含人脸的视频帧701输入人脸检测模块702中,使用人脸检测模块702对包含人脸的视频帧701进行人脸检测,得到人脸检测框703,然后通过离散距离换算模块,计算包围人脸检测框的裁剪框(也即是上述裁剪框)的位置及尺寸。具体地,该计算裁剪框的步骤能够为:如果满足占屏比(也即是人脸区域在图像中的比例——人脸检测框的面积/视频帧边框的面积)大于第一比例阈值(例如,thr_=0.6)的条件704,则送入近距离换算模块705,否则满足占屏比小于第二比例阈值(例如,thr_=0.2)的条件706,则送入远距离换算模块707。通过离散距离换算模块(近距离换算模块705和远距离换算模块707),能够得到一系列包围人脸的裁剪框及对应标签708。然后通过图像裁剪模块709,根据各个裁剪框对各个视频帧进行裁剪,得到裁剪后的视频帧及对应的离散距离的标签(也即是目标距离指示信息)710。通过该流程,完成离散距离数据的制作,该离散距离数据也即是上述携带有目标距离指示信息的样本人脸图像。

方式二、终端对至少两个样本人脸图像进行人脸检测,得到该至少两个样本人脸图像的人脸检测框;获取该至少两个样本人脸图像的人脸检测框在至少两个样本人脸图像中所占的比例;根据比例与距离指示信息的对应关系,获取该比例对应的距离指示信息作为该至少两个样本人脸图像对应的目标距离指示信息。通过直接设定占屏比与距离指示信息的对应关系即可确定出每个样本人脸图像对应的距离标签(目标距离指示信息)。

在该方式二中,能够设定比例与距离指示信息的对应关系,也即是占屏比与距离指示信息的对应关系。终端能够直接获取样本人脸图像,根据占屏比为样本人脸图像确定出各个图像中人脸与图像采集设备之间的离散距离,为其添加距离指示信息,也即是距离标签。

例如,能够为比例划分多个区间,每个区间对应一个距离指示信息(例如,距离标签),在获取到任一样本人脸图像的人脸检测框在至少两个样本人脸图像中所占的比例后,将比例所属的区间对应的距离指示信息确定为该样本人脸图像对应的距离指示信息。

302、终端将该样本人脸图像,输入该图像处理模型中,由该图像处理模型对样本人脸图像中人脸与图像采集设备之间距离进行分类,输出该样本人脸图像对应的预测距离指示信息。

该图像处理模型能够为一个初始模型,模型参数为初始值,终端能够基于样本人脸图像对其进行训练,调整模型参数,提高图像处理模型的特征提取能力和分类能力。具体地,该图像处理模型能够对该样本人脸图像进行卷积处理,提取到图像特征,再对图像特征进行分类,确定预测距离指示信息。

可选地,对于一个样本人脸图像,该图像处理模型分类得到特征向量,该特征向量对应标签空间,该标签空间是指多个距离标签组成的空间,例如,该标签空间包括两个距离标签:近距离(用0表示),远距离(用1表示)。又例如,该标签空间包括五个距离标签:近距离(用0表示),远距离(用1表示),较远距离(用2表示),很远距离(用3表示),非常远距离(用4表示)。特征向量中每一位元素对应一个距离指示信息(例如距离等级0、1、2、3、4、5)。该元素为该样本人脸图像中人脸与图像采集设备之间距离为这种距离等级的概率。终端获取该特征向量中最大的概率对应的距离指示信息,也即是距离标签。例如,该图像处理模型对一个样本人脸图像分类得到的特征向量为[0.09,0.11,0.05,0.05,0.9],终端能够获取该特征向量第五位元素对应的距离指示信息“4”,也即是非常远距离。

例如,以距离指示信息为距离标签为例,得到用0表示的近距离标签,和用大于0的数字表示的不同远距离等级的远距离标签后,能够通过多分类算法,对离散距离进行建模,从而使得图像处理模型能够判断出对应的输入图像属于哪个级别。如果多分类算法预测输入图像的类别为1,说明该图像的人脸距离镜头为远距离,但属于远距离中相对最近的位置,预测得到的类别标签的数字越大,说明人脸离镜头的距离越远。

通过多分类算法的类别标签实现了对离散距离的表征。这种建模方法,适用于对实际距离不需要非常精确的场景,例如,餐饮店门口的智能机器人,通过人脸检测算法判别有无顾客到达门口时,并不需要知道顾客距离机器人的精确距离,只需要知道顾客离机器人大概多近或者多远即可,通过使用离散距离来对多近或者多远这一模糊的距离界限进行建模,从而达到降低计算复杂度的目的。此外,这种建模方式也更符合人眼视觉对距离的判断,人在判断物体距离时,也很难估计出具体的精度,而是凭感觉判断物体距离自己的大概远近。

在一种可能实现方式中,如图8所示,该图像处理模型能够包括神经网络和分类器,该图像处理模型的输入(input)801为视频帧或图像帧等,该图像处理模型的主干网络(backbone)802能够为神经网络,例如,计算机视觉组(visualgeometrygroup,vgg)、alexnet等主干神经网络,其中,alexnet是2012年imagenet竞赛冠军获得者hinton和他的学生alexkrizhevsky设计的一种神经网络。imagenet为计算机视觉系统识别项目名称。分类器能够执行多分类算法(classifier)803,该分类器能够采用神经网络实现,也能够用机器学习的方法实现,例如支持向量机(supportvectormachine,svm)等。

303、终端基于该预测距离指示信息和该目标距离指示信息,获取预测准确度。

该训练过程中,能够通过预测准确度来衡量模型参数是否合适,如果不合适,则能够对其调整,直至模型参数能够使得模型精确地进行分类。其中,该预测准确度为损失值或其他值,例如,该预测准确度为目标损失函数的值,又例如,预测准确度为奖励值等,本申请实施例对此不做限定。

304、终端基于该预测准确度,调整该图像处理模型的模型参数,直至符合目标条件时停止。

该目标条件能够由相关技术人员根据需求进行设置,例如,该目标条件为预测准确度小于阈值,或预测准确度收敛,或迭代次数达到目标次数,本申请实施例对此不作限定。

上述步骤302至步骤304为一次迭代过程,在调整模型参数后,终端可以基于调整后的模型参数重新执行步骤302和步骤303,再基于下一次迭代过程的预测准确度调整模型参数,经过多次迭代,对模型参数不断调整,以使得该图像处理模型的分类能力提高,训练停止后,得到训练好的图像处理模型,此时该图像处理模型分类的准确性比较好,后面如果有有图像处理需求,可以将图像输入该图像处理模型进行准确分类。

上述步骤301至步骤304为图像处理模型的训练过程,在上述步骤301至步骤304中,以终端执行模型训练的步骤为例,终端能够获取样本人脸图像,对图像处理模型进行训练,后续采集到图像后,基于训练好的图像处理模型对采集到的图像进行处理,确定图像中人与终端之间的距离远近。

在另一种可能实现方式中,模型训练过程在服务器上进行。在该实现方式中,终端执行步骤301至步骤304,获取样本人脸图像,基于样本人脸图像对图像处理模型进行训练,得到训练好的图像处理模型。

模型训练后可以包括以下两种情况。

在情况一中,终端可以从服务器中获取训练好的图像处理模型,将该图像处理模型存储于终端本地,这样终端采集到图像后,即可从本地中调用图像处理模型,对图像进行处理,实现嵌入式的图像处理功能。终端在调用本地图像处理模型进行图像处理时,可以联网执行,也可以离线进行,本申请实施例对此不作限定。

在情况二中,服务器训练得到图像处理模型后,能够为终端提供图像处理的后台服务。终端可以将采集到的图像发送至服务器,服务器调用训练好的图像处理模型,对终端发送的图像进行处理,并将处理结果反馈给终端,这样终端即可通过调用服务器的图像处理服务实现图像处理功能。

综上,模型训练过程和图像处理过程的执行主体可以包括多种情况,本申请实施例对具体采用哪种情况不作限定。

305、终端采集图像。

该终端具有图像采集功能和图像处理功能,能够采集图像,并对采集到的图像进行处理,分析图像中人脸与自己的距离,在距离近时能够执行目标功能。

可选地,该终端上配备有摄像头,终端能够基于该摄像头采集图像。该摄像头能够为前置摄像头或后置摄像头,可选地,该摄像头还能够为深度摄像头、红外线摄像头等,本申请实施例对摄像头的类型不作限定。

在本实施例中,以该终端采集图像,也即是该终端为该图像采集设备为例进行说明,可选地,如果该终端不是该图像采集设备,终端能够接收图像采集设备发送的图像。

306、终端将该图像输入图像处理模型中,由该图像处理模型对该图像进行人脸检测,在检测到图像中包括人脸时,根据该人脸检测得到的人脸检测框在该图像中的比例,对该图像中人脸与图像采集设备之间的距离进行分类,输出该图像对应的距离指示信息。

该图像处理模型经过训练,学习到各种占屏比的人脸图像对应的距离指示信息,在有图像处理需求时,将图像输入该图像处理模型中即可执行对图像处理,输出该图像对应的距离指示信息。该步骤306中对图像处理的过程与上述步骤302同理,在此不多做赘述。

该步骤306为根据该图像中人脸检测框在该图像中的比例,对该图像中人脸与图像采集设备之间的距离进行分类,得到该图像对应的距离指示信息的过程,该过程还能够不采用图像处理模型,而是调用特征提取算法和分类算法实现,本申请实施例对具体方式不作限定。

307、终端根据该距离指示信息,控制该图像采集设备执行目标功能。

在本实施例中,以该终端采集图像,也即是该终端为该图像采集设备为例进行说明,可选地,如果该终端不是该图像采集设备,终端能够向该图像采集设备发送该距离指示信息或者向该图像采集设备发送控制指令,以控制图像采集设备执行目标功能。

其中,该目标功能由相关技术人员根据需求进行设置,本申请实施例对该目标功能不作具体限定。下面提供几种目标功能的示例。

示例一、终端响应于该距离指示信息为第一距离指示信息,控制该图像采集设备的屏幕亮起,显示目标界面。

该终端平时为了节省电量消耗,通常会在未使用时处于息屏状态,通过自动检测到人与图像采集设备之间的距离近,唤醒屏幕并为用户显示提供相应功能的界面,无需用户手动唤醒,也无需用户手动在设备上进行操作来触发设备显示该目标界面,为用户提供了便利,减少了用户操作,提高了用户的操作效率。

其中,该目标界面根据实际需求进行设置,例如,在支付场景中,该目标界面为支付界面。也即是,图像采集设备检测到人离自己近了,能够唤醒屏幕,并显示支付界面。又例如,在快递应用场景中,该目标界面为取快递界面或寄快递界面等。也即是,图像采集设备检测到人离自己近了,能够唤醒屏幕,并显示取快递界面或寄快递界面等。

示例二、终端响应于该距离指示信息为第一距离指示信息,显示提示信息,该提示信息用于提示当前距离该图像采集设备距离太小。

该提示信息采用弹窗的方式显示,或者该提示信息通过界面跳转的方式显示。例如,终端检测到用户距离屏幕过近,显示提示信息,以提示用户当前距离屏幕过近,请与屏幕保持距离,以保护眼睛。

可选地,可以提供一种护眼模式,该功能可以在终端开启了护眼模式时执行,在一些特定模式下不执行,例如,该特定模式可以为游戏模式。可选地,也可以不区分模式,在终端检测到人脸与终端距离小时即执行。本申请实施例对此不作限定。

在一种可能实现方式中,该距离指示信息包括第一距离指示信息和距离指示信息,该第一距离指示信息用于指示该人脸与图像采集设备之间的距离小于距离阈值,该第二距离指示信息用于指示该人脸与图像采集设备之间的距离大于距离阈值;

相应地,该步骤307中,终端响应于该图像对应的距离指示信息为该第一距离指示信息,控制该图像采集设备执行目标功能。

如果该人脸与图像采集设备之间距离远,图像采集设备能够不执行该目标功能,也即是,终端响应于该图像对应的距离指示信息为该第二距离指示信息,忽略该图像,不执行该目标功能。

本申请实施例提供的基于多分类算法的离散距离建模方法,将目标与摄像头的连续距离,通过多分类算法,进行离散建模,从而降低距离算法的计算复杂度,无需配备姿态感应器,通过摄像头采集图像并进行图像处理即可,使得中低端设备也能够享受到“距离手机屏幕过近,发出提醒”这一功能,或者无需用户操作即可在用户靠近时唤醒并显示支付界面或快递界面等功能。当然,该方法还能够应用于其他场景,在此不一一列举。

在一种可能实现方式中,其他距离指示信息也能够对应有其他功能,终端能够执行该其他距离指示信息对应的其它功能。例如,在上述距离指示信息包括第一距离指示信息和第二距离指示信息的方式中,终端能够响应于该距离指示信息为第二距离指示信息,执行该第二距离指示信息对应的功能。例如,能够设定在距离远时自动关机,或者自动息屏,或者自动返回首页面等。

本申请实施例通过对采集到的图像进行处理,分析图像中人脸区域在图像中的比例,来确定图像中人脸与图像采集设备之间的离散距离,采用这种离散的距离表示,不需要精确计算人脸与图像采集设备之间的距离,估计出二者相距的远近程度即可,这样省去了对距离的精确计算过程,省去了大量的计算量,还能够提高图像处理效率,且通过对采集到的图像进行距离远近的估计,即可实现目标功能,无需配备其他组件,能够减少设备的制作成本。

上述所有可选技术方案,能够采用任意结合形成本申请的可选实施例,在此不再一一赘述。

图9是本申请实施例提供的一种图像处理装置的结构示意图,参见图9,该装置包括:

检测模块901,用于对采集到的图像进行人脸检测;

获取模块902,用于在检测到该图像中包括人脸时,根据该图像中人脸区域在该图像中的比例,获取该图像对应的距离指示信息,该距离指示信息用于指示该人脸与图像采集设备之间的距离,该距离为离散距离;

控制模块903,用于根据该距离指示信息,控制该图像采集设备执行目标功能。

在一种可能实现方式中,该获取模块902用于根据该图像中人脸检测框在该图像中的比例,对该图像中人脸与图像采集设备之间的距离进行分类,得到该图像对应的距离指示信息。

在一种可能实现方式中,该检测模块901和该获取模块902用于将该图像输入图像处理模型中,由该图像处理模型对该图像进行人脸检测,在检测到该图像中包括人脸时,根据该人脸检测得到的人脸检测框在该图像中的比例,对该图像中人脸与图像采集设备之间的距离进行分类,输出该图像对应的距离指示信息。

在一种可能实现方式中,该图像处理模型的训练过程包括:

获取样本人脸图像,该样本人脸图像携带有对应的目标距离指示信息;

将该样本人脸图像,输入该图像处理模型中,由该图像处理模型对样本人脸图像中人脸与图像采集设备之间距离进行分类,输出该样本人脸图像对应的预测距离指示信息;

基于该预测距离指示信息和该目标距离指示信息,获取预测准确度;

基于该预测准确度,调整该图像处理模型的模型参数,直至符合目标条件时停止。

在一种可能实现方式中,该获取样本人脸图像,包括:

对至少两个样本图像进行人脸检测,得到该至少两个样本图像的人脸检测框;

获取该至少两个样本图像的人脸检测框在至少两个样本图像中所占的比例;

根据该比例,确定该至少两个样本图像对应的裁剪框;

根据该裁剪框对该至少两个样本图像进行裁剪,将裁剪后的样本图像确定为样本人脸图像,根据样本图像中人脸检测框和该裁剪框的大小关系,确定该样本人脸图像对应的目标距离指示信息。

在一种可能实现方式中,该根据该比例,确定该至少两个样本图像对应的裁剪框,包括:

响应于该比例大于第一比例阈值,根据该至少两个样本图像中人脸检测框的尺寸,确定该至少两个样本图像对应的裁剪框的尺寸,根据该人脸检测框的位置和目标偏移量,确定该至少两个样本图像对应的裁剪框的位置,该裁剪框小于该人脸检测框;

响应于该比例小于第二比例阈值,根据该至少两个样本图像中人脸检测框的尺寸和目标缩放系数,确定该至少两个样本图像对应的裁剪框的尺寸,按照该至少两个样本图像中该裁剪框的尺寸,随机在该至少两个样本图像中确定该裁剪框的位置,该裁剪框大于该人脸检测框。

在一种可能实现方式中,该根据该人脸检测框的位置和目标偏移量,确定该至少两个样本图像对应的裁剪框的位置,包括:

对于一个样本图像,根据该人脸检测框的中心点位置和至少一个偏移方向上的目标偏移量,确定该至少两个样本图像对应的至少一个裁剪框的顶点位置。

在一种可能实现方式中,该根据样本图像中人脸检测框和该裁剪框的大小关系,确定该样本人脸图像对应的目标距离指示信息,包括:

响应于该裁剪框小于该人脸检测框,确定该样本人脸图像对应的目标距离指示信息为第一距离指示信息,该第一距离指示信息所指示的距离小于距离阈值;

响应于该裁剪框大于该人脸检测框,确定该目标缩放系数对应的距离指示信息为该至少两个样本图像对应的目标距离指示信息。

在一种可能实现方式中,该获取样本人脸图像,包括:

对至少两个样本人脸图像进行人脸检测,得到该至少两个样本人脸图像的人脸检测框;

获取该至少两个样本人脸图像的人脸检测框在至少两个样本人脸图像中所占的比例;

根据比例与距离指示信息的对应关系,获取该比例对应的距离指示信息作为该至少两个样本人脸图像对应的目标距离指示信息。

在一种可能实现方式中,该控制模块903用于执行述任一项:

响应于该距离指示信息为第一距离指示信息,控制该图像采集设备的屏幕亮起,显示目标界面,该第一距离指示信息所指示的距离小于距离阈值;

响应于该距离指示信息为第一距离指示信息,显示提示信息,该提示信息用于提示当前距离该图像采集设备距离太小,该第一距离指示信息所指示的距离小于距离阈值。本申请实施例提供的装置,通过对采集到的图像进行处理,分析图像中人脸区域在图像中的比例,来确定图像中人脸与图像采集设备之间的离散距离,采用这种离散的距离表示,不需要精确计算人脸与图像采集设备之间的距离,估计出二者相距的远近程度即可,这样省去了对距离的精确计算过程,省去了大量的计算量,还能够提高图像处理效率,且通过对采集到的图像进行距离远近的估计,即可实现目标功能,无需配备其他组件,能够减少设备的制作成本。

需要说明的是:上述实施例提供的图像处理装置在处理图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将图像处理装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

上述方法实施例中的电子设备能够实现为终端。例如,图10是本申请实施例提供的一种终端的结构框图。该终端1000能够是:智能手机、平板电脑、mp3(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)播放器、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、智能机器人或自助支付设备。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端1000包括有:一个或多个处理器1001和一个或多个存储器1002。

处理器1001能够包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001能够采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也能够包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(centralprocessingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001能够集成有gpu(graphicsprocessingunit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还能够包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。

存储器1002能够包括一个或多个计算机可读存储介质,该计算机可读存储介质能够是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一条指令,该至少一条指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个能够在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路1004用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004能够通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity,无线保真)网络。在一些实施例中,射频电路1004还能够包括nfc(nearfieldcommunication,小距离无线通信)有关的电路,本申请对此不加以限定。

显示屏1005用于显示ui(userinterface,用户界面)。该ui能够包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号能够作为控制信号输入至处理器1001进行处理。此时,显示屏1005还能够用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005能够为一个,设置终端1000的前面板;在另一些实施例中,显示屏1005能够为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005能够是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还能够设置成非矩形的不规则图形,也即异形屏。显示屏1005能够采用lcd(liquidcrystaldisplay,液晶显示屏)、oled(organiclight-emittingdiode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还能够包括闪光灯。闪光灯能够是单色温闪光灯,也能够是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,能够用于不同色温下的光线补偿。

音频电路1007能够包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风能够为多个,分别设置在终端1000的不同部位。麦克风还能够是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器能够是传统的薄膜扬声器,也能够是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅能够将电信号转换为人类可听见的声波,也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还能够包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。定位组件1008能够是基于美国的gps(globalpositioningsystem,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009能够是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池能够是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还能够用于支持快充技术。

在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011能够检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011能够用于检测重力加速度在三个坐标轴上的分量。处理器1001能够根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还能够用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012能够检测终端1000的机体方向及转动角度,陀螺仪传感器1012能够与加速度传感器1011协同采集用户对终端1000的3d动作。处理器1001根据陀螺仪传感器1012采集的数据,能够实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013能够设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,能够检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014能够被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商logo时,指纹传感器1014能够与物理按键或厂商logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001能够根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还能够根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。

接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员能够理解,图10中示出的结构并不构成对终端1000的限定,能够包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

上述方法实施例中的电子设备能够实现为服务器。例如,图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(centralprocessingunits,cpu)1101和一个或一个以上的存储器1102,其中,所述存储器1102中存储有至少一条指令,所述至少一条指令由所述处理器1101加载并执行以实现上述各个方法实施例提供的图像处理方法。当然,该服务器还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令由可由处理器执行以完成上述实施例中的图像处理方法。例如,计算机可读存储介质能够是只读存储器(read-onlymemory,简称:rom)、随机存取存储器(randomaccessmemory,简称:ram)、只读光盘(compactdiscread-onlymemory,简称:cd-rom)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得电子设备能够执行上述图像处理方法。

应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

应理解,根据a确定b并不意味着仅仅根据a确定b,还能够根据a和/或其它信息确定b。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,该程序能够存储于一种计算机可读存储介质中,上述提到的存储介质能够是只读存储器,磁盘或光盘等。

以上描述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1