用于引导用户拍摄自拍照的系统和方法与流程

文档序号：19667333发布日期：2020-01-10 21:52阅读：357来源：国知局

本申请整体涉及用于改善自捕获的数字照片的质量的系统和方法。更具体地，本申请涉及图像处理模块的系统，该图像处理模块利用定性度量处理图像并且测定自捕获的数字图像，尤其是人面部图像的质量。根椐图像质量，可实现多种附加的图像处理和/或分析步骤，或者用户可被提示重新拍摄自拍照。

背景技术：

数字成象技术渗入现代社会。生物识别扫描、计算机生成图像、图像处理、以及所谓的“自拍照”仅仅为数字成象应用的几个普遍示例。最近，已经认识到使用数字成象技术，尤其是消费者的图像或自拍照可用于识别新的顾客和/或向消费者推销产品。例如，一些美容护理品和化妆品公司利用消费者自拍照来向消费者提供皮肤概况和/或提供定制的产品和方案建议。然而，用于分析这些图像的现代计算机模型的复杂性日益增长，使得确保待分析的图像满足最小质量阈值比以往任何时候都更重要，以便计算机模型可提供更精确的分析。

过去改善自拍照质量的尝试已使用了各种度量和技术来帮助用户捕获较高质量的图像，包括例如使用所谓的“线框”，其中人脸的轮廓或侧面影像出现在图像捕获装置的屏幕上(例如，智能电话或数码相机显示器)。当线框出现时，用户将他们的面部与线框对准，然后拍摄自拍照。虽然线框方法可有助于正确地定位面部，但其并未解决可能影响自拍照质量的各种其他因素(例如，照明、阴影、遮挡、面部表情、模糊)。因此，需要提供这样一种图像分析系统：该系统能够帮助用户方便利地解决更多，并且理想地所有的显著影响自拍照的图像质量的因素，从而使得用户能够提供给图像分析系统较高质量的自拍照。

其他过去改善自拍照质量的尝试已经解决了影响自拍照质量的各种单独因素，但是没有一者共同考虑这些因素，从而以消费者友好的方式提供自拍照质量的总体指示。因此，仍然需要提供一种将各种图像质量因素组合成单一方便的得分的系统，该得分可用于确定自拍照质量是否足以供图像分析软件使用。

技术实现要素：

本文公开了用于引导消费者拍摄自拍照的计算机实现的方法。该方法包括用数字图像捕获装置捕获自拍照并分析该自拍照，以确定面部是否存在于自拍照中以及至少一个标志性面部特征是否存在于面部上。如果检测到面部和至少一个面部标志，则对面部归一化。在分析并归一化自拍照之后，使其经历进一步分析以确定选自以下的图像质量度量：遮挡、模糊、离相机距离、面部表情、照明、以及这些的组合。由经分析的图像质量度量生成sqi得分，并且sqi得分用于确定自拍照是否将经历进一步分析。质量度量分析和sqi的结果可提供给用户作为用于改善其自拍照质量的指导。

本文还公开了用于引导消费者拍摄自拍照的系统。该系统包括图像捕获装置；耦合到图像捕获装置的计算装置，该计算装置包括存储逻辑的非暂态存储器部件，其中该逻辑包括：图像处理模块，该图像处理模块使得计算装置分析自拍照，以确定面部是否存在以及至少一个标志性面部特征是否存在于面部上，并且如果面部和至少一个标志性面部特征被确定为存在的，则归一化自拍照；自拍照质量指标(sqi)模块，该自拍照质量指标模块使得计算装置针对选自遮挡、模糊、离相机距离、面部表情、照明、以及这些的组合的质量度量来分析经归一化的自拍照，其中系统基于经分析的图像质量度量和sqi分数而生成sqi得分；以及耦合到图像捕获装置和计算装置中的至少一者的显示装置，其中显示装置被配置成将来自系统的输出显示给用户。

附图说明

图1示出本发明系统的示例。

图2示出面部计数和检测模块的分析结果。

图3示出面部计数和检测模块的分析结果。

图4示出面部计数和检测模块的分析结果。

图5a至5c示出面部配准模块的分析结果。

图6是示出通过图像处理模块的流程的框图。

图7是示出通过模糊检测模块的流程的框图。

图8示出卷积神经网络的示例。

图9示出卷积神经网络的示例。

具体实施方式

多种图像分析系统和方法已被用于化妆品工业中，以向消费者提供皮肤概况、皮肤年龄预测、定制的护肤品建议和护肤方案。传统皮肤模型/皮肤分析系统所用的大多数(如果非全部)图像为自拍照并不少见，因为自拍照是近代拍摄照片的最常见类型之一。然而，分析自拍照可能由于与相机质量、照明、用户技能、离相机距离等有关的图像质量的广泛变化而存在问题。图像质量可直接影响常规图像分析系统所提供的皮肤分析预测/结果的准确性。因此，较低图像质量可导致不太准确的年龄预测、皮肤状况概况、产品推荐和/或方案推荐。相反地，较高质量自拍照通常导致较好的图像分析结果。

一些常规的皮肤分析系统试图通过使用例如几种已知方法之一来提高自拍照图像质量，诸如所谓的线框，其有助于产生具有较一致的距离或角度的自拍照。然而，常规的图像分析系统和方法并未采用基于可能影响例如图像质量的多个因素的图像质量的全面指示，诸如裁剪/边界、滤波、归一化对比度/颜色。

本发明的系统和方法通过利用新型的自拍照质量指标和用户反馈系统以帮助用户拍摄较高质量自拍照图像来解决图像质量较低的问题。当被合适的皮肤分析系统使用时，较高质量的图像能够提高皮肤年龄预测、皮肤状况概况、护肤品推荐和/或护肤方案推荐的准确性。理想的是，本发明的系统和方法可帮助用户捕获“认证质量”的自拍照，这是图像分析领域中某些的鉴定标准。

定义

如本文所用，“约”修饰一个值，所提及的范围等于该值加或减百分之二十(+/-20％)或更小(例如小于15％，10％，或甚至小于5％)。

“卷积神经网络”是一种前馈人工神经网络的类型，其中各个神经元被覆盖使得它们对视觉领域中的重叠区域作出响应。

当提及本文系统的各种部件时，“耦合”意指各部件彼此电气、电子和/或机械连通。

“设置”意思是一个元件相对于另一个元件被定位在特定位置。

“特征向量”意指包含描述数字图像中对象的一个或多个特征的信息的一系列特征。特征向量中的每个特征通常由一个或多个数字表示，但可根据需要使用任何合适的指示符(字母、符号、颜色等)。

“图像捕获装置”是指能够捕获/记录人物图像的装置，诸如数字相机或使用胶片的相机。

“接合”是指其中通过将一个元件直接附连到另一个元件来使该元件直接固定到另一个元件的构型，以及其中通过将一个元件附连到一个或多个中间构件，继而附连到另一个元件来使该元件间接固定到另一个元件的构型。

“宏观特征”是在人面部上或附近发现的相对较大的身体特征。宏观特征包括但不限于面部形状、耳、眼、嘴、鼻、毛发和眉毛。

“微观特征”是通常与发现于人面部上的老化皮肤和/或皮肤疾病相关的相对较小的特征。微观特征包括但不限于细纹、皱纹、干燥的皮肤特征(例如皮肤碎屑)、以及色素沉着疾病(例如色素沉着过度病症)。微观特征不包括宏观特征。

“掩蔽”是指采用所具有的rgb值与所关注区域中设置的像素接近或等同的像素，对设置于图像中的宏观特征中和/或接近图像中的宏观特征的像素的至少一部分进行数字替换的过程。

本文中的“模型”是指用于预测、描述、或模拟一组环境、系统、或自然发生的现象的数学方程、算法或计算机软件。

“所关注的区域”或“roi”意指需要分析的图像的特定有界部分。所关注区域的非限制性示例包括在限位框内的图像的一部分，下文将对此进行更详细地描述。roi的其他示例包括描绘设置于前额、面颊、鼻唇沟、眼下区域、或颏的皮肤部分。在某些情况下，roi可为已掩蔽一个或多个宏观特征的面部图像的一部分。

“自拍照”是指由本人、另一人、或自动图像捕获系统(例如，照相亭或监控摄像机)拍摄的该人的数字照片。自拍照包括人的面部以及捕获图像中相关的背景特征。

本文中的“用户”是指使用至少本文提供的特征的人员，包括例如装置用户、产品用户、系统用户等。

图像分析系统

本文的图像分析系统可被配置为多级系统，其中由一个或多个图像质量模块处理和/或分析原始数字图像，以确保合适质量的图像被提供给，例如经训练的卷积神经网络以进行皮肤状况分析。图像质量模块可被配置成在第一步骤中处理图像以进行定性分析，并且随后在第二步骤中定性地分析经处理的图像，以测量与自拍照图像质量相关的一个或多个定性度量。如果图像的质量满足质量的阈值水平，则可使用合适的皮肤模型进一步分析图像。

由特定图像质量模块分析的度量可与由另一模块分析的度量相同或不同。可由本发明系统的模块分析的定性度量的非限制性示例为面部位置、标志检测、掩蔽、图像中存在的面部数量、离相机距离、面部比例、遮挡、面部表情、模糊和照明(方向、位置、强度和/或对比度)。来自图像质量模块的分析结果可随后用于生成反映自拍照质量的自拍照质量指标(“sqi”)得分。

在某些情况下，系统可经由移动计算装置上的显示器或独立显示装置(例如，计算机监视器)向用户显示分析进程。例如，显示器可通过显示一系列的定性图像度量(例如，离相机距离、模糊、照明、遮挡、表情)来模拟分析进程，伴随着向用户指示系统正在执行分析。在某些情况下，自拍照可甚至与度量分析的顺序相对应进行修改。例如，系统可向用户指示正在分析自拍照的模糊强度，并且自拍照可能看起来变得模糊，然后重新聚焦。接着，系统可向用户指示正在分析自拍照的适当照明，同时改变图像的对比度或亮度。一旦分析完成，系统就可显示sqi得分和/或可能影响自拍照质量的各种模块所检测到的任何问题。根椐自拍照质量得分，随后可向用户提供提交自拍照以进一步分析或重新拍摄自拍照的选项。

在某些情况下，如果sqi得分满足预先确定的阈值，则使用合适的皮肤模型对其进行分析。另一方面，如果sqi得分不满足预先确定的阈值，则系统可提示用户(例如，经由视觉或音频提示)自拍照不符合要求和/或阻止图像经历进一步分析。根据所用的评分量表，阈值可为最小阈值或最大阈值。除此之外或另选地，系统可向用户提供关于自拍照为什么不符合要求的原因的信息，例如通过传达哪些度量不符合要求和/或如何改善不符合要求的度量。

图1示出用于捕获和分析人物图像的示例性皮肤分析系统10。图1中例示的系统10包括网络100(例如广域网，诸如移动电话网、公用交换电话网、卫星网络和/或互联网；局域网，诸如无线保真、wi-max、zigbee^tm和/或bluetooth^tm；和/或其他合适的连网能力形式)。耦合到网络100的是移动计算装置102、远程计算装置104和训练计算装置108。

移动计算装置102可为移动电话、平板电脑、膝上型计算机、个人数字助理和/或被配置用于捕获、存储和/或传输图像诸如数字照片的其它计算装置。因此，移动计算装置102可包括图像捕获装置103，诸如数字相机，和/或可被配置成从其它装置接收图像。移动计算装置102可包括非暂态存储器部件140a，所述非暂态存储器部件存储图像捕获逻辑144a和界面逻辑144b。非暂态存储器部件140a可包括随机存取存储器(诸如sram、dram等)、只读存储器(rom)、寄存器和/或其他形式的计算存储硬件。图像捕获逻辑144a和界面逻辑144b可包括软件部件、硬件电路、固件和/或其他计算基础结构。图像捕获逻辑144a可有利于捕获、存储、预处理、分析、传送和/或执行用户的数字图像上的其他功能。在某些情况下，图像捕获逻辑144a可包括一些、所有或不包括例如智能电话“app”形式的本文所述的智能自拍照模块。界面逻辑144b可被配置用于向用户提供一个或多个用户界面，所述用户界面可包括问题、选项等。移动计算装置102还可被配置用于经由网络100与其它计算装置通信。

远程计算装置104还可耦合到网络100并且可被配置为服务器(或多个服务器)、个人计算机、移动计算机和/或被配置用于创建、存储和/或训练卷积神经网络的其他计算装置，该卷积神经网络能够通过定位并分析所捕获用户面部的图像中对皮肤年龄作出贡献的皮肤特征来确定用户的皮肤年龄。例如，cnn可作为逻辑144c和144d存储在远程计算装置104的非暂态存储器部件140b中。通常感知的皮肤缺陷诸如细纹、皱纹、暗色(老年)斑点、不均匀的皮肤色调、红斑、增大的毛孔、发红、发黄、这些缺陷的组合等全部可由经训练的cnn识别为对用户的皮肤年龄作出贡献。

远程计算装置104可包括非暂态存储器部件140b，该非暂态存储器部件存储训练逻辑144c、分析逻辑144d和/或处理逻辑144e。非暂态存储器部件140b可包括随机存取存储器(诸如sram、dram等)、只读存储器(rom)、寄存器和/或其他形式的计算存储硬件。训练逻辑144c、分析逻辑144d和/或处理逻辑144e可包括软件部件、硬件电路、固件和/或其他计算基础结构。训练逻辑144c有利于cnn的创建和/或训练，并且从而可有利于cnn的创建和/或操作。处理逻辑144e使得从移动计算装置102(或其他计算装置)接收的图像被处理，以供分析逻辑144d分析。在某些情况下，处理逻辑144e可包括一些、所有或不包括本文所述的图像质量分析模块。图像处理可包括宏观特征识别、掩蔽、分割和/或其他图像更改过程，其在下文中有更详细地描述。分析逻辑144d包括用于分析经处理的图像的至少一个皮肤模型(例如，一个或多个cnn形式)，从而提供表观皮肤年龄、皮肤状况诊断、产品推荐等。

在某些情况下，训练计算装置108可耦合到网络100以促进cnn的训练。例如，训练者可经由训练计算装置108向cnn提供面部或皮肤的一个或多个数字图像。训练者还可提供信息和其他指示(例如，实际年龄)，以告知cnn哪些评估是正确的以及哪些评估是不正确的。基于来自训练者的输入，cnn可自动地适应，如下文更详细所述。

系统10还可包括信息亭计算装置106，其可类似于移动计算装置102操作，但也可能能够分配一个或多个产品和/或以现金或电子交易的形式接收支付。当然，应当理解，本文设想了也提供支付和/或产品分配的移动计算装置102。在某些情况下，信息亭计算装置106和/或移动计算装置102也可被配置为有利于训练cnn。因此，被描绘和/或描述用于移动计算装置102和远程计算装置104的硬件和软件可被包括在信息亭计算装置106、训练计算装置108和/或其他装置中。

还应当理解，尽管图1中将远程计算装置104描绘为执行图像处理和图像分析，但是这仅仅是一个示例。图像处理和/或图像分析可根据需要由任何合适的计算装置执行。

图像质量模块和自拍照质量指标得分

本文的图像质量模块可包括图像处理模块和sqi模块。一旦图像被耦合到移动和/或远程计算装置的合适的图像捕获装置所捕获，图像处理模块就可处理原始图像以供sqi模块进行质量度量分析，或者将图像分类为不适于进一步分析。sqi模块可提供对应于图像质量的各种度量(下文更详细地讨论)的一个或多个特征向量，其可随后用于计算自拍照质量指标得分。来自各sqi模块的特征向量输出可对sqi得分等几率或不成比例地作出贡献。例如，相比于其他sqi模块中的一者或多者，来自一个sqi模块的输出可被加权成对sqi得分所作的贡献更大(例如，2x、3x、4x、5x、6x、或也甚至7x)。

在本文的系统和方法中，sqi得分可被传送给用户和/或用于确定图像分析过程中的后续步骤。sqi得分可为二进制(例如，0或1，是或否，合格或失败)、量表(例如，1至10，或1至100标度的值)和/或定性的(例如，差、中等、良好、优异)。例如，在二进制评分形式中，当图像满足预先确定的最小质量标准时，各sqi模块可生成的质量度量得分为1，或者当图像不满足最小质量标准时，质量度量得分为0。如果该示例中存在8个sqi模块并且全部都等几率地对sqi得分作出贡献，则sqi得分的范围内可为0至8。在量表得分形式的示例中，8个sqi模块各自的特征向量可被提供为1至10尺度上的值，其中1对应于该特定特征向量的最低质量度量。可将sqi模块的得分组合以提供8至80范围内的sqi得分，并且/或者可将组合的得分平均化以提供1至10范围内的sqi得分。当然，应当理解，可根据需要通过组合sqi模块的各个特征向量的任何合适的方法来计算和/或以任何形式呈现sqi得分。

在某些情况下，sqi得分可用于向用户生成反馈，以用于提高自拍照的质量。例如，用于计算sqi得分的一个或多个特征向量(下文有更详细地描述)能够被系统使用，以向用户提供指导和/或提示(例如，经由移动计算装置显示器)，从而提高自拍照质量。在该示例中，如果sqi得分低于最小阈值(例如，在1至10的标度上低于6、5、4、或3)或高于最大阈值(例如，在1至10的标度上高于4、5、6、或7，其中10对应于最低质量)，系统可提示用户重新拍摄自拍照。在某些情况下，如果各个特征向量中的一者或多者低于最小可接受阈值(例如，在1至10的标度上，模糊小于3或2)，系统可提示用户重新拍摄自拍照。在某些情况下，如果sqi得分满足阈值，但仍低于所期望或理想的质量水平，则可向用户提供重新拍摄自拍照或分析自拍照的选择。在某些情况下，sqi得分可用于将图像分类成质量类别(例如，差、中等、良好、优异)，其随后可被传达给用户。在某些情况下，可例如通过将用户的sqi得分与该用户先前的sqi得分或与用户群的平均sqi得分进行比较，提示用户提高其sqi得分。

图像处理模块

图像质量模块可包括一个或多个图像处理模块。图像处理模块可被配置为定位和/或计数图像中的面部，提取图像中面部的不同区域，使用作为标志的一个或多个面部特征来配准面部，和/或使面部归一化到共同坐标系。在某些情况下，图像处理模块可包括面部检测和计数模块(“fdc模块”)、标志检测模块(“ld模块”)和/或面部配准模块(“fr模块”)。

在某些情况下，图像处理阶段的第一步骤为面部检测和计数模块，以确定在自拍照图像中是否存在面部和/或存在多少面部。如果fdc模块检测到单一面部，则fdc模块可例如使用限位框使面部与图像的其余部分隔离，然后将经隔离的面部传递到标志检测模块上。如果检测到多个面部，则fdc模块或控制应用程序(即，协调各种模块之间和/或模块与系统的其他部件之间的特定相互作用的逻辑)可确定是否继续处理图像。例如，fdc模块可选择图像中所存在的最大面部(例如，基于总像素区域)和/或位置最靠近图像中心的面部，隔离所选择的面部，并将经隔离的面部传递给ld模块。在某些情况下，如果在图像中检测到多个面部，则fdc模块可使得系统向用户传达在图像中检测到多个面部和/或提示用户重新拍摄其中图像中仅存在有一个面部的自拍照。

fdc模块可使用本领域已知的任何合适的面部检测技术。可适用于本文的面部检测技术的一些非限制性示例包括“bellsandwhistle”技术，由m.mathias等人描述于“facedetectionwithoutbellsandwhistles”eccv，2014；seeta技术，由wu等人描述于“funnel-structuredcascadeformulti-viewfacedetectionwithalignment-awareness，”neurocomputing，2016；以及viola-jones技术，由paulviola和michaeljones描述于“robustreal-timeobjectdetection，”ijcv，2001。

图2是限位框202中的自拍照200的示例性图示。限位框202使包含所关注区域(例如面部特征，诸如前额、面颊、眼、颏和嘴)的图像部分与图像200的其余部分隔离。限位框202的尺寸可设定成移除背景对象、面部宏观特征或其他身体部分、和/或它们的一部分(例如，毛发、耳和肩部)。虽然图2中所描绘的限位框为矩形，应理解限位框可根据需要为任何合适的形状。在某些情况下，限位框可与面部轮廓共延。

图3示出fdc模块检测图像中的多个面部的示例。在该示例中，fdc模块使得系统提供给用户错误消息302以指示检测到多个面部。如由视觉提示304和306所示，系统也可提供重新拍摄自拍照的言语请求。系统也可向用户提供按钮308以用于重新拍摄自拍照。在某些情况下，fdc模块可使得系统在移动计算装置310的显示器上显示出图像和/或图像中检测到的面部300之一。

在从fdc模块接收经隔离的面部图像时，标志检测模块分析面部的图像以识别(即，定位和/或分析)各种面部标志点，面部标志点中的至少一些可被面部配准模块用来归一化图像。在面部上识别的标志点可通过面部标志检测算法进行预先确定或选择。可适用于本发明的系统中的标志检测算法的一些非限制性示例包括任务限制的深度卷积网络(“tcdcn”)和标志检测软件应用程序(购自dlibandthemenpoproject)。在某些情况下，ld模块可使得系统掩蔽图像中存在的一个或多个面部宏观特征。如果未检测到面部标志，则ld模块可使得系统避免自拍照的任何进一步分析和/或要求用户重新拍摄自拍照。

图4示出包括标志点402的面部400的图像，这些标志点对应于面部400上的各种宏观特征(例如，眼、眉毛、鼻、面颊、颏、颌和毛发)。在图4中所示的示例中，使用六十八个标志点来定位眼、眉毛、鼻、嘴和面部的周边。例如，可使用沿眉毛长度延伸的五个点来定位每个眉毛。可使用6个点定位每个眼睛，这些点被布置为在上眼睑和下眼睑中的每一者上有2个点，并且在内眼角和外眼角中的每一者处有一个点。鼻部可使用沿着鼻梁延伸到鼻尖的四个点来定位。嘴可使用20个点来定位，这些点被布置为在每个嘴角处有2个点，在上唇的上部和下唇的下部中的每一者处有5个点，并且在上唇的下部和下唇的上部中的每一者处有3个点。面部的轮廓或边界可使用17个点来定位，这些点从一边太阳穴(例如，发际线处)向下延伸到颚线，围绕颏，并且向上至相对的颚线，到相对的太阳穴(例如，发际线处)。当然，应当理解，可根据需要使用任何数量的标志点和/或面部特征。

在由标志检测模块分析之后，图像和所识别的标志点被传递给面部配准模块，其有助于解决图像未对准的问题。当提取sqi模块的特征时，将图像归一化并配准到共同坐标系以最小化对象间的差异也是重要的。因此，可由sqi模块在不同图像中一致地提取空间敏感特征。

在某些情况下，如图5a中所示，可选择四个标志点，其可包括每只眼的外角510和511以及嘴的外角512和513。可以内切圆515，使得圆的周边与四个蓝色标志510、511、512和513相交，如图5b中所示。圆515的公式可定义为：

x²+y²+ax+by+c＝0

对于内切圆，在以上公式中存在3个未知数(a、b和c)，因此可采用各自使用三个标志点的三个公式。因为在该示例中使用了四个标志点，可实施所有4种点的组合(即，“4选3”)。因此，圆515可被描述为在周边和被省去的点之间具有最小的最小平方距离(r)。接着，可通过由两个眼睛标志和两个唇角定义的平均矢量来确定。由此，可计算具有长度r和角度的假想线。如图5c中所示，然后使图像旋转-θ，并使用圆515的中心作为基准点并向中心点的右侧和左侧行进1.2r(总长度为2.4r)，上下2r(总长度为4r)进行裁切。可适用于本文的归一法的非限制性示例由jianshengchen等人描述于“imagequalityassessmentbasedonlearningtorank”，ieeesignalprocessingletters，第22卷，第1期，第90-94页，2015中。

图6示出通过预处理模块的图像的流程600。在框602中，图像被图像处理装置捕获。框602中捕获的图像被提供给面部检测和计数模块604。在面部被识别以用于进一步处理和/或分析之后，面部检测信息(例如，面部区域限位框)被传递给标志检测模块606。标志检测模块606利用一个或多个标志点识别可预先确定或学习的面部标志。标志信息和捕获的图像随后被传递给面部归一化模块608。面部归一化模块608可利用两个或更多个面部标志或标志点之间的关系(例如，距离和/或角度)来确定图像应当旋转的程度。

自拍照质量指标模块

在由图像处理模块处理之后，原始图像、检测到的标志和最终配准的图像被传递给一个或多个sqi模块，以测定图像质量。各个sqi模块可包括一个或多个模型(例如cnn)，以及任选的合适的控制逻辑以执行其功能/分析。在某些情况下，控制逻辑可为系统的处理和/或训练逻辑的一部分。因为由各sqi模块执行的分析不一定取决于任何其他模块的分析结果，sqi模块不需要按顺序操作。然而，可期望2个或更多个sqi模块按顺序操作，并且本文设想了此类实施方案。可适用于本发明的系统和方法中的sqi模块的一些非限制性示例包括模糊检测模块、离相机距离模块、面部比例模块、遮挡模块、表情模块、以及照明模块。本文的sqi模块中的每一者还可包括一个或多个子模块，其可独立地作为离散模块或共同地作为单一模块起作用。例如，本发明的系统可包括照明模块，该照明模块包括方向、位置、强度、和/或对比度子模块。除此之外或另选地，本发明的系统可包括用于遮挡和/或表情模块的面颊和前额子模块。子模块可各自向sqi得分提供输入，或者各子模块的得分可被组合，以为模块提供组合得分，其随后被用于计算sqi得分。

在某些情况下，如果特征向量确实满足预先确定的质量阈值水平，则系统可向用户(例如，经由来自移动计算装置的视觉或音频提示)传达该特定特征不符合要求和/或提示用户重新拍摄自拍照。在某些情况下，系统可提供指示如何改善不符合要求的特征的有用提示。

sqi模块的图像分析结果可用于确定自拍照的质量是否足以通过分析系统逻辑来进行分析。如果特定特征或特征向量不满足可接受的质量阈值水平(“低质量特征”)，则系统可阻止图像传递给分析逻辑。在某些情况下，在阻止图像传递给分析逻辑之前，系统可能需要多于一种低质量特征以被sqi模块检测。在某些情况下，sqi模块可被配置为提供特征是否满足可接受的质量阈值水平的二进制指示(即0，1)。在某些情况下，sqi模块可被配置为提供基于连续的最低质量到最高质量的量表得分(例如，1至10或甚至1至100)。例如，在递增质量量表上，模块可将得分1或甚至零分配给经训练识别的特征的最低质量示例，并将得分10或甚至100分配给经训练识别的特征的最高质量示例。反之，在递减质量量表上，模块可将得分1或甚至零分配给经训练识别的特征的最高质量示例，并将得分10或甚至100分配给经训练识别的特征的最低质量示例。可将一些或所有模块的得分组合以提供总体sqi得分，其可任选地与阈值得分进行比较。在某些情况下，相比于另一模块，sqi模块的分析结果可被加权成对sqi得分所作的贡献更大(或更小)。

在某些情况下，sqi模块可包括模糊检测模块。模糊图像趋于产生不太准确的图像分析结果，并因此将期望分析具有最小模糊强度的自拍照。模糊检测模块测量自拍照图像中的模糊量或聚焦不良，其可随后单独地和/或作为sqi得分的一部分使用以改善自拍照质量。

模糊检测模块可被配置为由模糊特征向量训练的cnn，该模糊特征向量由已经提取并融合在一起的几种特征形成。可用于形成模糊特征向量的一种特征是为模糊系数。在某些情况下，在连续数轮模糊之后，可通过对经归一化的图像获取拉普拉斯算子测量值之间的差异来生成模糊系数。除此之外或另选地，拉普拉斯算子测量值的最大值、平均值、绝对和、和/或标准偏差可用于形成模糊特征向量的一部分或全部。生成模糊系数的一个示例性方法由frédériquecrété-roffet等人描述于“theblureffect：perceptionandestimationwithanewno-referenceperceptualblurmetric”，spieflectronicimagingsymposiumconf.humanvisionandelectronicimaging，2007年1月，sanjose，unitedstates.xii，第ei6492-6416页，2007中。

在某些情况下，模糊特征向量可包括从使用例如treebagger分类器(即自举聚合(“袋装”)决策树)训练的alexnet卷积神经网络的最后一层提取的特征。alexnetcnn是指由alexkrizhevsky等人在“imagenetclassificationwithdeepconvolutionalneuralnetworks，”的“advancesinneuralinformationprocessingsystems25”部分(nips2012)中描述的cnn。alexnetcnn利用计算机视觉方法进行深度学习。该方法将图像(例如，自拍照或经归一化的面部图像)转换成例如传统计算机视觉直方图特征，诸如局部二元模式(“lbp”)或梯度直方图(“hog”)特征，其已被开发用于寻找图像内的模式。一旦已在训练集中生成每个图像的直方图，直方图就可用作教导cnn的代表性特征。自举聚合决策树组合各个决策树的结果，以降低过拟合效应并改善泛化能力。用于选择合适的treebagger分类器的技术是本领域的技术人员已知的。

在分析图像之后，模糊检测模块可使用二进制值(例如，“良好”或“差”)或量表值(例如，1至10的值)来量化图像中检测到的模糊量(“模糊检测得分”)，并且提供得分给控制应用程序、处理逻辑和/或分析逻辑。在某些情况下，模糊检测模块的得分和/或其他分析结果可被提供给系统的训练逻辑，以进一步训练模糊检测模块。可将模糊检测模块的得分与来自其他sqi模块的输出组合为例如特征向量，以生成sqi得分。

在某些情况下，模糊检测得分可经由显示器被提供给用户。如果模糊检测得分低于阈值，则系统可向用户传达在图像中检测到模糊强度。例如，如果模糊检测模块将图像中检测到的模糊量在1至10的标度上量化为4至7之间，则系统可向用户提供在图像中存在模糊的指示，但仍然允许根据需要分析图像。继续该示例，如果模糊检测得分小于4，则系统可向用户指示图像太模糊和/或要求用户重新拍摄图像。在某些情况下，系统可向用户提供用于减小图像中的模糊量的提示。

在某些情况下，sqi模块可包括离相机距离模块(“dtoc模块”)，其可为可训练模型(例如cnn)的形式。dtoc模块可计算限位框中的检测到的像素与总图像尺寸的比率(通常在x至y的范围内)，并将该比率与面部离相机的距离相关联。如果限位框像素与图像尺寸的比率太高(例如，大于0.8、0.9、或甚至大于1)，则系统可向用户指示相机太靠近面部和/或要求用户重新拍摄自拍照。如果限位框像素与图像尺寸的比率太低(例如，小于0.4、0.3、或甚至小于0.2)，则系统可向用户指示相机太远离面部和/或要求用户重新拍摄自拍照。

除此之外或另选地，dtoc模块可使用已知的人体测量数据作为校准目标。也就是说，当在不同的图像捕获距离处训练回归模型时，可将人面部上不同的标志特征或标志点之间的已知距离用作目标(例如，准“真实数据”)。例如，可使用在不同距离(例如，12″、24″和36″)处从不同图像捕获装置(例如，iphone6、iphone6+和samsunggalaxys7)收集的合适数量的图像(例如，20-1000，25-500，或甚至30-100)，对dtoc模块所用的模型进行训练。然后，可将检测到的距离与已知的人体测量数据进行比较，以确定模型的准确度。使用人体测量数据作为校准目标的方法的非限制性示例由i.等人描述于“anewcontext：screentofacedistance”，20148thinternationalsymposiumonmedicalinformationandcommunicationtechnology(ismict)，第1-5页.ieee，2014中。

dtoc模块可通过计算图像中检测到的特定面部特征之间的像素数来确定捕获距离。例如，dtoc模块可通过计算由标志检测模块识别的68个标志点中的两个或更多个之间的像素数来确定捕获距离。在某些情况下，dtoc模块可使用标志检测模块的一些或者甚至全部标志点来检测例如各种人体测量距离，诸如瞳孔间宽度(瞳孔间距离)、双目宽度(外眼角间距离)、咬骨宽度(面部宽度)、颏点-鼻下长度(鼻尖与上唇之间的距离)和面部长度。其中，可能特别有利的是使用瞳孔间宽度、双目宽度和颏点-鼻下长度来训练模型。

dtoc模块可生成离相机距离得分，其可为二进制得分、量表得分，或甚至如由模块测定的离相机的实际距离。离相机距离得分可用于生成sqi得分，向用户提供离相机距离太远或太近的指示，向用户提供离相机距离得分，提供如何实现较好的离相机距离得分的提示，和/或训练dtoc模块。

本文的sqi模块可包括遮挡检测模块，以确定是否存在不期望地影响图像质量的遮挡面部或面部的一部分的物体。可由模块检测到的遮挡的一些非限制性示例包括前额和/或面颊上的毛发，或者面部上或面部前方的手或其他物体(例如，面部前方的眼镜、手、帽子和衣领)。用于面部各区域的标签以及置信测度可由遮挡检测模块生成。在某些情况下，可使一个或多个基于计算机视觉的lbp特征与一个或多个基于cnn的alexnet特征融合生成遮挡特征向量。遮挡检测模块可使用treebagger分类器训练。

遮挡模块可生成遮挡得分，其可为二进制得分(例如，遮挡或未遮挡)、量表得分、或这些的组合。遮挡得分可用于帮助生成sqi得分，向用户提供存在遮挡面部或面部的一部分的物体的指示，要求用户在不存在遮挡的情况下重新拍摄图像，和/或训练遮挡模块。

本文的sqi模块可包括分析自拍照以确定是否存在面部表情的表情模块。由面部表情引起的面部宏观特征和面部微观特征的尺寸、形状和/或位置的改变可能不期望地影响分析逻辑对图像的分析，从而导致不太准确的结果。因此，在本发明的系统中，希望分析其中面部具有自然表情的自拍照，而非包括情绪表现的自拍照(例如，微笑、大笑、皱眉、或惊讶、恐惧、厌恶或愤怒的表情)。

表情模块可包括基于计算机视觉技术(例如lbp或hog)、深度学习技术(例如cnn)、或这些技术的组合的模型。模块可检查整个面部或仅面部的一部分(例如，面颊、前额、嘴、或其他所关注的区域)，以确定是否存在情绪或自然表情。如果存在情绪表现，则系统可阻止图像被传递给分析逻辑以进行分析，和/或向用户提供在图像中检测到情绪表现的指示。例如，系统可告知用户“看起来您正在微笑”。

在某些情况下，表情模块可量化面部表情影响自拍照质量的程度。例如，表情模块可生成表情得分，其可为二进制(例如，指示是否存在表情)、量表(例如，1到10，其中1指示极端情绪表现，且10表示自然表情)、或这些的组合。表情得分可用于帮助生成sqi得分，向用户指示在图像中检测到影响图像质量的表情，要求用户用自然表情重新拍摄图像，和/或训练表情模块。

sqi模块可包括照明模块以确定由用户拍摄的自拍照是否具有足够的照明条件。如果照明条件不充分，则系统可能不能测定期望的定性度量。因为有多种不同的照明模式要考虑，就确定是否可成功地提取所期望的面部度量而论，可能有利的是考虑多种不同的照明因数。所选择的照明因数可被配置为照明模块中的子模块。子模块的分析输出可单独地或共同地使用，从而确定照明特征向量以用于计算sqi得分。在某些情况下，由一个或多个照明子模块分析的照明因数包括照明方向、照明位置、对比度和照明强度。

照明方向很重要，因为理想地，当拍摄自拍照时，甚至在整个面部上都有照明。甚至照明有助于确保所关注的特征(例如，皱纹或色素沉着不均)未被遮挡或无色。然而，拍摄自拍照的照明条件通常不理想，并且可能存在多个照明源。因此，照明方向子模块提供图像中的照明朝向哪个方向的指示。在某些情况下，照明方向子模块可向用户提供反馈，从而以某种方式改变光源和/或照明方向。

在某些情况下，照明方向(“doi”)子模块可使用计算机视觉技术来针对期望的特征创建梯度直方图。例如，doi模块可对经归一化的图像的局部部分中的出现次数进行计数，这对于照明角度类似的图像应当类似。然后，可使用计算机建模领域的技术人员已知的合适算法(例如，多项式核支持向量机)来分析特征hog和分配的标签。在某些情况下，doi模块可包括用于对应于左边、右边、顶部、底部和/或均匀的不同照明方向种类的分类器。doi子模块可提供由子模块检测的照明方向的指示。在某些情况下，doi子模块可生成照明方向质量得分，其可用作由照明模块生成的照明特征向量中的特征，或者向用户提供关于照明方向和/或图像质量的反馈。

本文的照明模块可包括照明强度子模块，其使用特征的组合来定性图像。在某些情况下，照明强度子模块可使用计算机视觉(例如，hog)和/或深度学习(例如，alexnet)技术从经归一化的图像提取lbp特征，然后使lbp特征与灰度直方图和感知亮度度量融合。感知亮度可根据以下公式来确定。

感知亮度＝(0.241r²+0.691g²+0.068b²)^1/2

其中：r、g和b是来自红、绿、蓝(“rgb”)颜色模型的色值。

照明强度子模块可提供由子模块检测到的照明强度的指示。在某些情况下，照明强度子模块可生成可用作照明特征向量中的特征或向用户提供关于照明强度和/或图像质量的反馈的质量得分(例如，二进制、量表、或这些的组合)。

本文的照明模块可包括使从多个源生成的特征与真实数据标签相关联的照明对比度子模块。如果图像中的对比度不足，则系统可能难以区分面部宏观特征和/或微观特征彼此和/或图像背景，这可能不期望地影响由分析逻辑进行的分析。照明对比度子模块中使用的特征可与照明强度子模块中使用的那些相同或类似(例如，与色调、饱和度和值(hsv)颜色空间直方图和感知亮度度量融合的lbp特征)。照明对比度子模块可提供由子模块检测到的照明对比度的指示。在某些情况下，照明对比度子模块可生成可用作照明特征向量中的特征或向用户提供关于照明强度和/或图像质量的反馈的质量得分(例如，二进制、量表、或这些的组合)。

在某些情况下，照明模块可包括照明位置(“il”)子模块，其可确定图像是在室内还是在室外环境中捕获。与使用经归一化的图像的其他照明子模块不同，il子模块使用整个自拍照图像进行训练和测试。il子模块可被训练成识别非照明特定提示，诸如室外情况的树、道路等，以及室内情况的家具、洗涤槽等。il子模块可被配置为使用与照明对比度子模块相同的特征集(例如lbp特征)。

卷积神经网络

本文的系统和方法(包括分析逻辑和图像质量模块的至少一部分)使用经训练的卷积神经网络，其用作计算机模拟皮肤模型。cnn用于分析自拍照或其一部分并且确定期望的度量。可适用于本发明系统中的深度学习计算机模拟皮肤模型(即cnn)的示例描述于由sherman等人提交的共同未决的美国序列号15/465,292中。本文的cnn可包括多层神经元集合，所述多层神经元集合对层中的每个像素使用相同的滤波器。对部分和完全连接的层的各种组合中的每个像素使用相同的滤波器降低系统的内存和处理要求。在某些情况下，cnn包括多个深度网络，这些深度网络被训练并且作为离散卷积神经网络对图像、图像片段和/或所关注区域起作用。

图8示出用于本文的cnn配置的示例。如图8中所示，cnn800包括四个单独的深度网络，以用于分析各个所关注区域或其一部分，其在该示例中可包括所关注的前额、眼下区域、面颊/鼻唇沟、以及颏区域的部分。当然，应当理解，cnn可根据需要包括更少的深度网络或更多的深度网络。来自各个深度网络的图像分析结果可用于为其相应的所关注区域提供特征向量。

本文的cnn可使用深度学习技术进行训练，所述技术允许cnn学习图像的哪些部分对所关注的特征作出贡献，与哺乳动物视觉皮质学习来识别图像中的重要特征的方式非常相同。例如，cnn可被训练成确定对图像中的特征作出贡献的像素的位置、颜色和/或色度(例如，明度或暗度)。在一些情况下，cnn训练可涉及使用带有nesterov动量(和/或其它算法)的微型批量随机梯度下降(sgd)。利用随机梯度下降的示例公开于us8,582,807中。

在一些情况下，可通过提供从其中学习大量捕获的图像的未经训练的cnn来训练cnn。在某些情况下，cnn可学习通过称为监督学习的过程来识别图像中对所期望的特征向量作出贡献的特征。“监督学习”通常是指通过分析其中图像中所期望的特征向量被预先确定的图像来训练cnn。根据期望的准确度，训练图像的数量可从少量图像变化到大量图像(例如，数百或甚至数千)，以连续输入图像(即，提供连续训练)。

图9示出了用于本文的卷积神经网络900的示例。cnn900可包括经输入的图像905(例如，所关注的区域或其部分)、一个或多个卷积层c1，c2、一个或多个二次采样层s1和s2、一个或多个部分连接层、一个或多个完全连接层以及输出。为了开始分析或训练cnn，将图像905输入到cnn900(例如，用户图像)中。cnn可对图像的一个或多个部分进行采样以在第一卷积层c1中创建一个或多个特征图。例如，如图9所示，cnn可对图像905的六个部分进行采样以在第一卷积层c1中创建六个特征图。接下来，cnn可对第一卷积层c1中的特征图的一个或多个部分进行二次采样以创建第一二次采样层s1。在一些情况下，特征图的二次采样部分可以是特征图面积的一半。例如，如果特征图包括来自图像905的29×29像素的样本区，则二次采样区可为14×14像素。cnn900可执行一个或多个另外级别的采样和二次采样，以提供第二卷积层c2和第二二次采样层s2。应当理解，根据需要，cnn900可包括任意数量的卷积层和二次采样层。在完成最终二次采样层(例如，图9中的层s2)后，cnn900生成完全连接的层f1，其中每个神经元连接到每个其他神经元。从完全连接的层f1，cnn可生成与图像质量度量相关的输出。

实施例：生成sqi得分

用户使用传统的智能电话相机(例如apple5牌智能电话或samsungs6牌智能电话，这些的更新版本等)拍摄自拍照。智能电话包括将自拍照提供给远程计算机进行分析的本机应用程序(即，存储在装置本身上的应用程序)。应当理解，也可经由基于网络的应用程序(即，由经由移动计算装置上存储的互联网浏览器软件访问的网站启动的应用程序)将自拍照提供给远程计算机以供分析，或者如果移动计算装置具有足够的处理能力和存储器来支持分析所需的处理逻辑和/或分析逻辑，可通过该移动计算装置对自拍照进行分析。在该实施例中，如果面部计数和检测模块或标志检测模块无法检测到面部或合适的标志，或者检测到多于一个面部，则sqi得分返回为0，并且提示用户重新拍摄自拍照。如果面部检测、标志检测和面部归一化模块成功地运行(即，识别并隔离单个面部，检测到所期望的面部标志，并归一化面部)，则经归一化的图像被传递给sqi模块以供分析。

该示例中的系统使用三个变量来计算sqi得分。第一个变量为置信度得分。置信度得分为介于0和1之间的数字，并且是各sqi模块的特征向量的量化(即，其为遮挡模块的遮挡得分、模糊模块的模糊得分、表情模块的表情得分等)。对于基于机器学习的模块，置信度得分为距支持向量机的超平面的距离。对于离相机距离模块，其为限位框中的像素与图像尺寸的比率。在该实施例中，由sqi模块返回总共九个置信度得分。该实施例中分析的质量度量为：面颊遮挡、前额遮挡、面颊表情、前额表情、模糊、照明方向、照明对比度、照明强度、以及离照相机距离。

用于计算sqi得分的第二变量为模块权重，其反映了各sqi模块对sqi得分的重要性。在该实施例中，认为照明比其他质量度量更为重要，并因此照明模块(即，方向、对比度和强度)被赋予0.2的模块权重，而其他sqi模块得到0.1的模块权重。在某些情况下，可能期望根据用户行为来加权sqi模块。例如，如果用户无法遵循提示来改善低质量特征(例如，遮挡)，则可对相应的模块进行加权以补偿用户所缺少的校正。

用于计算sqi得分的第三变量为预测类别得分，其反映由各sqi模块提供的类别分类预测。遮挡模块(面颊和前额)预测自拍照是否属于“未遮挡”或“存在遮挡”类别(即，是或否类别)。sqi模块可具有针对自拍照预测的任何类别数量(例如2、3、4、或甚至5或更多)。在各模块的预测类别中，至少一者为“正”类别，并且其余部分为“负”类别。正类别被赋予+1的预测类别得分，负类别被赋予-1的预测类别得分。在该实施例中，使用九个预测类别得分来计算sqi得分。该实施例中的预测类别如下表1所示。

表1

通过将各sqi模块的置信度得分×模块权重×预测类别得分相乘，然后计算所有9个sqi模块/子模块的极大-极小经归一化的总和，计算sqi得分。

本文所公开的量纲和值不应理解为严格限于所引用的精确数值。相反，除非另外指明，否则每个此类量纲旨在表示所述值以及围绕该值功能上等同的范围。例如，公开为“40mm”的量纲旨在表示“约40mm”。

除非明确排除或以其它方式限制，本文中引用的每一篇文献，包括任何交叉引用或相关专利或专利申请以及本申请对其要求优先权或其有益效果的任何专利申请或专利，均据此全文以引用方式并入本文。对任何文献的引用不是对其作为与本发明的任何所公开或本文受权利要求书保护的现有技术的认可，或不是对其自身或与任何一个或多个参考文献的组合提出、建议或公开任何此类发明的认可。此外，当本发明中术语的任何含义或定义与以引用方式并入的文献中相同术语的任何含义或定义矛盾时，应当服从在本发明中赋予该术语的含义或定义。

虽然已举例说明和描述了本发明的具体实施方案，但是对于本领域技术人员来说显而易见的是，在不脱离本发明的实质和范围的情况下可作出多个其它变化和修改。因此，本文旨在于所附权利要求中涵盖属于本发明范围内的所有此类变化和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·普尔瓦;P·J·麦茨;M·A·施里弗;W·吴
技术所有人：宝洁公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。