图像处理装置的制作方法

文档序号：18744780发布日期：2019-09-21 02:12阅读：127来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像处理装置、图像处理方法以及图像处理程序。

背景技术：

以往，提出了用于从包含人脸的图像检测脸部朝向、器官的位置的各种方法。例如，在专利文献1以及专利文献2中提出了使用三维形状模型进行特征点的检测的图像处理装置。

专利文献1：国际公开2006/051607号公报

专利文献2：日本专利特开2007-249280号公报

技术实现要素：

然而，在作为对象的图像所包含的人例如佩戴有口罩、太阳镜的情况下，由于脸部的大部分被隐藏，因此存在无法检测充分数量的节点而无法推定脸部器官的位置的问题。本发明是为了解决该问题而提出的，目的在于提供一种即使在脸部的局部被口罩等遮挡的情况下也能够从包含这样的脸部的图像检测至少脸部器官的位置的图像处理装置、图像处理方法以及图像处理程序。

该图像处理装置具备：第一学习机，是进行了用于从包含人脸的图像检测脸部朝向的学习的已完成学习的第一学习机，将包含人脸的对象图像作为输入，并将与所述对象图像所包含的脸部朝向相关的第一信息作为输出；至少一个第二学习机，是按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习的至少一个已完成学习的第二学习机，将所述对象图像作为输入，并将与所述对象图像所包含的脸部器官的位置相关的第二信息作为输出；以及控制部，控制所述第一学习机以及第二学习机，所述控制部构成为通过所述第一学习机从所述对象图像获取所述第一信息，通过与所述第一信息对应的所述第二学习机从所述对象图像获取所述第二信息。

根据该构成，作为从对象图像检测人脸的器官的位置的第二学习机，使用与由第一学习机输出的第一信息对应的学习机。即，由于使用通过特定的脸部朝向进行了学习的学习机来进行脸部器官的检测，因此能够检测更高精度的器官的位置。

在上述图像处理装置中，能够使所述第一信息是从规定人脸的朝向的多个不同的朝向信息选择的一个。

在上述各图像处理装置中，能够使所述第二信息是在人脸的器官中规定的至少一个特征点的位置。

在上述各图像处理装置中，能够进一步地具备：至少一个第三学习机，是按每个所述第一信息进行了用于从包含人脸的图像检测脸部朝向的学习的至少一个已完成学习的第三学习机，将所述对象图像作为输入，并将与所述对象图像所包含的脸部朝向相关的第三信息作为输出，所述控制部构成为通过与从所述第一学习机输出的所述第一信息对应的所述第三学习机而从所述对象图像获取所述第三信息。

根据该构成，作为从对象图像检测人脸的朝向的第三学习机，使用与由第一学习机输出的第一信息对应的学习机。即，由于使用通过特定的脸部朝向进行了学习的学习机来进行脸部朝向的检测，因此能够检测更高精度的朝向。

在上述各图像处理装置中，能够使所述第三信息为表示人脸的朝向的角度。

在上述各图像处理装置中，能够进一步地具备：至少一个第四学习机，是按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习的至少一个已完成学习的第四学习机，将包含涉及所述第二信息的器官的所述对象图像作为输入，并将与所述对象图像所包含的脸部器官的位置相关的第四信息作为输出，所述控制部构成为通过与从所述第一学习机输出的所述第一信息对应的所述第四学习机而从包含涉及所述第二信息的器官的所述对象图像获取所述第四信息。

根据该构成，由于检测人脸的器官的位置的第四学习机不是通过对象图像整体而是通过包含涉及第二信息的器官的对象图像进行学习，因此更局部地进行器官的位置的检测。其结果，能够进行更高精度的脸部器官的检测。

在上述各图像处理装置中，所述第二信息是在人脸的器官中规定的至少一个特征点的位置，所述第四学习机将基于向所述第二学习机的输入所使用的所述对象图像而生成并包含所述特征点的输入用图像作为输入，并将各所述特征点的位置作为输出。

在上述各图像处理装置中，能够进一步地具备判断所述对象图像是否包含遮挡脸部的局部的遮挡物的遮挡物判断部，所述控制部构成为在通过所述遮挡物判断部判断为所述对象图像包含所述遮挡物的情况下，将所述对象图像作为输入，并通过所述第一学习机以及所述第二学习机输出所述第一信息以及所述第二信息。

在上述各图像处理装置中，所述各学习机能够由神经网络构成。

该图像处理方法具备如下步骤：准备已完成学习的第一学习机，所述已完成学习的第一学习机进行了用于从包含人脸的图像检测脸部朝向的学习；通过所述第一学习机从包含人脸的对象图像获取与所述人脸的朝向相关的第一信息；准备至少一个已完成学习的第二学习机，所述至少一个已完成学习的第二学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第二学习机而从所述对象图像输出与所述对象图像所包含的脸部器官的位置相关的第二信息。在这一点上，对于后述的第三以及第四学习机也是同样的。

在上述图像处理方法中，能够进一步地具备判断所述对象图像是否包含遮挡脸部的局部的遮挡物的步骤，在所述对象图像包含所述遮挡物的情况下，执行准备所述第一学习机的步骤、输出所述第一信息的步骤、准备所述第二学习机的步骤以及输出所述第三信息的步骤。

在上述各图像处理方法中，能够进一步地具备如下步骤：准备至少一个已完成学习的第三学习机，所述至少一个已完成学习的第三学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部朝向的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第三学习机而从所述对象图像输出与所述对象图像所包含的脸部朝向相关的所述第三信息。

在上述各图像处理方法中，能够进一步地具备如下步骤：准备至少一个已完成学习的第四学习机，所述至少一个已完成学习的第四学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第四学习机而从包含有涉及所述第二信息的器官的所述对象图像输出与所述对象图像所包含的脸部器官的位置相关的第四信息。

在上述各图像处理方法中，所述各学习机能够由神经网络构成。

该图像处理程序使计算机执行如下步骤：准备已完成学习的第一学习机，所述已完成学习的第一学习机进行了用于从包含人脸的图像检测脸部朝向的学习；通过所述第一学习机从包含人脸的对象图像获取与所述人脸的朝向相关的第一信息；准备至少一个已完成学习的第二学习机，所述至少一个已完成学习的第二学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第二学习机而从所述对象图像输出与所述对象图像所包含的脸部器官的位置相关的第二信息。另外，能够适当地变更上述步骤的顺序。例如，也能够在获取第一信息之前准备第二学习机。在这一点上，对于后述的第三以及第四学习机也是同样的。

在上述图像处理程序中，能够进一步地具备判断所述对象图像是否包含遮挡脸部的局部的遮挡物的步骤，在所述对象图像包含所述遮挡物的情况下，执行准备所述第一学习机的步骤、输出所述第一信息的步骤、准备所述第二学习机的步骤以及输出所述第三信息的步骤。

在上述图像处理程序中，能够进一步地使计算机执行如下步骤：准备至少一个已完成学习的第三学习机，所述至少一个已完成学习的第三学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部朝向的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第三学习机而从所述对象图像输出与所述对象图像所包含的脸部朝向相关的所述第三信息。

在上述各图像处理程序中，能够进一步地使计算机执行如下步骤：准备至少一个已完成学习的第四学习机，所述至少一个已完成学习的第四学习机按每个所述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习；以及通过与从所述第一学习机输出的所述第一信息对应的所述第四学习机而从包含有涉及所述第二信息的器官的所述对象图像输出与所述对象图像所包含的脸部器官的位置相关的第四信息。

在上述各图像处理程序中，所述各学习机能够由神经网络构成。

发明效果

根据本发明，即使在脸部的局部被口罩等遮挡的情况下也能够从包含这样的脸部的图像检测至少脸部器官的位置。

附图说明

图1是表示包含本发明的一实施方式的图像处理装置的图像处理系统的概要的图。

图2是表示图1的图像处理装置的硬件构成的一例的框图。

图3是表示图1的学习装置的硬件构成的一例的框图。

图4是表示图1的图像处理装置的功能构成的一例的框图。

图5A是表示拍摄图像所拍到的人未佩戴遮挡物的情况下的例子的图。

图5B是表示拍摄图像所拍到的人佩戴有遮挡物的情况下的例子的图。

图6是表示在图1的图像处理装置中使用的神经网络的一例的图。

图7是表示脸部朝向的俯视图。

图8是表示眼睛的特征点的图。

图9是表示从检测到的眼睛的特征点生成合成图像的方法的图。

图10是表示图1的学习装置的功能构成的一例的框图。

图11是表示图1的学习装置的第一朝向学习机用的学习数据的图。

图12是表示图1的学习装置的正面朝向学习机用的学习数据的图。

图13是表示图1的学习装置的第一正面器官学习机用的学习数据的图。

图14是表示图1的学习装置的第二正面器官学习机用的学习数据的图。

图15是表示图1的图像处理装置的动作的流程图。

图16是表示图1的图像处理装置的第二检测部的动作的流程图。

具体实施方式

以下，参照附图对本发明的图像处理装置、图像处理方法以及图像处理程序的一实施方式进行说明。只是，在以下说明的本实施方式在所有方面都只不过是本发明的例示。不言而喻，不脱离本发明的范围而能够进行各种改良、变形。也就是说，在实施本发明时，也可以适当地采用对应于实施方式的具体构成。另外，在本实施方式中出现的数据是用自然语言说明的，更具体地，由计算机能够识别的伪语言、命令、参数、机器语言等指定。

<1.图像处理系统的概要>

使用图1对包含本实施方式的图像处理装置的图像处理系统进行说明。该图像处理系统具备图像处理装置1、学习装置2以及摄像机3。在该图像处理系统中，通过图像处理装置1从由摄像机3拍摄到的包含人的拍摄图像(对象图像)检测人脸的朝向、脸部器官(眼睛、鼻子、嘴等)的位置。特别是，在本实施方式的图像处理装置1中，构成为在拍摄图像内的人脸包含口罩、太阳镜那样的遮挡物时，也能够有效地进行脸部朝向等的检测。

即，在该图像处理装置1中，如后述的图4所示，具备从不包含遮挡物的脸部检测朝向等的第一检测部113和从包含遮挡物的脸部检测朝向等的第二检测部114。然后，第二检测部114通过由神经网络构成的学习机进行脸部朝向等的检测。因此，学习装置2进行第二检测部114所包含的学习机的学习。

图像处理装置1例如能够经由网络10获取由学习装置2所创建的已完成学习的学习机。另外，网络10的类型可以从例如互联网、无线通信网、移动通信网、电话网、专用网等适当地选择。除此之外，也能够将图像处理装置1和学习装置2直接连接，发送学习机。或者，也能够不连接图像处理装置1和学习装置2，而将通过学习装置2进行了学习的已完成学习的学习机存储在CD-ROM等的存储介质，并将存储于该存储介质的学习机保存在图像处理装置1。以下，对各装置进行详细说明。

<1-1.摄像机>

摄像机3能够使用众所周知的摄像机，通过拍摄人而生成拍摄图像，并将其输出到图像处理装置1。另外，拍摄图像也可以是静止图像或动态图像的任一方，在为动态图像的情况下，通过图像处理装置1按每帧进行脸部朝向等的检测。

<1-2.图像处理装置>

图2是表示本实施方式的图像处理装置的框图。如图2所示，本实施方式的图像处理装置1是使控制部11、存储部12、通信接口13、输入装置14、输出装置15、外部接口16以及驱动器17电连接的计算机。另外，在图1中，将通信接口以及外部接口分别记载为“通信I/F”以及“外部I/F”。

控制部11包含CPU(Central Processing Unit，中央处理单元)、RAM(Random Access Memory，随机存取存储器)、ROM(Read Only Memory，只读存储器)等，并根据信息处理来进行各构成要素的控制。存储部12例如是硬盘驱动器、固态驱动器等的辅助存储装置，存储由控制部11执行的图像处理程序121、表示与已完成学习的学习机相关的信息的学习结果数据122等。

图像处理程序121是如下程序：用于判断拍摄图像内的脸部是否包含遮挡物，并使图像处理装置1执行用于在不包含遮挡物的情况下使用上述第一检测部113、在包含遮挡物的情况下使用上述第二检测部114来检测脸部朝向、器官的位置的处理。此外，学习结果数据122是用于进行已完成学习的学习机的设定的数据。细节将后述。

通信接口13例如是有线LAN(Local Area Network，局域网)模块、无线LAN模块等，是用于进行经由网络的有线或无线通信的接口。输入装置14例如是鼠标、键盘等的用于进行输入的装置。输出装置15例如是用于进行显示器、扬声器等的输出的装置。外部接口16是USB(Universal Serial Bus，通用串行总线)端口等，是用于与摄像机3等的外部装置连接的接口。

驱动器17例如是CD(Compact Disk，光盘)驱动器、DVD(Digital Versatile Disk，数字多功能盘)驱动器等，是用于读入存储于存储介质91的程序的装置。驱动器17的类型可以根据存储介质91的类型适当地选择。上述图像处理程序121和/或学习结果数据122也可以存储于该存储介质91。

存储介质91是如下介质：以能够读取记录有计算机或其他装置、机器等的程序等的信息的方式，通过电、磁、光学、机械或化学作用存留该程序等的信息。图像处理装置1也可以从该存储介质91获取图像处理程序121和/或学习结果数据122。

在此，在图2中，作为存储介质91的一例，例示出CD、DVD等的盘式存储介质。然而，存储介质91的类型并非限定于盘式，也可以为盘式以外。作为盘式以外的存储介质，例如，能够列举闪存等的半导体存储器。

另外，关于图像处理装置1的具体硬件构成，根据实施方式能够适当地进行构成要素的省略、替换以及添加。例如，控制部11也可以包含多个处理器。图像处理装置1也可以由多台信息处理装置构成。此外，图像处理装置1除了为所提供的服务专用而设计的信息处理装置之外，还可以使用通用的台式PC(Perso nal Computer，个人计算机)、平板PC等。

<1-3.学习装置>

图3是表示本实施方式的学习装置的框图。如图3所示，本实施方式的学习装置2用于对上述第二检测部114所包含的学习机进行学习，是使控制部21、存储部22、通信接口23、输入装置24、输出装置25、外部接口26以及驱动器27电连接的计算机。另外，在图2中，与图1同样地，将通信接口以及外部接口分别记载为“通信I/F”以及“外部I/F”。

控制部21～驱动器27以及存储介质92分别与上述图像处理装置1的控制部11～驱动器17以及存储介质91是同样的。只是，学习装置2的存储部22存储由控制部21执行的学习程序221、学习机的学习所利用的学习数据222、执行学习程序221而创建的学习结果数据122等。

学习程序221是用于使学习装置2执行后述的神经网络的学习处理(图8)的程序。此外，学习数据222是为了检测人脸的朝向、器官的位置而进行学习机的学习的数据。细节将后述。

另外，与上述图像处理装置1同样地，学习程序221和/或学习数据222也可以存储于存储介质92。据此，学习装置2也可以从存储介质92获取要利用的学习程序221和/或学习数据222。

此外，与上述图像处理装置1同样地，关于学习装置2的具体硬件构成，根据实施方式能够适当地进行构成要素的省略、替换以及添加。进一步地，学习装置2除了为所提供的服务专用而设计的信息处理装置之外，还可以使用通用的服务器装置、平板PC等。

<2.图像处理装置的功能性构成>

接下来，参照图4，对本实施方式的图像处理装置1的功能构成的一例进行说明。图4示意性地例示本实施方式的图像处理装置1的功能构成的一例。

<2-1.概略构成>

如图4所示，图像处理装置1的控制部11将存储于存储部12的图像处理程序121在RAM中展开。然后，控制部11通过CPU解释以及执行在RAM中所展开的图像处理程序121，控制各构成要素。由此，如图4所示，本实施方式的图像处理装置1作为具备图像获取部111、遮挡物判断部112、第一检测部113以及第二检测部114的计算机发挥作用。

图像获取部111获取由摄像机3所生成的拍摄图像。此外，遮挡物判断部112判断拍摄图像内的脸部是否包含口罩、太阳镜等的遮挡物。在遮挡物判断部112中在判断为脸部不包含遮挡物的情况下，第一检测部113从该拍摄图像检测脸部朝向、器官的位置。另一方面，在遮挡物判断部112中在判断为脸部包含遮挡物的情况下，第二检测部114从该拍摄图像检测脸部朝向、器官的位置。作为一例，在本实施方式中，在遮挡物判断部112中判断作为遮挡物而脸部是否包含口罩，在第一以及第二检测部113、114中，作为脸部朝向、角度以及器官，检测眼睛的位置。以下，对这些功能构成进行详细说明。

<2-2.遮挡物判断部>

参照图5，对遮挡物判断部112进行说明。遮挡物判断部112对例如是如图5A所示的那样摄图像123内的人未佩戴遮挡物的情况还是如图5B所示的那样佩戴有口罩等的遮挡物的情况的哪一种进行判断。这样的方法并不特别限定，例如能够采用模式匹配等各种方法。

<2-3.第一检测部>

以往，提出了未佩戴遮挡物的脸部朝向、器官的位置的检测的各种方法。因此，在第一检测部中使用的处理并不特别限定。例如，有使用三维模型进行特征点的提取的方法，具体地，例如，能够采用国际公开2006/051607号公报、日本专利特开2007-249280号公报等所记载的方法。然后，使用这样的方法，从拍摄图像123检测脸部朝向、角度、眼睛的位置。

<2-4.第二检测部的概要>

接下来，参照图4，对第二检测部114进行说明。如图4所示，在第二检测部114中，将拍摄图像123作为对脸部朝向以及器官的位置进行了学习的学习机的输入。然后，通过该学习机的运算处理从该学习机获得输出值。然后，第二检测部114基于从学习机获得到的输出值而获取与拍摄图像123中的人脸的朝向以及器官的位置相关的信息。

<2-4-1.学习机的概要>

接下来，参照图4以及图6，对学习机进行说明。如图4所示，作为一例，对于脸部朝向的检测，本实施方式的图像处理装置1使用四个学习机、也就是说一个第一朝向学习机710和三个类型的第二朝向学习机720。此外，对于脸部器官的检测，也使用六个学习机、也就是说三个类型的第一器官学习机730和三个类型的第二器官学习机740。即，在本实施方式中，共计使用十个学习机710～743。学习机710～743均由神经网络构成。具体地，是图6所示的那样的、所谓的深度学习所使用的多层构造的神经网络，从输入依次具备输入层71、中间层(隐藏层)72以及输出层73。

在图6中，神经网络7具备一层中间层72，输入层71的输出成为中间层72的输入，中间层72的输出成为输出层73的输入。只是，中间层72的数量也可以不限于一层，神经网络7也可以具备两层以上中间层72。

各层71～73具备一个或多个神经元。例如，能够根据各拍摄图像123的像素数来设定输入层71的神经元的数量。能够根据实施方式适当地设定中间层72的神经元的数量。此外，能够根据后述的脸部朝向、角度、特征点的坐标等来设定输出层73。

使相邻的层的神经元彼此适当地耦合，对各耦合设定权重(耦合权重)。在图6的例子中，各神经元与相邻的所有层的神经元耦合，但神经元的耦合也可以不限定于这样的例子，而可以根据实施方式适当地设定。

对各神经元设定阈值，基本上，根据各输入和各权重的乘积之和是否超过阈值来决定各神经元的输出。图像处理装置1通过向这样的神经网络7的输入层71输入上述各拍摄图像，从而基于从输出层73获得的输出值来确定脸部朝向、角度、特征点的坐标等。

另外，使这样的神经网络7的构成(例如，神经网络7的层数、各层中的神经元的个数、神经元彼此的耦合关系、各神经元的传递函数)、各神经元间的耦合的权重以及表示各神经元的阈值的信息包含于学习结果数据122。图像处理装置1参照学习结果数据122，进行脸部朝向以及器官的位置的检测的处理所使用的已完成学习的学习机710～740的设定。

<2-4-2.用于脸部朝向的检测的学习机>

接下来，参照图4，对用于脸部朝向的检测所使用的学习机进行说明。如上述那样，在本实施方式中，对于脸部朝向的检测，使用四个学习机。即，使用检测拍摄图像中的脸部的大致的朝向的第一朝向学习机710和检测脸部朝向的具体角度的三个类型的第二朝向学习机720(721～723)。另外，第一朝向学习机710相当于本发明的第一学习机，第二朝向学习机721～723相当于本发明的第三学习机。

如图4所示，在第一朝向学习机710中，当输入拍摄图像123时，自其输出脸部的大致的朝向、也就是说是朝向正面、朝向斜面或者还是朝向横向这三个类型的任一方。在此，作为一例，如图7所示，“正面”定义为以通过人头的中心的上下方向的轴N为中心而各向左右0～30度的范围。同样地，“斜面”定义为以上述上下方向的轴N为中心而各向左右30～60度的范围，“横向”定义为以上述上下方向的轴N为中心而各向左右60～90度的范围。以下，将该输出称为朝向信息(第一信息)。

在第二朝向学习机720中，当输入拍摄图像时，自其输出脸部的具体朝向、也就是说脸部的角度。但是，在本实施方式中，使用三个类型的第二朝向学习机721～723。即，是使用包含朝向正面的脸部的拍摄图像进行了学习的正面朝向学习机721、使用包含朝向斜面的脸部的拍摄图像进行了学习的斜面朝向学习机722以及使用包含朝向横向的脸部的拍摄图像进行了学习的横向朝向学习机723。

然后，正面朝向学习机721将在第一朝向学习机710中输出为脸部朝向为“正面”的拍摄图像123作为输入，并自其输出具体角度。同样地，斜面朝向学习机722将在第一朝向学习机710中输出为脸部朝向为“斜面”的拍摄图像123作为输入，横向朝向学习机723将在第一朝向学习机710中输出为脸部朝向为“横向”的拍摄图像123作为输入。以下，将在此输出的角度称为角度信息(第三信息)。

<2-4-3.用于脸部器官的位置的检测的学习机>

接下来，参照图4，对用于脸部器官的位置的检测所使用的学习机进行说明。如上述那样，在本实施方式中，对于脸部器官的位置的检测，使用六个学习机。即，使用检测拍摄图像中的脸部器官的位置的三个类型的第一器官学习机730和检测脸部器官的准确位置的三个类型的第二器官学习机740(741～743)。另外，第一器官学习机730相当于本发明的第二学习机，第二器官学习机740相当于本发明的第四学习机。

如图4所示，与上述第二朝向学习机721～723同样地，准备有三个类型第一器官学习机730。即，是使用包含朝向正面的脸部的拍摄图像进行了学习的第一正面器官学习机731、使用包含朝向斜面的脸部的拍摄图像进行了学习的第一斜面器官学习机732以及使用包含朝向横向的脸部的拍摄图像进行了学习的第一横向器官学习机733。

然后，第一正面器官学习机731将在第一朝向学习机710中输出为脸部朝向为“正面”的拍摄图像123作为输入，并自其输出器官的位置。同样地，第一斜面器官学习机732将在第一朝向学习机710中输出为脸部朝向为“斜面”的拍摄图像123作为输入，第一横向器官学习机733将在第一朝向学习机710中输出为脸部朝向为“横向”的拍摄图像123作为输入。然后，在本实施方式中，作为一例，以输出未被口罩隐藏的眼睛的四个特征点的位置的方式，设定各学习机731～733。即，如图8所示，对右眼和左眼分别输出内眼角A1、外眼角A2、眼睛的轮廓的最上部A3、眼睛的轮廓的最下部A4的四个特征点的位置。具体地，获得拍摄图像123内的四个特征点的坐标。以下，将该输出称为第一特征点信息(第二信息)。

接下来，参照图4，对第二器官学习机740进行说明。如图4所示，也准备有三个类型该学习机。即，是使用包含朝向正面的脸部的拍摄图像进行了学习的第二正面器官学习机741、使用包含朝向斜面的脸部的拍摄图像进行了学习的第二斜面器官学习机742以及使用包含朝向横向的脸部的拍摄图像进行了学习的第二横向器官学习机743。

然后，如下那样，设定各学习机741～743的输入。即，从拍摄图像切取分别包含从第一器官学习机730所输出的特征点的局部图像，并将对其排列后的合成图像作为输入。例如，如图9所示，在从第一器官学习机输出了与眼睛相关的四个特征点A1～A4的位置时，从所输入的拍摄图像123提取包含以各特征点A1～A4为中心的矩形状的局部图像124a～124d。然后，生成将这四个局部图像124a～124d进行了排列的合成图像124。局部图像124a～124d的创建方法并不特别限定，能够设为将特征点包含在大概中心附近的规定的大小的图像，以便至少能够进行图像的学习。对右眼以及左眼分别创建这样的合成图像124。然后，各第二器官学习机741～743分别被准备有右眼用和左眼用，将上述各合成图像124作为输入，并输出上述四个特征点A1～A4的位置。具体地，获得拍摄图像内的四个特征点A1～A4的坐标。以下，将该输出称为第二特征点信息(第四信息)。另外，也能够将第二特征点信息作为特征点的坐标，但例如也能够将第一特征点信息的坐标与由第二器官学习机740获得到的坐标的偏差量作为第二特征点信息。此外，右眼和左眼用分别需要学习机，但如后述那样，能够利用左右翻转后的学习机。

<3.学习装置的功能性构成>

接下来，使用图10对本实施方式的学习装置2的功能构成的一例进行说明。图10示意性地例示本实施方式的学习装置2的功能构成的一例。

学习装置2的控制部21将存储于存储部22的学习程序221在RAM中展开。然后，控制部21通过CPU解释以及执行在RAM中所展开的学习程序221，控制各构成要素。由此，正如图10所示的那样，本实施方式的学习装置2在上述的十个学习机的每个设有十个学习单元210a～210j，各学习单元210a～210j作为具备学习图像获取部211a～211j以及学习处理部212a～212j的计算机发挥作用。

以下，参照图11以及图12，对针对第一朝向学习机710以及第二朝向学习机720的学习数据进行说明。例如，在针对第一朝向学习机710的学习单元210a中，如图11所示，作为学习数据222a，学习图像获取部211a获取由摄像机3拍摄到的拍摄图像223和表示该拍摄图像所拍到的脸部的三个朝向(正面、斜面、横向)的朝向信息2241的集合。

此外，对第二朝向学习机720使用三个类型的学习数据。例如，在针对正面朝向学习机721的学习单元210b中，如图12所示，作为学习数据222b，学习图像获取部211b获取由摄像机3拍摄到的拍摄图像之中、朝向被分类为“正面”的拍摄图像2231和表示该被分类为“正面”的拍摄图像2231所拍到的脸部的角度的角度信息2242的集合。同样地，在针对斜面朝向学习机722、横向朝向学习机723的学习单元210c、210d中，获取朝向包含“斜面”、“横向”的拍摄图像的学习数据222c、222d。另外，由于左右的朝向为对称，因此例如能够将右斜面的拍摄图像进行翻转而作为左斜面的拍摄图像来利用。由此，能够减轻存储器的负载。对于这一点，在以下的各学习单元中也是同样的。

接下来，参照图13以及图14，对针对第一器官学习机730以及面向第二器官的学习730的学习数据进行说明。对第一器官学习机730使用三个类型的学习数据。例如，在针对第一正面器官学习机731的学习单元210e中，如图13所示，作为学习数据222e，学习图像获取部211e获取由摄像机3拍摄到的拍摄图像之中、朝向被分类为“正面”的拍摄图像2231和表示该被分类为“正面”的拍摄图像2231所拍到的脸部的眼睛的特征点的位置的第一特征点信息2243的集合。同样地，在针对第一斜面器官学习机732、第一横向朝向学习机723的学习单元210f、210g中，获取朝向包含“斜面”、“横向”的拍摄图像的学习数据222f、222g。

然后，对第二器官学习机740也使用三个类型的学习数据。例如，在针对第二正面器官学习机741的学习单元210h中，如图14所示，作为学习数据222h，学习图像获取部211h获取朝向为“正面”的合成图像和表示该被分类为“正面”的合成图像所拍到的脸部的眼睛的特征点的位置的第二特征点信息的集合。同样地，在针对第二斜面器官学习机742、第二横向器官学习机743的学习单元210i、210j中，获取朝向包含“斜面”、“横向”的拍摄图像的学习数据222i、222j。另外，也能够分别准备右眼用和左眼用的学习机，但由于右眼和左眼为左右对称，因此能够利用使图像翻转后的学习机。

当各学习处理部212a～j使用学习数据222a～j输入所获取的各拍摄图像223、合成图像224时，以输出与上述朝向信息、角度信息、第一特征点信息以及第二特征点信息对应的输出值的方式使神经网络8学习。

如图11～图14所示，作为学习机的一例的神经网络8，具备输入层81、中间层(隐藏层)82以及输出层83，与上述神经网络7同样地构成。各层81～83与上述各层71～73是同样的。当学习处理部212a～j通过神经网络的学习处理输入拍摄图像223、合成图像224时，构筑输出与上述各信息对应的输出值的神经网络8。然后，学习处理部212将所构筑的神经网络8的构成、各神经元间的耦合的权重以及表示各神经元的阈值的信息作为学习结果数据122a～j储存在存储部22。然后，通过上述的各种方法将该学习结果数据122a～j发送到图像处理装置1。此外，也可以定期更新这样的学习结果数据122。然后，每次执行学习处理，控制部21都将所创建的学习结果数据122传送到图像处理装置1，从而也可以定期更新图像处理装置1保持的学习结果数据122。

<4.其他>

关于图像处理装置1以及学习装置2的各功能，通过后述的动作例进行详细说明。另外，在本实施方式中，对图像处理装置1以及学习装置2的各功能均由通用的CPU来实现的例子进行了说明。然而，以上的功能的一部分或全部也可以由一个或多个专用的处理器来实现。此外，关于图像处理装置1以及学习装置2各自的功能构成，根据实施方式，也可以适当地进行功能的省略、替换以及添加。

<5.图像处理装置的动作>

接下来，参照图15，对图像处理装置1的动作例进行说明。图15是例示图像处理装置1的处理顺序的一例的流程图。另外，在以下说明的处理顺序只不过是一例，各处理可以尽可能地被变更。此外，对于在以下说明的处理顺序，根据实施方式能够适当地进行步骤的省略、替换以及添加。

首先，利用者启动图像处理装置1，并使启动的图像处理装置1执行图像处理程序121。图像处理装置1的控制部11参照学习结果数据122，进行神经网络7的构造、各神经元间的耦合的权重以及各神经元的阈值的设定。然后，控制部11按照以下的处理顺序，从拍摄图像检测该拍摄图像所拍到的脸部朝向、器官的位置。

然后，控制部11作为图像获取部111发挥作用，从经由外部接口16而连接的摄像机3获取拍到人脸的拍摄图像123(步骤S101)。如上述那样，拍摄图像123也可以是静止图像，在为动态图像的情况下，按每帧获取拍摄图像。

接下来，控制部11作为遮挡物判断部112发挥作用，判断在步骤S101中所获取的各拍摄图像123是否包含遮挡物(步骤S102)。然后，在判断为不包含遮挡物的情况下(步骤S102为否)，通过第一检测部113从拍摄图像123检测该拍摄图像123所拍到的脸部朝向、器官的位置(步骤S103)。

另一方面，在判断为拍摄图像123包含遮挡物的情况下(步骤S102为是)，通过第二检测部114从拍摄图像123检测该拍摄图像123所拍到的脸部朝向、器官的位置(步骤S104)。以下，参照图16，对第二检测部114的处理进一步地进行详细说明。

如图16所示，在第二检测部114中，首先，通过第一朝向学习机710从拍摄图像123检测脸部朝向(步骤S201)。即，向第一朝向学习机710输入拍摄图像123，获得与上述的三个朝向的任一方对应的输出值。控制部11将在此获得到的朝向作为朝向信息存储在存储部12。接着，控制部11选择与朝向信息对应的第二朝向学习机721～723。例如，如果检测朝向是正面，则选择正面朝向学习机721，并向其输入拍摄图像123(步骤S211)。其结果，从正面朝向学习机721获得与该拍摄图像123内的脸部的角度对应的输出值。然后，控制部11将获得到的角度作为角度信息存储在存储部12。

接下来，控制部11选择与朝向信息对应的第一器官学习机730。例如，如果朝向信息是正面的话，则选择第一正面器官学习机731，并向其输入拍摄图像123(步骤S221)。其结果，从第一正面器官学习机731获得与该拍摄图像内的四个特征点对应的输出值。即，获取四个特征点A1～A4的拍摄图像123内的坐标，并将其作为第一特征点信息存储在存储部12。

接着，控制部11生成包含从第一正面器官学习机731所输出的四个特征点的合成图像(步骤S231～S233)。该合成图像的生成方法正如上述的那样。然后，控制部11例如向与正面的朝向对应的第二正面器官学习机741输入该合成图像(步骤S241)。其结果，从第二正面器官学习机741获得与该合成图像内的四个特征点的坐标对应的输出值。然后，在此获得到的坐标与第一特征点信息的坐标发生偏差的情况下，修正第一特征点信息，并作为第二特征点信息存储在存储部12。这样一来，获得一个拍摄图像所包含的朝向、角度、眼睛的特征点的坐标。以上，表示出作为朝向信息而输出“正面”的情况的例子，但在为“斜面”、“横向”的情况下，也是同样的。

<6.特征>

如以上那样，根据本实施方式，作为从拍摄图像检测人脸的器官的位置的第一器官学习机730，使用与由第一朝向学习机710所输出的朝向信息对应的学习机。即，由于使用通过特定的脸部朝向进行了学习的学习机来进行脸部器官的检测，因此能够检测更高精度的器官的位置。因此，即使在脸部被遮挡物遮挡，未充分进行节点的获取，无法利用第一检测部的情况下，也能够准确检测脸部器官的位置。

进一步地，为了检测更高精度的器官的位置，在本实施方式中使用第二器官学习机。该第二器官学习机不是通过拍摄图像整体而是通过包含由第一器官学习机获得到的特征点的局部图像进行学习。因此，能够更局部地进行器官的位置的检测，能够进行进一步高精度的脸部器官的位置的检测。

此外，对于脸部朝向，也能够使用第二朝向学习机722检测至脸部的角度。即，由于使用通过特定的脸部朝向进行了学习的学习机来进行脸部朝向的检测，因此能够检测脸部的角度。

这样的图像处理装置能够利用在各种领域，例如，能够搭载于汽车。具体地，能够通过摄像机拍摄驾驶员在驾驶中的脸部，检测脸部的角度、眼睛的位置。由此，能够解析驾驶员在驾驶中的行为。例如，能够检测在驾驶中脸部未朝向正面或者眼睛从眼睛的特征点的位置闭上等，由此，能够检测驾驶员未集中驾驶、瞌睡等的异常行动。然后，在检测到这样的异常行动时，能够进行发出警告或者紧急停止汽车等的处理。

除此之外，能够应用于检测人脸的朝向、器官的位置而对其进行利用的各种领域。

<7.变形例>

以上，对本发明的实施方式进行了详细说明，但上述为止的说明在所有方面都只不过是本发明的例示。不言而喻，不脱离本发明的范围而能够进行各种改良、变形。例如，能够进行以下那样的变更。另外，在以下，关于与上述实施方式同样的构成要素，使用同样的符号，关于与上述实施方式同样的方面，适当地省略了说明。能够适当地组合以下的变形例。

<7.1>

例如，在上述实施方式中，正如图5以及图6所示的那样，作为各神经网络(7、8)，使用具有多层构造的一般性前向传播型神经网络。然而，各神经网络(7、8)的类型也可以不限定于这样的例子，而可以根据实施方式适当地选择。例如，各神经网络(7、8)也可以是将输入层71以及中间层72作为卷积层以及池化层来利用的卷积神经网络。此外，例如，各神经网络(7、8)也可以是具有从中间层72如输入层71等那样从输出侧循环到输入侧的耦合的循环型神经网络(Recurrent Neural Network)。另外，各神经网络(7、8)的层数、各层中的神经元的个数、神经元彼此的耦合关系以及各神经元的传递函数可以根据实施方式适当地决定。

<7.2>

在上述实施方式中，图像处理装置1和进行学习机(神经网络)的学习的学习装置2由单独的计算机构成。然而，图像处理装置1以及学习装置2的构成可以不限定于这样的例子，也可以通过一台或多台计算机来实现具有图像处理装置1以及学习装置2的双方的功能的系统。也能够组装入图像处理装置1而使用。

<7.3>

在上述实施方式中，学习机由神经网络构成。然而，只要能够将由摄像机3拍摄到的拍摄图像123作为输入来利用，则学习机的类型也可以并不限于神经网络，而可以根据实施方式适当地选择。作为能够输入多个拍摄图像123的学习机，例如，除了上述神经网络之外，还能够列举由通过支持向量机、自组织映射或强化学习进行学习的学习机而构成的学习机。

<7.4>

在上述实施方式中，将由摄像机3拍摄到的拍摄图像发送到图像处理装置1，并检测脸部朝向等，但也可以不使用摄像机而将预先准备的图像发送到图像处理装置1，也能够从预先存储在图像处理装置1的存储部12的图像检测脸部朝向等。

<7.5>

在上述实施方式中，使用四个学习机710～740来检测脸部朝向、角度以及特征点的位置，但并不限定于此。例如，也能够仅使用第一朝向学习机710和第一器官学习机730来构成第二检测部114，检测脸部朝向以及特征点的位置。此外，也能够使用第一朝向学习机710、第一器官学习机730以及第二器官学习机740来检测脸部朝向以及详细的特征点的位置。或者，也能够使用第一朝向学习机710和第二朝向学习机720来检测脸部朝向和角度。此外，在上述实施方式中，结合脸部朝向(正面、斜面、横向)，在第二朝向学习机720、第一器官学习机730以及第二器官学习机740中分别设定了三个类型的学习机，但并不限定于此。即，能够适当地决定两个或四个以上脸部朝向，并与其结合也创建两个或四个以上学习机。

<7.6>

在上述实施方式中，在第二器官学习机740中，将合成图像124作为输入。即，从拍摄图像123切取包含特征点A1～A4的多个局部图像124a～124d，生成对其排列后的合成图像124，并将其作为第二器官学习机740的输入。然而，第二器官学习机740的输入并不限定于此，能够生成各种输入用图像。例如，能够不将合成图像124作为输入，而分别独立地输入局部图像124a～124d。此外，除了从拍摄图像123切取局部图像以外，还能够将拍摄图像整体作为第二器官学习机740的输入。即，作为输入用图像，只要是包含由第一器官学习机730检测到的特征点，则能够设为各种方式。

<7.7>

上述实施方式的图像处理装置1在判断有无遮挡物之后使用第一检测部113或第二检测部114，但也能够使用仅搭载有第二检测部114的图像处理装置1。

<7.8>

在上述实施方式中，将口罩作为遮挡物，并将眼睛作为器官进行位置的检测，但不言而喻，眼睛以外也能够检测。例如，在作为遮挡物而佩戴有太阳镜的情况下，也能够将嘴、鼻子作为器官检测其位置。此外，在上述实施方式中，作为脸部朝向而仅对左右方向的朝向进行了检测，但也能够检测上下方向的朝向或者将它们进行了组合的朝向。此外，脸部朝向表示出三个类型，但并不限定于此，能够适当地设定。

(附记1)

一种图像处理装置，具备：构成为存储第一学习机以及至少一个第二学习机的存储器；以及连接于上述存储器的至少一个硬件处理器，上述第一学习机是进行了用于从包含人脸的图像检测脸部朝向的学习的已完成学习的第一学习机，其构成为将包含人脸的对象图像作为输入并将与上述对象图像所包含的脸部朝向相关的第一信息作为输出，上述第二学习机是按每个上述第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习的至少一个已完成学习的第二学习机，其构成为将上述对象图像作为输入并将与上述对象图像所包含的脸部器官的位置相关的第二信息作为输出，上述至少一个硬件处理器构成为通过上述第一学习机从上述对象图像获取上述第一信息，并通过与上述第一信息对应的上述第二学习机从上述对象图像获取上述第二信息。

(附记2)

一种图像处理方法，具备如下步骤：准备已完成学习的第一学习机，其进行了用于从包含人脸的图像检测脸部朝向的学习；通过至少一个硬件处理器，由上述第一学习机从包含人脸的对象图像获取与上述人脸的朝向相关的第一信息；准备至少一个已完成学习的第二学习机，其按上述每个第一信息进行了用于从包含人脸的图像检测脸部器官的位置的学习；以及通过至少一个硬件处理器，由与由上述第一学习机输出的上述第一信息对应的上述第二学习机，从上述对象图像输出与上述对象图像所包含的脸部器官的位置相关的第二信息。

附图标记说明：

1…图像处理装置；100…图像处理系统；11…控制部；12…存储部；13…通信接口；14…输入装置；15…输出装置；16…外部接口；17…驱动器；111…图像获取部；112…遮挡物检测部；113…第一检测部；114…第二检测部；121…图像处理程序；122…学习结果数据；123…拍摄图像(对象图像)；2…学习装置；21…控制部；22…存储部；23…通信接口；24…输入装置；25…输出装置；26…外部接口；27…驱动器；211…学习图像获取部；212…学习处理部；221…学习程序；222…学习数据；3…摄像机；7…神经网络；71…输入层；72…中间层(隐藏层)；73…输出层；8…神经网络；81…输入层；82…中间层(隐藏层)；83…输出层；91、92…存储介质。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薮内智浩;木下航一;相泽知祯;日向匡史;青位初美;上谷芽衣
技术所有人：欧姆龙株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。