信息处理装置及估计方法、以及学习装置及学习方法与流程

文档序号:16856608发布日期:2019-02-12 23:23阅读:187来源:国知局
信息处理装置及估计方法、以及学习装置及学习方法与流程

本发明涉及用于估计图像中人物的视线方向的信息处理装置及估计方法、以及学习装置及学习方法。



背景技术:

近年来,提出了各种利用人物的视线的控制方法,例如根据驾驶员的侧视使车辆在安全地带停车,利用用户的视线来执行指定操作等,并已开发出估计人物的视线方向以实现这些控制方法的技术。作为估计该人物的视线方向的简单方法之一,存在一种通过分析出现了人物面部的图像来估计该人物的视线方向的方法。

例如,在专利文献1中提出了一种检测图像中人物的视线方向的视线检测方法。具体而言,在专利文献1提出的视线检测方法中,从整个图像中检测面部图像,从检测到的面部图像的眼睛提取多个眼睛特征点,并从面部图像的构成面部的部位提取多个脸部特征点。并且,在该视线检测方法中,在使用多个提取的眼睛特征点来生成表示眼睛朝向的眼睛特征量的同时,使用多个面部特征点来生成表示面部朝向的面部特征量,并使用所生成的眼睛特征量以及面部特征量来检测视线的方向。专利文献1中提出的视线检测方法目的在于通过采用这样的图像处理步骤,同时计算面部朝向和眼睛朝向以检测视线的方向,从而有效地检测人物的视线方向。

现有技术文献

专利文献

专利文献1:日本特开2007-265367号公报。



技术实现要素:

发明所要解决的技术问题

本发明的发明人发现,如上所述的现有的通过图像处理来估计人物的视线方向的方法存在下述问题。即,视线方向由人物的面部朝向和眼睛朝向的组合来确定。在现有的方法中,由于通过每个特征量分别检测该人物的面部朝向和眼睛朝向,因此,有可能面部朝向的检测误差和眼睛朝向的检测误差叠加。由此,本发明的发明人发现,现有的方法存在人物的视线方向的估计精度有可能降低的问题。

本发明在一个方面鉴于这样的情况而提出,目的是提供一种能够提高图像中拍摄的人物的视线方向的估计精度的技术。

解决技术问题的手段

为解决上述技术问题,本发明采用下述构成。

即,本发明的一个方面的信息处理装置,用于估计人物的视线方向,包括:图像取得部,取得包括人物面部的图像;图像提取部,从所述图像提取包括所述人物的眼睛的局部图像;估计部,通过将所述局部图像输入已完成学习的学习机以从所述学习机取得表示所述人物的视线方向的视线信息,所述已完成学习的学习机已进行用于估计视线方向的机器学习。

在包括人物的眼睛的局部图像中,可能出现所述人物的面部朝向和眼睛朝向。在该构成中,通过利用包括该人物眼睛的局部图像,将其作为通过机器学习获得的已完成学习的学习机的输入,从而估计该人物的视线方向。由此,可以直接估计出现在局部图像中的人物的视线方向,而不是单独计算人物的面部朝向和眼睛朝向。因此,根据该构成,能够防止面部朝向的估计误差和眼睛朝向的估计误差累积,从而能够提高出现在图像中的人物的视线方向的估计精度。

另外,“视线方向”是目标人物正在看的方向,由该人物的面部朝向和眼睛朝向的组合来确定。另外,“机器学习”是指通过计算机找到隐藏在数据(学习数据)中的模式,“学习机”由能够获得通过这样的机器学习来识别预定模式的能力的学习模型构成。该学习机的种类不受特别限制,只要能够学习从局部图像估计人物的视线方向的能力即可。“已完成学习的学习机”也可以称为“识别机”或“分类机”。

在上述一方面的信息处理装置中,所述图像提取部可以提取包括所述人物的右眼的第一局部图像和包括所述人物的左眼的第二局部图像作为所述局部图像,所述估计部可以通过将所述第一局部图像以及所述第二局部图像输入已完成学习的所述学习机中以从所述学习机取得所述视线信息。根据该构成,通过利用双眼各自的局部图像作为学习机的输入,能够提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,所述学习机可以由神经网络构成,所述神经网络包括输入所述第一局部图像以及所述第二局部图像两者的输入层,所述估计部可以组合所述第一局部图像以及所述第二局部图像并生成组合图像,将生成的组合图像输入所述输入层。根据该构成,通过使用神经网络,能够适当且容易地构建能够估计图像中人物的视线方向的已完成学习的学习机。

在上述一方面的信息处理装置中,所述学习机可以由神经网络构成,所述神经网络可以包括第一部分、第二部分和耦合所述第一部分以及第二部分的各自的输出的第三部分,所述第一部分和所述第二部分可以并列设置,所述估计部可以将所述第一局部图像输入所述第一部分,将所述第二局部图像输入所述第二部分。根据该构成,通过使用神经网络,能够适当且容易地构建能够估计图像中人物的视线方向的已完成学习的学习机。另外,这种情况下,所述第一部分可以由一个或多个卷积层和池化层构成。所述第二部分可以由一个或多个卷积层和池化层构成。所述第三部分也可以由一个或多个卷积层和池化层构成。

在上述一方面的信息处理装置中,所述图像提取部可以检测所述图像中出现的所述人物的面部的面部区域,估计所述面部区域中所述面部器官的位置,基于所估计的所述器官的位置,从所述图像提取所述局部图像。根据该构成,能够适当地提取包括人物的眼睛的局部图像,并提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,所述图像提取部可以估计所述面部区域中至少两个所述器官的位置,并基于所估计的所述两个器官之间的距离,从所述图像提取所述局部图像。根据该构成,能够基于两个器官之间的距离,适当地提取包括人物的眼睛的局部图像,并能够提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,所述器官可以包括外眼角、内眼角以及鼻子,所述图像提取部可以将所述外眼角以及所述内眼角的中点设定为所述局部图像的中心,并以所述内眼角和所述鼻子之间的距离为基准确定所述局部图像的大小。根据该构成,能够适当地提取包括人物的眼睛的局部图像,并能够提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,所述器官可以包括外眼角以及内眼角,所述图像提取部可以将所述外眼角以及所述内眼角的中点设定为所述局部图像的中心,并基于双眼的所述外眼角之间的距离来确定所述局部图像的大小。根据该构成,能够适当地提取包括人物的眼睛的局部图像,并能够提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,所述器官可以包括外眼角以及内眼角,所述图像提取部可以将所述外眼角以及所述内眼角的中点设定为所述局部图像的中心,并以双眼的所述内眼角和所述外眼角之间的中点的距离为基准确定所述局部图像的大小。根据该构成,能够适当地提取包括人物的眼睛的局部图像,并能够提高图像中人物的视线方向的估计精度。

在上述一方面的信息处理装置中,还可以具备降低所述局部图像的分辨率的分辨率转换部,所述估计部可以通过将降低分辨率后的所述局部图像输入已完成学习的所述学习机以从所述学习机中取得所述视线信息。根据该构成,通过利用降低分辨率后的局部图像作为已完成学习的学习机的输入,能够降低该学习机的运算处理的计算量,并能够控制用于估计人物的视线方向的处理器的负荷。

并且,本发明的一方面的学习装置包括:学习数据取得部,取得包括人物的眼睛的局部图像以及表示该人物的视线方向的视线信息的集合作为学习数据;学习处理部,使学习机学习,使得所述学习机在输入所述局部图像之后输出与所述视线信息对应的输出值。根据该构成,能够构建用于估计人物的视线方向的上述已完成学习的学习机。

另外,上述各个方面的信息处理装置和学习装置各自的其它方式,可以是实现上述各种构成的信息处理方法,可以是程序,也可以是记录这样的程序的计算机、其他装置、设备等可读的存储介质。其中,可由计算机等读取的记录介质是通过电、磁、光学、机械或化学作用存储程序等信息的介质。

例如,本发明的一方面的估计方法是一种信息处理方法,是用于估计人物的视线方向的估计方法,由计算机执行下述步骤:图像取得步骤,其取得包括人物面部的图像;图像提取步骤,从所述图像提取包括所述人物的眼睛的局部图像;以及估计步骤,通过将所述局部图像输入已完成学习的学习机,以从所述学习机取得表示所述人物的视线方向的视线信息,所述已完成学习的学习机已进行用于估计视线方向的学习。

另外,例如,本发明的一方面的学习方法是一种信息处理方法,由计算机执行下述步骤:取得包括人物眼睛的局部图像以及表示该人物的视线方向的视线信息的集合作为学习数据;使学习机学习,使得所述学习机在输入所述局部图像之后输出与所述视线信息对应的输出值。

发明效果

根据本发明,能够提供一种能够提高出现在图像中的人物的视线方向的估计精度的技术。

附图说明

图1示意性地示出了应用本发明的场景的一个例子。

图2是用于说明视线方向的图。

图3示意性地示出了实施方式的视线方向估计装置的硬件构成的一个例子。

图4示意性地示出了实施方式的学习装置的硬件构成的一个例子。

图5示意性地示出了实施方式的视线方向估计装置的软件构成的一个例子。

图6示意性地示出了实施方式的学习装置的软件构成的一个例子。

图7示意性地示出了实施方式的视线方向估计装置的处理过程的一个例子。

图8a示意性地示出了提取局部图像的方法的一个例子。

图8b示意性地示出了提取局部图像的方法的一个例子。

图8c示意性地示出了提取局部图像的方法的一个例子。

图9示意性地示出了实施方式的学习装置的处理过程的一个例子。

图10示意性地示出了变形例的视线方向估计装置的软件构成的一个例子。

图11示意性地示出了变形例的视线方向估计装置的软件构成的一个例子。

附图标记说明

1·1a·1b...视线方向估计装置;11...控制部;12...存储部;13...外部接口;14...通信接口;15...输入装置;16...输出装置;17...驱动器;111...图像取得部;112...图像提取部;113...估计部;114...分辨率转换部;121...程序;122·122a...学习结果数据;123...图像;1231...第一局部图像;1232...第二局部图像;125...视线信息;2...学习装置;21...控制部;22...存储部;23...外部接口;24...通信接口;25...输入装置;26...输出装置;27...驱动器;211...学习数据取得部;212...学习处理部;221...学习程序;222...学习数据;3...相机(拍摄装置);5·5a...卷积神经网络;51·51a...卷积层;52·52a...池化层;53...全连接层;54...输出层;56·58...卷积层;57·59...池化层;6...卷积神经网络;61...卷积层;62...池化层;63...全连接层;64...输出层;91·92...存储介质。

具体实施方式

在下文中,将基于附图对本发明的一方面的实施方式(以下,也称为“本实施例”)进行说明。然而,下面描述的本实施方式在所有方面仅仅是本发明的示例。不言而喻,在不脱离本发明的范围的情况下,可以做出各种修改和变形。换句话说,在实施本发明时,可以适当采用基于实施方式的具体构成。另外,尽管在本实施方式中出现的数据是用自然语言描述的,但更具体地,它是由计算机可识别的伪语言、命令、参数、机器语言等指定。

§1应用例

首先,通过图1,对应用本发明的场景的一个例子进行说明。图1示意性地示出了本实施方式的视线方向估计装置1以及学习装置2的应用场景的一个例子。

如图1所示,本实施方式的视线方向估计装置1是用于估计由相机3拍摄的图像中出现的人物a的视线方向的信息处理装置。具体而言,本实施方式的视线方向估计装置1从相机3取得包括人物a的面部的图像。接下来,视线方向估计装置1由从相机3取得的图像中提取包括人物a的眼睛的局部图像。

该局部图像以包括人物a的右眼以及左眼中的至少一个的方式被提取。即,一个局部图像可以以包括人物a的双眼的方式被提取,也可以以仅包括人物a的右眼以及左眼中的任一只眼的方式被提取。

另外,在以仅包括人物a的右眼以及左眼中的任一只眼的方式提取局部图像时,可以仅提取只包括右眼以及左眼中的任一只眼的一个局部图像,也可以提取包括右眼的第一局部图像和包括左眼的第二局部图像这两个局部图像。在本实施方式中,视线方向估计装置1提取分别包括人物a的右眼以及左眼的两个局部图像(稍后将描述的第一局部图像1231以及第二局部图像1232)。

然后,视线方向估计装置1通过将所提取的局部图像输入到已经进行了用于估计视线方向的学习的已完成学习学习机(稍后将描述的卷积神经网络5)中,从该学习装置获取表示人物a的视线方向的注视信息。由此,视线方向估计装置1估计人物a的视线方向。

在此,使用图2,对成为估计目标的人物的“视线方向”进行说明。图2是用于说明人物a的视线方向的图。视线方向是该人物正在看的方向。如图2所示,以相机3的方向(图中的“相机方向”)为基准来定义人物a的面部朝向。此外,眼睛朝向是以人物a的面部朝向为基准而规定的。因此,以相机3为基准的人物a的视线方向由以相机方向为基准的人物a的面部朝向和以该面部朝向为基准的眼睛朝向的组合来定义。本实施方式的视线方向估计装置1通过上述方法估计这样的视线方向。

另一方面,本实施方式的学习装置2是构成由视线方向估计装置1使用的学习机,即,是基于包括人物a的眼睛的局部图像的输入,进行学习机的机器学习以输出表示该人物a的视线方向的视线信息的计算机。具体而言,学习装置2取得上述局部图像以及视线信息集作为学习数据。学习装置2利用其中的局部图像作为输入数据,利用视线信息作为教师数据(正确答案数据)。也就是说,学习装置2使学习机(后述的卷积神经网络6)以在输入局部图像之后就输出与视线信息相对应的输出值。

由此,能够生成由视线方向估计装置1使用的已完成学习的学习机。视线方向估计装置1例如能够通过网络取得由学习装置2生成的已完成学习的学习机。另外,网络的类型可以从例如互联网、无线通信网、移动通信网、电话网、专用网等适当地选择。

如上所述,在本实施方式中,通过利用包括人物a的眼睛的局部图像作为通过机器学习获得的已完成学习的学习机的输入,从而估计该人物a的视线方向。在包括人物a的眼睛的局部图像中,由于以相机方向为基准的面部朝向和以面部朝向为基准的眼睛朝向的出现,因此,根据本实施方式,能够恰当地估计人物a的视线方向。

另外,在本实施方式中,可以直接估计出现在局部图像中的人物a的视线方向,而不是单独计算人物a的面部朝向和眼睛朝向。因此,根据本实施方式,能够防止面部朝向的估计误差和眼睛朝向的估计误差累积,因此,能够提高出现在图像中的人物a的视线方向的估计精度。

另外,这样的视线方向估计装置1可以用于各种情况。例如,本实施方式的视线方向估计装置1可以被用于安装在汽车上估计驾驶员的视线方向,并基于所估计的视线方向判定该驾驶员是否正在侧视。此外,例如,本实施方式的视线方向估计装置1可以被用于估计用户的视线方向,并基于所估计的视线方向执行指定操作。另外,例如,本实施方式的视线方向估计装置1也可以用于估计工厂作业员的视线方向,并基于所估计的视线方向估计作业员的作业熟练程度。

§2构成例

[硬件构成]

<视线方向估计装置>

接下来,通过图3,对本实施方式的视线方向估计装置1的硬件构成的一个例子进行说明。图3示意性地示出了本实施方式的视线方向估计装置1的硬件构成的一个例子。

如图3所示,本实施方式的视线方向估计装置1是由控制部11、存储部12、外部接口13、通信接口14、输入装置15、输出装置16、以及驱动器17彼此电连接的计算机。另外,在图3中,将外部接口和通信接口分别描述为“外部i/f”以及“通信i/f”。

控制部11包括硬件处理器cpu(centralprocessingunit,中央处理单元)、ram(randomaccessmemory,随机存取存储器)、rom(readonlymemory,只读存储器)等,并基于信息处理来控制各个构成要素。存储部12例如是硬盘驱动器或固态驱动器等辅助存储装置,存储程序121、学习结果数据122等。存储部12是“存储器”的一个示例。

程序121包括用于使视线方向估计装置1执行后述的用于估计人物a的视线方向的信息处理(图7)的指令。学习结果数据122是用于进行已完成学习的学习机的设定的数据。细节将在后面介绍。

外部接口13是用于与外部装置连接的接口,根据所要连接的外部装置而适当构成。在本实施方式中,外部接口13连接至相机3。

相机3(拍摄装置)用于拍摄人物a。该相机3可以被适当地设置以便根据使用情况至少拍摄人物a的面部。例如,在检测上述驾驶员的侧视的情况下,相机3以覆盖拍摄范围,即覆盖驾驶操作期间驾驶员的面部应在的范围的方式而设置。另外,相机3可以使用普通的数字照相机、摄像机等。

通信接口14例如是有线lan(localareanetwork,局域网)模块、无线lan模块等,并且是用于经由网络执行有线或无线通信的接口。输入装置15是用于进行例如键盘、触摸面板、麦克风等的输入的装置。输出装置16例如是用于进行显示器、扬声器等的输出的装置。

驱动器17例如是cd(光盘)驱动器、dvd(数字多功能盘)驱动器等,是用于读取存储在存储介质91中的程序的装置。驱动器17的类型可以根据存储介质91的类型适当地选择。上述程序121和/或学习结果数据122可以存储在该存储介质91中。

存储介质91通过电、磁、光学、机械或化学作用存储该程序等信息,以能够读取计算机或其它装置、机器等记录的程序等信息。视线方向估计装置1可以从该存储介质91取得上述程序121和/或学习结果数据122。

在此,在图3中,作为存储介质91的一个例子,示出了cd、dvd等盘式存储介质。然而,存储介质91的类型不限于盘式,也可以不是盘式。盘式以外的存储介质,可以举例如闪存等半导体存储器。

另外,关于视线方向估计装置1的具体硬件构成,根据本实施方式可以适当地省略、替换和添加构成元素。例如,控制部11可以包括多个硬件处理器。硬件处理器可以由微处理器、fpga(现场可编程门阵列)等构成。存储部12可以由包括在控制部11中的ram和rom构成。视线方向估计装置1可以由多台信息处理装置组成。此外,除了专为提供的服务而设计的plc(可编程逻辑控制器)等信息处理装置以外,通用的台式pc(个人计算机)、平板pc、手机等也可以用作视线方向估计装置1。

<学习装置>

接下来,通过图4,对本实施方式的学习装置2的硬件构成的一个例子进行说明。图4示意性地示出本实施方式的学习装置2的硬件构成的一个例子。

如图4所示,本实施方式的学习装置2是由控制部21、存储部22、外部接口23、通信接口24、输入装置25、输出装置26和驱动器27电连接的计算机。另外,在图4中,和图3同样,将外部接口和通信接口分别描述为“外部i/f”和“通信i/f”。

控制部21至驱动器27分别与上述视线方向估计装置1的控制部11至驱动器17相同。另外,装载在驱动器27中的存储介质92与上述存储介质91相同。然而,学习装置2的存储部22存储学习程序221、学习数据222、学习结果数据122等。

学习程序221包含用于使学习装置2执行与学习机的机器学习相关的后述的信息处理(图9)的指令。学习数据222是用于执行学习机的机器学习的数据,该学习机能够从包括人物眼睛的局部图像中分析该人物的视线方向。学习结果数据122是作为如下结果而生成,即由控制部21执行学习程序221,并利用学习数据222执行学习机的机器学习的结果。细节将在后面描述。

另外,和视线方向估计装置1同样,学习程序221和/或学习数据222可以存储在存储介质92中。响应于此,学习装置2可以从存储介质92取得要使用的学习程序221和/或学习数据222。

另外,关于学习装置2的具体硬件构成,根据该实施方式可以适当地省略、替换和添加构成要素。此外,除了专为提供的服务而设计的信息处理装置以外,通用的服务器装置、台式pc等也可以用作学习装置2。

[软件构成]

<视线方向估计装置>

接下来,通过图5对本实施方式的视线方向估计装置1的软件构成的一个例子进行说明。图5示意性地示出了本实施方式的视线方向估计装置1的软件构成的一个例子。

视线方向估计装置1的控制部11将存储在存储部12中的程序121在ram中展开。然后,控制部11通过cpu解释并执行在ram中展开的程序121,并控制各个构成要素。结果,如图5所示,本实施方式的视线方向估计装置1作为软件模块被构成为具有图像取得部111、图像提取部112和估计部113。

图像取得部111从相机3取得包括人物a的面部的图像123。图像提取部112从图像123中提取包括人物眼睛的局部图像。估计部113将局部图像输入用于估计视线方向的进行了机器学习的已完成学习的学习机(卷积神经网络5)。由此,估计部113从学习机取得表示人物视线方向的视线信息125。

在本实施方式中,图像提取部112提取包括人物a的右眼的第一局部图像1231和包括人物a的左眼的第二局部图像1232作为局部图像。估计部113通过向已完成学习的学习机输入第一局部图像1231和第二局部图像1232而从该学习机取得视线信息125。

(学习机)

接下来,对学习机进行说明。如图5所示那样,在本实施方式中,利用卷积神经网络5作为用于估计人物视线方向的进行了机器学习的已完成学习的学习机。

卷积神经网络5是前向传播型神经网络,其具有卷积层51以及池化层52交替连接的构造。本实施方式的卷积神经网络5包括多个卷积层51以及多个池化层52,多个卷积层51以及多个池化层52交替地设置在输入侧。最靠近输入侧设置的卷积层51是本发明的“输入层”的一个例子。最靠近输出侧设置的池化层52的输出被输入到全连接层53,全连接层53的输出被输入到输出层54。

卷积层51是执行图像的卷积运算的层。图像的卷积相当于计算图像与预定滤波器之间的相关性的处理。因此,通过执行图像的卷积,例如,能够从输入的图像中检测与滤波器的阴影图案相似的阴影图案。

池化层52是执行池化处理的层。在池化处理过程中丢弃图像对滤波器的响应强的位置的部分信息,并实现对图像中出现的特征微小的位置变化的响应的不变性。

全连接层53是耦合相邻的层之间的所有神经元的层。也就是说,包括在全连接层53中的各个神经元都耦合到相邻层中包括的所有神经元。全连接层53可以由两层或更多层构成。输出层54是设置在卷积神经网络5的最输出侧的层。

在各个神经元中均设定有阈值,原则上,各个神经元的输出取决于各个输入和各个权重的乘积之和是否超过阈值。控制部11将第一局部图像1231和第二局部图像1232两者输入至设置在最靠近输入侧的卷积层51,并依次从输入侧执行各个层中包括的各个神经元的点火判定。由此,控制部11能够从输出层54取得与视线信息125对应的输出值。

另外,该卷积神经网络5的构成(例如,各个层中的神经元的数量、神经元之间的耦合关系、各个神经元的传递函数)、各神经元之间耦合的权重、以及表示各个神经元的阈值的信息均包括在学习结果数据122中。控制部11参照学习结果数据122,进行用于估计人物a的视线方向的处理的已完成学习的卷积神经网络5的设定。

<学习装置>

接下来,参照图6,对本实施方式的学习装置2的软件构成的一个例子进行说明。图6示意性地示出了本实施方式的学习装置2的软件构成的一个例子。

学习装置2的控制部21在ram中展开存储在存储部22中的学习程序221。然后,控制部21通过cpu解释并执行在ram中展开的学习程序221,控制各个构成要素。由此,如图6所示,本实施方式的学习装置2被构成为具有学习数据取得部211和学习处理部212作为软件模块。

学习数据取得部211取得包括人物眼睛的局部图像、以及表示该人物的视线方向的视线信息集作为学习数据。如上所述,在本实施方式中,利用包括人物的右眼的第一局部图像和包括左眼的第二局部图像作为局部图像。因此,学习数据取得部211取得包括人物右眼的第一局部图像2231、包括人物左眼的第二局部图像2232、以及表示该人物的视线方向的视线信息225的集合作为学习数据222。第一局部图像2231和第二局部图像2232分别与上述第一局部图像1231和第二局部图像1232相对应,被用作输入数据。视线信息225对应于上述视线信息125,被用作教师数据(正确答案数据)。学习处理部212执行学习机的机器学习,以在输入第一局部图像2231以及第二局部图像2232之后就输出对应于视线信息225的输出值。

如图6所示,在本实施方式,成为学习对象的学习机是卷积神经网络6。该卷积神经网络6包括卷积层61、池化层62、全连接层63、以及输出层64,和上述卷积神经网络5同样地构成。各个层61至64和上述卷积神经网络5的各个层51至54相同。

学习处理部212构建卷积神经网络6,在通过神经网络的学习处理而将第一局部图像2231和第二局部图像2232输入到最靠近输入侧的卷积层61时,从输出层64输出与视线信息225对应的输出值。然后,学习处理部212将构建的卷积神经网络6的构成、各神经元之间的耦合权重以及表示各个神经元的阈值的信息作为学习结果数据122存储在存储部22中。

<其他>

关于视线方向估计装置1和学习装置2的各软件模块,通过后述的动作例进行详细说明。另外,在本实施方式中,对视线方向估计装置1和学习装置2的各软件模块均由通用的cpu实现的例子进行了说明。然而,上述一些或全部软件模块也可以由一个或多个专用的处理器来实现。此外,关于视线方向估计装置1和学习装置2中各自的软件构成,根据实施方式,可以适当地进行软件模块的省略,替换和添加。

§3动作例

[视线方向估计装置]

接着,参照图7对于视线方向估计装置1的动作例进行说明。图7是是表示视线方向估计装置1的处理过程的一例的流程图。下面描述的用于估计人物a的视线方向的处理过程是本发明的“估计方法”的示例。然而,下面描述的处理过程仅仅是示例,各个处理都可以尽可能改变。另外,对于下述处理过程,可以根据实施方式适当地进行步骤的省略,替换和添加。

<初始动作>

首先,在启动时,控制部11读取程序121并执行初始设定处理。具体而言,控制部11参照学习结果数据122来进行卷积神经网络5的构造、各个神经元之间的耦合权重以及各个神经元的阈值的设定。然后,控制部11根据以下处理过程来执行估计人物a的视线方向的处理。

<步骤s101>

在步骤s101中,控制部11作为图像取得部111动作,并从相机3取得能够包括人物a的面部的图像123。要取得的图像123可以是运动图像或静止图像。在取得图像123的数据后,控制部11使处理进入下一步骤s102。

<步骤s102>

在步骤s102中,控制部11作为图像提取部112动作,并检测在步骤s101中取得的图像123中出现的人物a的面部的面部区域。模式匹配的已知图像分析方法可以用于面部区域的检测。

面部区域的检测完成之后,控制部11使处理进入下一步骤s103。另外,如果在步骤s101中取得的图像123中不包括人物的面部,则在该步骤s102中不能检测到面部区域。在这种情况下,控制部11可以终止根据该动作例的处理,并重复从步骤s101开始的处理。

<步骤s103>

在步骤s103中,控制部11作为图像提取部112动作,并通过检测在步骤s102中检测到的面部区域中包括在面部中的各个器官,从而估计各个器官的位置。各个器官的检测也可以使用模式匹配等已知的图像分析方法。待检测的器官例如是眼睛、嘴巴、鼻子等。根据稍后将描述的局部图像的提取方法,待检测的器官可能不同。面部的各个器官的检测完成之后,控制部11使处理进入下一步骤s104。

<步骤s104>

在步骤s104中,控制部11作为图像提取部112动作,并从图像123中提取包括人物a的眼睛的局部图像。在本实施方式中,控制部11提取包括人物a的右眼的第一局部图像1231和包括人物a的左眼的第二局部图像1232作为局部图像。并且,在本实施方式中,通过上述步骤s102和s103检测图像123中的面部区域,并在检测的面部区域中估计各个器官的位置。因此,控制部11基于各个器官的估计位置来提取各个局部图像(1231、1232)。

基于器官的位置提取各局部图像(1231、1232)的方法,例如,有以下(1)至(3)中所示的三种方法。控制部11可以通过以下三种方法中的任何一种来提取各个局部图像(1231、1232)。然而,基于器官的位置来提取各个局部图像(1231、1232)的方法不限于以下三种方法,可以根据实施方式适当决定。

另外,在以下三种方法中,各个局部图像(1231、1232)可以通过同样的处理来提取。因此,在下面的描述中,为了便于说明,将描述用于提取其中的第一局部图像1231的场景,对于提取第二局部图像1232的方法,由于与第一局部图像1231相同而适当省略。

(1)第一方法

如图8a所示,在第一种方法中,基于眼睛与鼻子之间的距离提取各个局部图像(1231、1232)。图8a示意性地示出了通过第一方法提取第一局部图像1231的场景的一个例子。

在该第一方法中,控制部11将外眼角和内眼角的中点设定为局部图像的中心,并基于内眼角和鼻子之间的距离来确定局部图像的大小。具体而言,如图8a所示,控制部11首先取得在上述步骤s103中估计出的各个器官的位置中的右眼ar的外眼角eb的位置和内眼角ea的位置的各个坐标。随后,控制部11将取得的外眼角eb的坐标值和内眼角ea的坐标值相加并求平均值,从而计算外眼角eb和内眼角ea的中点ec的位置的坐标。控制部11将该中点ec设定为要提取作为第一局部图像1231的范围的中心。

接下来,控制部11进一步取得鼻子na位置的坐标值,并基于取得的右眼ar的内眼角ea的坐标值和鼻子na的坐标值,计算内眼角ea与鼻子na之间的距离ba。在图8a的示例中,距离ba沿纵向延伸,但距离ba的方向也可以从纵向倾斜。然后,控制部11根据计算出的距离ba,决定第一局部图像1231的横向的长度l和纵向的长度w。

此时,可以预先确定距离ba与横向的长度l以及纵向的长度w中的至少一个的比率。此外,可以预先确定横向的长度l与纵向的长度w之比率。控制部11可以基于该各比率和上述距离ba来确定横向的长度l和纵向的长度w。

例如,距离ba与横向长度l之间的比率可以设定在1:0.7至1:1的范围内。此外,例如,横向长度l与纵向长度w之间的比率可以设定为1:0.5至1:1。具体可以举出将横向长度l与纵向长度w之间的比率设定为8:5的例子。在这种情况下,控制部11可以基于所设定的比率和计算出的上述距离ba来计算横向长度l。然后,控制部11可以基于计算出的横向长度l来计算纵向长度w。

由此,控制部11可以确定提取作为第一局部图像1231的范围的中心和大小。控制部11可以通过从图像123中提取所确定的范围的像素来取得第一局部图像1231。控制部11可以通过对左眼进行相同的处理来取得第二局部图像1232。

另外,在采用该第一方法用于提取各局部图像(1231、1232)时,在上述步骤s103中,控制部11至少估计外眼角、内眼角和鼻子的位置作为各器官的位置。也就是说,待估计位置的器官至少包括外眼角、内眼角和鼻子。

(2)第二方法

如图8b所示,在第二方法中,基于双眼的外眼角之间的距离来提取各个局部图像(1231、1232)。图8b示意性地示出根据第二方法提取第一局部图像1231的场景的一个例子。

在该第二方法中,控制部11将外眼角和内眼角的中点设定为局部图像的中心,并基于双眼的外眼角之间的距离来确定局部图像的大小。具体而言,如图8b所示,控制部11和上述第一方法同样,计算出右眼ar的外眼角eb和内眼角ea的中点ec的位置的坐标,将该中点ec设定为要提取作为第一局部图像1231的范围的中心。

接下来,控制部11进一步取得左眼al的外眼角eg的位置的坐标值,并基于所取得的左眼al的外眼角eg的坐标值和右眼ar的外眼角eb的坐标值,计算两个外眼角(eb、eg)之间的距离bb。在图8b的示例中,距离bb沿横向延伸,但距离bb的方向也可以从横向倾斜。然后,控制部11基于计算出的距离bb,决定第一局部图像1231的横向长度l和纵向长度w。

此时,和上述第一方法同样,可以预先确定距离bb与横向的长度l和纵向的长度w中的至少一个的比率。此外,可以预先确定横向的长度l与纵向的长度w之比率。例如,距离bb与横向长度l之间的比例可以设定在1:0.4至1:0.5的范围内。在这种情况下,控制部11可以基于所设定的比率和计算出的上述距离bb来算出横向长度l,并基于所算出的横向长度l,计算纵向长度w。

由此,控制部11可以确定提取作为第一局部图像1231的范围的中心和大小。然后,与上述第一方法同样,控制部11可以通过从图像123中提取所确定的范围的像素来取得第一局部图像1231。控制部11可以通过对左眼进行相同的处理来取得第二局部图像1232。

另外,在采用该第二方法提取各局部图像时(1231、1232),在上述步骤s103中,控制部11估计至少双眼的外眼角和内眼角的位置并将其作为各个器官的位置。也就是说,待估计位置的器官至少包括双眼的外眼角和内眼角。然而,在省略提取第一局部图像1231和第二局部图像1232中的任一个时,也可以省略与省略的那项相对应的眼睛的内眼角的位置估计。

(3)第三方法

如图8c所示,在第三方法中,基于双眼的内眼角和外眼角之间的中点的距离来提取各个局部图像(1231、1232)。图8c示意性地示出了通过第三方法提取第一局部图像1231的场景的一个例子。

在第三方法中,控制部11将外眼角和内眼角的中点设定为局部图像的中心,并基于双眼的内眼角的和外眼角的中点的距离来决定局部图像的大小。具体而言,如图8c所示,与第一方法和第二方法同样,控制部11计算右眼ar的外眼角eb和内眼角ea的中点ec的位置的坐标,将该中点ec设定为要提取作为第一局部图像1231的范围的中心。

接下来,控制部11进一步取得左眼al的外眼角eg和内眼角ef各自位置的坐标值,并采用和中点ec同样的方法,算出左眼al的外眼角eg和内眼角ef的中点eh的位置的坐标。接下来,控制部11基于各个中点(ec、eh)的坐标值,算出两个中点(ec、eh)之间的距离bc。在图8c的例子中,距离bc在横向延伸,但距离bc的方向也可以从横向倾斜。然后,控制部11基于算出的bc,决定第一局部图像1231的横向长度l和纵向长度w。

此时,和上述第一方法和第二方法同样,可以预先确定距离bc与横向的长度l和纵向的长度w中的至少一个的比率。此外,可以预先确定横向的长度l与纵向的长度w的比率。例如,距离bc与横向长度l的比率可以设定在1:0.6到1:0.8的范围内。在这种情况下,控制部11能够基于所设定的比率和计算出的上述距离bc来计算横向长度l,并基于计算出的横向长度l,计算出纵向长度w。

由此,控制部11能够决定要提取作为第一局部图像1231的范围的中心和大小。并且,和上述第一方法和第二方法同样,控制部11通过从图像123中提取已确定的范围的像素,而能够取得第一局部图像1231。控制部11通过对左眼进行同样的处理,能够取得第二局部图像1232。

另外,在采用该第三方法提取各局部图像(1231、1232)时,在上述步骤s103中,控制部11估计至少双眼的外眼角和内眼角的位置作为各个器官的位置。也就是说,待估计位置的器官至少包括双眼的外眼角和内眼角。

(小结)

根据上述三种方法,可以适当地提取包括人物a的每只眼睛的各个局部图像(1231、1232)。当完成各个局部图像(1231、1232)的提取时,控制部11使处理进入下一步骤s105。

另外,在上述三种方法中,将眼睛和鼻子(第一方法)、双眼(第二方法以及第三方法)等两个器官之间的距离作为各个局部图像(1231、1232)的大小的标准而利用。也就是说,在本实施方式中,控制部11基于两个器官之间的距离提取各个局部图像(1231、1232)。当以这种方式基于两个器官之间的距离确定各个局部图像(1231、1232)的大小时,控制部11可以在上述步骤s103中估计至少两个器官的位置。此外,可以用作各个局部图像(1231、1232)的大小标准的两个器官不需要限于上述三个示例,且眼睛和鼻子之外的器官可以用作各个局部图像(1231、1232)的大小标准。例如,在本步骤s104中,内眼角与嘴巴之间的距离可以被用作各个局部图像(1231、1232)的大小标准。

<步骤s105和s106>

在步骤s105中,控制部11作为估计部113动作,并将所提取的第一局部图像1231和第二局部图像1232作为卷积神经网络5的输入来使用,执行该卷积神经网络5的运算处理。由此,在步骤s106中,控制部11从该卷积神经网络5取得与视线信息125对应的输出值。

具体而言,控制部11通过组合在步骤s104中提取的第一局部图像1231和第二局部图像1232来生成组合图像,在卷积神经网络5的最靠近输入侧的卷积层51中输入生成的组合图像。例如,神经网络的输入层的各个神经元中被输入组合图像的各个像素的亮度值。然后,控制部11从输入侧依次进行包括在各个层中的各个神经元的点火判定。由此,控制部11从输出层54取得与视线信息125对应的输出值。

另外,拍摄在图像123中的人物a的每只眼睛的大小可以随着相机3与人物a之间的距离、人物a出现的角度等拍摄条件而变化。因此,各个局部图像(1231、1232)的大小能够随着拍摄条件而变化。因此,控制部11可以在步骤s105之前适当地调整各个局部图像(1231、1232)的大小,以使其能够输入卷积神经网络5的最靠近输入侧的卷积层51。

从卷积神经网络5获得的视线信息125示出了出现在图像123中的人物a的视线方向的估计结果。估计结果例如以右12.7度的形式输出。因此,通过上述方式,控制部11完成人物a的视线方向的估计,并结束本动作例的处理。另外,控制部11可以通过重复执行上述一系列处理来实时估计人物a的视线方向。此外,该人物a的视线方向的估计结果可以根据视线方向估计装置1的使用场景适当地加以利用。例如,如上所述,可以利用视线方向的估计结果来判定驾驶员是否正在侧视。

[学习装置]

接着,参照图9对学习装置2的动作例进行说明。图9是示出了学习装置2的处理过程的一个例子的流程图。另外,以下描述的与学习机的机器学习相关的处理过程是本发明的“学习方法”的一个例子。然而,以下描述的处理过程仅仅是一个示例,可以尽可能地改变各个处理。另外,根据实施方式,可以适当地省略,替换和添加以下描述的处理过程的步骤。

<步骤s201>

在步骤s201中,学习装置2的控制部21作为学习数据取得部211动作,并取得第一局部图像2231、第二局部图像2232和视线信息225作为学习数据222。

学习数据222是用于使卷积神经网络6能够估计出现在图像中的人物的视线方向的机器学习的数据。这样的学习数据222能够通过例如,在各种条件下拍摄一个或多个人物的脸部,并将拍摄条件(人物的视线方向)链接到从所获得的图像中提取的第一局部图像2231以及第二局部图像2232来生成。

此时,第一局部图像2231以及第二局部图像2232可以通过对取得的图像应用与上述步骤s104相同的处理来得到。此外,视线信息225可以通过适当地接受通过上述拍摄获得的图像中出现的人物视线方向的角度的输入来得到。

另外,学习数据222的生成可以使用与上述图像123不同的图像。出现在这幅图像中的人物,可以与上述人物a是同一人物,也可能是上述与人物a不同的人物。然而,上述图像123在用于估计人物a的视线方向之后,可以被用于该学习数据222的生成。

该学习数据222的生成可以由使用输入装置25的操作员等手动进行,也可以通过程序的处理自动进行。另外,学习数据222的生成可以由学习装置2以外的其他信息处理装置进行。当学习装置2生成学习数据222时,控制部21可以通过在该步骤s201中执行学习数据222的生成处理来取得学习数据222。另一方面,在学习装置2以外的其他信息处理装置生成学习数据222时,学习装置2能够经由网络、存储介质92等取得由其他信息处理装置生成的学习数据222。另外,在该步骤s201中取得的学习数据222的件数可以根据实施方式适当地确定,以能够执行卷积神经网络6的机器学习。

<步骤s202>

在接下来的步骤s202中,控制部21作为学习处理部212动作,使用在步骤s201中取得的学习数据222,执行卷积神经网络6的机器学习,以在输入第一局部图像2231和第二局部图像2232之后,输出与视线信息225相对应的输出值。

具体而言,首先,控制部21准备要进行学习处理的卷积神经网络6。所准备的卷积神经网络6的构成、各神经元之间的耦合权重的初始值以及各神经元的阈值的初始值可以由模板给出,也可以由操作员的输入给出。此外,当执行重新学习时,控制部21可以基于成为要进行重新学习的对象的学习结果数据122,准备卷积神经网络6。

接下来,控制部21使用在步骤s201中取得的学习数据222中包含的第一局部图像2231和第二局部图像2232作为输入数据,并使用视线信息225作为教师数据(正确答案数据),执行卷积神经网络6的学习处理。该卷积神经网络6的学习过程可以使用随机梯度下降法等。

例如,控制部21将通过组合第一局部图像2231和第二局部图像2232而获得的组合图像输入到设置在卷积神经网络6的最靠近输入侧的卷积层61。然后,控制部21从输入侧依次进行各个层中包含的每个神经元的点火判定。由此,控制部21从输出层64获得输出值。接下来,控制部21计算从输出层64取得的输出值与对应于视线信息225的值之间的误差。随后,控制部21利用误差逆传播法(backpropagation),并使用计算出的输出值的误差,分别计算各神经元之间的耦合权重和各神经元的阈值的误差。然后,控制部21基于计算出的各个误差,进行各神经元之间的耦合权重和各神经元的阈值的各个值的更新。

控制部21对于每条学习数据222重复这一系列处理,直到从卷积神经网络6输出的输出值与视线信息225所对应的值相匹配为止。由此,控制部21能够构筑卷积神经网络6,以在输入第一局部图像2231和第二局部图像2232之后,就输出对应于视线信息225的输出值。

<步骤s203>

在接下来的步骤s203中,控制部21作为学习处理部212动作,以将所构筑的卷积神经网络6的构成、各神经元之间的耦合权重以及表示各神经元的阈值的信息作为学习结果数据122存储在存储部22中。由此,控制部21结束本动作例的卷积神经网络6的学习处理。

另外,控制部21也可以在上述步骤s203的处理结束之后,将生成的学习结果数据122传送到视线方向估计装置1。另外,控制部21可以通过定期执行上述步骤s201至s203的学习处理,从而定期更新学习结果数据122。然后,每当执行学习处理时,控制部21可以通过将所生成的学习结果数据122传送到视线方向估计装置1,定期更新视线方向估计装置1所保持的学习结果数据122。此外,例如,控制部21可以将生成的学习结果数据122存储在nas(网络附加存储)等数据服务器中。在这种情况下,视线方向估计装置1可以从该数据服务器取得学习结果数据122。

[作用和效果]

如上所述,本实施方式的视线方向估计装置1通过上述步骤s101至s104的处理取得示出人物a的脸部的图像123,并从取得的图像123分别提取单独包括该人物a的右眼和左眼的第一局部图像1231和第二局部图像1232。然后,视线方向估计装置1在上述步骤s105和s106,通过将提取的第一局部图像1231和第二局部图像1232输入到已完成学习的神经网络(卷积神经网络5),从而估计人物a的视线方向。该已完成学习的神经网络利用上述学习装置2,并使用包括第一局部图像2231、第二局部图像2232和视线信息225的学习数据222来生成。

分别包括人物a的右眼以及左眼的第一局部图像1231和第二局部图像1232,均示出了基于相机方向的面部朝向和基于面部朝向的眼睛朝向。因此,根据本实施方式,通过使用已完成学习的神经网络和出现人物a的眼睛的局部图像,能够适当地估计人物a的视线方向。

此外,在本实施方式中,能够通过步骤s105和s106直接估计出现在第一局部图像1231和第二局部像1232中的人物a的视线方向,而不是单独计算人物a的面部朝向和眼睛朝向。因此,根据本实施方式,能够防止面部朝向的估计误差和眼睛朝向的估计误差累积,因此,能够提高出现在图像中的人物a的视线方向的估计精度。

§4变形例

以上详细描述了本发明的实施方式,但上述描述在所有方面仅仅是本发明的示例。不言而喻,在不脱离本发明的范围的情况下可以进行各种改进和变形。例如,下述这样的修改是可能的。另外,在以下说明中,对与上述实施方式相同的构成要素采用相同的符号,并适当省略与上述实施方式相同的说明。以下变形例可以适当组合。

<4.1>

在上述实施方式中,视线方向估计装置1直接从相机3取得图像123。然而,取得图像123的方法不限于这样的示例。例如,由相机3拍摄的图像123可以存储在nas等数据服务器中。在这种情况下,视线方向估计装置1在上述步骤s101中可以通过访问该数据服务器间接获得取图像123。

<4.2>

在上述实施方式中,视线方向估计装置1在通过步骤s102和s103进行面部区域检测和包括在面部区域中的器官的检测之后,利用该检测结果提取局部图像(1231、1232)。然而,提取各局部图像(1231、1232)的方法不限于这样的示例,可以根据实施方式适当选择。例如,控制部11可以省略上述步骤s102和s103,并通过模式匹配等已知的图像分析方法来检测在步骤s101中取得的图像123中拍摄的人物a的每只眼睛的区域。然后,控制部11可以利用每个眼睛被拍摄的区域的检测结果来提取各局部图像(1231、1232)。

另外,在上述实施方式中,视线方向估计装置1将上述步骤s104中检测到的两个器官之间的距离用作各个局部图像(1231、1232)的大小标准。然而,利用检测到的器官确定各局部图像(1231、1232)的大小,其方法不限于该示例。在步骤s104中,控制部11可以基于例如眼睛、嘴巴、鼻子等一个器官的大小来确定各局部图像(1231、1232)的大小。

此外,在上述实施方式中,控制部11在上述步骤s104中从图像123中提取包括右眼的第一局部图像1231和包括左眼的第二局部图像1232的两个局部图像,并将提取的两个局部图像输入卷积神经网络5。然而,从图像123中提取的局部图像不限于这样的示例。例如,控制部11也可以在上述步骤s104中从图像123中提取包括人物a的双眼的一个局部图像。这种情况下,控制部11可以将双眼的外眼角的中点设置为要提取的范围的中心作为局部图像。此外,与上述实施方式同样,控制部11可以基于两个器官之间的距离将要提取的范围的大小确定为局部图像。此外,例如,控制部11可以从图像123提取仅包括人物a的右眼和左眼中的一只眼的一个局部图像。每种情况下,已完成学习的神经网络均通过使用相应的局部图像来生成。

<4.3>

另外,在上述实施方式中,视线方向估计装置1在步骤s105中,通过将第一局部图像1231和第二局部图像1232组合而得到的组合图像输入至卷积神经网络5的最靠近输入侧而设置的卷积层51。然而,将第一局部图像1231和第二局部图像1232输入神经网络的方法不限于这样的示例。例如,在神经网络中,输入第一局部图像1231的部分和输入第二局部图像1232的部分可以被分开。

图10示意性地示出了本变形例的视线方向估计装置1的软件构成的一个例子。视线方向估计装置1a除了由学习结果数据122a设定的已完成学习的卷积神经网络5a的构成不同于上述卷积神经网络5这一点以外,和上述视线方向估计装置1同样地构成。如图10所示,本变形例的卷积神经网络5a分别单独构成第一局部图像1231和第二局部图像1232。

具体而言,卷积神经网络5a包括:接受第一局部图像1231的输入的第一部分56、接受第二局部图像1232的输入的第二部分58、组合第一部分56和第二部分58的各自输入的第三部分59、全连接层53和输出层54。第一部分56由一个或多个卷积层561和池化层562构成。卷积层561和池化层562各自的数量可以根据实施方式适当决定。同样地,第二部分58由一个或多个卷积层581和池化层582构成。卷积层581和池化层582各自的数量可以根据实施方式适当决定。第三部分59和上述实施方式的输入部分同样,由一个或多个卷积层51a以及池化层52a构成。卷积层51a和池化层52a各自的数量可以根据实施方式适当决定。

在本变形例中,第一部分56的最靠近输入侧的卷积层561接受第一局部图像1231的输入。该最靠近输入侧的卷积层561可以称为“第一输入层”。并且,第二部分58的最靠近输入侧的卷积层581接受第二局部图像1232的输入。该最靠近输入侧的卷积层581可以称为“第二输入层”。此外,第三部分59的最靠近输入侧的卷积层51a接受各部分(56、58)的输出。该最靠近输入侧的卷积层51a也可以称为“耦合层”。然而,在第三部分59中,最靠近输入侧设置的层不限于卷积层51a,可以是池化层52a。在这种情况下,最靠近输入侧的池化层52a是接受各部分(56、58)的输出的耦合层。

在该卷积神经网络5a中,输入第一局部图像1231和第二局部图像1232的部分与上述卷积神经网络5不同,但能够和该卷积神经网络5同样地处理。因此,本变形例的视线方向估计装置1a能够通过与上述视线方向估计装置1相同的处理,利用卷积神经网络5a,从第一局部图像1231和第二局部图像1232估计人物a的视线方向。

即,与上述实施方式同样,控制部11执行步骤s101至s104的处理,提取第一局部图像1231和第二局部图像1232。然后,控制部11在步骤s105中,将第一局部图像1231输入第一部分56,将第二局部图像1232输入第二部分58。例如,控制部11将第一局部图像1231的各个像素的亮度值输入设置在第一部分56的最靠近输入侧的卷积层561的各个神经元。另外,控制部11将第二局部图像1232的各个像素的亮度值输入设置在第二部分58的最靠近输入侧的卷积层581的各个神经元。然后,控制部11从输入侧依次进行包括在各个层中的每各神经元的点火判定。由此,在步骤s106中,控制部11能够从输出层54取得与视线信息125对应的输出值,并估计人物a的视线方向。

<4.4>

此外,根据上述实施方式,控制部11在步骤s105过程中,在将第一局部图像1231和第二局部图像1232输入卷积神经网络5之前,可以调整第一局部图像1231和第二局部图像1232的大小。此时,控制部11可以降低第一局部图像1231和第二局部图像1232的分辨率。

图11示意性地示出了本变形例的视线方向估计装置1b的软件构成的一个例子。视线方向估计装置1b除了构成中的软件模块还包括用于降低局部图像的分辨率的分辨率转换部114这一点以外,其他与视线方向估计装置1同样地构成。

在本变形例中,控制部11在执行上述步骤s105的处理之前作为分辨率转换部114动作,并降低在步骤s104中提取的第一局部图像1231和第二局部图像1232的分辨率。降低分辨率的处理方法不受特别限制,可以根据实施方式适当选择。例如,控制部11可以通过最近邻法、双线性插值法、双三次法等,降低第一局部图像1231以及第二局部图像1232的分辨率。然后,控制单元11在步骤s105和s106中,通过将分辨率已降低的第一局部图像1231以及第二局部图像1232输入卷积神经网络5,而从该卷积神经网络5取得视线信息125。根据该变形例,能够减少卷积神经网络5的运算处理的运算量,并能够抑制施加在估计人物a的视线方向的cpu上的负担。

<4.5>

在上述实施方式中,利用卷积神经网络作为估计人物a的视线方向的神经网络。然而,在上述实施方式中,能够用于估计人物a的视线方向的神经网络的类型不限于卷积神经网络,可以根据该实施方式适当选择。用于估计人物a的视线方向的神经网络,例如,可以使用通用的多层构造的神经网络。

<4.6>

在上述实施方式中,使用神经网络作为估计人物a的视线方向的学习机。然而,只要局部图像能够用作输入,则学习机的类型不限于神经网络,可以根据实施方式适当选择。能够利用的学习机,可以列举例如:支持向量机、自组织映射、通过强化学习执行机器学习的学习机等。

<4.7>

在上述实施方式中,控制部11在上述步骤s106中直接从卷积神经网络5取得视线信息125。然而,从学习机取得视线信息的方法不限于这样的示例。例如,视线方向估计装置1可以将学习机的输出和视线方向的角度彼此相关联的表格形式等参照信息存储在存储部12中。这种情况下,控制部11可以通过在上述步骤s105中使用第一局部图像1231和第二局部图像1232作为输入,执行卷积神经网络5的运算处理,得到来自卷积神经网络5的输出值。并且,在上述步骤s106中,控制部11可以通过参考参照信息来取得与从卷积神经网络5获得的输出值相对应的视线信息125。以这种方式,控制部11可以间接取得视线信息125。

<4.8>

此外,在上述实施方式中,学习结果数据122包括表示卷积神经网络5的构成的信息。然而,学习结果数据122的构成不限于这样的示例。例如,当要使用的神经网络的构成是常见构成时,学习结果数据122可以不包括表示卷积神经网络5的构成的信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1