控制方法、模型训练方法、装置及电子设备与流程

文档序号:16664976发布日期:2019-01-18 23:12阅读:110来源:国知局
控制方法、模型训练方法、装置及电子设备与流程

本发明涉及计算机技术领域,具体而言,涉及一种控制方法、模型训练方法、装置及电子设备。



背景技术:

现有的对电子设备的控制一般是通过鼠标、遥控器或电子设备上的机械按键等输入设备或输入按键对电子设备进行控制。作为改进,也有直接点击电子设备的屏幕进行操作,但是上述操作都不是很方便。



技术实现要素:

有鉴于此,本发明实施例的目的在于提供一种控制方法、模型训练方法、装置及电子设备。

第一方面,本发明实施例提供的一种控制方法,包括:

获取目标对象的人脸图像集;

将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态;

根据所述目标人眼状态获得控制信号;以及

使用该控制信号控制指定设备执行对应操作。

作为一种可选的实施方式,所述根据所述目标人眼状态获得控制信号,包括:

将所述目标人眼状态与设定的控制规则进行匹配得到控制信号。

作为一种可选的实施方式,所述设定的控制规则至少包括以下之一:

眨左眼睛对应输入设备的第一指令;

眨右眼睛对应输入设备的第二指令;

闭左眼睛睁右眼睛对应输入设备的第三指令;

闭右眼睛睁左眼睛对应输入设备的第四指令。

作为一种可选的实施方式,所述获取目标对象的人脸图像集,包括:

采集目标对象的在一段时间的连续多帧图像,得到人脸图像集。

作为一种可选的实施方式,所述将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态,包括:

将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;

根据所述多个人眼状态判断其中第一眼睛的闭眼状态的图像数量是否小于第一预设值,若否,则判定所述人脸图像集对应的目标人眼状态为闭合所述第一眼睛的状态;将所述闭合所述第一眼睛的状态和所述视线位置作为目标人眼状态。

作为一种可选的实施方式,所述根据所述多个人眼状态判断其中第一眼睛的闭眼状态的图像数量是否小于第一预设值,包括:

判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值。

作为一种可选的实施方式,所述将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态,包括:

将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;

根据所述多个人眼状态判断其中第二眼睛的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值,若是,则判定所述人脸图像集对应的目标人眼状态为眨所述第二眼睛的状态,将所述眨所述第二眼睛的状态和所述视线位置作为目标人眼状态,其中,所述第二预设值小于所述第一预设值。

作为一种可选的实施方式,所述根据所述多个人眼状态判断其中第二眼睛的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值,包括:

判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值。

作为一种可选的实施方式,所述人眼检测模型包括第一识别模型和第二识别模型,所述目标人眼状态中包括视线位置,所述目标人眼状态中的视线位置通过以下方式识别:

将所述人脸图像集中的人脸图像输入所述第一识别模型得到标识数据,所述标识数据包括人脸关键点;

根据所述人脸关键点进行图像截取,得到人眼图像;

将所述人眼图像和所述标识数据输入第二识别模型进行识别,得到视线位置。

作为一种可选的实施方式,所述标识数据还包括人脸朝向数据、人脸大小数据、人脸特征数据;所述第二识别模型包括第一网络模型和第二网络模型,所述将所述标识数据输入第二识别模型进行识别,得到视线位置,包括:

将所述人眼图像输入所述第一网络模型得到人眼特征;

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置。

作为一种可选的实施方式,所述第二网络模型包括概率函数模型,所述将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置,包括:

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述概率函数模型计算得到对应视线方向的概率;

根据所述视线方向的概率进行处理得到视线位置。

作为一种可选的实施方式,所述第二网络模型包括回归函数模型,所述将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置,包括:

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述回归函数模型计算得到对应的注视视线;

根据所述注视视线进行处理得到视线位置。

作为一种可选的实施方式,所述获取目标对象的人脸图像集之前,所述方法还包括:

启动补光设备,以照射目标区域。

作为一种可选的实施方式,所述获取目标对象的人脸图像集,包括:

获取目标对象的人脸的红外图像作为目标人脸图像。

作为一种可选的实施方式,所述人眼检测模型通过以下方式训练得到:

将训练数据集输入初始模型进行训练,以调整所述初始模型中的参数得到第一模型;

将验证数据输入所述第一模型进行验证,得到验证结果;

获得所述验证数据中各个类型的数据的验证结果的准确率;

根据所述准确率调整所述训练数据中各个类型的数据的权重,得到调整训练数据;

将所述调整训练数据输入所述第一模型中进行训练;

重复上述训练过程,直到所述验证数据中各个类型的数据中的准确率达到预设值,将各个类型的数据中的准确率达到预设值对应的第一模型作为所述人眼检测模型。

第二方面,本发明实施例还提供一种模型训练方法,包括:

将训练数据集输入初始模型进行训练,以调整所述初始模型中的参数得到第一模型;

将验证数据输入所述第一模型进行验证,得到验证结果;

获得所述验证数据中各个类型的数据的验证结果的准确率;

根据所述准确率调整所述训练数据中各个类型的数据的权重,得到调整训练数据;

将所述调整训练数据输入所述第一模型中进行训练;

重复上述训练过程,直到所述验证数据中各个类型的数据中的准确率达到预设值,将各个类型的数据中的准确率达到预设值对应的第一模型作为所述人眼检测模型,其中所述人眼检测模型用于执行上述的控制方法中的人脸图像集进行识别。

第三方面,本发明实施例还提供一种控制装置,包括:

获取模块,用于获取目标对象的人脸图像集;

识别模块,用于将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态;

获得模块,用于根据所述目标人眼状态获得控制信号;以及

控制模块,用于使用该控制信号控制指定设备执行对应操作。

第四方面,本发明实施例还提供一种电子设备,包括:存储器以及处理器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中读取并运行所述计算机程序,以执行上述方法。

第五方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。

与现有技术相比,本发明实施例的控制方法,通过采集人脸图像,进一步地对人脸图像中的人眼部分进行识别可获得匹配的控制信号,进一步地可以通过控制信号控制指定设备,从而可以减少用户对遥控器或指定设备的操作,提高对指定设备的控制操作的便利性。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的电子设备的方框示意图。

图2为本发明实施例提供的控制方法的流程图。

图3为本发明实施例提供的控制方法的步骤s202的详细流程图。

图4为一个实例中的显示界面示意图。

图5为本发明实施例提供的模型训练方法的流程图

图6为本发明实施例提供的控制装置的功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

现在一般是通过鼠标、遥控器、手指触摸等方式对电子设备进行控制。这样的方式能够满足大多数情况的需求,但是对于一些特殊情况,例如,用户正在忙于需要双手处理的其它事情时,则不能对电子设备进行控制。基于上述描述,本申请提供以下几个实施例可以有效提高对电子设备的控制效率,提高用户体验,具体描述如下。

实施例一

首先,参照图1来描述用于实现本发明实施例的控制方法的示例电子设备100。该示例电子设备100可以是计算机,也可以是智能手机、平板电脑等移动终端。

如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(cpu)、图形处理单元(gpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地,用于实现根据本发明实施例的控制方法、装置及系统的示例电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集装置110分离设置。

上述的电子设备100可以执行下述的信息推送方法中的各个步骤。下面就结合流程图详细描述控制方法。

实施例二

请参阅图2,是本发明实施例提供的控制方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤s201,获取目标对象的人脸图像集。

人脸图像集可以是目标对象的一个动作产生过程对应的时间段内采集到的图像集。通过该人脸图像集可以识别出用户当前执行的动作。

所述步骤s201包括:采集目标对象的在一段时间的连续多帧图像,得到人脸图像集。

本实施例中,步骤s201之前,所述控制方法还包括:启动补光设备,以照射目标区域。

其中,补光设备可以是与执行本实施例中的方法的电子设备通信连接的外接设备,也可以是设置在该电子设备上的一补光设备。

在一实施方式中,补光设备可以是红外(infraredspectroscopy,简称ir)补光设备。进一步地,采集目标人脸图像集的采集设备可以是红外(ir)采集设备。所述步骤s201包括:获取目标对象的人脸的红外图像作为目标人脸图像。

在另一实施方式中,补光设备也可以是led补光设备等设备。

通过开启补光设备,可以为目标区域提供光照,使拍摄的人脸图像更清晰、使人脸图像更容易被识别,提高控制效果。

步骤s202,将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态。

人眼状态可以包括睁闭眼状态和视线位置。

其中,睁闭眼状态可以包括,但是不限制为:单眨左眼睛、单眨右眼睛、闭左眼睛、闭右眼睛、多次眨左眼睛、多次眨右眼睛、注视位置。

本实施例中,将人脸图像集中的每一张图像别输入人眼检测模型可以得到单张图像对应的眼睛状态。

进一步地,根据每一张图像对应的眼睛状态可以得到一组目标人脸图像的目标人眼状态。

在一个情况下,若目标人脸图像集中部分图像对应的眼睛状态为左眼睛为闭眼状态,其中,该部分图像为连接一段时间拍摄得到的图像,其它图像对应的眼睛状态为左眼睛为睁眼状态,可以识别为人脸图像集对应眨左眼睛的状态。

在另一个情况下,若目标人脸图像集中左眼睛为闭眼状态的图像数量超过了设定的值,表示该目标人脸图像集对应的目标对象闭眼睛的时长已经超过眨眼可能对应的闭眼时长,则可以识别为人脸图像集对应闭左眼睛的状态。

步骤s202包括:将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;根据所述多个人眼状态判断其中第一眼睛的闭眼状态的图像数量是否小于第一预设值,若否,则判定所述人脸图像集对应的目标人眼状态为闭合所述第一眼睛的状态;将所述闭合所述第一眼睛的状态和所述视线位置作为目标人眼状态。

进一步地,所述根据所述多个人眼状态判断其中第一眼睛的闭眼状态的图像数量是否小于第一预设值,包括:判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值。

其中,第一预设值为识别为眨眼状态或闭眼状态对应的临界值,当闭眼的图像数量小于第一预设值且不为零更可能是眨眼睛状态,当闭眼的图像数量大第一预设值更可能是闭眼睛状态。具体地可以根据拍照频率对应取不同的值。拍照频率越高第一预设值取值越大,拍照频率越小该第一预设值取值越小。上述的拍照频率表示每个时间单位下的拍照数量,时间单位可以是一秒、一分等。

步骤s202包括:将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;根据所述多个人眼状态判断其中第二眼睛的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值,若是,则判定所述人脸图像集对应的目标人眼状态为眨所述第二眼睛的状态,将所述眨所述第二眼睛的状态和所述视线位置作为目标人眼状态,其中,所述第二预设值小于所述第一预设值。

作为一种可选的实施方式,所述根据所述多个人眼状态判断其中第二眼睛的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值,包括:

判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值。

第二预设值可以用于区别睁眼状态和眨眼状态,因此,只要可以识别人脸图像集中的闭眼状态的人脸图像大于第二预设值,则可以判断人脸图像集可以对应眨眼状态或闭眼状态。因此,第二预设值的取值可以是一非负数。

本实施例中,将眼睛闭着的状态或时长转化为闭眼图像数量的识别,可以不需要获取拍摄图像的时间数据,可以使眨眼状态的识别更为简单。

当然,也可以不通过闭眼状态的人眼图像的数量识别人眼的睁眼、闭眼状态。例如,也可以获取各个闭眼状态对应的人脸图像的拍摄时间,可以判断在人脸图像集中对应的目标对象闭眼睛的时长,通过时长判断用户在被采集时的状态是眨眼状态还是闭眼状态。

本实施例中的人眼状态不仅仅包括眼睛的动作,还包括眼睛的注视位置,下面可以通过以下几个实施例可以实现对眼睛注视点的识别。

在一个实施方式,所述人眼检测模型包括第一识别模型和第二识别模型,基于上述的第一识别模型和第二识别模型对人脸图像集进行识别,所述目标人眼状态中包括视线位置,所述目标人眼状态中的视线位置通过以下方式识别,具体地,如图3所示,步骤s202可包括以下步骤。

步骤s2021,将所述人脸图像集中的人脸图像输入所述第一识别模型得到标识数据。

本实施例中,所述标识数据包括人脸关键点。

其中,第一识别模型可以是人脸检测模型,通过将该人脸检测模型可以识别出人脸图像对应的人脸关键点、人脸朝向数据、人脸特征数据。

其中,人脸关键点和人脸朝向数据可以是上述的人脸检测模型的输出值;人脸特征数据可以是在识别过程中得到的中间数据。例如,第一识别模型中间层级输出的一些中间向量。

步骤s2022,根据所述人脸关键点进行图像截取,得到人眼图像。

本实施例中,通过各个人脸关键点可以得到人脸中的眼睛所在位置可以将眼睛部分内容进行裁剪、截图、抠图等操作,可以获取人眼部分的人眼图像。

步骤s2023,将所述人眼图像和所述标识数据输入第二识别模型进行识别,得到视线位置。

作为一种可选的实施方式,所述标识数据包括人脸朝向数据、人脸大小数据、人脸特征数据时;所述第二识别模型包括第一网络模型和第二网络模型。

具体地,步骤s2023可以包括:将所述人眼图像输入所述第一网络模型得到人眼特征;将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置。

其中,第一网络模型可以是cnn(convolutionalneuralnetwork,中文称卷积神经网络)网络模型。

本实施例中,cnn网络模型中用于计算人眼左眼睛和右眼睛的各个计算公式或参数的权重可以共用。

通过cnn网络模型可以输入人眼图像对应的人眼特征。本实施例中,人眼特征可以是矩阵,也可以是将矩阵展开成一维向量。

人脸朝向数据可以表示对应的对应面部对应哪个方向。其中,人脸朝向数据可以表示成一维向量。人脸朝向数据可以通过两个值pitch和yaw表示。pitch和yaw可分别表示人脸上下转动和左右转动的转动角。

人脸大小数据可以表示人脸图像对应的对象的人脸大小。其中,人脸大小也可以通过一维向量表示,向量中的元素可以包括人脸的长和宽。人脸的宽可以对应两边脸颊连线对应的长度,人脸的长可以对应两边脸颊连线的中点到下巴最低点的长度。

本实施例中,目标人眼状态可以包括得到人脸图像对应的对象的注视位置,也可以包括人脸图像对应的对象的注视某位置的概率值。下面通过几个实施方式,详细描述针对人眼状态需要包括不同的结果对应使用不同的实施方式,具体描述如下。

实施方式一:所述第二网络模型包括概率函数模型,所述将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置,包括:将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述概率函数模型计算得到对应视线方向的概率;根据所述视线方向的概率进行处理得到目标人眼状态。

概率函数模型中可以包括sigmoid函数,通过该sigmoid函数可以得到人脸图像中的眼睛的注视各个位置的概率值。

当然,通过各个位置被注视的概率值也可以得到人脸图像中对应注视的位置。

实施方式二:所述第二网络模型包括回归函数模型,所述将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置,包括:将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述回归函数模型计算得到对应的注视视线;根据所述注视视线进行处理得到目标人眼状态。

步骤s203,根据所述目标人眼状态获得控制信号。

所述步骤s203包括:将所述目标人眼状态与设定的控制规则进行匹配得到控制信号。

具体地,本实施例中的控制方法用于不同的使用环境,可以设定不同的规则。

下面就不同的使用环境分别描述可能对应不同的控制规则。

在一个实施方式中,本实施例中的控制方法可以用于控制连接有输入设备的电子设备。该电子设备还可以包括一显示屏幕。其中,输入设备可以是与指定设备连接的鼠标、遥控器等设备。

设定的控制规则至少包括以下之一:

眨左眼睛对应输入设备的第一指令;

眨右眼睛对应输入设备的第二指令;

闭左眼睛睁右眼睛对应输入设备的第三指令;

闭右眼睛睁左眼睛对应输入设备的第四指令。

其中,当所述输入设备是鼠标时,所述第一指令可以表示左键单击,第二指令可以表示右键单击,第三指令可以表示鼠标在左键点击状态下拖动,第四指令可以表示鼠标在右键点击状态下拖动。进一步地,眼部不同的状态还可以对应更多指令,例如:多次眨左眼睛对应输入设备的第五指令;多次眨右眼睛对应输入设备的第六指令。所述第五指令可以表示左键双击,第六指令可以表示右键双击。当然,各个指令对应的内容也可以互换,具体可以按照不同用户群体的习惯进行设置。当然,也可以接收用户的设置,为不同的人眼状态配置不同的指令。

其中,当所述输入设备是遥控器时,所述第一指令可以表示点击电源开关键,第二指令可以表示点击确认键,第三指令可以表示声音控制指令,第四指令可以表示电视台转换指令。当然,各个指令对应的内容也可以互换,具体可以按照不同用户群体的习惯进行设置。

在另一个实施方式中,本实施例中的控制方法用于控制可以用于控制包括触控界面的电子设备。该触控界面可以接收用户手指或其它电容笔的触碰控制。例如,android手机、android平板、ios平板、ios手机等。

设定的控制规则至少包括以下之一:

眨左眼睛对应点击屏幕指令;

眨右眼睛对应长按屏幕指令;

闭左眼睛睁右眼睛对应向左拖动指令;

闭右眼睛睁左眼睛对应向右拖动指令。

进一步地,根据人脸图像中眼睛部位的注视位置,可以得到控制信号为对该注视位置执行眼睛动作对应的指令。

上面的多个实施方式仅仅是示意性的执行方式,在可操作的情况下,人眼状态还可以对应其它设备对应的控制指令,例如,车载播放设备的控制指令、物联网系统下的各个电气设备的控制指令等。

步骤s204,使用该控制信号控制指定设备执行对应操作。

通过人脸图像可以得到目标对象执行的眼部动作,以进一步地控制指定设备执行对应的操作。

如图4所示,图4示出了一个实例中的显示界面示意图。人脸图像集对应的目标人眼状态为注视位置为对象a所在位置,人眼动作为眨左眼睛,则对对象a执行类似鼠标左键单击同等功能的操作。

本发明实施例的控制方法,通过采集人脸图像,进一步地对人脸图像中的人眼部分进行识别可获得匹配的控制信号,进一步地可以通过控制信号控制指定设备,从而可以减少用户对遥控器或指定设备的操作,提高对指定设备的控制操作的便利性。

实施例三

下面针对用于对人脸图像的识别所使用的人眼检测模型的训练过程进行描述,本实施例中的方法可以基于图2所示的流程增加图5所示的步骤,也可以是独立与图2所示的流程的独立步骤。可以理解的是,本实施例中的各个步骤可以与实施例二中的各个步骤在不同的执行设备中执行,也可以在相同的执行设备中执行。

如图5所示,本实施例中通过模型训练方法训练得到人眼检测模型,具体地,模型训练方法可以包括以下步骤。

步骤s301,将训练数据集输入初始模型进行训练,以调整所述初始模型中的参数得到第一模型。

鉴于人眼数据的复杂性,特别是戴眼镜的人脸图像,存在眼镜镜框遮挡和补光灯反光遮挡的问题。本实施例中的训练数据可以是原始训练数据或/及人造训练数据。进一步地,训练时,也可以将原始训练数据和人造训练数据结合输入初始模型中进行训练,以增加训练数据的丰富度。其中,人造训练数据可以是将原始训练数据中不戴眼镜的人脸图像通过人脸关键点,将人工采集的光斑图片贴在人眼附近,从而得到有光斑遮挡的人脸图像训练数据。因此带有光斑的人脸图像可以模拟戴眼镜的人脸图像。当然,也可以对眼镜镜框数据也可以做类似处理。

步骤s302,将验证数据输入所述第一模型进行验证,得到验证结果。

步骤s303,获得所述验证数据中各个类型的数据的训练结果的准确率。

步骤s304,判断各个类型的数据的训练结果的准确率是否达到设置的预设值。

例如,各个类型的数据的训练结果的准确率达到97%以上,则表示模型可以使用,且识别的准确率比较高。

若各个类型的数据的训练结果的准确率全部都已经达到设置的预设值,则流程结束,将各个类型的数据中的准确率达到预设值对应的第一模型作为所述人眼检测模型;若各个类型的数据的训练结果的准确率中存在未经达到设置的预设值,则执行步骤s305。

步骤s305,根据所述准确率调整所述训练数据中各个类型的数据的权重,得到调整训练数据。

详细地,可以将准确率低对应的数据的权重设置较高,将准确率高的数据设置较低的权重,从而实现适应性训练。

步骤s306,将所述调整训练数据输入所述第一模型中进行训练。

重复上述训练过程,直到所述验证数据中各个类型的数据中的准确率达到预设值,将各个类型的数据中的准确率达到预设值对应的第一模型作为所述人眼检测模型。

通过使用实施例三中的方法中的各个步骤可以训练得到用于使用在实施例二中的模型,可以对人脸图像集进行识别。

通过本实施例中的训练方法,通过在各个类型的数据的训练结果的准确率不满足需求的时候进行调整各类型数据的权重,可以有针对性地重点训练对应类型的数据,从而提高训练的准确率。

实施例四

基于同一申请构思,本申请实施例中还提供了与控制方法对应的控制装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述控制方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

请参阅图6,是本发明实施例提供的控制装置的功能模块示意图。所述控制装置包括:获取模块、识别模块、获得模块及控制模块;其中:

获取模块401,用于获取目标对象的人脸图像集;

识别模块402,用于将所述人脸图像集输入人眼检测模型进行识别,得到目标人眼状态;

获得模块403,用于根据所述目标人眼状态获得控制信号;以及

控制模块404,用于使用该控制信号控制指定设备执行对应操作。

一种可能的实施方式中,所述获得模块403,还用于:

将所述目标人眼状态与设定的控制规则进行匹配得到控制信号。

一种可能的实施方式中,所述设定的控制规则至少包括以下之一:

眨左眼睛对应输入设备的第一指令;

眨右眼睛对应输入设备的第二指令;

闭左眼睛睁右眼睛对应输入设备的第三指令;

闭右眼睛睁左眼睛对应输入设备的第四指令。

一种可能的实施方式中,所述获取模块401,还用于:

采集目标对象的在一段时间的连续多帧图像,得到人脸图像集。

一种可能的实施方式中,所述识别模块402,还用于:

将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;

根据所述多个人眼状态判断其中第一眼睛的闭眼状态的图像数量是否小于第一预设值,若否,则判定所述人脸图像集对应的目标人眼状态闭合所述第一眼睛的状态;将所述闭合所述第一眼睛的状态和所述视线位置作为目标人眼状态。

一种可能的实施方式中,所述识别模块402,还用于:

判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值。

一种可能的实施方式中,所述识别模块402,还用于:

将所述人脸图像集中的每一个人脸图像输入所述人眼检测模型进行识别,得到多个人眼状态,其中,人眼状态包括睁闭状态和视线位置;

根据所述多个人眼状态判断其中第二眼睛的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值,若是,则判定所述人脸图像集对应的目标人眼状态为眨所述第二眼睛的状态,将所述眨所述第二眼睛的状态和所述视线位置作为目标人眼状态,其中,第二预设值小于第一预设值。

一种可能的实施方式中,所述识别模块402,还用于:

判断所述多个人眼状态中第一眼睛的连续的闭眼状态的图像数量是否小于第一预设值,且大于第二预设值。

一种可能的实施方式中,所述人眼检测模型包括第一识别模型和第二识别模型,所述目标人眼状态中包括视线位置,所述识别模块402中可以通过以下方式实现识别人眼的视线位置,还用于:

将所述人脸图像集中的人脸图像输入所述第一识别模型得到标识数据,所述标识数据包括人脸关键点;

根据所述人脸关键点进行图像截取,得到人眼图像;

将所述人眼图像和所述标识数据输入第二识别模型进行识别,得到视线位置。

一种可能的实施方式中,所述标识数据还包括人脸朝向数据、人脸大小数据、人脸特征数据;所述第二识别模型包括第一网络模型和第二网络模型,所述识别模块402,还用于:

将所述人眼图像输入所述第一网络模型得到人眼特征;

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型进行识别得到视线位置。

一种可能的实施方式中,所述第二网络模型包括概率函数模型,所述识别模块402,还用于:

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述概率函数模型计算得到对应视线方向的概率;

根据所述视线方向的概率进行处理得到视线位置。

一种可能的实施方式中,所述第二网络模型包括回归函数模型,所述识别模块402,还用于:

将所述人脸朝向数据、人脸大小数据、人脸特征数据、人眼特征输入所述第二网络模型通过所述回归函数模型计算得到对应的注视视线;

根据所述注视视线进行处理得到视线位置。

一种可能的实施方式中,所述控制装置还包括:

启动模块,用于启动补光设备,以照射目标区域。

一种可能的实施方式中,所述获取模块401,还用于:

获取目标对象的人脸的红外图像作为目标人脸图像。

一种可能的实施方式中,所述人眼检测模型通过以下方式训练得到:

将训练数据集输入初始模型进行训练,以调整所述初始模型中的参数得到第一模型;

将验证数据输入所述第一模型进行验证,得到验证结果;

获得所述验证数据中各个类型的数据的训练结果的准确率;

根据所述准确率调整所述训练数据中各个类型的数据的权重,得到调整训练数据;

将所述调整训练数据输入所述第一模型中进行训练;

重复上述训练过程,直到所述验证数据中各个类型的数据中的准确率达到预设值,将各个类型的数据中的准确率达到预设值对应的第一模型作为所述人眼检测模型。

关于本实施例的其它细节还可以进一步地参考上述方法实施例中的描述。

此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的控制方法的步骤。

本申请实施例所提供的控制方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1