一种基于视频分析的活体判别方法及系统与流程

文档序号：12721188阅读：262来源：国知局

本发明涉及信息处理技术领域，特别涉及一种基于视频分析的活体判别方法及系统。

背景技术：

活体判别技术可以应用于越来越多的领域，比如人脸门禁、闸机、网络银行远程开户等领域的应用。具体地，在人脸门禁、闸机的应用中，需要验证当前用户确实是本栋楼层的合法用户，能够有效抵挡非法用户借用合法用户的照片通过系统的检测。

一种现有的活体判别方法，需要在实际应用场景中结合一定的交互，如摇头、眨眼等，当用户按照提示做出正确的交互后，才能通过活体检测，整个活体判别过程较繁琐，且存在用户不配合交互的情况，导致通过率较低，影响用户体验。而另一种基于双目视觉的活体判别方法，是通过双摄像头重建视频中的活体，计算重建三维模型是否在一个平面内，从而判断是否为活体，该方法需要配备双摄像头，且计算量大，不适用于嵌入式和移动端的活体判别。

技术实现要素：

本发明实施例提供一种基于视频分析的活体判别方法及系统，实现了根据训练的机器学习模型确定待分析视频是否为活体视频。

本发明实施例提供一种基于视频分析的活体判别方法，包括：

根据预置的特征提取模型提取待分析视频的第一特征信息；

根据预置的分类模型及所述第一特征信息，计算所述待分析视频对应的类型判别参数值，所述分类模型包括活体视频和非活体视频分别对应的基于特征信息的类型判别参数的计算信息；

根据所述类型判别参数值确定所述待分析视频是否属于活体视频。

本发明实施例提供一种基于视频分析的活体判别系统，包括：

特征提取单元，用于根据预置的特征提取模型提取待分析视频的第一特征信息；

参数值计算单元，用于根据预置的分类模型及所述第一特征信息，计算所述待分析视频对应的类型判别参数值，所述分类模型包括活体视频和非活体视频分别对应的基于特征信息的类型判别参数的计算信息；

类型确定单元，用于根据所述类型判别参数值确定所述待分析视频是否属于活体视频。

可见，在本实施例的方法中，基于视频分析的活体判别系统会通过待分析视频的第一特征信息及预置的分类模型得到待分析视频的类型判别参数值，然后根据类型判别参数值确定待分析视频是否属于活体视频。这样不需要与用户进行交互，也不需要配备双摄像头，只需录制一段视频，则基于视频分析的活体判别系统就会根据预置的机器学习模型(包括分类模型和特征提取模型)确定该段视频是否属于活体视频，简化了活体判别过程，方便了活体判别方法在各个领域的应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于视频分析的活体判别方法的流程图；

图2是本发明实施例中提取待分析视频的第一特征信息的方法流程图；

图3是本发明应用实施例中提取的特征提取模型和分类模型的结构示意图；

图4是本发明实施例提供的一种基于视频分析的活体判别系统的结构示意图；

图5是本发明实施例提供的另一种基于视频分析的活体判别系统的结构示意图；

图6是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种基于视频分析的活体判别方法，主要是基于视频分析的活体判别系统所执行的方法，流程图如图1所示，包括：

步骤101，根据预置的特征提取模型提取待分析视频的第一特征信息，这里的第一特征信息可以包括时间特征信息和空间特征信息，其中空间特征信息具体是待分析视频包含的多帧图像的像素特征信息。

步骤102，根据预置的分类模型及第一特征信息，计算待分析视频对应的类型判别参数值，其中，分类模型包括活体视频和非活体视频分别对应的基于特征信息的类型判别参数的计算信息，这里的计算信息可以是指在将特征信息作为输入计算类型判别参数值的过程中所用到的数学公式和固定参数值等。

在本实施例中，预置的特征提取模型和分类模型可以是基于视频分析的活体判别系统对多个已标记活体视频和非活体视频的视频训练样本进行训练得到并储存在系统中的。具体地，特征提取模型可以采用深度学习网络，包括多个参数计算层(比如卷积层，全连接层等)，在系统中可以储存该特征提取模型的数据包括各个参数计算层的计算参数值(比如卷积核信息等)及关系信息(比如参数计算层之间的连接关系)，其中，卷积层可以对视频所包含的多帧图像的时间信息和像素信息进行卷积运算，从而可以得到视频的时间特征信息和像素特征信息，全连接层可以得到卷积层获取的特征信息之间的关联关系。

分类模型可以是二分类器，在一种情况下，系统中储存的分类模型的数据可以包括活体视频和非活体视频分别对应的基于特征信息的概率计算信息，包括概率计算公式和固定参数值，这样在执行本步骤102时，可以根据第一特征信息及概率计算信息计算待分析视频属于活体视频的第一概率和属于非活体视频的第二概率。该分类模型具体可以是softmax分类器等，其中，softmax分类器主要是将上述第一特征信息作为输入，并通过softmax函数计算待分析视频属于活体视频的第一概率和属于非活体视频的第二概率，且第一概率与第二概率之和为1。

在另一种情况下，系统中储存的分类模型的数据可以包括分别与活体视频和非活体视频的特征信息之间的距离计算信息，包括距离计算公式(可以是欧式距离计算公式等)及活体视频和非活体视频分别对应的特征信息等，这样在执行本步骤102时，可以根据距离计算信息计算上述第一特征信息分别与活体视频的特征信息的第一距离和非活体视频的特征信息的第二距离。该分类模型具体可以采用支持向量机(Support Vector Machines，SVM)分类器等。

步骤103，根据上述步骤102得到的类型判别参数值确定待分析视频是否属于活体视频。

一种情况下，如果上述步骤102计算的类型判别参数值为待分析视频属于活体视频的第一概率和属于非活体视频的第二概率，将第一概率和第二概率中较大概率的视频类型(活体视频或非活体视频)作为待分析视频的视频类型，比如属于活体视频的第一概率较大，则该待分析视频属于活体视频。另一种情况下，如果上述步骤102计算的类型判别参数值为第一特征信息分别与活体视频的特征信息的第一距离和非活体视频的特征信息的第二距离，则可以将第一距离和第二距离中较小距离对应的视频类型确定为待分析视频的类型，比如第一特征信息与活体视频的特征信息之间的第一距离较小，则该待分析视频属于活体视频。

参考图2所示，在一个具体的实施例中，基于视频分析的活体判别系统可以通过如下步骤来执行上述步骤101中的提取第一特征信息，具体包括：

步骤201，将待分析视频分为多段n帧的子视频，两段相邻的子视频之间有m帧的重叠图像，这里n为大于m的自然数。

可以理解，每段视频都包含多个帧的图像，每一帧的图像表示某个时间点的图像，本实施例中待分析视频划分的多段子视频中，每相邻的两段子视频之间具有重叠图像，这样使得子视频之间具有关联性。

步骤202，分别根据特征提取模型提取多段子视频的特征信息。

其中，如果特征提取模型可以包括卷积层，池化层和全连接层，则基于视频分析的活体判别系统在提取某一个子视频的特征信息时，可以通过如下步骤来实现，具体包括：

步骤A，通过卷积层对某一子视频的时间信息和像素信息进行卷积计算得到t个维度的时间特征信息和像素特征信息，具体是通过多个卷积核分别与子视频包含的多帧图像中相应位置的元素值(包括时间和像素)进行相乘，再将相乘的结果相加得到t个维度的时间特征信息和像素特征信息。

步骤B，通过池化层将t个维度的时间特征信息和像素特征信息进行降维处理得到p个维度的时间特征信息和像素特征信息，p为小于t的自然数。

步骤C，通过全连接层确定p个维度的时间特征信息和像素特征信息之间的关联关系，具体可以通过各个维度的时间特征信息和像素特征信息的权重值来表示该关联关系，则某一子视频的特征信息包括具有关联关系的p个维度的时间特征信息和像素特征信息。

步骤203，计算步骤202提取的多段子视频的特征信息的平均值作为待分析视频的第一特征信息。

进一步地，上述预置的特征提取模型可以采用如下方法进行训练得到：分别将多个视频训练样本包含的图像的元素值(包括时间信息和像素信息)输入到计算网络中计算得到对应的特征信息，这里计算网络包括多个串联的参数计算层，任一参数计算层根据输入信息与对应的计算参数值得到计算结果，并将计算结果输入到下一参数计算层，参数计算层包括卷积层，池化层和全连接层。在这个过程中，当得到一个视频训练样本对应的特征信息后，都会调整计算网络中的各个参数计算层对应的计算参数值，并基于调整后的计算网络得到另一视频训练样本的特征信息，使得另一视频训练样本的特征信息满足收敛条件，则特征提取模型为进行调整后的计算网络。在训练得到特征提取模型后，活体判别系统会储存该计算网络的结构信息及最终调整得到的各个参数计算层对应的计算参数值。

其中，计算网络可以是任意结构的计算网络，这里并不对该计算网络的具体结构进行限定，上述训练的过程是多计算网络中各个参数计算层的计算参数值进行训练。

在训练得到特征提取模型后，活体判别系统可以继续训练得到分类模型，具体地，根据多个视频训练样本中属于活体视频的第一视频训练样本对应的第二特征信息确定活体视频的基于特征信息的第一概率计算信息，使得根据该确定的第一概率计算信息得到的概率大于0.5；或者，根据多个视频训练样本中属于非活体视频的第二视频训练样本对应的第三特征信息确定非活体视频的基于特征信息的第二概率计算信息，使得根据该确定的第二概率计算信息得到的概率大于0.5。其中任一概率计算信息(第一概率计算信息或第二概率计算信息)可以包括概率计算公式和固定参数等信息。

以下以一个具体的应用实例说明本实施例的基于视频分析的活体判别方法，本实施例可以包括两个过程，即离线训练过程和在线预测过程，具体地：

(1)离线训练过程，主要是对多个已标记活体视频和非活体视频的视频训练样本进行训练得到特征提取模型和分类模型，包括前期训练(train)过程和微调(finetune)过程。

具体地，活体判别系统会对多个视频训练样本进行训练，得到如图3所示的计算网络中各个参数计算层的计算信息，具体训练过程见上述实施例中所述，在此不进行赘述。需要说明的是，在前期训练过程中，在提取得到多个视频训练样本对应的特征信息后，会使用分类器对视频的通用问题进行分类，即可将这多个视频训练样本分为多个类型，不限定于活体视频和非活体视频两种类型，这样通过前提训练过程训练出如图3所示的计算网络中各个参数计算层的初始计算信息；而在微调过程中，会对前期训练过程得到的计算网络中各个参数计算层的初始计算信息进行调整，使得分类器只对视频属于活体视频和非活体视频的两个类型进行训练，且通过微调过程训练得到的计算网络中各个参数计算层的最终计算信息作为以后在线预测过程的参数。实践证明，通过前期训练过程可以得到较好的初始计算信息，从而使得得到的最终计算信息在应用中效果比较好，即根据最终计算信息确定待分析视频的视频类型(活体视频或非活体视频)的效果比较好。

其中，该计算网络包括8个三维(three-dimensional，3D)卷积层，5个池化(pooling)层和2个全连接层，还包括Softmax分类器，其中Softmax分类器属于分类模型，其它都属于特征提取模型。各个卷积层包括3x3x3的卷积核，卷积跨度(stride)在空间和时间序列维度均为1，卷积层1a包括64个卷积核，卷积层2a的卷积核为128个，卷积层3a和3b的卷积核数量相同，均为256，卷积层4a，4b，5a和5b四个卷积层的卷积核数量相同，均为512；第一个池化层的核大小为1x2x2，其它池化层的核大小为2x2x2；全连接层的输出维度均为4096维。

需要说明的是，计算网络可以是任意结构，并不限定于如图3所示的结构，上述训练的过程是多计算网络中各个参数计算层的计算参数值进行训练。

(2)在线预测过程，主要是使用微调后得到的计算网络中各个参数计算层的计算信息对待分析视频是否属于活体视频。

具体地，活体判别系统会先将待分析视频分解为多个16帧的子视频，相邻的两段子视频之间有8帧重叠图像；然后将分解后的各个子视频所包含的16帧图像的元素值输入到上述训练得到的计算网络，通过全连接层6得到每段子视频分别对应的4096维特向量，通过全连接层7将这些特征向量进行平均，即得到得分析视频的特征向量，即待分析视频的特征信息；最后根据Softmax分类器和待分析视频的特征信息分别计算得到待分析视频属于活体视频和非活体视频的概率，并将较大概率对应的视频类型确定为待分析视频的视频类型。

本发明实施例还提供一种基于视频分析的活体判别系统，其结构示意图如图4所示，具体可以包括：

特征提取单元10，用于根据预置的特征提取模型提取待分析视频的第一特征信息；

参数值计算单元11，用于根据预置的分类模型及所述特征提取单元10提取的第一特征信息，计算所述待分析视频对应的类型判别参数值，所述分类模型包括活体视频和非活体视频分别对应的基于特征信息的类型判别参数的计算信息；

类型确定单元12，用于根据所述参数值计算单元11计算的类型判别参数值确定所述待分析视频是否属于活体视频。

在一种情况下，所述参数值计算单元11，具体用于如果所述分类模型包括活体视频和非活体视频分别对应的基于特征信息的概率计算信息，根据所述第一特征信息及所述概率计算信息计算所述待分析视频属于活体视频的第一概率和属于非活体视频的第二概率；所述类型确定单元12，具体用于将所述第一概率和第二概率中较大概率的视频类型确定为所述待分析视频的类型。

在另一种情况下，所述参数值计算单元11，具体用于如果所述分类模型的数据包括分别与活体视频和非活体视频的特征信息之间的距离计算信息，根据所述距离计算信息计算所述第一特征信息分别与活体视频的特征信息的第一距离和非活体视频的特征信息的第二距离；所述类型确定单元12，具体用于将所述第一距离和第二距离中较小距离对应的视频类型确定为所述待分析视频的类型。

可见，在本实施例的系统中，参数值计算单元11会通过待分析视频的第一特征信息及预置的分类模型得到待分析视频的类型判别参数值，然后类型确定单元12根据类型判别参数值确定待分析视频是否属于活体视频。这样不需要与用户进行交互，也不需要配备双摄像头，只需录制一段视频，则基于视频分析的活体判别系统就会根据预置的机器学习模型(包括分类模型和特征提取模型)确定该段视频是否属于活体视频，简化了活体判别过程，方便了活体判别方法在各个领域的应用。

参考图5所示，在一个具体的实施例中，判别系统除了可以包括如图4所示的结构外，还可以包括提取模型训练单元13和分类模型训练单元14，且系统中的特征提取单元10可以通过划分单元110，提取单元120和确定单元130来实现，具体地：

划分单元110，用于将所述待分析视频分为多段n帧的子视频，两段相邻的所述子视频之间有m帧的重叠图像，所述n为大于m的自然数；

提取单元120，用于分别根据所述特征提取模型提取所述划分单元110划分的多段子视频的特征信息；

确定单元130，用于计算所述提取单元120得到的多段子视频的特征信息的平均值作为所述第一特征信息。这样参数计算单元11会根据确定单元130确定的第一特征信息

其中，所述提取单元120，具体用于如果所述特征提取模型包括卷积层，池化层和全连接层，通过所述卷积层对所述某一子视频的时间信息和像素信息进行卷积计算得到t个维度的时间特征信息和像素特征信息；通过所述池化层将所述t个维度的时间特征信息和像素特征信息进行降维处理得到p个维度的时间特征信息和像素特征信息；通过所述全连接层确定所述p个维度的时间特征信息和像素特征信息之间的关联关系，则所述某一子视频的特征信息包括具有所述关联关系的p个维度的时间特征信息和像素特征信息。

提取模型训练单元13，用于分别将多个视频训练样本包含的图像的元素值输入到计算网络中计算得到对应的特征信息，所述计算网络包括多个串联的参数计算层，任一参数计算层根据输入信息与对应的计算参数值得到计算结果，并将计算结果输入到下一参数计算层；其中，在得到一个视频训练样本对应的特征信息后，调整所述计算网络中的各个参数计算层对应的计算参数值，并基于调整后的计算网络得到另一视频训练样本的特征信息，使得另一视频训练样本的特征信息满足收敛条件，则所述特征提取模型为进行所述调整后的计算网络。这样特征提取单元10所包括的提取单元120在提取任一子视频的特征信息时，会根据该提取模型训练单元13训练得到的特征提取模型进行提取。

分类模型训练单元14，用于根据所述多个视频训练样本中属于活体视频的第一视频训练样本对应的第二特征信息确定活体视频的基于特征信息的第一概率计算信息，使得根据所述第一概率计算信息得到的概率大于0.5；或，根据所述多个视频训练样本中属于非活体视频的第二视频训练样本对应的第三特征信息确定非活体视频的基于特征信息的第二概率计算信息，使得根据所述第二概率计算信息得到的概率大于0.5。这样参数值计算单元11会根据该分类模型训练单元14训练得到的分类模型及上述特征提取单元10所包括的确定单元130确定的第一特征信息，计算待分析视频的类型判别参数值。

本发明实施例还提供一种终端设备，其结构示意图如图6所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括基于视频分析的活体判别的应用程序，且该程序可以包括上述基于视频分析的活体判别系统中的特征提取单元10，参数值计算单元11，类型确定单元12，提取模型训练单元13和分类模型训练单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中储存的基于视频分析的活体判别的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由基于视频分析的活体判别系统所执行的步骤可以基于该图6所示的终端设备的结构。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的基于视频分析的活体判别方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵凌;李季檩
技术所有人：腾讯科技（上海）有限公司
我是此专利的发明人

上一篇：一种有效的图像处理系统的制作方法与工艺
上一篇：一种耐空转离心水泵的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。