用于验证活体人脸的方法、设备和计算机程序产品的制作方法_4

文档序号：9756943阅读：来源：国知局

脸动作模型库，并基于人脸动作模型库确定所述面部动作。
[0069]图6中的第一匹配单元630确定动作识别单元620所识别的面部动作是否与所述字符串的发音相匹配。第一匹配单元630可以预先建立不同字符的发音的动作模型执行所述确定操作。例如，第一匹配单元630在生成字符串后基于各个字符的发音的动作模型生成所述字符串的发音的基准动作模型，然后将动作识别单元620所识别的面部动作与所述基准动作模型进行比对，以确定所识别的面部动作是否与所述字符串的发音相匹配。或者，第一匹配单元630还可以利用神经元网络技术来实现，这将结合图8进行描述。
[0070]图8是示意性图示了图6中的第一匹配单元630的框图。如图所示，第一匹配单元630可包括训练图像获取模块631、训练模块632和动作匹配模块633。
[0071]训练图像获取模块631获取与所述字符串对应的多个训练图像，各个训练图像包括不同的人在说出所述字符串时的面部图像。训练图像获取模块631例如可以从因特网网络、有线电视网络等收集大量人物的说话视频，并标记与说话视频对应的说话内容，即字符的内容。或者，训练图像获取模块631还可以从视频内容数据库中获取多个训练图像。
[0072]训练模块632利用每个训练图像中的人脸的关键点信息来训练一神经元网络。例如，训练模块632可确定每个训练图像中的人脸的关键点信息；生成与每个训练图像中的人脸的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。此外，在攻击者使用面具的情况中，人脸的部分关键点可能容易被面具覆盖，可以增强对所述容易覆盖的关键点的训练。相应地，训练模块632可以确定在人脸的关键点之中的易于被面具覆盖的指定关键点；生成与每个训练图像中的人脸的包含所述指定关键点的多个关键点对应的特征向量序列；利用所生成的各个特征向量序列来训练所述神经元网络。人工标记的说话内容作为对应的训练目标。所述神经元网络可以如上所述具有输入层、卷积层、反馈层、全连接层、输出层，其具体结构不构成对本公开实施例的限制。
[0073]动作匹配模块633利用该已训练的神经元网络确定所述面部动作是否与所述字符串的发音相匹配。作为示例，动作匹配模块633经由已训练的神经元网络基于所述面部动作确定待验证对象说出所述字符串的概率；当所确定的概率大于预定概率时，动作匹配模块633确定所述面部动作与所述字符串的发音相匹配；当所确定的概率小于等于预定概率时，动作匹配模块633确定所述面部动作与所述字符串的发音不匹配。在应用中，第一匹配单元630可以不包括训练图像获取模块631和训练模块632，而直接耦接到已训练的神经元网络来确定所述面部动作是否与所述字符串的发音相匹配。
[0074]在某些实例中，第一匹配单元630可以采用事先训练的神经元网络来确定面部动作是否与字符串的发音相匹配。此时，第一匹配单元630可以仅包括动作匹配模块633，而不包括训练图像获取模块631和训练模块632。
[0075]图6中的判断单元640基于通过第一匹配单元630所确定的第一确定结果判断所述待验证对象是否是活体人脸基于所述第一确定结果判断所述待验证对象是否是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音相匹配时，判断单元640判断所述待验证对象是活体人脸。当第一确定结果指明所述面部动作与所述字符串的发音不匹配时，判断单元640判断所述待验证对象不是活体人脸。
[0076]例如，在攻击者使用面具、照片进行攻击的情况中，所述用于验证活体人脸的设备600不能识别出面部动作，可以判断出待验证对象不是活体人脸；在攻击者使用视频进行攻击的情况中，由于攻击者不能预先判断随机生成的字符串内容，所述用于验证活体人脸的设备600会发现视频中的人脸的面部动作并不对应于字符串的发音，可以判断出待验证对象不是活体人脸。作为验证活体人脸的应用示例，在基于人脸识别的身份识别系统中，通常在确定了所述待验证对象是活体人脸之后，再进一步比对待验证对象的面部特征与数据库中已存的各个用户的面部特征，以识别待验证对象的身份。此外，还可以将所述用于验证活体人脸的设备600应用于任何其它的系统，其具体应用不构成对本公开实施例的限制。
[0077]在根据本公开实施例的上述用于验证活体人脸的设备的技术方案中，通过确定待验证对象的面部动作是否与随机地生成的字符串的发音相匹配，能够有效地识别出不具有活体人脸的待验证对象，从而有效地防范攻击者借助于非活体工具进行的攻击。
[0078]此外，用于验证活体人脸的设备600还可以包括音频获取单元650和第二匹配单元660，如图6的虚线所示。音频获取单元650和第二匹配单元660中的部分或全部操作可以利用处理器和存储器来实现。
[0079]音频获取单元650获取待验证对象在预定时间段期间的音频信息(S250)，并例如可以为麦克风。在所述待验证对象在预定时间段内读出随机生成的字符串的过程，在动作识别单元620采集图像信息并识别其面部动作的同时，音频获取单元650利用麦克风记录待验证对象的音频信息。
[0080]第二匹配单元660确定所述音频信息是否与所述字符串的发音相匹配，得到第二确定结果。例如，第二匹配单元660可以对所记录的音频信息进行语音识别而获取对应的文本，然后将文本与随机生成的字符串进行比较，以确定所述音频信息是否与所述字符串的发音相匹配。
[0081]判断单元640可以基于第一确定结果和第二确定结果二者而来判断所述待验证对象是否是活体人脸。如果第一确定结果指明所述音频信息与所述字符串的发音不匹配，则判断单元640可以判断所述待验证对象不是活体人脸。例如，在攻击者采用视频和动画进行攻击的情况中，视频或动画中的音频信息通常与随机生成的字符串的内容不一致，所以音频获取单元650和第二匹配单元可以确定所述音频信息与所述字符串的发音不匹配，从而识别出仿冒者的攻击。音频信息的处理相对简单迅速，因此可以初步筛选攻击者。在所述音频信息与所述字符串的发音相匹配时，动作识别单元620和第一匹配单元630操作以确定面部动作是否与字符串的发音相匹配。此外，为了加强处理速度，动作识别单元620和第一匹配单元630操作也可以与音频获取单元650和第二匹配单元同时地操作。
[0082]在第二确定结果指明所述音频信息与所述字符串的发音相匹配的情况下，判断单元640再根据第一确定结果进一步识别待验证对象是否为活体人脸。具体地，如果第一确定结果指明所述面部动作与所述字符串的发音相匹配，则判断单元640判断所述待验证对象是活体人脸；如果第一确定结果指明所述面部动作与所述字符串的发音不匹配，则判断单元640判断所述待验证对象不是活体人脸。因此，进一步增强了验证活体人脸的准确度和效率。
[0083]图9是示意性图示了根据本公开实施例的另一用于验证活体人脸的设备900的框图。如图9所示，用于验证活体人脸的设备900可包括存储器910、处理器920。存储器910上存储有计算机程序代码。处理器920执行所述程序代码以实现结合图2至图4描述的用于验证活体人脸的方法。
[0084]存储器910可以包括只读存储器和随机存取存储器中的至少一个，并向处理器920提供指令和数据。存储器910的数量可以为一个或多个，其例如可以为易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(R0M)、硬盘、闪存等。该存储器910还可以存储所采集的图像信息、音频信息等。
[0085]处理器920可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)JI成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者任何常规的处理器等。
[0086]尽管未示出，用于验证活体人脸的设备900还可以包括输入装置、输出装置、通信装置和图像采集器，这些组件通过总线系统和/或其它形式的连接机构互连。输入装置可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述指令例如是使用下述摄像头拍摄图像的指令。输出装置可以向外部(例如用户)输出各种信息，其例如向待验证对象呈现所生成的字符串，并且可以包括显示器、扬声器等中的一个或多个。通信装置可以通过网络或其它技术与其它装置(例如个人计算机、服务器、移动台、基站等)通信，所述网络可以是因特网、无线局域网、移动通信网络等，所述其它技术例如可以包括蓝牙通信、红外通信等。图像采集器可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在存储器910中以供其它组件使用。输入装置、输出装置、通信装置和图像采集器可以根据需要适当地进行选择和组合。
[0087]除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，用于验证活体人脸。该计算机程序产品包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令可由处理器执行以使得所述处理器执行如下操作:随机地生成字符串并呈现给待验证对象；识别所述待验证对象的面部动作；确定所述面部动作是否与所述字符串的发音相匹配，得到第一确定结果；基于所述第一确定结果判断所述待验证对象是否是活体人脸。具体的操作可以参见上面结合图2 - 4进行的描述。
[0088]此外，所述计算机程序指令还使得所述处理器执行如下操作:

完整全部详细技术资料下载

当前第4页1 2 3 4 5