基于音型像特征的真人活体身份验证方法与流程

文档序号：12064247阅读：564来源：国知局

本发明涉及一种身份验证方法，尤其涉及一种基于音型像特征的真人活体身份验证方法。

背景技术：

随着信息技术和网络技术的迅猛发展，人们对身份识别技术的需求越来越多，对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处，而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性，但是传统单一的人脸识别、声纹识别和指纹识别只能保证人的特征能够被有效验证，不能保证操作者是本人，而导致利用照片、指纹膜和录音犯罪的案件经常见诸报端。

这种基于单一生物特征的身份识别技术由于其自身的局限性如传感器噪声、以及身份照片造假、使用录像录音等使得这项技术安全性大大降低，实际应用起来存在困难。

因此，有必要提供一种新的真人活体身份验证方法来解决上述问题。

技术实现要素：

本发明的目的在于提供一种能够融合多种生物特征同时验证本人和活体身份、不需要与操作者直接接触的基于音型像特征的真人活体身份验证方法。

为了实现上述目的，本发明所采用的技术方案如下：

一种基于音型像特征的真人活体身份验证方法，包括以下步骤：

设置人脸识别数据库、声纹识别数据库、唇形识别数据库和语音识别数据库；

采集操作者读取预设内容时的视频信息和音频信息；

根据所述视频信息提取人脸图像信息与人脸识别数据库中的数据相比对或/和根据所述音频信息提取声纹信息与声纹识别数据库中的数据相比对，若比对成功，操作者是本人，否则操作者不是本人；

根据所述视频信息提取唇形图像信息与唇形识别数据库中的数据先识别，后与随机产生的语义相比对或/和根据所述音频信息提取语音信息与活体识别数据库中的数据先识别，后与随机产生的语义相比对，若比对成功，操作者是智能活体，否则操作者不是智能活体；

若操作者是本人和活体，身份验证成功，即该操作者确实是本人的真人智能活体；否则身份验证失败；

根据所述的视频信息提取连续人脸图像，通过算法识别出操作者的表情变化，判断是否是活体；

根据所述的音频信息，提取音频特征，根据情感数据库，识别操作者的情感，情感识别分为高兴、兴奋、正常、愤怒和恐惧，当操作者的情感识别为高兴或正常时，验证通过；当操作者的情感识别为其他三种状态时，跳出验证；

若操作者是本人和智能活体、且为正常情感时，身份验证成功，即该操作者确实是具有正常情感的真人智能活体；否则身份验证失败。

优选的，所述人脸识别数据库包括人脸模板库，所述人脸模板库包括真人人脸图像信息，所述人脸模板库中的真人人脸图像信息与提取到的操作者的人脸图像信息进行人脸识别比对，若比对成功，操作者是本人，否则操作者不是本人。

优选的，所述人脸识别主要包括以下步骤：人脸检测、人脸跟踪、图像质量分析、人脸图像预处理、人脸特征提取及人脸比对识别。

优选的，所述声纹识别数据库包括真人声纹信息，所述声纹识别数据库中的真人声纹信息与提取到的操作者的声纹信息进行声纹识别比对，若比对成功，操作者是本人，否则操作者不是本人。

优选的，所述声纹识别主要包括以下步骤：语音预处理、提取每一帧语音信号的特征参数及使用分类器对提取的参数进行分类，识别出说话人。

优选的，所述唇形识别数据库包括标准唇形图像信息，所述唇形识别数据库中的标准唇形图像信息与提取到的操作者的连续唇形图像信息进行唇形识别出语义，后于随机产生语义比对，若比对成功，操作者是智能活体，否则操作者不是智能活体。

优选的，所述唇形识别主要包括以下步骤：图像预处理、唇部定位、嘴唇轮廓提取、唇部轮廓跟踪、唇部轮廓特征提取、特征分类和唇形比对识别。

优选的，所述语音识别数据库包括标准语音信息，所述语音识别数据库中的标准语音信息与提取到的操作者的语音信息进行语音识别出语义，后于随机产生语义比对，若比对成功，操作者是智能活体，否则操作者不是智能活体。

优选的，所述语音识别主要包括以下步骤：语音预处理、语音特征提取、特征模式识别和输出语音识别结果。

优选的，所述预设内容包括语音信息或者文字信息，所述文字信息包括文字、字母和数字中的任意一种字符或任意组合字符。

与现有技术相比，本发明基于音型像特征的真人活体身份验证方法的有益效果在于：本发明能够采用人脸识别或音频识别来判断操作者是否为本人，采用唇形识别或者语音识别来判断操作者是否为活体，即融合多种生物特征来验证真人活体身份，识别效率高；识别过程不需要与操作者直接接触，不受外界因素的限制，容易接受，便于推广应用，适应性强；对硬件要求低，容易的在各种终端设备上使用；有视频信息和音频信息，追踪入侵能力强。

附图说明

图1为本发明所述人脸识别的流程框图；

图2为本发明所述声纹识别的流程框图；

图3为本发明所述唇形识别的流程框图；

图4为本发明所述语音识别的流程框图；

图5为本发明所述的情感识别的流程框图

图6为本发明的应用终端的工作流程图。

具体实施方式

下面结合具体实施例对本发明进一步进行描述。

一种基于音型像特征的真人活体身份验证方法，包括以下步骤：

设置人脸识别数据库、声纹识别数据库、唇形识别数据库和语音识别数据库；

采集操作者读取预设内容时的视频信息和音频信息，所述预设内容包括语音信息或者文字信息，所述文字信息包括文字、字母和数字中的任意一种字符或任意组合字符；

根据所述视频信息提取唇形图像信息与唇语识别数据库中的数据相比对，识别出唇语的语义，并与随机产生的语义相比对或/和根据所述音频信息提取语音信息与语音识别数据库中的数据相比对，识别出语音的语义并与随机产生的语义相比对，若比对成功，操作者是智能活体，否则操作者不是智能活体；

根据所述的视频信息提取连续人脸图像，通过算法识别出操作者的表情变化，判断是否是活体；

若操作者是本人和智能活体、且为正常情感时，身份验证成功，即该操作者确实是具有正常情感的真人智能活体；否则身份验证失败。

在本发明一实施例中，所述人脸模板库中的真人人脸图像信息与提取到的操作者的人脸图像信息进行人脸识别比对，若比对成功，操作者是本人，否则操作者不是本人。

请参阅图1所示，人脸识别主要包括以下步骤：人脸检测、人脸跟踪、图像质量分析、人脸图像预处理、人脸特征提取及人脸比对识别。人脸图像预处理把人脸图像做色阶、对比度、色彩平衡、锐化、降噪、去模糊、直方图均衡化、超解析等方法进行增强。人脸检测算法提取人脸的特征，后使用adboost级联分类器对其进行分类，提取到人脸的人脸部位，对提取的人脸使用图像跟踪算法，对人脸进行跟踪，确保是同一人，并优选多幅高质量图片，从人脸照片中提取用于人脸识别的特征，并用主成份分析算法对数据进行降维处理，形成人脸特征向量，使用分类算法识别出人脸身份。

在本发明另一实施例中，所述声纹识别数据库中的真人声纹信息与提取到的操作者的声纹信息进行声纹识别比对，若比对成功，操作者是本人，否则操作者不是本人。

请参阅图2所示，声纹识别主要包括以下步骤：语音预处理、提取每一帧语音信号的特征参数及使用分类器对提取的参数进行分类，识别出说话人。语音预处理是对输入的语音数据序列（PCM 码流）进行分帧，计算各帧语音数据的累积能量，提取到具有信息的语音数据，对具有信息的语音数据通过高通滤波器预加重处理，将处理后语音信号划分为一个一个的短时段，然后再将每帧乘上窗函数，以增加每帧左端和右端的连续性，对分帧加窗后的各帧信号进行变换得到各帧的频谱，根据频谱提取每段的语音的特征向量，有特征向量根据深度神经网络或其他分类器和模板库识别声纹身份。

在本发明一实施例中所述唇形识别数据库中的标准唇形图像信息与提取到的操作者的唇形图像信息进行唇形识别比对，若比对成功，操作者是智能活体，否则操作者不是智能活体。

请参阅图3所示，唇形识别主要包括以下步骤：图像预处理、唇部定位、嘴唇轮廓提取、唇部轮廓跟踪、唇部轮廓特征提取、特征分类和唇形比对识别。嘴唇定位是在上述的人脸检测定位的人脸图像区域中，根据嘴唇部位颜色的先验知识区分出唇部和肤色，并增强嘴唇区域色彩,利用二值化图像完成唇部的粗定位,再结合唇色模型实现唇部精定位。嘴唇轮廓提取是通过数学形态学处理，提取出唇部的初始曲线，然后通过基于轮廓提取方法提取出唇部的轮廓曲线。唇部轮廓跟踪采用光流法或meanshift对序列图像进行跟踪,并对下一帧初始轮廓进行预测，提取唇部轮廓的特征点集矢量，根据特征矢量和训练模板库，利用人工智能分类算法进行唇语的识别。

在本发明另一实施例中，所述语音识别数据库中的标准语音信息与提取到的操作者的语音信息进行语音识别比对，若比对成功，操作者是智能活体，否则操作者不是智能活体。

请参阅图4所示，语音识别主要包括以下步骤：语音预处理、语音特征提取、特征模式识别和输出语音识别结果。提取每一帧语音信号的特征参数，使用分类器对提取的参数进行分类，识别出说话人。语音预处理是对输入的语音进行分帧，计算各帧语音数据的累积能量，提取到具有信息的语音数据，使用隐马尔可夫模型构建一个状态网络，从状态网络中寻找与声音最匹配的路径，构造单词级网络，展开成音素网络和状态网络。然后在状态网络中搜索一条最佳路径，这条路径和语音之间的概率最大。使用算动态规划剪枝的搜索算法，用于寻找全局最优路径，根据状态转移识别出当前语音内容。

请参阅图5所示，情感识别主要包括以下步骤：语音预处理、特征参数提取、特征参数和五种情感参数比较、分类器进行分类、情感状态识别结果输出。首选对语音信号进行预处理，然后对预处理后的语音信号提取特征参数，提取后的特征参数和五种基础情感参数比较，然后通过分类器对特征参数进行分类，确定特征参数对应的情感状态参数，最后输出情感状态识别结果。

本发明相对于现有的生物识别技术具有以下优点：

1.采用非接触式的识别技术，使用方便；

2.在特殊情况下可以使用，例如聋哑人可以用唇形识别和人脸识别，人脸损害人员可以用声纹识别和声音识别，所以几乎对任何人通用，不受外界因素的限制，适应性强；

3.对硬件要求低，容易在各种终端设备上使用，便于推广应用；

4.有视频信息和音频信息，追踪入侵能力强；

5.融合多种生物特征来验证真人活体身份，能够灵活配置这些特征的使用，解决了现有单一生物特征识别不能保证真人、活体的问题，提高了真人活体验证的可靠性；

6.智能活体验证保证了活体是在理智的情况下进行身份验证，解决了以往醉酒、精神异常情况下的金融诈骗案件的发生。

本发明可广泛使用于移动终端和控制系统上，例如移动终端支付系统、银行的自助发卡机、银行ATM机、火车站自动进站验证、机场自动进站验证、边检站自动通关系统以及公安的公共安全、安防监控、反恐刑侦等。移动终端负责摄像和音频的输入，并对人脸识别、声纹识别、唇语识别和语音识别的预处理，将提取到的上述识别特征传输至后台服务器，后台服务器通过人工智能识别算法逐一对上述生物特征进行识别验证。

在具体应用时，本发明能够灵活设计验证方式，可以根据客户要求自行设置验证级别，将验证级别分为一般安全验证等级、中等安全验证等级和高等安全验证等级这三种等级，各等级的验证成功的标准如下：

一般安全验证等级：同时通过人脸识别、唇语识别、声纹识别、声音识别、表情变化识别、情感状态识别中的任意三种识别。

中等安全验证等级：同时通过人脸识别、唇语识别、声纹识别、声音识别、表情变化识别、情感状态识别中的任意四种识别。

高等安全验证等级：同时通过人脸识别、唇语识别、声纹识别、声音识别、表情变化识别、情感状态识别这六种识别。

请参考图6所示，为更好的说明本发明基于音型像特征的真人活体身份验证方法，本发明真人身份验证方法应用于具有高等安全验证等级的终端上，所述终端配置有用于录制视频的摄像头和用于录制音频的麦克风，终端的具体工作流程如下：

A准备：开启程序；

B启动摄像头和麦克风：启动终端设备的摄像头和麦克风，进入准备摄像和记录声音；

C随机文字显示：在语音和屏幕显示文字朗读和显示要阅读的文字；

D阅读上述文字：根据上步语音和屏幕的显示文字，阅读这些文字，摄像头记录阅读视频，麦克风记录音频；

E人脸识别：系统在视频中检测人脸，并对其进行识别，如果不是操作者，则跳出验证；

F唇语识别：根据视频中操作者口型的变化，分析唇语是否正确，判断是否为活体，如果唇语不正确，跳出验证；

G声纹识别：根据操作者的音频文件，分析该操作者的声纹是否是其本人，如果不是操作者本人，跳出验证；

H语音识别：根据操作者的音频文件，截取操作者的语音片段，分析操作者的语音信息是否与随机文字一致，不一致则说明播放录音，不是具有智能的活体，跳出验证；

I微表情识别，根据操作者的音频文件，提取连续人脸图像，通过算法识别出操作者的表情变化，判断是否是活体，不是活体，跳出验证；

J情感识别，根据操作者的音频文件，截取操作者的语音片段，分析操作者的语音信息，提取音频特征，根据情感数据库，识别操作者的情感，情感识别分为高兴、兴奋、正常、愤怒和恐惧，当操作者的情感识别为高兴或正常时，验证通过；当操作者的情感识别为其他三种状态时，跳出验证。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓庆平;许方
技术所有人：优化科技（苏州）有限公司
我是此专利的发明人

上一篇：基于远红外的手势判断系统及判断方法与流程
上一篇：饮食信息监控方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。