一种联合声像信号进行活体检测的方法和系统的制作方法

文档序号：8512752阅读：424来源：国知局

一种联合声像信号进行活体检测的方法和系统的制作方法
【技术领域】
[0001] 本发明属于身份认证技术领域，具体涉及一种联合声像信号进行活体检测的方法和系统。
【背景技术】
[0002] 随着电子商务的发展，互联网交易的安全性成为了被日益关注的问题。特别是虚拟银行，虚拟证券等一系列金融平台的陆续推出，对互联网用户的身份认证，提出了更高的要求。
[0003] 传统的身份认证技术包括"指纹识别"，"声纹识别"，"人脸识别"等等，这些技术能够精确地辨别出用户的静态生物特征；但是一旦用户的指纹，声纹，脸部图像等信息被窃取，在虚拟的交易平台上，这些技术将无法甄别出是被窃取的用户信息。
[0004] 而活体检测，为传统的身份认证技术，提供了有利的补充。现有的活体检测技术包括"验证码输入"和"表情识别"。具体地：
[0005] 在基于"验证码输入"的活体检测系统中，系统随机分发一幅验证码（如字符串）图像，用户在辨认图像中的验证码之后，从键盘输入一串和该验证码一致的字符文本，然后提交给系统，进行活体验证。这项技术在其面世初期，因其简单有效，被广泛使用，但是随着 "光学字符识别（OCR) "的日益成熟，该技术已被逐渐破解。
[0006] 在基于"表情识别"的活体检测系统中，系统随机分发一个表情，用户需要完成一个相同的表情，通过网络摄像头，然后提交给系统，系统自动辨别用户的脸部表情，进行活体验证。这项技术和人脸识别相结合，通过交互性的视屏认证，提供了更为安全的身份甄另IJ。但是，本发明的发明人经过研宄发现，具有显著区分性的表情（即能被系统自动区分的表情），并且用户容易完成的表情数目是有限的，通常这些表情也是经常出现在用户的日常生活之中的，因此一旦用户的一段视屏被窃取，这项技术被破解的风险将大为提高；此外，如果使用"表情串识别"，减少因视频被窃取所带来的风险，对用户而言，连续输入多个表情也是不自然的，因而这种方式明显降低了用户界面的友好性。

【发明内容】

[0007] 针对现有技术中"表情识别"技术存在的因用户视频被窃取所带来的认证风险和连续输入多个表情会降低用户界面友好性的技术问题，本发明提供一种联合声像信号进行活体检测的方法，为当前的互联网交易提供了一个安全性能高且用户界面友好的身份认证技术。
[0008] 为了实现上述目的，本发明采用如下技术方案：
[0009] 一种联合声像信号进行活体检测的方法，该方法包括以下步骤：
[0010] S1、为在互联网交易中的用户，随机显示一幅验证码图像，提示用户阅读验证码；
[0011] S2、收集用户阅读验证码时的音频信号和唇形影像；
[0012] S3、通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致，如果一致，则通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息；
[0013] S4、基于所述用户阅读验证码时的时序信息，对所述唇形影像进行分割，获得用户阅读验证码时的唇形影像片段，比较该唇形影像片段与验证码标准唇形片段的相似度，如果该相似度大于指定的阈值，则通过活体检测。
[0014] 本发明提供的联合声像信号进行活体检测的方法，只需用户读出由活体检测系统随机分发的验证码（如字符串），然后借助于语音识别得到的用户阅读验证码时的阅读时序信息，准确识别出用户阅读验证码时的唇语，通过比较唇语与验证码的一致性，进行活体验证。和现有技术"表情识别"相比，在本发明提供的活体检测方法中，用户阅读的字符串，具有"表情"无法达到的多样性，基本上避免了因用户视频被窃取所带来的认证风险；此外，和"表情识别"相比，阅读字符串，对用户而言，提供了更为自然和友好的交互方式。
[0015] 进一步，所述步骤S2中收集用户阅读验证码时的唇形影像包括如下步骤：
[0016] S21、获取用户在阅读验证码时的视频信号；
[0017] S22、从每一帧视频信号中检测出用户的脸部区域，从检测出的脸部区域中使用 SDM算法进行人脸对齐及关键点提取，检测出用户的唇部区域，从而获得用户在阅读验证码时的唇形影像。
[0018] 进一步，所述步骤S3中通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致包括如下步骤：
[0019] S311、从每帧唇形影像中，使用SDM算法检测出唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；
[0020] S312、计算每帧唇形影像中，唇部关键点的位置坐标，作为描述当前帧唇形的静态特征；并计算每帧唇形影像中，唇部关键点在当前帧与前一帧的位移变化，作为描述当前帧唇形变化的动态特征；
[0021] S313、运用连续隐马尔科夫时间序列模型，逐帧解析每帧唇形影像，根据每帧唇形影像的静态特征及动态特征，判断出当前帧所对应的标准字符唇形以及在标准字符唇形中所处的时间状态，串联每帧的解析结果，即获得唇形影像所代表的唇语；
[0022] S314、判断从连续隐马尔科夫时间序列模型获得的置信度最高的前三条候补字符串是否与验证码一致，如果前三条候补字符串中任意一条与验证码一致，则所述唇形影像中检出的唇语与验证码一致。
[0023] 进一步，所述步骤S3中通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息包括如下步骤：
[0024] S321、从所述音频信号中提取每帧语音信号的MFCC特征以及MFCC特征在当前帧与前一帧的差分，分别作为描述每帧语音信号的静态特征及动态特征；
[0025] S322、运用连续隐马尔科夫时间序列模型，逐帧解析语音信号的静态特征及动态特征，判断出当前帧所对应的字符以及在该字符的标准语音信号中所处的时间状态，串联每帧的解析结果，即获得用户音频信号的语音识别；
[0026] S323、判断从连续隐马尔科夫时间序列模型获得的语音识别结果是否与验证码一致，如果一致，将用户音频信号的语音识别作为步骤S4中唇语验证的辅助信息并执行步骤 S324 ；
[0027] S324、将步骤S322中运用连续隐马尔科夫时间序列模型逐帧解析过程中获取的时间状态序列进行检测，获得用户在阅读每个字符时的起止时间信息，将以此作为用户阅读验证码时的时序信息。
[0028] 进一步，所述步骤S4具体包括如下步骤：
[0029] S41、基于语音识别获得的时序信息，根据每个验证码阅读时的起止时间信息，对唇形影像进行分割，获得用户阅读验证码时各字符对应的唇形影像片段；
[0030] S42、就各个分割的唇形影像片段，使用SDM算法检测出分割片段中每帧唇形影像的唇部关键点，并对唇部关键点进行旋转校正和尺度归一化；
[0031] S43、计算分割片段中每帧唇部关键点的位置坐标，作为描述该分割片段中每帧唇形的静态特征；并计算分割片段中每帧唇部关键点相对于前一帧的位移变化，作为描述该分割片段中每帧唇形变化的动态特征；
[0032] S44、运用单字级别的独立词隐马尔科夫时间序列模型，计算各个分割的唇形影像片段中，各帧唇形的静态特征和动态特征与该片段期望字符标准唇形间的相似度，如果该相似度大于指定的第一阈值，则执行步骤S45 ;
[0033] S45、联合所有两个相邻的分割唇形影像片段，作为双字符的唇形影像片段，运用双字级别的独立词隐马尔科夫时间序列模型，计算各个双字符唇形影像片段中，各帧唇形的静态特征和动态特征与该片段所期望双字符标准唇形间的相似度，如果该相似度大于指定的第二阈值，则通过活体检测。
[0034] 本发明还提供一种联合声像信号进行活体检测的系统，该系统包括：
[0035] 验证码显示模块，用于为在互联网交易中的用户，随机显示一幅验证码图像，提示用户阅读验证码；
[0036] 音频收集模块，用于收集用户阅读验证码时的音频信号；
[0037] 唇形收集模块，用于收集用户阅读验证码时的唇形影像；
[0038] 一级唇语验证模块，用于通过上下文模型从所述唇形影像中检出唇语，比较该唇语与验证码是否一致；如果一致，则执行语音识别模块；
[0039] 语音识别模块，用于通过语音识别从所述音频信号中获得用户阅读验证码时的时序信息；
[0040] 二级唇语验证模块，用于基于所述用户阅读验证码时的时序信息，对所述唇形影像进行分割，获得用户阅读验证码时的唇形影像片段，比较该唇形影像片段与验证码标准唇形片段的相似度，如果该相似度大于指定的阈值，则通过活体检测。
[0041] 本发明提供的联合声像信号进行活体检测的系统，只需用户读出由活体检测系统随机分发的验证码（如字符串），然后借助于语音识别得到的用户阅读验证码时的阅读时序信息，准确识别出用户阅读验

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李继伟;
技术所有人：常州飞寻视讯信息科技有限公司;
我是此专利的发明人

上一篇：一种基于双目立体视觉的人脸检测方法、装置及系统的制作方法
上一篇：智能车库门的指纹识别系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。