一种基于声纹二维码的安全认证方法

文档序号：9397892阅读：665来源：国知局

一种基于声纹二维码的安全认证方法
【技术领域】
[0001] 本发明属于二维码编解码技术和声纹识别技术领域，具体涉及一种基于声纹二维码的安全认证方法。
【背景技术】
[0002] 二维码（Two-dimensional code)，又称二维条码，它是用特定的几何图形按一定规律在平面（二维方向）上分布的黑白相间的图形，是所有信息数据的一把钥匙。我国对二维码技术的研究开始于1993年。中国物品编码中心对几种常用的二维码roF417、QRCCode、 Data Matrix、Maxi Code、Code 49、Code 16K、Code One 的技术规范进行了翻译和跟踪研究。
[0003] 声纹识别（Voiceprint Recognition, VPR)，也称为说话人识别（Speaker Recognition)，有两类，即说话人辨认（Speaker Identification)和说话人确认（Speaker Verification)。说话人辨认用以判断某段语音是若干人中的哪一个所说的，是"多选一" 问题；而说话人确认用以确认某段语音是否是指定的某个人所说的，是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的"训练"或"学习"过程。
[0004] 传统票据验证需要人工核对，例如火车票验票，要工作人员先验票、验身份证，之后再对比身份证照片和人脸，进而判断是否为车票所有者本人，验证过程费时、费力，并且存在验证过程安全性不高的问题。

【发明内容】

[0005] 本发明针对目前纸质票据验证安全性不足、验证费时费力的缺点，以更方便应用于对安全性有较高要求的临时身份认证场景，提供了一种基于声纹二维码的安全认证方法。
[0006] 本发明提供的基于声纹二维码的安全认证方法，包括如下步骤：
[0007] 步骤1，声纹二维码编码，具体是：用户进行多次语音输入，提取语音的声纹特征；利用提取的声纹特征训练生成用户的声纹模型；将声纹模型的参数进行数据压缩并生成二维码；
[0008] 步骤2,用户使用声纹二维码作为身份凭证购票，购票成功后返回带有声纹二维码及所购票信息的电子或纸质票据，验票时输入收到的声纹二维码进行识别；
[0009] 步骤3,在用户的声纹二维码凭证有效的情况下，用户进行语音输入，对用户输入的语音提取声纹特征，并与用户的声纹模型进行相似性比较，判断用户是否为本人。
[0010] 步骤1中所述的提取语音的声纹特征，对语音信号依次进行如下处理：对输入的语音信号进行预加重，对预加重后的语音信号进行交叠式的分帧，对分帧后的语音信号进行加窗，对语音进行端点检测，识别出语音的开始段、噪声段和结束段；再对处理后的语音信号提取声纹特征。
[0011] 本发明的优点与积极效果在于：（1)本发明声纹二维码的概念，能够有效地解决传统票据或凭证（例如火车票、门票等）验证过程安全性不高的问题。（2)本发明相对于传统临时身份验证方法，使用过程简单，自然，并且能够进行大规模的自动化，可以省去人工验证过程，并且能提高验证效率。（3)本发明相对于传统票据而言，更具有通用性，该声纹二维码可以用在所有需要进行身份验证的场景下，并且成本低廉，只需要图像采集设备和语音输入设备。
【附图说明】
[0012] 图1为本发明的基于声纹二维码的安全认证方法的整体流程示意图；
[0013] 图2为本发明方法在火车票购票和验票的场景下应用的流程示意图；
[0014] 图3为本发明编码生成声纹二维码的流程示意图；
[0015] 图4为本发明利用声纹二维码进行识别与验证的流程示意图；图5为本发明步骤3用户输入语音进行声纹验证的流程示意图。
【具体实施方式】
[0016] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0017] 本发明提供的基于声纹二维码的安全认证方法，主要包括两部分：声纹二维码编码；声纹二维码识别与验证。声纹二维码编码是：通过多次录制用户的语音进行训练，产生用户的声纹模型，并将该模型通过压缩编码生成声纹二维码。该声纹二维码即作为该用户固定的身份凭证，在其他业务系统（如火车票购票系统）需要记录用户身份凭证时进行发送。声纹二维码识别与验证是：在用户需要进行身份验证时，用户首先通过声纹二维码扫描，获得用户声纹信息。如果用户的声纹二维码在系统中有记录，则证明持有该声纹二维码 (如电子或纸质火车票上的声纹二维码）的用户具有合法身份。之后系统提示用户进行声纹输入，系统将输入声纹与从声纹二维码中解析出的声纹进行相似性验证，并给出得分。如果得分大于既定阈值，则该用户为合法用户。否则该用户非法。通过二维码和声纹的两步的验证，系统能够为有高安全性要求的临时身份验证的场景（如火车票验票、贵重物品签收等），提供通用的快捷、安全的认证方式。
[0018] 本发明的基于声纹二维码的安全认证方法，如图1所示。下面将结合在图2所示的在火车票购票和验票的场景对各步骤进行说明。
[0019] 步骤1，用户进行多次语音输入，对语音进行处理生成声纹二维码。生成声纹二维码的过程如图3所示。步骤1的实现步骤分为步骤I. 1~步骤1. 3。
[0020] 步骤1. 1，用户进行多次语音输入，提取语音的声纹特征。设用户通过语音输入设备进行M次的语音输入，M多1。提取语音声纹特征的过程如图3所示，包括步骤I. I. 1~ 步骤I. 1. 5。
[0021] 步骤1. 1. 1，对输入的语音信号进行预加重，所述预加重过程是通过高通滤波器来完成，目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。高通滤波器在z域的传递函数H(Z)如下：
[0022] H(z) = l_az 1 (1)
[0023] 通过一阶有限长冲激响应（FIR)高通数字滤波器来实现预加重，设η时刻的语音采样值为S1(Ii)，η-1时刻的语音采样值为S1(Ii-I)，S(η)为预加重之后的语音信号，a为预加重系数，〇. 9〈a〈l. 0均可，本发明实施例中取a = 0. 98。
[0024] 对信号预加重处理后的结果如下：
[0025] S (n) = S1 (n)-BXS1 (n-1) (2)
[0026] 步骤I. I. 2,对预加重后的语音信号进行交叠式的分帧。
[0027] 将语音信号分帧是为了将信号分成若干段来处理，每一段称为一"帧"。本发明采用的是交叠式分帧，即前后两帧会产生交叠，即帧移。
[0028] 步骤1. 1.3,对分帧后的语音信号进行加窗，加窗可以选取但不限于汉明 (Hamming)窗等方式。本发明实施例中采用汉明窗对信号进行加窗。
[0029] 分帧后将会产生频谱泄漏，因此需要采用汉明窗对信号进行加窗。汉明窗具体如下：
[0031] 其中，w (η)为Hamming窗函数，N为帧长，通常取256,参数b = 0.46。
[0032] 假设预加重得到的语音信号为S (η)，则加窗后得到的语音信号S'（η)= S (η) X w (η) 〇
[0033] 步骤I. 1. 4,对语音进行端点检测，识别出语音的开始段、噪声段和结束段。可采用基于短时能量或者短时过零率等指标来进行端点检测。
[0034] 例如采用短时能量对语音信号进行端点检测，判断语音的开始和结束时刻。通过设定短时能量的高低阈值来判断语音的起始和结束段。当语音状态为静音态时，若信号的短时能量大于高阈值，则标记该时刻为起始时刻，进入语音状态。之后如果短时能量小于低阈值，且其持续时间小于最短时间阈值，则认为目前这段信号为一段噪声，继续处理后面语音，否则认为语音结束。所述第η帧的短时能量E (η)为：
[0036] 步骤I. 1. 5,提取用户语音的声纹特征，可以是梅尔倒谱系数或Ga_atone频率倒谱系数等能够标识用户声音特点语音特征。
[0037] 本发明实施例采用每一帧语音的梅尔倒谱系数对信号进行特征提取，针对每一帧语音X (η)，通过计算，得到16维梅尔倒谱系数（MFCC)。
[0038] 步骤1. 2,利用提取的声纹特征训练生成用户的声纹模型。
[0039] 通过用户语音的声纹特征进行用户声纹模型的建模。例如，使用期望最大（EM)算法训练高斯混合-通用背景模型（GMM-UBM模型），使用Layer-Wise算法训练深度信念网等方法得到不同形式的声纹模型。
[0040] 本发明实施例基于对得到的梅尔倒谱系数特征使用EM算法进行高斯混合模型 (GMM)的参数训练。得到

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋友;任红雷;张野;
技术所有人：北京航空航天大学;
我是此专利的发明人