基于声纹识别的互联网反欺诈认证方法与流程

文档序号:11654742阅读:279来源:国知局
基于声纹识别的互联网反欺诈认证方法与流程

本发明设计计算机软件安全认证技术领域,尤其涉及一种基于声纹识别的互联网反欺诈认证方法。



背景技术:

随着计算机技术的发展,越来越多的数据处理是通过智能终端和互联网完成的,例如网上银行、手机银行、各种在线支付平台。这些在线数据处理平台不仅提高了金融数据处理效率,也极大地方便了使用者。但是随之产生的互联网金融欺诈也随之产生,带来了很大的安全隐患。

现有技术中在互联网金融数据传输前都必须进行安全认证,一般来说安全认证可以包括以下的一种或多种:

a、身份识别,一般为用身份证、银行卡、手机号等信息定位到一个自然人。

b、行为风险,通过在线监控用户的异常行为,甄别可能出现的欺诈事项。

c、黑名单系统,通过日积月累的异常用户数据,对申请用户进行撞库操作,如命中黑名单系统则判定为欺诈用户

d、征信系统,通过用户的个人征信得分,区分用户质量,并根据自身业务需要,排除掉一些征信得分异常的用户。

e、积累用户行为数据,并对比正常用户和异常用户的直接的行为特征,进行正负例建模,发现和生成反欺诈规则。

而现有的主流反欺诈技术中的身份识别环节相对薄弱,尤其在互联网金融场景下,伪造身份证和电话号码的成本相对较低,容易造成用户识别的错判,从而导致后续的反欺诈系统完全失效。



技术实现要素:

针对现有技术中用于对互联网金融进行身份认证时存在的对身份认证不够完善的上述问题,本发明实施例提出了一种基于声纹识别的互联网反欺诈认证方法。

为了解决上述问题,本发明实施例提出了一种基于声纹识别的互联网反欺诈认证方法,包括:

声纹提取步骤,用于对用户提交的声音进行分析以获取该声音的mfcc特征。

模型训练步骤,用于对声音数据库中的多个用户提交的声音的mfcc特征进行训练以获取声音的gmm模型,并通过该gmm模型对每一用户的声音进行识别以获取每一用户的声音特征。

认证步骤,用于在用户进行认证时获取用户的声音,并从所述声音中提取出mfcc特征,然后利用获取的gmm模型对该声音进行识别以获取该声音的声音特征,利用该声音特征与声音数据库中的声音特征进行对比以进行认证。

其中,所述声纹提取步骤具体包括:

获取用户提交的声音,对所述声音进行处理以获取其mfcc特征;对获取的mfcc特征进行标准化处理并去除空音声段;其中所述mfcc特征包括以下的至少一种:

pre-emphasiscoefficient:0.97;numberofcepstralcoefficients:19;usemelfrequencyscale;numberoffiltersinthefilter-bank:24;lifteringvalue22;addlog-energy;addfirstorderderivatives;addsecondorderderivatives。

其中该mfcc特征的预增强系数为0.97;且利用mel方法做频道增强,采用了24组滤波器,且该mfcc特征中包括了增加的能量log项,以及1阶导和2阶导。

其中,所述声纹提取步骤具体包括:

获取每一声音的多维度的mfcc特征,并将mfcc特征的每一维度作为符合高斯分布的数据,利用ubm模型来进行训练以获取同一信道下的多个用户的声音。

利用gmm模型对获取的多个用户的声音进行训练,训练目标为最优化一种高斯混合分布的联合概率;采用em法求解到一个最优状态,从该最优状态提取每个特征的量化权重以实现对不同用户的声音进行识别。

其中,所述声纹提取步骤具体还包括:在传统的ubm方案基础上增加了隐藏层网络,使备选特征映射到更高维空间寻找分类通道;具体包括:

隐藏层网络是在语音抽取的d维特征矢量基础上,加入一个全连接的隐藏层,即隐藏层结点ai=,加入约束项使得原来的变成转变为,其中是隐藏层系数,并约束隐藏层后的输出项符合高斯分布,单隐藏结点输出函数用softmax,对于原有d为特征矢量的优化转化为对隐层网络ai的训练;采用ubm方案中的em算法,推导隐藏网络系数ai的迭代公式,即可实现在更高维空间的求解。

其中,所述模型训练步骤还包括:

在获得训练后的特征向量后,对声音数据库内所有用户的声音进行处理以获取声纹基准;其中声音相似度得分进行高斯标准化后,给出最终相似度值。

其中,所述声音数据库内的用户的声音根据其声纹的键值分段存储。

其中,所述方法还包括:

在系统空闲时间对声音数据库内的声音重新执行模型训练步骤以对ubm模型进行更新,并对gmm模型进行更新。

本发明的上述技术方案的有益效果如下:上述的技术方案提出了一种基于声纹识别的互联网反欺诈认证方法,能够通过声纹进行认证以提高系统的安全性。

附图说明

图1是本发明实施例中用户注册时的流程示意图;

图2是本发明实施例中的模块步骤的流程示意图;

图3是本发明实施例中的模型更新的流程示意图;

图4是声音检索的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

如图1-图4所示的,本发明实施例提出的基于声纹识别的互联网反欺诈认证方法包括:

声纹提取步骤,用于对用户提交的声音进行分析以获取该声音的mfcc(mel-frequencycepstralcoefficients梅尔频率倒谱系数)特征。

模型训练步骤,用于对声音数据库中的多个用户提交的声音的mfcc特征进行训练以获取声音的gmm模型,并通过该gmm模型对每一用户的声音进行识别以获取每一用户的声音特征。

认证步骤,用于在用户进行认证时获取用户的声音,并从所述声音中提取出mfcc特征,然后利用获取的gmm模型对该声音进行识别以获取该声音的声音特征,利用该声音特征与声音数据库中的声音特征进行对比以进行认证。

其中,所述声纹提取步骤具体包括:

获取用户提交的声音,对所述声音进行处理以获取其mfcc特征;对获取的mfcc特征进行标准化处理并去除空音声段;其中所述mfcc特征包括以下的至少一种:

pre-emphasiscoefficient:0.97;numberofcepstralcoefficients:19;usemelfrequencyscale;numberoffiltersinthefilter-bank:24;lifteringvalue22;addlog-energy;addfirstorderderivatives;addsecondorderderivatives。

其中该mfcc特征的预增强系数为0.97;且利用mel方法做频道增强,采用了24组滤波器,且该mfcc特征中包括了增加的能量log项,以及1阶导和2阶导。

其中,所述模型训练步骤包括:

获取每一声音的多维度的mfcc特征,并将mfcc特征的每一维度作为符合高斯分布的数据,利用ubm模型(universalbackgroundmodel)来进行训练以获取同一信道下的多个用户的声音。

利用gmm模型(gaussianmixturemodel,高斯混合模型)对获取的多个用户的声音进行训练,训练目标为最优化一种高斯混合分布的联合概率;采用em法求解到一个最优状态,从该最优状态提取每个特征的量化权重以实现对不同用户的声音进行识别。

本方案在传统的ubm方案基础上增加了隐藏层网络,使备选特征映射到更高维空间寻找分类通道,从而解决了海量用户同时使用时的区分度问题。具体而言,隐藏层网络是在语音抽取的d维特征矢量基础上,加入一个全连接的隐藏层,即隐藏层结点ai=,加入约束项使得原来的变成转变为,其中是隐藏层系数,并约束隐藏层后的输出项符合高斯分布,单隐藏结点输出函数用softmax,对于原有d为特征矢量的优化转化为对隐层网络ai的训练。优化方法依然采用ubm方案中的em算法,推导隐藏网络系数ai的迭代公式,即可实现在更高维空间的求解。

做映射的设计主要是基于系统对海量声音文件检索的需求。传统ubm系统下,会带来检索返回结果过多,无法确认最终命中人以及是否有命中。与上述ubm方案的设计一致,gmm加入了同ubm的隐藏层,并将最终提取的声纹输出为隐藏层特征项。为了保证海量搜索时的效率问题,我们对声纹做了进一步压缩,解决了隐藏层参数过多带来的搜索效率低下问题。经过反复优化后,我们用模拟数据测试了后台检索性能,在存储千万级声纹编码后,检索效率依然可以做到50ms内返回。大大提升了系统在在线场景下的可用性。

其中,所述模型训练步骤还包括:

在获得训练后的特征向量后,对声音数据库内所有用户的声音进行处理以获取声纹基准;其中声音相似度得分进行高斯标准化后,给出最终相似度值。

其中该声纹基准可以作为用户认证的基础。在接受到新用户的注册申请时,可以通过新用户的声音与现有的所有用户的声纹基准进行对比以防止重复注册;当接受到用户的认证申请时,可以通过该户的声音与现有的所有用户的声纹基准进行对比以确定是否为声音数据库中已注册的用户。

其中,所述声音数据库内的用户的声音根据其声纹的键值分段存储。

其中,所述方法还包括:

在系统空闲时间对声音数据库内的声音重新执行模型训练步骤以对ubm模型进行更新,并对gmm模型进行更新。

本发明具有以下优势:

1、增加声音维度,丰富用户标识信息。

2、防范机器申请,增加欺诈成本。

3、防范同人反复申请。

下面通过一个具体的例子对本发明实施例的技术方案进行进一步说明:

a、声纹提取方案。声纹提取采用主流的提取mfcc的方案,提取出mfcc后对特征进行标准化处理,并去除空音声段;最后用backgroundmodel训练背景ubm模型,然后训练出说话者识别的gmm模型,并对声纹数据库中的声音文件对比建模,识别出每个人的声纹特性;声纹检索通过对声纹进行索引化,实现索引排序的毫秒级返回。mfcc提取的参数:pre-emphasiscoefficient:0.97,numberofcepstralcoefficients:19,usemelfrequencyscale,numberoffiltersinthefilter-bank:24,lifteringvalue22,addlog-energy,addfirstorderderivatives,addsecondorderderivatives。具体就是提取了19维mfcc特征,预增强系数0.97,用了mel方法做频道增强,用了24组滤波器,增加了能量log项,增加了1阶导和2阶导。

b、ubm模型,用大量的用户声音文件,训练一个背景的ubm声纹模型。具体来讲,背景声音库中采集了约20000人的声音文件,每个人都有一段2-3分钟的说话录音,训练模型用于提取出可以区别出每个人的特征mfcc特征属性。即将a步骤中的19维mfcc特征,每一维认为符合高斯分布,加入模型后进行训练。ubm模型训练方法与下面c中的gmm模型相同,只是作为无监督的学习方案,训练同一信道下所有人的语音数据。本方案在传统的ubm方案基础上增加了隐藏层网络,使备选特征映射到更高维空间寻找分类通道,从而解决了海量用户同时使用时的区分度问题。做映射的设计主要是基于系统对海量声音文件检索的需求。传统ubm系统下,会带来检索返回结果过多,无法确认最终命中人以及是否有命中。

c、gmm模型,高斯混合分布模型,用于训练说话者相关模型。训练目标为最优化一种高斯混合分布的联合概率,采用em法求解到一个最优状态,从该最优状态提取每个特征的量化权重,用这些量化权重实现对每个说话人的甄别。与上述ubm方案的设计一致,gmm加入了同质的隐藏层,并将最终提取的声纹输出为隐藏层特征项。为了保证海量搜索时的效率问题,我们对声纹做了进一步压缩,解决了隐藏层参数过多带来的搜索效率低下问题。经过反复优化后,我们用模拟数据测试了后台检索性能,在存储千万级声纹编码后,检索效率依然可以做到50ms内返回。大大提升了系统在在线场景下的可用性。

d、检索得分,通过训练后的特征向量,对所有库内待校验的用户声音数据进行重新生成,作为待匹配的声纹特征入库。声纹特征作为可对比相似度的用户标识,可用于评估新用户与库内用户的声纹相似度,通过优化设计的搜索方案,可实现毫秒级的搜索返回。相似度得分采用znorm方案实现,即对得分进行高斯标准化后,给出最终得分值。

e、检索设计,由于后台用户的声音数据会随着业务申请量日积月累,因此检索需考虑时间效率。检索系统设计为按照声纹分段做键值的分布式存储方案,针对新用户的申请,可先根据声纹前缀映射到后台的数据库子集,再进行暴力匹配。后台设计为20台服务器并行索引,可大大提高响应速度。预估在后台数据1000万的情况下,单位响应时间为200ms左右。考虑可并行的设计,系统可承受的每秒申请量为100qps。

f、迭代设计,由于训练后台ubm模型需要大量的用户数据,训练时间较长,且少量样本更新时,训练ubm数据对系统的增益并不大,所以ubm模型按照日更新,用晚上时间去更新模型。同时,为了实现近似实时级别的监控,对于每日新增的用户数据,设计每10分钟重新训练一个当天用户的gmm模型,这样可以有效防控短时间内反复机器申请的情况。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1