一种基于长窗比例因子的回放语音攻击检测算法

文档序号:10554014阅读:291来源:国知局
一种基于长窗比例因子的回放语音攻击检测算法
【专利摘要】本发明公开了一种基于长窗比例因子的回放语音攻击检测算法,它是针对现有攻击者利用回放语音进入说话人识别系统,造成合法用户的权益受到损害而研发的防回放语音攻击的检测算法,该检测算法能够有效识别不同来源的回放语音,检测准确率高,将该检测算法模块加载到GMM?UBM系统之后,提高了抵抗回放语音攻击的能力,使识别系统的等错误概率降低了32%,极大改善了识别系统的安全问题。
【专利说明】
一种基于长窗比例因子的回放语音攻击检测算法
技术领域
[0001] 本发明涉及回放语音攻击检测算法,具体是指一种基于长窗比例因子的回放语音 攻击检测算法。
【背景技术】
[0002] 在生物特征识别技术领域,说话人识别技术以其获取方便、拾音设备低廉、支持非 现场身份确认等优势,已开始逐步应用于金融、社保、普通生活等领域。但随着便携式、高保 真录音设备的普及,合法用户的密语在请求进入识别系统时极易被攻击者偷录成功。若攻 击者使用高保真音响回放偷录语音成功攻击认证系统,用户的安全和利益就会受到威胁, 财产损失或者信息泄露恐将难以避免,所以基于说话人识别系统的回放语音检测受到了业 界的广泛重视。
[0003] 目前识别系统应对回放语音攻击的方法主要有两种:1)用户需按照系统随机提示 的密语进行跟读;2)增加回放语音检测模块。第一种方法需要认证系统提前录制大量的样 本,另外,用户在认证时,转换语气会出现较高的漏检率,这均会使用户的体验度下降;而第 二种方法则无需用户的额外行为,可行性更高、用户体验更好。
[0004] 因此,相关领域的研究团队和学者也主要是在回放语音检测方面做工作,并提出 了一些用于区分原始语音和回放语音的方法。主要分为两类:第一类、基于语音产生随机性 的检测算法。对于同一语音内容,由于语音产生的随机性,两次合法语音的语谱图之间存在 一定相似度;然而由于回放语音来自于某一次偷录合法语音,所以回放语音与该合法语音 的语谱图之间的相似度更大。根据这一原理提出了一种于语谱图相似度的回放语音检测算 法,其判决规则如下:如果待测语音与合法语音的相似度大于某一阈值则判为回放语音;否 则判为原始语音。但该思路仅适用于文本相关系统,且随着认证次数的增多严重影响系统 的工作效率,在实际应用中并不适用。第二类、基于语音信道的检测算法,其包含两种方法, 第一种依据回放语音信道与原始语音信道存在的差异,以及利用静音段包含的相关信息, 提出了一种基于静音段MFCC特征检测待测语音信道方法,该算法对于静音段时间比较短的 语音不能获得稳定的特征;第二种通过分析各种电路器件引起原始语音和回放语音在对数 功率谱低频区的差异,提出基于信道模式噪声的录音回放攻击检测方法。这种解决办法虽 然解决了受限于文本,但是依然仅针对一种偷录设备。
[0005] 而根据现实情况,偷录设备可以为各种便携的录音设备,如高保真的智能手机或 录音笔,这些设备不仅便于携带且不易被人察觉。由于不同偷录设备的声卡、功率放大器、 A/D、D/A、采样率、编码格式的不同造成不同来源的回放语音携带的设备信息并不一致,这 将对研究同时检测来自不同偷录设备的回放语音检测算法产生一定的难度。所以本文提出 算法需要在不受文本的限制的基础上能够识别来自几种偷录设备的回放语音。
[0006] 由以上分析可知,现有算法主要集中于语音信号的声学性质和信道特征,并没有 涉足编码参数方面的特征,但根据回放语音和原始语音产生的物理过程可知,回放语音多 经历了一次偷录设备和回放设备,此过程将不可避免地涉及编解码中的量化问题,由于量 化误差的存在,不同来源的语音在某些编码参数上就会产生差异。所以本文提出了一种基 于编码参数检测回放语音算法,并由实验结果表明本算法针对多种偷录设备有较高的检测 率。

【发明内容】

[0007] 本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种基于长窗比例 因子的回放语音攻击检测算法,并由实验结果表明,在不受文本限制的情况下,该检测算法 针对多种偷录设备均具有较高的检测准确率,并能够很好区分原始语音和不同来源的回放 语音。
[0008] 本发明的技术问题通过以下技术方案实现: 一种基于长窗比例因子的回放语音攻击检测算法,其包括如下步骤: 步骤一、构建语音库:语音库的构建主要分为原始语音和回放语音;在参与者阅读语料 的同时,将偷录设备和采集设备分别打开到正常录制功能下,录制参与者的语音内容,并将 采集设备此时采集到的语音暂称为原始语音;在同样环境下,将偷录设备采集到的语音经 回放音响回放,并使用采集设备采集回放语音,该采集设备采集到的语音暂称为回放语音; 步骤二、特征提取:通过lame_3.99.5工具对原始语音和回放语音进行不同码率的MP3 编码,而后在MP3编码参数中分别提取原始语音和回放语音的长窗比例因子;由于原始语音 和回放语音都是一维时变信号,故对于不同的时长的语音片段,得到的特征维数并不一致, 这将给构建训练模型、识别过程中造成了一定的难度,所以为了消除时间对特征维数的影 响,将计算比例因子的时间统计平均,
设丨为比例因子, 其中, 示为第i帧,第j个比例因子带上对应的比例因子; 綱;,丨:表示为第j个比例因子带上比例因子时间上的统计平均; 通过以上步骤初步得到21维特征集; 步骤三、特征集的选择:根据步骤二得到的21维特征集是否全部有效,需要进一步对其 进行统计,考虑到特征集的离散性及分类的目的,最终将特征集的选择分为三种:第一种为 筛选出的2、10、11、21号4维特征;第二种为2、10号的2维特征;第三种为10号1维特征,将这 三种特征集分别暂称为:特征集_、特征集誦、特征集_;在不同码率下,将三种特征集分 别放入LibSVM进行构建模型和测试,并根据测试结果选择64kbps码率下特征集_作为最终 回放语音检测模块使用的特征集; 步骤四、将步骤一构建的回放语音在GMM-UBM进行测试,出现较高的等错误概率,说明 回放语音完全有能力对识别系统攻击成功,并将该回放语音检测算法加载到语音识别系统 上,以提高语音识别系统抵抗回放语音的能力。
[0009] 所述的MP3编码的码率为7种,分别为64kbps、80kbps、96kbps、128kbps、160kbps、 192kbps和256kbps。
[0010] 所述的采集设备为录音笔索尼TX650,采样率为44. IK,编码位数是16位,距离参与 者约10cm进行录制;所述的偷录设备分别是iPhone6、小米4、索尼PX440,距离参与者约70cm 进行录制;所述的回放音响为飞利浦音响DTM3155,距离采集设备约10cm。
[0011]与现有技术相比,本发明主要是将待测语音信号经一定码率MP3编码后,提取长窗 比例因子,并基于该长窗比例因子而提出的一种回放语音攻击检测算法,该检测算法能够 有效识别不同来源的回放语音,检测准确率高,故极大提高了抵抗回放语音的攻击能力,也 改善了语音识别系统的安全问题。
【附图说明】
[0012]图1为长窗比例因子统计直方图。
[0013]图2为长窗比例因子在特殊比例因子带上的数值。
[0014] 图3为回放语音攻击识别系统的等错误率曲线图。
[0015] 图4为具有防回放语音攻击的说人识别系统示意图。
[0016] 图5为加载回放语音检测模块前后的等错误率对比示意图。
【具体实施方式】
[0017] 下面将结合上述附图对本发明实施例再作详细说明。
[0018] -种基于长窗比例因子的回放语音攻击检测算法,它是针对现有攻击者利用回放 语音进入说话人识别系统,造成合法用户的权益受到损害而研发的防回放语音攻击的检测 算法,将该检测算法模块加载到GMM-UBM系统之后,提高了抵抗回放语音攻击的能力,使识 别系统的等错误概率降低了 32%,极大改善了识别系统的安全问题。
[0019]在该检测算法中涉及了关于GMM-UBM识别系统和长窗比例因子的基础概念,具体 为: GMM-UBM识别系统 GMM-UBM (Gaussian Mixture Model - Universal Background Model)被称为基于通 用背景的高斯混合模型,是文本无关的说话人识别系统领域里最主要的方法。与GMM相比, GMM-UBM解决了 GMM系统中存在的问题,如用户提供的数据不充足造成的混合度不高、不同 的测试语音在匹配说话人识别模型时得到的似然分数分布之间存在差异而造成的不易选 取合适的阈值等。在使用GMM-UBM时,需事先使用大量的已知男女均衡的数据构建UBM,同 时,用户需在UBM上自适应构建属于自己的说话人模型等。当测试语音进入说话人识别系统 时,需要在已有的说话人模型上匹配打分,分数只有在可接受的范围内,才会将请求用户判 为合法用户,否则视为攻击者。
[0020] 由于MFCC充分考虑了人耳对不同频率的声波有不同的听觉敏感度,成为说话人识 别系统中使用最广的声学特征,本发明在构建UBM及说话人模型均使用了该特征。
[0021] 长窗比例因子 MP3是最为常见的音频编码格式,MP3的量化与编码主要由三级迭代循环来完成。其中 内循环的目的就是调整量化步长,外循环的则是比较内循环引起的量化误差和心里声学模 型提供的掩蔽阈值大小关系;帧循环是最外层循环,只要完成每一帧在量化编码前的初始 化工作和计算每一帧编码后所剩多少比特数,并存入比特池。
[0022] 比例因子的产生主要在外循环中,如果量化误差比掩蔽阈值大,外循环就会调节 当前中各个子带的比例因子,调整比例因子取值,调整MP3编码中内循环的量化公式如下所 示:
其中,it保|v 分别为量化之后和量化前的频率系数值数;KintO代表取最接近的 整数;代表量化步长;#代表比例因子;☆代表了两个颗粒是否共用同 一个比例因子。要使量化误差小于掩蔽阈值则需要减小量化步长,这就等效于增大比例因 子值。一般情况下,在高码率的MP3编码不需要调节比例因子,因为编码过程中压缩比较小, 导致的量化误差较小。但是在低比特率的情况下,外循环通常要调节比例因子十多次。
[0023] 本发明的检测算法需要通过lame_3.99.5工具依次对原始语音样本、回放语音样 本进行特征提取及选取,具体为: 特征提取及选取 比例因子一方面可以侧面反映 MDCT系数;另一方面参数的维数少,每帧包含21个(对应 长窗)或者39个(对应短窗)比例因子,可以使用较少的特征来检测回放语音;此外,经过实 验表明,在MP3编码中90%帧使用长窗函数进行编码,这均为使用长窗比例因子作为有效参 数提供了可能。本发明中如果没有特别说明,比例因子都是代表长窗比例因子,比例因子带 编号从1开始到21结束。
[0024] 特征提取 特征提取的基本思路为:先将.wav格式的语音信号进行一定码率的MP3编码,而后在编 码的参数中提取比例因子,并求其时间统计平均。由于语音信号是一维时变信号,所以对于 不同的时长的语音片段,得到的特征维数并不一致,这就给构建训练模型、识别过程中造成 了一定的难度,为了消除时间对特征维数的影响,我们将计算比例因子的时间求统计平均, 设seal%为比例因子,有
其中,表示为第i帧,第j个比例因子带上对应的比例因子;表示 为第j个比例因子带上比例因子时间上的统计平均;另外,在这里本发明使用了 64kbps、 80kbps、96kbps、128kbps、160kbps、192kbps 和256kbps 这 7种不同的码率,使用 lame_3 ? 99 ? 5 工具对语音信号进行编码。
[0025] 特征选取 根据特征提取步骤将随时间变化的比例因子数组转换为21维特定维数的特征参数,但 所产生的21维特征是否全部有效,需要进一步对其统计分析。如图1所示,图1中纵坐标为比 例因子的统计平均值,横坐标为比例因子带序号,其中数据来源为450个原始语音、450个来 自三种偷录设备分布均衡的回放语音。由于不同的码率仅影响编码后的音频质量,所以在 不同的码率下,不同来源的语音在相同比例因子带上的比例因子相对趋势变化相差不大, 本发明随机选取了64kbps编码参数。由图1可知,对于同一比例因子带,不同来源的语音存 在差异,这就为区分回放语音与原始语音提供了可能。考虑到比例因子的离散性及分类的 目的,在同一比例因子带上,只有原始语音与三种来源的回放语音的比例因子均相差在1倍 以上的区域视为有明显差异,依据这一原则最终筛选出第2、10、11、21号比例因子带,如图1 中黑色虚线框出的区域。
[0026]我们在已选出的比例因子带分别求各样本的比例因子,其中前450个为原始语音 样本,后450个为回放语音样本,其结果如图2所示,可以看出,回放语音与原始语音在第11 及第21号比例因子带中的差别不大,在第2号比例因子带中的差异相对来说区分度略好,在 第10号比例因子带生的差异最明显。我们将特征最终选择分为三种:第一种为筛选出的4维 特征;第二种为2、10号的2维特征;第三种为10号1维特征。将这三种特征集分别暂称为:特 征集、特征集_、特征集_。
[0027] 另外,根据选择比例因子带的规则,在第2、10、11、21号比例因子中,相差的倍数最 小值分别为1.5、1.5、1、1.4;又由图2对比分析可知:在相差倍数较小的情况下,其原始语音 与回放语音的区分度相对较小;而相差倍数较大的情况下,则区分度较大。
[0028] 本发明需要分别录制多个原始语音样本和回放语音样本,具体为: 语料库设置 由于没有现成的数据库,本发明建立了原始语音和回放语音进行回放语音检测的研 究。本语料库的构建主要涉及到录音设备种类、说话人个人信息、语料库信息三方面内容。
[0029] 语音录制过程中使用的设备,在其功能上分为:采集设备、偷录设备设备。采集设 备是录音笔索尼TX650,采样率为44.1K,编码位数是16位,偷录设备设备主要是现流行的智 能手机及录音笔,分别是iPhone6、小米4、索尼PX440。考虑到语音内容受到发音习惯的影 响,在数据库的构建过程中组织了来自浙江、安徽、山东等8省人员。其中年龄在20~30岁之 间人占了总人数的80%,其余年龄段占了20%。男生25名,女生20名。录音语料分为朗读部分 和口语部分,其几乎覆盖了全部的音节、音素信息。其中各部分的详细内容下表1所示。
[0030] 表1语料设置
语音库构建 在安静房间里,参与者使用标准普通话阅读语料库内容,每个参与者使用自己最常用 的语速朗读上述语料库内容。使用索尼TX650进行采集,采集设备距参与者大约10cm。在参 与者阅读以上语料的同时,将偷录设备打开到正常录制功能下,录制参与者的语音内容。根 据实际情况,将偷录设备距离说话人大约70cm,我们将采集设备采集到的语音暂称为原始 语音。
[0031]在同样的环境下,将偷录设备采集到的语音经飞利浦音响DTM3155回放,此时使用 采集设备采集回放语音。回放音响距离采集设备l〇cm左右。我们将此次采集设备采集到的 语音称为回放语音。
[0032]实验结果及分析 试验中使用LibSVM,它是一种监督是学习方法,广泛地应用于统计分类以及回归分析。 设原始语音为正样本,标签设置为'1',回放语音为负样本,标签设置为'〇',这样就将回放 语音识别过程转化为二分问题。分类过程如下:先根据3部分进行特征提取并使用LibSVM进 行训练得到模型,将待测语音在LibSVM模型上进行测试,LibSVM给出最终判断结果。
[0033] 不同特征维数的对比检测 针对特征集:,、特征集纪、特征集魏S,分别对回放语音进行检测,以寻找最佳特征。在7 种码率编码的情况下,依据三种特征选择分别对回放语音进行检测。其中样本设置如下:原 始语音1000个样本,对于来自三种偷录设备的回放语音分别是1000个样本;样本来源于随 机选取15名男生10名女生录音数据,其中取每位参与者40段5s的语音片段。实验结果如表2 所示,其中ACC表示平均检测率。
[0034]表2不同特征对回放语音的检测率
由实验结果可以看出:特征集的检测效果与特征集_的检测效果基本相同,但是 特征集緣3检测效果最好,这说明其余特征对检测回放语音不但没有贡献,反而恶化了检测 结果。在使用尽量较少的特征维数达到较高的检测率这一思想下,本文中最终选用特征集 _。对于只使用特征集繼时,同一偷录设备在不同的码率下,其检测效果也不尽相同,综其 结果,针对不同的偷录设备,在码率为64kbps、80kbps和256kbps时的检测率比较高。
[0035]多偷录设备检测效果 为考察该算法能否同时检测来自多种偷录设备的回放语音,将来自三种偷录设备的回 放语音同时作为检测对象。其中使用的样本是从构建的数据库中随机选取1800个原始语 音、600个来自iPhone6标准回放语音、600个来自小米4回放语音、600个来自PX440回放语 音。其中随机使用每类语音的一半,做训练样本;剩余样本为测试样本。使用特征集_对回 放语音进行检测,检测结果如表3所示,其中TPR表示原始语音的预测正确率、TNR表示回放 语音的预测正确率、ACC表示平均预测准确率、EER为等错误概率。由检测结果可以看出,虽 然不同的偷录设备对语音信号的影响不同,但是本算依然具有较高的检测率。
[0036] 表3在不同码率下回放语音检测结果
由表3可以看出,同样在64kbps、80kbps和256kbps码率下的检测率相对比较高,且其检 测率相对于单独检测来自某一偷录设备的回放语音的检测率基本相近,这说明本算法完全 可识别来自三种偷录设备的回放语音。
[0037] 加载回放语音检测模块后的识别系统 在基于GMM-UBM系统上,测试来自三种偷录设备的回放语音能否攻击成功。实验中训练 了 4用户模型,在测试时使用每个用户的回放语音作为攻击语音,其中每个用户模型原始语 音30个样本、回放语音120个样本。检测结果如图3所示,三种偷录设备的等错误概率约为 40%,这说明本发明中使用的偷录设备足以完成攻击认证系统。
[0038]为综合检测该算法的有效性,本发明将回放语音检测算法以单独的模块形式加载 到识别系统的后端,如图4所示。该系统需依据说话人识别系统及回放语音检测模块对请求 用户进行综合判断;当识别系统认定该请求用户为非法用户时,系统将直接拒绝该用户,不 需进入回放语音检测模块;只有当说话人识别系统判决结果为合法用户时,才会进入回放 语音检测模块,此时如果请求语音被判为原始语音,则系统最终接受该请求用户,否则将拒 绝此次请求。
[0039] 将未加载回放语音检测模块的识别系统与本发明使用的识别系统作对比试验。根 据上述实验结果,我们最终选择64KBPS码率下的特征集_作为最终检测特征。将来自三种 偷录设备的回放语音与原始语音在识别系统上测试,在未加载回放语音检测模块时,其等 错误概率为40%,而在加载了回放语音检测模块后,其等错误概率下降到8%,如图5所示。这 表明本发明中检测算法对于回放语音攻击GMM-UBM说话人识别系统有较好的抵抗效果。
[0040] 本发明主要是针对说话人识别系统中存在回放语音攻击的安全性问题,提出了一 种基于长窗比例因子的回放语音检测算法。实验结果表明,本算法能够有效区分原始语音 和回放语音,在64kbps码率、使用特征集_的情况下,对于来自Iphone6、小米4、索尼PX440 的回放语音检测率分别达到94.67%、98.96%、97.33%;本发明同时尝试了针对来自几种偷录 设备的回放语音的检测,并获得了较好的效果,其中在64kbps、80kbps、256kbps码率下其检 测较好,达到了96.67%以上;在加载了本算法后,GMM-UBM认证系统的抗回放语音攻击能力 提尚了 32%。
【主权项】
1. 一种基于长窗比例因子的回放语音攻击检测算法,其特征在于该回放语音攻击检测 算法包括如下步骤: 步骤一、构建语音库:语音库的构建主要分为原始语音和回放语音;在参与者阅读语料 的同时,将偷录设备和采集设备分别打开到正常录制功能下,录制参与者的语音内容,并将 采集设备此时采集到的语音暂称为原始语音;在同样环境下,将偷录设备采集到的语音经 回放音响回放,并使用采集设备采集回放语音,该采集设备采集到的语音暂称为回放语音;步骤二、特征提取:通过lame_3.99.5工具对原始语音和回放语音进行不同码率的MP3 编码,而后在MP3编码参数中分别提取原始语音和回放语音的长窗比例因子;由于原始语音 和回放语音都是一维时变信号,故对于不同的时长的语音片段,得到的特征维数并不一致, 运将给构建训练模型、识别过程中造成了一定的难度,所W为了消除时间对特征维数的影 响,将计算比例因子的时间统计平挽, 设岩销为比例因子,] 其中, 纷M玲I表示为第i帖,第j个比例因子带上对应的比例因子; 扣;地.;!节"猫抑巧表示为第^'个比例因子带上比例因子时间上的统计平均; 通过W上步骤初步得到21维特征集; 步骤=、特征集的选择:根据步骤二得到的21维特征集是否全部有效,需要进一步对其 进行统计,考虑到特征集的离散性及分类的目的,最终将特征集的选择分为=种:第一种为 筛选出的2、10、11、21号4维特征;第二种为2、10号的2维特征;第^种为10号1维特征,将运 立种特征集分别暂称为:特征集幾;、特征集繼:、特征集難;在不同码率下,将立种特征集分 别放入LibSVM进行构建模型和测试,并根据测试结果选择64化PS码率下特征集渡作为最终 回放语音检测模块使用的特征集; 步骤四、将步骤一构建的回放语音在GMM-UBM进行测试,出现较高的等错误概率,说明 回放语音完全有能力对识别系统攻击成功,并将该回放语音检测算法加载到语音识别系统 上,W提高语音识别系统抵抗回放语音的能力。2. 根据权利要求1所述的一种基于长窗比例因子的回放语音攻击检测算法,其特征在 于所述的 MP3 编码的码率为巧巾,分别为 64k:bps、80kbps、96k:bps、128k:bps、160k:bps、192k:bps 和256化ps。3. 根据权利要求1所述的一种基于长窗比例因子的回放语音攻击检测算法,其特征在 于所述的采集设备为录音笔索尼TX650,采样率为44.1K,编码位数是16位,距离参与者约 IOcm进行录制;所述的偷录设备分别是iPhones、小米4、索尼PX440,距离参与者约70cm进行 录制;所述的回放音响为飞利浦音响DTM3155,距离采集设备约10cm。
【文档编号】G10L25/78GK105913855SQ201610220000
【公开日】2016年8月31日
【申请日】2016年4月11日
【发明人】王让定, 陈亚楠, 严迪群, 金超, 陶表犁, 张立
【申请人】宁波大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1