一种鲁棒性的回放语音检测方法与流程

文档序号:17347724发布日期:2019-04-09 20:52阅读:242来源:国知局
一种鲁棒性的回放语音检测方法与流程

本发明涉及智能控制领域,尤其涉及一种鲁棒性的回放语音检测方法。



背景技术:

自动说话人认证系统(automaticspeakerverification,asv)因安全性较高、获取方便且可以远程访问的优点被广泛用于生活和金融领域。在该技术不断发展的同时,各种欺骗语音对asv系统的威胁也日趋严重。其中,欺骗性最大且操作最方便的是回放语音。其生成过程如图1(b)所示,图1(a)所示为真实语音生成过程。可知,真实语音是由目标说话人认证asv系统时得到的语音,回放语音则是攻击者偷录目标说话人的声音,在asv系统前回放产生的语音。

随着高保真录音和回放设备的普及化及便捷化,攻击者能够轻易的录制到目标说话人的声音,由于不需要攻击者掌握特殊的技能便可实现回放攻击,且回放语音来自于目标说话人的真实语音,因而具有很大迷惑性。研究者尝试提出新的算法以试图解决该问题。如有的通过使用傅里叶变换提出多种倒谱特征,如逆梅尔频率倒谱系数、高频倒谱系数等对回放语音进行检测。

但目前的检测方法只能单独表达低频或者高频信息,不能同时兼顾二者,导致系统鲁棒性欠佳。更重要的是,这些算法不能充分考虑到特征可变性的影响,目前的检测方法大多集中在改进后端建模或开发新特征上而忽略特征的可变性,尤其是回放信道可变性的影响。在实际场景中,攻击者使用的录制设备、回放设备等性能参数多种多样,这导致回放信道随设备的变换而不断改变,而对重放攻击检测最有影响的是信道可变性,倘若无法去除多变的信道特征,则严重影响检测的准确性。



技术实现要素:

鉴于上述问题,本发明的目的在于提供一种能同时捕获频谱的高、低频信息,能去除信道特征影响,提升语音检测准确性的鲁棒性的回放语音检测方法。

为了实现上述目的,本发明保护的技术方案为,一种鲁棒性的回放语音检测方法,其特征在于:所述方法包括,

步骤一、分析真实语音和回放语音的频率子带之间的差异;

步骤二、根据分析结果选择阻带滤波器的类型及其截止频率,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;

步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;

步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。

优选的,所述步骤三中利用减均值去除信道影响,具体过程如下:

(a)简化回放攻击模型,得到时域线性卷积

其中,r为回放语音,s为真实语音,h为回放信道响应;

(b)将时域线性卷积变换成频域数字信号,得到

其中,f(·)表示傅里叶变换函数,f(r)、f(s)分别为回放语音r和真实语音s的频谱系数,f(h)为频域中信道响应。

(c)通过取对数并进行离散余弦变换,将频域中的乘性关系转化为倒谱域中的加性关系,即

其中,r表示回放语音r的倒谱系数,s表示真实语音s的倒谱系数,h表示倒谱域中回放信道响应h的脉冲响应。

(d)对待测语音信号进行分帧处理,得到分帧的倒谱系数关系式

ri=si+h(8)

其中ri表示分帧后的回放语音r的倒谱系数,si表示分帧后的真实语音s的倒谱系数,i表示帧数;

(e)求取整个语音信号均值,即

其中i为矢量矩阵;

(f)利用减均值,消除信道影响,即

其中,mn表示减均值后的倒谱特征。

优选的,所述步骤二中提取差异性子带的倒谱特征,得到阻带频率倒谱特征,具体为:

(i)利用阻带滤波器对待测语音信号进行滤波处理,得到滤波后的信号s(n);

(ii)对所述滤波后的信号s(n)进行预处理,得到分帧后的语音信号si(n),i表示帧数;

(iii)对每帧语音信号si(n)进行离散傅里叶变换,得到每帧语音信号si(n)的频谱系数si(k),即

其中,n表示傅里叶变换点数,k表示频率点;

(iiii)根据频谱系数求取语音信号si(n)的功率谱pi(k),公式

并对功率谱取对数和离散余弦变换,得到阻带频率倒谱特征为

其中,l表示倒谱特征的维度,取值为40。

优选的,所述步骤三采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理,具体为:

将所述阻带频率倒谱特征代入公式(10)并进行方差归一化处理,得到其中,表示分帧后整个阻带频率倒谱特征cn的均值,表示分帧后整个阻带频率倒谱特征cn的方差,表示执行减均值并归一化后的阻带频率倒谱特征。

优选的,所述步骤四采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音,具体为:

(x1)依次执行步骤一至步骤三,提取真实语音、回放语音分别执行减均值并归一化后的倒谱特征,并根据该倒谱特征训练得到真实语音gmm模型λt和回放语音gmm模型λf(该处的);

(x2)将所述执行减均值并归一化后的阻带频率倒谱特征在两个gmm模型下计算似然比σ,公式为

(x3)将所述似然比σ与阈值t比较,大于阈值t,则判定所述待测语音信号为真实语音,反之为回放语音。

优选的,所述阻带滤波器为契比雪夫ii型阻带滤波器。

优选的,所述预处理包括预加重、分帧、加窗。

优选的,所述步骤一采用变异系数分析真实语音和回放语音的频率子带之间的差异,所述变异系数公式为

其中,mean表示语音信号幅度谱系数均值,表示语音信号幅度谱系数标准差,cv表示语音信号变异系数特征;

且所述步骤一根据真实语音和回放语音的变异系数特征分布,获取高频子带、低频子带的滤波频率。

优选的,所述语音变异系数特征具体获取过程如下:

s1、依次经过分帧、加窗、预加重操作,对语音信号进行预处理;

s2、对每帧语音信号进行离散傅里叶变换得到每帧语音信号的频谱系数;

s3、求取频谱系数幅值得到语音信号幅度谱系数;

s4、获取分帧后语音信号幅度谱系数均值和标准差;

s5、根据所述变异系数公式求取语音信号变异系数特征。

与现有技术相比,本发明的优点在于:采用阻带滤波方式,能够同时捕获频谱的低频信息和高频信息,能够有效的弥补现有方法中不能兼顾低频信息和高频信息的缺点,而减均值方式能有效去除信道影响,归一化处理方式能避免异常干扰,从而能够显著提升检测准确性和系统的鲁棒性能。

附图说明

图1(a)、1(b)分别为真实语音、回放语音生成过程示意图。

图2为本申请选择五种不同录制、回放设备获取的回放语音与真实语音的变异系数分布图。

图3为本申请阻带滤波器的幅值响应曲线。

图4为本申请中阻带频率倒谱特征提取过程示意图。

图5为本申请简化回放攻击模型结构示意图。

图6为本申请经高斯混合模型后判断过程示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

图1-6示出了本申请鲁棒性的回放语音检测方法优选实施例对应的各操作阶段对应的示意图。本方法首先通过分析真实语音和回放语音在频率子带上的差异,然后针对有差异性子带提取倒谱特征,最后使用归一化方法对倒谱进行后处理,消除信道的影响。

具体的,所述方法包括,

步骤一、分析真实语音和回放语音的频率子带之间的差异;

步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;

步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;

步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音

其中,步骤一:分析真实语音和回放语音的频率子带之间的差异

首先引入变异系数对真实语音和回放语音的幅度谱系数进行分析。变异系数的定义为标准差和均值之比,即:

该mean、std分别表示语音幅度谱系数均值和标准差,cv表示语音变异系数特征。

该语音变异系数提取过程如下所示:

s1、依次经过分帧、加窗、预加重操作,对语音信号进行预处理;

s2、对每帧语音信号进行离散傅里叶变换得到每帧语音信号的频谱系数;

s3、求取频谱系数幅值得到语音信号幅度谱系数;

s4、获取分帧后语音信号幅度谱系数均值和标准差;

s5、根据所述变异系数公式求取语音信号变异系数特征

实验中,选择了五种不同的录制设备和回放设备产生的回放语音,将这五种由不同配置的录制设备和回放设备产生的回放语音分别定义为rc01、rc02、rc03、rc04、rc05,真实语音用genuine表示,五种配置变异系数分布图如图2所示。

由图1可以看出,真实语音和回放语音的差异主要分布在高频区:7.2-8kh(在图中用region2表示),其次在低频区:0-0.7khz(在图中用region1表示)也表现出一致性差异。因此这两个具有一致性差异的子带将是我们检测回放语音的关键子带。

步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征

根据上述分析可知,真实语音和回放语音的差异性信息主要分布在高频区域,少部分分布在低频区域。为了更好的利用这两个子带的差异性信息,同时去除其他频带对信号的干扰,在时域中使用阻带滤波方式对待测语音信号进行滤波。在具体设置时,根据步骤一的分析,使阻带滤波器的低频截止频率设为0.7khz,高频截止频率设为7.2khz,通带波纹为3db和阻带衰减为50db,滤波器的类型优选为切比雪夫ii型滤波器,该滤波器的形状及设计如图3所示。

待测语音信号经过阻带滤波后,仅有低频信号和高频信号被保留下来。接下来将对滤波后的语音信号提取倒谱特征,定义提取的倒谱特征为stopbandfrequencycepstralcoefficient(sfcc),即阻带频率倒谱特征,其提取过程如图4所示。

首先,通过切比雪夫ii型阻带滤波器对待测语音信号进行滤波处理,滤波后的信号s(n)进行预处理,包括预加重、分帧和加窗,得到分帧后的语音信号,设为si(n),其中i表示帧数。然后对每帧语音信号si(n)进行离散傅里叶变换得到频谱系数si(k),即

其中n表示傅里叶变换的点数,k表示频率点。根据频谱系数求取语音信号的功率谱,公式如下:

再对功率谱取对数,并进行离散余弦变换得到阻带频率倒谱特征,公式如下:

其中,l表示倒谱特征维度,此处l取值为40,阻带频率倒谱特征的特征维度包40维静态系数、40维一阶差分以及40维二阶差分。

步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理在步骤二中已经提取到待测语音信号的阻带频率倒谱特征。为了提高特征的鲁棒性,需要在特征层面进行信道补偿,即去除信道干扰。这是因为在现实场景中,无法实际知道攻击者使用的录制设备或者回放设备,也即无法得知回放语音在产生过程中所使用的信道。只有尽可能的去除这些信道信息,才能在实际场景中应对各种各样设备产生的回放攻击。

为了更好的分析信道对回放语音的影响,同时能够尽可能的消除信道信息的干扰,对回放语音产生的过程建立一个数学模型,然后在此基础上提出归一化方法去消除信道影响。本申请通过减均值方式消除信道影响,为了验证该方法的可靠性,首先将回放攻击模型简化成如图5所示。由图5可知,真实语音是真实的来自于合法用户的声音,而回放语音则是由真实语音经过录制和回放后产生的语音。假设真实语音的数学信号表示为s,那么回放语音信号r则表示为真实语音s和回放信道响应h的线性卷积,即:

在时域中s和h是一个卷积关系,为了更好的分析真实语音s和信道响应h的关系,将时域卷积关系变换到频域中进行分析,在频域中回放语音数字信号表示为:

其中f(·)表示傅里叶变换函数,f(r),f(s)分别是回放语音和真实语音的频谱系数,f(h)是频域中信道响应。通过取对数并进行离散余弦变换将频域中的乘性关系转化为倒谱域中的加性关系,可表示为

其中,r表示回放语音的倒谱系数,s表示真实语音的倒谱系数,h表示倒谱域中信道脉冲响应。

在进行短时语音信号处理时,通常对语音进行分帧处理,而在一个话语中,由于信道变化非常微弱,所以可以合理地假设在一句话中信道稳定不变,那么对于分帧的倒谱系数可以表示为ri=si+h(8)

其中ri表示分帧后的回放语音的倒谱系数,si表示分帧后的真实语音的倒谱系数,i表示帧数。为了能够消除信道的信息,首先对整个待测语音信号求取均值,即

然后使用分帧后的回放语音的倒谱系数减去整个待测语音信号倒谱均值以消除信道影响,表示为:

其中mn表示减均值的倒谱特征。可以看出,将分帧后的回放语音的倒谱特征减去整个待测语音信号的倒谱均值能够有效消除信道影响。

通过上述论证已经分析出,使用减均值方法能够有效消除信道的影响。同时为了避免倒谱系数中异常值对特征的干扰,并加快模型训练阶段算法的收敛速度。在本发明中我们对提出的阻带频率倒谱特征不仅采用了减均值方法,在此基础上还对倒谱特征进行了方差归一化,具体可表示为:

cn表示阻带频率倒谱特征,表示分帧后整个阻带频率倒谱特征的均值,表示分帧后整个阻带频率倒谱特征的方差,表示执行减去均值并归一化后的阻带频率倒谱特征。

步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音

将上述执行减去均值并归一化后的阻带频率倒谱特征使用高斯混合模(gaussianmixturemodel,gmm)进行训练。在训练阶段,我们首先根据发明中步骤一至三提取真实语音信号和回放语音信号的阻带频率倒谱特征。然后根据这些特征训练两个gmm模型,一个是用真实语音训练得到的真实语音gmm模型(记作λt),另一个是用回放语音训练得到的回放语音gmm模型(记作λf)。然后,将待测语音信号提取的执行减去均值并归一化后的阻带频率倒谱特征在两个gmm模型下计算似然比σ,似然比定义如下:

其中表示执行减去均值并归一化后的阻带频率倒谱特征,用得到的似然比跟阈值t作比较,大于阈值t的判定为真实语音,小于阈值t的判定为回放语音,具体流程图如图6所示。对于阈值t的选择,可根据系统实际情况进行调节。如果在高安全性领域,则可以调高阈值t的大小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值t提升易用性。

为了进一步验证本方法的有效性,我们将本发明提出的方法在asvspoof2017challenge数据集上进行实验评估。该数据库包含三个非重叠子集:train(tra)集,development(dev)集和evaluation(eval)集。在比赛初期,赛事举办方仅仅提供了tra子集和dev子集,主要是给参赛团队调试算法性能的,最后公布的eval集才是算法最终性能评估的主要数据库。表1中显示了数据集的详细信息。在本文中,我们使用tra数据集作为训练集来训练模型,并使用dev数据集和eval数据集进行测试。

表1asvspoof2017数据集配置

我们将本发明的方法目前已提出的其他方法进行了实验,以评估我们提出的方法的性能可靠性。表2显示了我们的方法和其他方法的检测等错误概率(equalerrorrate,eer)。eer是说话人识别以及说话人确认中最常用的评价标准。

由表2可以观察到,在dev数据集中,imfcc的检测效果最好,但是,在eval数据集上检测性能下降很多,这主要是过拟合导致的,因为在dev数据集中仅仅包含小量的样本,而eval数据集则包含多种多样的样本。因此eval集上的检测性能更能够测量算法的检测能力。相较于其他的检测算法,本发明提出的算法性能在eval数据集明显优于其他的算法,这也验证了本发明方法的有效性和稳健性。

表2不同特征的实验结果

本发明提出的该方法不仅可以有效捕获频谱的低频信息,同时也能够兼顾频谱的高频信息,而且实验表明该方法有很好的检测性能,而通过减均值及归一化技术能有效消除信道影响,降低异常干扰,从而能够显著提升系统的鲁棒性。

除了上述改进外,其他相类似的改进也包含在本发明的改进范围内,此处就不再赘述。尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1