一种基于静音段的异源音频拼接篡改盲检测方法与流程

文档序号:12820217阅读:590来源:国知局
一种基于静音段的异源音频拼接篡改盲检测方法与流程

本发明涉及音频取证技术领域,具体涉及一种基于静音段的异源音频拼接篡改盲检测方法。



背景技术:

音频拼接是最常见的音频篡改形式之一。随着便携式录音设备的普及以及各种功能强大的多媒体编辑软件的出现,对音频真伪进行检测变得十分重要。数字音频盲取证作为一种音频数据的取证方法,无需借助添加数字水印进行检测,更具有实用性,在司法取证和新闻信息真伪鉴定等领域具有广泛的应用前景。

在数字音频篡改盲检测研究领域,目前流行的方法主要有基于电网频率(electricnetworkfrequency,enf)和基于音频特征(例如,语音特征,录音设备的本征噪声等)两大类。2005年grigoras在期刊ijsll(internationaljournalofspeech,languageandthelaw,国际语音、语言和法律期刊)上发表论文《digitalaudiorecordinganalysistheelectricnetworkfrequencycriterion》,首次提出基于enf的数字音频篡改方法,通过比较音频中的enf与历史enf数据库中的记录是否一致,判断音频是否被篡改。2009年nicolalde等学者在icassp(internationalconferenceonacoustics,speechandsignalprocessing,国际声学、语音与信号处理会议)上发表论文《evaluatingdigitalaudioauthenticitywithspectraldistanceandenfphasechange》,通过音频中enf信号的相位变化来检测和定位篡改。随后,有一批基于enf信号的音频篡改检测算法涌现。然而,对于手机和录音笔等常用的直流供电录音设备,由于其录制的音频中并不含enf信号,基于enf的音频篡改检测方法并不适用。

数字音频录音过程除了储存有效的语音信号,还不可避免地引入了噪声,主要包括录音设备的本征噪声和环境噪声。对于异源音频拼接篡改,现有算法通常在未区分有声段和静音段的情况下,从待测音频中提取语音特征、设备的本征噪声和环境噪声特征,通过检查其一致性是否受到破坏判断音频是否存在篡改。2012年x.pan等学者在icassp上发表论文《detectingsplicingindigitalaudiousinglocalnoiselevelestimation》,通过对音频的局部噪声水平进行比较,检测和定位篡改。然而,该算法在有声段计算的噪声水平波动较大,导致误检率过高,并且拼接前后音频的噪声水平一般相差不大,故检测效果常常不明显。2014年h.zhao等学者在acmih&mmsec(acmworkshoponinformationhidingandmultimediasecurity,信息隐藏暨多媒体安全国际会议)上发表论文《audiosourceauthenticityandsplicingdetectionusingacousticenvironmentalsignature》,以起始若干帧音频特征的均值作为参考特征,通过考察音频各帧与参考特征的相关系数变化来检测和定位篡改。然而,该算法从有声段提取的音频特征不稳定,导致出现过多异常相关系数。同时由于数字语音是非平稳的时变信号,其特性会随时间缓慢变化,与参考特征间隔时间越长,计算得到的相关系数越小,容易造成误检。另外该算法没有定位机制,不能精确确定篡改位置。



技术实现要素:

本发明的目的在于克服现有异源音频拼接篡改盲检测方法准确率不高,定位精度不足等缺点,提供一种准确率高,定位精度高的基于静音段的异源音频拼接篡改盲检测方法。

不同于现有技术的算法,本发明在静音段上提取录音设备本征噪声和环境噪声特征,检测静音段相邻帧相关系数向量的突变,定位拼接篡改,提出一种基于静音段的异源音频拼接篡改盲检测算法,利用判断静音段提取的噪声(主要是设备本征噪声和环境噪声)特征是否变异确定篡改。异源音频拼接篡改指的是将多段由不同录音设备录制的音频拼接成一段新音频的篡改方式。为了避免人耳察觉篡改造成的异常,篡改者通常会在篡改处前后借助静音段进行平滑过渡。然而这些异常可以被统计信号检测的方法察觉,因此,可以从音频特征的一致性判断静音段是否来自不同的录音设备和环境,还可以进一步通过检测特征的跳变点确定篡改音频的拼接位置。从静音段提取音频特征的主要优点有:首先,音频中的有声段由语音信号和噪声组成,相对于语音信号,噪声能量较小,因此难以从有声段准确提取录音设备和环境噪声的特征,而静音段只有设备本征噪声和环境噪声,不受说话人语音的影响,更能准确提取噪声特征;其次,有声段能量波动大,相邻音频段之间振幅和频谱等特性差异大,提取出来的音频特征不稳定,而静音段能量稳定,有利于真实反映录音设备和环境噪声的特征。本发明提出从静音段中提取音频特征,通过检测相邻音频段特征相关系数向量的突变,判断并定位异源音频拼接篡改。迄今为止,利用从静音段中提取音频特征来进行音频篡改盲检测的方法尚未见报道。

为了达到上述发明目的,本发明采用以下技术方案:一种基于静音段的异源音频拼接篡改盲检测方法,其主要步骤如下:

步骤1、选择待测的可疑音频,对待测音频进行分帧,帧长为m,帧移为n,相邻音频帧互有重叠,使帧和帧之间能够平滑过渡;音频帧时长m为16-128毫秒,音频帧移时长n表示相邻音频帧之间重合的部分大小,取音频帧时长的1/2-2/3;对分帧后的各个音频帧采用汉明窗进行加窗,分帧加窗后的时域音频信号表示为yi,j,其中,i=1,2,…,n;i为音频帧序号,共有n个音频帧,j=1,2,…,nframe,为音频帧的第j个数据点,共有nframe个数据点;

步骤2、spure代表说话人语音信号,hrir代表环境脉冲响应,db代表环境噪声,hmic代表设备脉冲响应,dmic代表设备本征噪声,则数字音频y为:

y=(spure*hrir+db)*hmic+dmic(1)

其中,*代表卷积运算。当语音信号spure等于零时,得到的输出即为静音,静音段只含有录音设备和环境信息;计算音频中每一帧的nfft点短时傅里叶频谱能量e,同时在各音频帧的时域计算其数据点的过零率z;对音频帧进行判断,若其短时频谱能量e小于设定的阈值te且过零率z小于设定的阈值tz,则判定为静音帧,得到待测音频的静音段为sl,其中,l=1,2,…,ns,l为静音段帧序号,ns为静音段帧数量;静音段帧序号对应于待测音频帧序号的映射为loc,在静音段得到篡改点位置后,根据loc求得篡改点在待测音频中的位置;

步骤3、计算静音段s中各帧基于梅尔倒谱系数(mel-frequencycepstralcoefficients,mfccs)扩展的超向量特征,扩展过程采用广义线性区分性序列核(generalizedlineardiscriminativesequencekernel,gldskernel)函数,得到静音段音频特征为二维矩阵其中,hl为d维列向量,代表一个音频帧特征向量,l=1,2,…,ns,为音频帧序号,共有ns个音频特征向量,用于表征音频的噪声信息,即设备本征噪声和环境噪声信息的总和;

步骤4、用大小为d×2w的窗口在音频特征h上从前向后沿水平方向滑动,每次滑动距离为w,窗口内前w个列向量构成大小为d×w的子矩阵,计算子矩阵每行的均值,得到一个d维均值向量;窗口内后w个列向量构成大小为d×w的子矩阵,计算子矩阵每行的均值,得到一个d维均值向量;计算每个窗口前后两个d维均值向量的相关系数,随着窗口的移动,得到相关系数向量ρ,ρ中各元素用ρ(p)表示,p=1,2,…,nρ,为相关系数序号,为相关系数向量长度;

步骤5、计算相关系数向量ρ中各个元素的均值u,设定幅度阈值tρ,令幅度阈值为均值的倍数,tρ=ku,k为小于1的正数;计算相关系数向量ρ的一阶差分,得到一阶差分向量ρ′,计算ρ′中各个元素绝对值的均值u′,设定一阶差分阈值ρ′,令一阶差分阈值为均值的倍数,tρ′=q′u′,k′为大于1的正整数;利用相关系数向量中小于阈值tρ′的元素位置及一阶差分向量中绝对值大于阈值tρ′的元素位置确定篡改点的位置,假设有u个篡改点,用位置集合q表示,记为q={q1,q2,q3,…,qu};

步骤6、若q不为空,则待测音频存在篡改,否则为原始音频;若待测音频被篡改过,共有u个篡改点,根据篡改点在相关系数向量中的位置,计算篡改点在静音段中对应的帧区间,再根据步骤2中静音段帧序号与待测音频帧序号的映射loc,求得篡改点对应于待测音频中的帧区间,作为最终估计的定位篡改区域。

步骤2中,采用现有的语音端点检测算法,从音频中检测静音段。

步骤1中,待测音频的音频帧总数可由下面公式进行求取:

其中,代表向下取整数运算,n为音频帧总数,t为待测音频时长,t>0,m为音频帧时长,t>m>0,n为帧移时长,m>n>0。

步骤2中,计算音频中每一帧的nfft点短时傅里叶频谱能量e是计算每个音频帧yi,j的nfft点傅里叶变换为yi,k,则其短时频谱能量ei为:

其中,k=1,2,…,nfft,为各个频率点幅值,nfft为傅里叶变换长度;计算音频帧yi,j的过零率zi:

其中,sgn[]是符号运算,即:

其中,x为任意实数。

步骤2中,e的平均值为0.250,取能量阈值te为平均值的4倍,z的平均值为20.430,取过零率阈值为平均值的1倍,tz=20.430,对待测音频各音频帧进行判断,共有351个音频帧的短时能量小于阈值te且过零率小于tz,将这351个音频帧按顺序连接成静音段s。

步骤1中音频帧时长m一般在16毫秒到128毫秒之间进行选取,m过大无法得到足够的音频帧,不利于观察音频随时间变化的总体特性和精确定位篡改点,m过小无法从音频帧中准确提取音频特征;音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2到2/3之间,使帧和帧之间能够平滑过渡,n过小相邻音频帧重合部分过多,相邻音频帧特征变化不明显,n过大无法显示音频帧特征之间的连续性

本发明相对于现有技术具有如下的优点及效果:

1)本发明在分析数字音频有声段和静音段录音流程的基础上,提出从静音段提取表征录音设备本征噪声和环境噪声的音频特征。因为直接从待测音频提取特征,容易受到说话人语音信号的影响,噪声容易淹没在语音信号中,难以提取音频的噪声特征,而静音段只含有录音设备和环境信息,不含说话人语音信息,相对于直接从待测音频提取特征,本发明提取的音频特征更准确;

2)本发明对相关系数向量进行元素值和一阶差分向量元素值阈值判断,不仅能确定异源音频拼接篡改的存在性,还能对拼接篡改进行较为准确的定位;

3)本发明完全利用待测音频自身信息来进行检测,不需要在生成音频时添加数字水印,也不需要其他额外的信息来进行对比,实现了异源音频拼接篡改盲检测,具有较高的应用灵活性;

4)本发明在检测过程中只需要直接计算音频频谱能量、过零率和梅尔倒谱系数等,不涉及复杂模型的建立,具有较低复杂度,能在普通的计算机上快速完成;

5)本发明同样适用于异源音频插入篡改检测,由异源音频插入篡改而成的音频有多个拼接点,篡改拼接点前后的音频来自不同的录制设备和环境,因此可以通过本发明逐个检测这些篡改点,判断异源音频插入篡改的存在。

附图说明

图1是本发明的流程框图。

图2是实施例中待测音频波形图。

图3是数字音频录音流程示意图。

图4是实施例中待测音频静音检测效果图。

图5是实施例中相关系数向量示意图。

图6是实施例中的篡改检测结果图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

下面以一段wav格式的音频作为优选的实施例详细介绍本发明的实施过程。如图2所示,该音频是由两段音频拼接而成,前一段是由appleiphone5手机录制的音频,时长为6.049秒,后一段是由samsunge2600手机录制的音频,时长为7.818秒,采样率均为16khz。篡改音频时长为13.867秒,拼接篡改点为待测音频的第6.049秒处。

如图1所示,为本发明方法主要分为六个步骤,包括音频的分帧与加窗,检测静音段,计算静音段音频特征,求相关系数向量,检测篡改点,确定篡改位置;通过本发明的方法将此篡改检测出来,并确定篡改位置。

第一步,音频的分帧与加窗。

首先在时域上对待测音频进行分帧与加窗处理。待测音频的音频帧总数可由下面公式进行求取:

其中,代表向下取整数运算,n为音频帧总数,t为待测音频时长,t>0,m为音频帧时长,t>m>0,n为帧移时长,m>n>0。音频帧时长m为16‐128毫秒,m过大无法得到足够的音频帧,不利于观察音频随时间变化的总体特性和篡改点的精确定位,m过小无法从音频帧中准确提取音频特征;音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2‐2/3之间,使帧和帧之间能够平滑过渡,n过小相邻音频帧重合部分过多,相邻音频帧特征变化不明显,n过大无法显示音频帧特征之间的连续性。将音频最后不够一帧长度的数据舍弃,音频帧采用汉明窗加窗,分帧加窗后的时域音频信号表示为yi,j,其中,i=1,2,…,n,为音频帧序号,共有n个音频帧,j=1,2,…,nframe,为音频帧的第j个数据点,共有nframe个数据点。本实施例中,选取音频帧时长为32毫秒,帧移为帧长的1/2,音频每帧共有32毫秒×16khz=512个数据点,根据公式(1)计算得到音频共有865帧。

第二步,检测静音段。

如图3所示,spure代表说话人语音信号,hrir代表环境脉冲响应,db代表环境噪声,hmic代表设备脉冲响应,dmic代表设备本征噪声,则数字音频y为:

y=(spure*hrir+db)*hmic+dmic(7)

其中,*代表卷积运算。当语音信号spure等于零时,得到的输出即为静音,静音段只含有录音设备和环境信息,有利于准确提取噪声特征。而有声段包含了说话人语音信号spure、录音设备本征噪声dmic和环境噪声db,说话人语音信号spure能量大,噪声容易淹没在有声段中,难以提取音频的噪声特征,而且有声段能量波动大,提取的噪声特征不平稳。计算每个音频帧yi,j的nfft点傅里叶变换为yi,k,则其短时频谱能量ei为:

其中,k=1,2,…,nfft,为各个频率点幅值,nfft为傅里叶变换长度。计算音频帧yi,j的过零率zi:

其中,sgn[]是符号运算,即:

其中,x为任意实数。对音频帧的短时频谱能量e和过零率z进行阈值判断,取短时能量e平均值的倍数作为能量阈值te,取过零率z平均值的倍数作为过零率阈值tz,若其能量小于阈值te且过零率小于阈值tz,判定为静音段。在本实施例中,e的平均值为0.250,取能量阈值te为平均值的4倍,即te=1;z的平均值为20.430,取过零率阈值为平均值的1倍,即tz=20.430,对待测音频各音频帧进行判断,共有351个音频帧的短时能量小于阈值te且过零率小于tz,将这351个音频帧按顺序连接成静音段s。图4为本实施例中待测音频静音检测效果图,有声段的检测值为1,静音段的检测值为0。

从待测音频检测静音的过程中,静音段中每个音频帧都有对应于待测音频的位置,记录其映射为loc,即任意静音段音频帧sl,对应于待测音频音频帧yi,j:

i=loc(l)(11)

其中,l=1,2,…,ns,为静音段音频帧序号,共有ns帧。公式(6)说明了静音段中任意音频帧都对应于待测音频的音频帧,当得到篡改点在静音段中的位置,通过loc求得篡改点在待测音频中对应的位置。在本实施例中,具体loc映射关系如表1所示:

表1

待测音频共有865个音频帧,检测为静音帧的有351个,剩下的音频帧为有声段。一般情况下,音频中会有多段静音,如表1所示,本实施例中的待测音频共有5段静音,按顺序连接成静音段s,第1段静音在静音段s中的序号为1至52,对应于待测音频帧序号为1至52;第2段静音在静音段s中的帧序号为53至75,对应于待测音频中的帧序号为158至180;第3段静音在静音段s中的帧序号为76至236,对应于待测音频中的帧序号为298至458;第4段静音在静音段s中的帧序号为237至262,对应于待测音频中的帧序号为614至639;第5段静音在静音段s中的帧序号为263至351,对应于待测音频中的帧序号为777至865;则可通过loc映射求得静音段s中任意的帧序号对应于待测音频中的帧序号。

第三步,计算静音段音频特征。

计算静音段s的基于mfccs扩展的gldskernel超向量特征。对于静音段的每个音频帧sl,计算其d0维mfccs特征为通过gldskernel函数,扩展为d维超向量特征hi:

音频特征维数d与d0的关系为:

在本实施例中,对静音段每个音频帧计算12维mfccs特征,通过gldskernel函数扩展得到91维超向量特征,静音段所有音频帧特征组成大小为91×351的二维矩阵h,每列代表一个音频帧特征向量,共有351个音频特征向量。

第四步,求相关系数向量。

用大小为d×2w的窗口在音频特征h上从前往后沿水平方向滑动,每次滑动距离为w,w为大于1小于ns的整数,用于表示窗口内列向量的个数,窗口内前w个列向量构成大小为d×w的子矩阵,计算子矩阵每行的均值,得到一个d维均值向量hp,1;窗口内后w个列向量构成大小为d×w的子矩阵,计算子矩阵每行的均值,得到一个d维均值向量hp,2;计算每个窗口前后两个d维均值向量hp,1和hp,2的相关系数,随着窗口的移动,得到相关系数向量ρ,求取过程如下式表示:

其中,p=1,2,…,nρ,为相关系数向量中元素的序号,d=1,2,…,d,为音频特征各维度的值,共有d维,相关系数向量ρ的长度为:

其中,ns为静音段的帧数,μp,1为向量hp,1各个元素的均值,μp,2为向量hp,2各个元素的均值,即:

一般情况下,从单独一个音频帧中难以准确提取表征设备本征噪声和环境噪声的特征,因此需要通过对多帧音频特征取平均,得到准确的特征。在音频篡改处,滑动窗口越大,窗口内前w个音频帧的均值特征与后w个音频帧的均值特征相关系数变化越明显。但是,窗口的大小也会影响篡改定位的精度,窗口越大,定位精度越低。在检测过程中,可根据实际情况中需要的定位精度选取恰当大小的窗口,假设容忍的最大定位误差为时长terror,可以由音频帧移n计算最大的滑动距离w为:

本实施例中,假设最大定位误差时长为150毫秒,根据公式(12)得到最大滑动距离为4,设定滑动窗口大小为91×8,得到相关系数向量ρ,根据公式(10)得到相关系数向量长度为86,相关系数向量如图5所示。

第五步,检测篡改点。

对相关系数向量ρ的元素值进行判断。首先,计算相关系数向量ρ中各个元素的均值u,得到均值之后,设定幅度阈值tρ=qu,因为篡改处的相关系数向量为异常值,其元素值小于均值u,所以选取k为小于1的正数。在本实施例中,计算得到相关系数向量ρ中各个元素的均值u=0.9631,取q=0.9,得到幅度阈值tρ=qu=0.867。数字语音具有短时平稳性,在待测音频的未篡改处,前后静音来自同一录音设备,其前后静音段的音频特征相关系数接近于1。而在待测音频的篡改处,拼接处前后的音频特征代表了不同设备本征噪声和环境噪声信息,相关系数会突然变小。通过检测相关系数向量的异常尖峰,确定拼接篡改位置。

对相关系数一阶差分向量进行判断。首先,计算ρ的一阶差分向量ρ′:

其中,ρ′(p)为相关系数一阶差分向量第p个元素值,p=1,2,…,nρ,为向量元素序号。计算ρ′各个元素绝对值的均值u′,得到均值后,设定一阶差分阈值tρ′=q′u′,因为篡改处的相关系数一阶差分向量元素值为异常值,其差分绝对值大于均值u′,所以选取q′为大于1的正数。在本实施例中,计算得到相关系数一阶差分向量ρ′中各个元素绝对值的均值u′=0.028,取k′=10,得到一阶差分阈值tρ′=q′u′=0.28。相关系数一阶差分向量表示相关系数变化的剧烈程度,其绝对值越大,则前后相关系数变化越大,是篡改点的可能性越大。

在相关系数向量ρ中,小于阈值tρ的元素往往预示着其所在位置存在篡改。而在相关系数一阶差分向量ρ′中,则是绝对值大于阈值tρ′的元素预示着其所在位置存在篡改。利用上述两个阈值得到篡改点集合q,如下式所示:

q={p|1≤p≤nρ,ρ(p)<tρ,|ρ′(p)|>tρ′}(19)

在本实施例中,得到篡改点集合为q={39},待测音频存在1个拼接篡改点。

第六步,确定篡改位置。

在本实施例中,求得q={39},即待测音频被篡改过,且篡改点为相关系数向量第39个元素的位置。本发明方法首先得到篡改点在相关系数向量中的位置,再根据滑动窗口大小d×2w和滑动距离w,求得篡改点p对应于静音段第i1帧到第i2帧之间,其中:

在本实施例中,窗口长度为8,滑动距离为4,根据公式(10)得到篡改点在静音段的第153帧到第160帧之间。

得到篡改点在静音段中的位置之后,由第二步中静音段s与待测音频的帧序号映射loc,计算篡改点在待测音频中的位置。在本实施例中,得到篡改点在待测音频的第375帧到第382帧之间,根据帧长32毫秒和帧移16毫秒,可以得到篡改点位于待测音频的6.000秒到6.112秒之间,检测结果如图6所示。实际篡改拼接点为待测音频的第6.049秒处,检测结果与实际情况相符,证明了本发明的有效性。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1