一种利用字节帧间幅度谱相关性的音频同源篡改检测方法与流程

文档序号:15391494发布日期:2018-09-08 01:12阅读:379来源:国知局
本发明涉及音频取证
技术领域
,具体涉及一种利用字节帧间幅度谱相关性的音频同源篡改检测方法。
背景技术
:随着多媒体技术的普遍使用和日趋成熟,人们更容易获取信息,随之产生了如何检验多媒体信息是否完整、可靠的问题。如何对多媒体数据进行有效的篡改检测已成为信息安全领域的一个重要研究课题。相较于图像和视频,针对数字音频的篡改检测研究较少。对于音频篡改,同源复制粘贴篡改是最容易实现的也是最常见的。篡改者将音频中的某个片段进行复制并粘贴到该音频的其他位置,从而改变音频的真实语义。如果不法分子将扭曲的篡改音频用于法庭证据、部门机密信息等方面,则会造成严重的后果。因为同源复制粘贴篡改只在同段音频中操作,使得这类篡改具有隐蔽性高且容易实现的特点。因此,研究音频同源复制粘贴篡改的检测方法对于保证数字多媒体信息的原始性、真实性和完整性具有非常重要的意义。技术实现要素:为了克服现有技术存在的缺点与不足,本发明提供一种利用字节帧间幅度谱相关性的音频同源篡改检测方法。本发明采用如下技术方案;一种利用字节帧间幅度谱相关性的音频同源篡改检测方法,包括如下步骤:s1将待测音频信号预加重;s2对预加重后的音频进行加窗分帧处理,其中帧时长为m,帧移为n,分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,nframe,nframe为音频帧数量;s3对加窗分帧后的各帧音频信号计算过零率zcr(l);s4根据低频频谱能量分离待测音频中的各个字节;s5剔除无效字节,具体为:设定最短字节时长阈值tm,将时长小于tm的字节剔除,得到有效字节集合x={x1,x2,x3,…,xm},其中xi为第i个字节,m为有效字节的个数;s6计算剔除无效字节后的待测音频信号中的两字节间各帧的幅度谱相似度;s7设定相似度阈值th,若两个字节中存在两对或两对以上的帧幅度谱相似度大于给定阈值,则判断字节xi和xj存在复制粘贴关系;s8对所有的字节i≠j∈{1,2,...,m},重复步骤6和7,得到所有存在复制粘贴关系的字节对,由此可定位出待测音频中的复制粘贴区域。所述过零率的计算公式为:其中,yl(k)表示第l帧的第k个数据点,k为各帧的数据点数,sgn[]是符号函数,如下式:所述s4中根据低频频谱能量分离待测音频中的各个字节,具体为:对待测音频信号的各帧yl进行长度为nfft点的傅里叶变换,得到对应的幅度谱s(l,f),其中f表示频率点序号,然后计算待测音频信号中所有帧的低频能量平均值,计算各帧yl的低频能量与低频能量平均值的比值nlfer。所述nlfer其中,若低频部分频率下限为f0_minhz,频率上限为f0_maxhz,设抽样频率为fs,则对应fft变换频率的上下限分别为:f0_min=(f0_min×2/fs)×nfft,f0_max=(f0_max/fs)×nfft;设定能量阈值,将nlfer值大于阈值的帧判定为语音帧,否则判定为噪声帧,连续多个语音帧构成字节,从而分离出待测音频中的各个字节。s2中窗函数选用汉明窗。所述s6中,当两帧的过零率之差的绝对值小于给定阈值tzcr时才计算其幅度谱相似度。帧时长m在16毫秒到128毫秒之间选取,帧移时长n取音频帧时长1/2~2/3。采用皮尔逊相关系数度量两帧之间的幅度谱相似度。本发明的有益效果(1)现有算法在检测复制粘贴区域时并不区分话音片段和噪声片段,考虑到实际应用场合中,通常语音字节才能表达实际的语义信息,因此本发明先提取出音频中的有效字节,再针对这些字节进行相似度匹配,一方面可以大大减少运算时间,另一方面也可以提高检测的准确率;(2)因为相关系数的运算量较大,本发明在计算两帧之间的幅度谱相关系数时,先用过零率初步判断两帧之间的相似性,当过零率相近时才进一步计算相关系数,可以进一步减少运算时间。附图说明图1是本发明的工作流程图;图2是本发明实施例中原始音频波形图;图3是本发明实施例中幅值粘贴篡改音频波形图;图4是本发明实施例中篡改音频每帧的过零率示意图;图5是本发明实施例中字节分割效果图;图6是本发明实施例中篡改检测结果图。具体实施方式下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。实施例如图1所示为本发明的流程框图,包括八个步骤,分别为音频预加重,分帧加窗,计算各帧过零率,分离字节,剔除短字节,计算两字节间各帧的幅度谱相似度,判断字节复制粘贴关系及篡改定位。本实施例以一段wav格式的音频作为分析对象,按照本发明进行判断的过程,如图2所示,为原始音频波形图,语音内容为人说话“一二三四、三四”。如图3所示,为篡改音频波形图,语音内容为“一二三四、一二三四”,其中第5和第6个字节是由第1和第2个字节复制粘贴而来,即第1个与第5个字节、第2个与第6个字节分别存在复制关系。两段音频采样率均为8khz。实施例中将通过本发明的方法将篡改音频中的复制粘贴处检测并定位出来。包括如下步骤:s1对待测音频进行预加重,采用一阶高通数字滤波器实现,滤波器响应如下式为:h(z)=1-uz-1预加重目的在于提升高频部分,便于频谱分析,同时也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。实施例中预加重系数u取0.97。s2对预加重后的音频进行分帧加窗处理,其中帧时长为m,帧移为n,窗函数可选用汉明窗。分帧加窗后的时域音频信号表示为yl,其中帧序号l=1,2,…,nframe,nframe为音频帧数量。预加重后音频的音频帧总数nframe可由下式进行求取:其中,代表向下取整数运算,ts为待测音频时长,m为音频帧时长,ts>m>0,n为帧移时长,m>n>0。音频帧时长m一般在16毫秒到128毫秒之间选取,音频帧移时长n表示相邻音频帧之间重合的部分大小,一般取音频帧时长的1/2到2/3之间,使帧和帧之间能够平滑过渡。舍弃音频最后不够一帧长度的数据。本实施例中,篡改音频时长为5984毫秒,选取音频帧时长为128毫秒,帧移为帧长的1/2,音频每帧共有128毫秒×8khz=1024个数据点,根据式(3)计算得到音频共有92帧。音频帧采用汉明窗加窗。s3对分帧加窗后的各帧音频信号计算过零率zcr(l),具体为:其中,yl(k)表示第l帧的第k个数据点,k为各帧的数据点数,sgn[]是符号函数,如式(5):如图4所示,为篡改音频各帧的过零率变化图,可以看到存在复制关系的第1和第5个字节,第2和第6个字节各帧的过零率相近。s4根据低频频谱能量分离待测音频中的各个字节,对待测音频各帧yl进行长度为nfft点的傅里叶变换,得到对应的幅度谱s(l,f),其中f表示频点序号。计算音频所有帧低频能量平均值,对音频帧yl计算其低频能量与该平均值的比值nlfer(normalizedlowfrequencyenergyratio),如下式:其中,若低频部分频率下限为f0_minhz,频率上限为f0_maxhz,设抽样频率为fs,那么式(1)中对应fft变换频率的上下限分别为:f0_min=(f0_min×2/fs)×nfft,f0_max=(f0_max/fs)×nfft。根据静音段以高频噪声为主的特点,可对nlfer值设置合适的阈值,若nlfer值高于阈值,判定该帧为有声帧,反之则为静音帧,连续多个有声帧构成字节,从而分离出待测音频中的各个字节。本实施例中,总帧数nframe为92,低频部分频率下限f0_min为60hz,频率上限f0_max为400hz,傅里叶变换的长度nfft为8192,式(1)中的fft频率下限f0_min=(f0_min×2/fs)×nfft,约等于123,fft频率上限f0_max=(f0_max/fs)×nfft,约等于410。设定能量阈值,将nlfer值大于阈值的帧判定为语音帧,否则判定为噪声帧,连续多个语音帧构成字节。在本实施例中能量阈值为0.75。s5剔除过短的无效字节。受环境噪声影响,音频中会出现过短的无效字节,设定最短字节时长阈值tm,将时长小于tm的字节剔除。本实施例中,tm取值为一帧的时长,即128毫秒,共得到8个有效字节,字节集合记为x={x1,x2,x3,…,x8}。图5为本实施例中待测音频字节分割的最终结果示意图,图中幅度值为1的部分表示有效字节。s6计算剔除无效字节后的待测音频信号中的两字节间,各帧的幅度谱相似度。皮尔逊相关系数度量两帧的幅度谱相似度公式如下:从x中选取两字节xi和xj,逐一计算字节xi中各帧与字节xj中各帧的幅度谱相似度,其中字节xi由帧集合i={yl|l=αi…βi}组成,字节xj由帧集合j={yk|k=αj…βj}组成,逐一计算i中各帧与j中各帧的幅度谱相似度。为减少计算量,先检验两帧的过零率是否相近,只有当两帧的过零率之差的绝对值小于给定阈值tzcr时才计算其幅度谱相似度。其中yl和yk分别为字节xi与字节xj中的帧,·表示内积运算,表示向量均值。本实施例中,8个字节的起始帧和结束帧序号如表1所示。表18个字节对应的起始帧序号αi和结束帧序号βi字节12345678αi518304250637383βi822344453677686为减少计算量,先检验两帧的过零率是否相近,只有当两帧的过零率之差的绝对值小于给定阈值tzcr时才计算其幅度谱相似度。本实施例中,取阈值tzcr为60。如表2所示,采用短时过零率预判可显著降低幅度谱相关系数的计算次数,从而减少检测算法俩字节比较部分的运行时间。表2是否采用过零率预判的计算量对比相关系数计算次数比较部分运行时间(s)采用过零率预判2470.045未采用过零率预判5040.085表3给出了本实施例中第1个和第2个字节各帧的幅度谱相关系数,表4则给出了第1个和第5个字节各帧的幅度谱相关系数。表3第1个和第2个字节各帧的幅度谱相关系数ρ(l,k)l=5l=6l=7l=8k=18-0.1714-0.0982-0.1675-0.2620k=19-0.0258-0.0604-0.06350.0603k=200.39990.18880.18170.1821k=210.65350.10080.01980.2024k=220.31200.0654-0.04580.0818表4第1个和第5个字节各帧的幅度谱相关系数ρ(l,k)l=5l=6l=7l=8k=500.90900.37840.06540.2240k=510.09790.96540.58340.0851k=52-0.02750.36790.96030.5527k=530.30390.11100.29940.9417对比表3和表4可以看到,不存在复制关系的两个字节之间的帧间相关系数很小,存在复制关系的两个字节之间的帧间相关系数值较大,特别是表中对角线位置的相关系数值均接近1。s7设定相似度阈值th,若两个字节中存在两对或两对以上的帧幅度谱相似度大于给定阈值,则判断字节xi和xj存在复制粘贴关系;具体为:设定相似度阈值th,若第五步中有两对或两对以上的帧幅度谱相关系数大于给定阈值,则判定其所属字节xi和xj存在复制粘贴关系。本实施例中阈值th为0.94。从表3可见,第1个和第2个字节的所有帧间幅度谱相关系数均未超过阈值,因此判定这两个字节不存在复制粘贴关系。从表4可见,第1个和第5个字节比较时,有3对音频帧的幅度谱相关系数大于阈值th,因此判定这两个字节存在复制粘贴关系。s8对所有的i≠j∈{1,2,...,m},重复s6和s7,得到所有存在复制粘贴关系的字节对,由此可定位出待测音频中的复制粘贴区域。本实施例中共有8个字节,需进行28次匹配,最终得出第1个和第5个字节、第2个和第6个字节分别存在复制粘贴关系,由此可定位出待测音频中的复制粘贴区域。图6给出了本实施例的检测结果,该结果与实际情况相符,证明了本发明的有效性。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1