基于比例因子系数差值的AAC双压缩音频检测方法与流程

文档序号:17735343发布日期:2019-05-22 03:08阅读:360来源:国知局
基于比例因子系数差值的AAC双压缩音频检测方法与流程
本发明涉及一种音频双压缩检测技术,尤其是涉及一种基于比例因子系数差值的aac(advancedaudiocoding,高级音频编码)双压缩音频检测方法。
背景技术
:随着移动互联网时代的发展,移动智能终端的普及以及多媒体技术的不断进步,人们的生活方式发生了较大的变化,能够更加便捷地使用手机采集图像、音频等多媒体信息并分享在网络上。这些多媒体信息无时无刻不渗透在人们的生活之中,其真假性难以辨别。为检测多媒体信息的真实性、完整性,多媒体取证技术应运而生且已成为信息安全领域的热点研究问题之一。数字音频取证技术是数字多媒体取证技术重要的组成部分之一,引起了越来越多的关注。而音频压缩历史检测是数字音频取证技术中的热点问题之一,也获得了重大进展。不法分子在对音频进行篡改、插入等操作时,都会对音频进行压缩,导致音频压缩历史的改变。因此,音频压缩历史检测是判断音频是否被篡改的或伪造的一个必要条件,是检测音频真实性的前一步工作。在mp3音频压缩历史检测方面:如,liuqz,sungah,qiaomy.detectionofdoublemp3compression.cognitivecomputation,2010,2(4):291-296.(刘庆忠、黄继武、乔铭宇,mp3音频的检测),其通过分析压缩前后mp3音频中的mdct(modifieddiscretecosinetransform,修正离散余弦变换)系数矩阵中的1值系数的数量,发现其发生较为明显的变化,因此利用mdct系数矩阵中的1值系数在所有mdct系数中的占比作为检测特征,对低码率转高码率mp3双压缩音频进行有效检测;此外,其将图像隐写分析中的benford定理修正后应用于音频的检测,对两次压缩的mp3音频的mdct系数进行了研究分析,利用benford定理对mp3双压缩音频进行有效检测。又如,reny,fanm,yed,etal.detectionofdoublemp3compressionbasedondifferenceofcalibrationhistogram[j].multimediatools&applications,2016,75(21):13855-13870.(任延珍等人,基于校准直方图差异的mp3双压缩检测[j],多媒体工具与应用),其利用双压缩校准音频与待测音频的qmdct(quantizedmodifieddiscretecosinetransform,量化修正离散余弦变换)系数分布的差异,进行mp3双压缩音频检测以及压缩音频原始码率的估计。再如,bianchit,derosaa,fontanim,rocciolog,pivaa.detectionandlocalizationofdoublecompressioninmp3audiotracks[j].eurasipjournaloninformationsecurity,2014,2014:10.(mp3双压缩音频的检测和定位)、bianchit,derosaa,fontanim,rocciolog,pivaa.detectionandclassificationofdoublecompressedmp3audiotracks[c].ihandmmsec2013-proceedingsofthe2013acminformationhidingandmultimediasecurityworkshop,2013:159-164.(mp3双压缩音频的检测和分类,2013年acm信息隐藏和多媒体安全研讨会论文集),其利用图像的双压缩校正原理,将待测音频进行解码提取出量化步长,对得到的pcm(pulsecodemodulation,脉冲编码调制)采样值进行裁剪并使用之前提取的量化步长进行重新编码,利用一次和二次压缩音频在经过双压缩校正后mdct系数分布与校正前分布呈现出不一样的规律,实现对mp3双压缩音频的有效检测。在amr音频压缩历史检测方面:如,luo,d.;yang,r.;huang,j.detectingdoublecompressedamraudiousingdeeplearning.inproceedingsoftheieeeinternationalconferenceonacoustics,speechandsignalprocessing,florence,italy,4–9may2014;pp.2669–2673,doi:10.1109/icassp.2014.6854084.(罗达,杨瑞,黄继武等,利用深度学习检测amr音频。ieee国际声学,语音和信号处理会议论文集)和luo,d.;yang,r.;huang,j.detectionofdoublecompressedamraudiousingstackedautoencoder.ieeetrans.inf.forensicssecur.2017,12,432–444,doi:10.1109/tifs.2016.2622012.(罗达,杨瑞,黄继武等,利用叠加自动编码器检测amr双压缩音频,ieeetrans),其利用深度学习算法以及大多数投票策略来设计决策检测的amr(adaptivemulti-rate,自适应多速率)音频,并在进一步的工作中提出了基于堆叠自动编码器(sae)网络和通用背景模型-高斯混合模型(ubm-gmm)的amr双压缩音频检测框架。在aac音频压缩历史检测方面:如,seichterd,cuccovillol,aichrothp.aacencodingdetectionandbitrateestimationusingaconvolutionalneuralnetwork[c]//ieeeinternationalconferenceonacoustics,speechandsignalprocessing.ieee,2016.(利用卷积神经网络进行aac双压缩音频的检测以及原始码率估计,ieee国际声学,语音和信号处理会议),其利用卷积神经网络(cnn)对aac双压缩音频分类检测和原始码率估计。又如,chaojin,rangdingwang,etal.anefficientalgorithmfordoublecompressedaacaudiodetection[j].multimediatoolsandapplications,2016,75:4815–4832.(金超、王让定、严迪群,一种有效的检测aac双压缩音频的方法,2016年多媒体工具和应用),其将huffman码表索引出现的概率作为第一特征,将markov单步转移概率作为第二特征,将两个特征进行融合并进行降维得到最终特征,利用libsvm对单压缩和双压缩aac音频进行有效分类,其对同码率压缩音频的检测识别率较低。再如,李晗提出的amr和aac音频检测研究(华南理工大学,2015.),其发现压缩过程中aac双压缩音频的频率成分以及能量值存在较大差异,利用堆栈自动编码器(sae)进行双压缩历史的检测。现有的音频压缩历史检测研究大多针对mp3双压缩音频,对于aac双压缩音频的研究相对较少,且现有的针对aac音频的音频压缩历史检测研究在同码率压缩音频中的检测实验结果不理想,检测准确率较低。技术实现要素:本发明所要解决的技术问题是提供一种基于比例因子系数差值的aac双压缩音频检测方法,其能够实现低码率转高码率的aac双压缩音频及同码率的aac双压缩音频的有效检测,且检测准确率高、计算复杂度较低、鲁棒性较强。本发明解决上述技术问题所采用的技术方案为:一种基于比例因子系数差值的aac双压缩音频检测方法,其特征在于包括以下步骤:步骤一:随机选取no个时长一致而风格不同的原始音频,原始音频的格式为wav格式;然后使用aac编码器并采用nb种比特率,分别对每个原始音频进行压缩,得到nb类具有不同比特率的共n1个aac单压缩音频;接着使用aac解码器,对每个aac单压缩音频进行解压,得到每个aac单压缩音频对应的解压音频,解压音频的格式为wav格式;再使用相同的aac编码器并采用nb种比特率中大于或等于获取对应的aac单压缩音频时所采用的比特率的所有比特率,分别对每个aac单压缩音频对应的解压音频进行压缩,得到类共n2个aac双压缩音频;其中,no为正整数,no≥100,原始音频的时长为大于或等于0.5秒,nb为正整数,nb≥1,n1=no×nb,步骤二:将步骤一中对每个aac单压缩音频对应的解压音频进行压缩时所采用的比特率与获取该aac单压缩音频时所采用的比特率相同时得到的aac双压缩音频作为该aac单压缩音频相应的同比特率再次压缩后aac音频;使用与步骤一中相同的aac解码器,对每个aac双压缩音频进行解压,得到每个aac双压缩音频对应的解压音频,解压音频的格式为wav格式;再使用与步骤一中相同的aac编码器并采用获取对应的aac双压缩音频时第二次压缩所采用的比特率,对每个aac双压缩音频对应的解压音频进行压缩,得到每个aac双压缩音频相应的同比特率再次压缩后aac音频;步骤三:提取每个aac单压缩音频的比例因子系数矩阵,将第n1个aac单压缩音频的比例因子系数矩阵记为然后获取每个aac单压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,n1为正整数,n1的初始值为1,1≤n1≤n1,的维数为m×n,m表示原始音频中包含的帧的总帧数,n表示比例因子子带数,表示中下标为(1,1)的比例因子系数,亦表示第n1个aac单压缩音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n1个aac单压缩音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n1个aac单压缩音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n1个aac单压缩音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;提取每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵,将第n1个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵记为然后获取每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;同样,提取每个aac双压缩音频的比例因子系数矩阵,将第n2个aac双压缩音频的比例因子系数矩阵记为然后获取每个aac双压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,n2为正整数,n2的初始值为1,1≤n2≤n2,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n2个aac双压缩音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n2个aac双压缩音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n2个aac双压缩音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n2个aac双压缩音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;同样,提取每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵,将第n2个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵记为然后获取每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;步骤四:计算每个aac单压缩音频的第一特征向量,将第n1个aac单压缩音频的第一特征向量记为并计算每个aac双压缩音频的第一特征向量,将第n2个aac双压缩音频的第一特征向量记为其中,和的维数为1×61,表示中的第1个元素,表示中的第61个元素,表示中的第1个元素,表示中的第61个元素;计算每个aac单压缩音频的比例因子系数矩阵与每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵的绝对差值矩阵,将与的绝对差值矩阵记为并计算每个aac双压缩音频的比例因子系数矩阵与每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵的绝对差值矩阵,将与的绝对差值矩阵记为然后计算每个aac单压缩音频的第二特征向量,将第n1个aac单压缩音频的第二特征向量记为并计算每个aac双压缩音频的第二特征向量,将第n2个aac双压缩音频的第二特征向量记为其中,和的维数均为m×n,表示中下标为(1,1)的元素,表示中下标为(1,n)的元素,表示中下标为(m,1)的元素,表示中下标为(m,n)的元素,符号“||”为取绝对值符号,表示中下标为(1,1)的元素,表示中下标为(1,n)的元素,表示中下标为(m,1)的元素,表示中下标为(m,n)的元素,和的维数均为1×n,表示中的第1个元素,的值为中第1列的所有元素的平均值,(n)表示中的第n个元素,的值为中第n列的所有元素的平均值,表示中的第1个元素,的值为中第1列的所有元素的平均值,表示中的第n个元素,的值为中第n列的所有元素的平均值;步骤五:获取每个aac单压缩音频的特征向量,将第n1个aac单压缩音频的特征向量记为其中,的维数为1×(61+n),表示中的第1个元素,表示中的第61个元素,表示中的第62个元素,表示中的第61+n个元素,符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;同样,获取每个aac双压缩音频的特征向量,将第n2个aac双压缩音频的特征向量记为其中,的维数为1×(61+n),表示中的第1个元素,表示中的第61个元素,表示中的第62个元素,表示中的第61+n个元素,符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;步骤六:从每类所有的aac单压缩音频中随机选取一部分aac单压缩音频,并从每类所有的aac双压缩音频中随机选取一部分aac双压缩音频;然后将选取的所有aac单压缩音频和选取的所有aac双压缩音频构成训练集,将剩余的所有aac单压缩音频和剩余的所有aac双压缩音频构成测试集;步骤七:训练nb个libsvm分类器,训练第nb个libsvm分类器的具体过程为:将训练集中的第nb类的所有aac单压缩音频的特征向量作为输入,输入到libsvm分类器中进行训练,得到第nb个libsvm分类器模型,其适用于采用第nb种比特率的单压缩aac音频的测试;其中,nb为正整数,nb的初始值为1,1≤nb≤nb;训练个libsvm分类器,训练第n'b个libsvm分类器的具体过程为:将训练集中的第n'b类的所有aac双压缩音频的特征向量作为输入,输入到libsvm分类器中进行训练,得到第n'b个libsvm分类器,其适用于采用第n'b种比特率的双压缩aac音频的测试;其中,n'b为正整数,n'b的初始值为1,步骤八:将测试集中的每个单压缩aac音频或每个双压缩aac音频作为待检测的aac音频;然后根据待检测的aac音频的公开的比特率,将待检测的aac音频的特征向量输入到适用于采用公开的比特率的单压缩aac音频的测试的libsvm分类器模型中,得到第一判决结果;并根据待检测的aac音频的公开的比特率,将待检测的aac音频的特征向量输入到适用于采用公开的比特率的双压缩aac音频的测试的libsvm分类器模型中,得到第二判决结果;再根据第一判决结果和第二判决结果确定待检测的aac音频为aac单压缩音频或aac双压缩音频,若第一判决结果大于或等于0.5而第二判决结果小于0.5,则确定待检测的aac音频为aac单压缩音频;若第一判决结果小于0.5而第二判决结果大于或等于0.5,则确定待检测的aac音频为aac双压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果大于第二判决结果,则确定待检测的aac音频为aac单压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果小于第二判决结果,则确定待检测的aac音频为aac双压缩音频;若第一判决结果和第二判决结果均小于0.5,则认为待检测的aac音频无法判定。所述的步骤五中,ω1=0.4,ω2=0.6。与现有技术相比,本发明的优点在于:1)本发明方法通过研究发现,aac音频在一次压缩以及二次压缩后其比例因子系数变化较小难以进行区分,一次、二次压缩的aac音频再次压缩后发现,其变化较大,因此本发明方法利用再次压缩前后比例因子系数的差异进行检测,这样在充分分析比例因子系数统计特性下,利用本发明方法对aac音频进行双压缩检测的检测准确率得到了明显提高。2)本发明方法利用了aac音频再次压缩前后的变化差异,利用其差异性进行单音频的分类,且在进行特征统计时,仅统计了[140,200]范围内比例因子系数的再次压缩前后的变化,大大减小了计算的复杂度。3)本发明方法将两种不同的特征,第一特征向量与第二特征向量按照不同的权重系数进行融合,进一步提高了检测准确率。4)本发明方法讨论了不同时长、不同编码器的aac音频的实验,验证了在0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒不同时长,以及不同编解码器(faac-1.28编码器和faac2-2.7解码器以及neroaaccodec-1.5.1编解码器)下本发明方法的可行性与有效性,实验结果证明,随着时长的增加,无论是同码率音频压缩还是低码率转高码率音频压缩,其检测准确率均随之增加;对于不同的编码器,本发明方法仍是有效的,且检测准确率较高,在不同的编解码器下,本发明方法仍表现出较好的检测性能,不同时长以及不同编码器的aac音频实验结果反映出了本发明方法中的特征向量的可行性与有效性,证明了其具有较强的鲁棒性。附图说明图1为本发明方法的总体实现框图;图2为原始音频有2000个且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时,得到的14000个单压缩aac音频和56000个aac音频的示意图;图3a为500个10秒60kbps的aac单压缩音频、500个10秒60kbps→60kbps的aac双压缩音频、500个10秒60kbps→60kbps→60kbps的aac双压缩音频相应的同比特率再次压缩后aac音频,同码率压缩音频的比例因子系数矩阵值在[140,200]之间每个值出现概率的统计图;图3b为500个10秒60kbps的aac单压缩音频、500个10秒60kbps→150kbps的aac双压缩音频、500个10秒60kbps→150kbps→150kbps的aac双压缩音频相应的同比特率再次压缩后aac音频,低码率转高码率压缩音频的比例因子系数矩阵值在[140,200]之间每个值出现概率的统计图。图4为300个10秒aac单压缩音频及其相应的同比特率再次压缩后的aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率的差值,以及300个10秒aac双压缩音频及其相应的再次压缩后的aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率的差值的分布散点图;图5为200个aac单压缩音频及其相应的再次压缩后的aac音频的比例因子系数矩阵的绝对差值矩阵中的每列元素的平均值,以及200个aac双压缩音频及其相应的再次压缩后的aac音频的比例因子系数矩阵的绝对差值矩阵中的每列元素的平均值(200个aac双压缩音频中有100个同码率压缩的aac音频和100个低码率转高码率压缩的aac音频)的分布散点图。具体实施方式以下结合附图实施例对本发明作进一步详细描述。发现aac压缩音频在一次压缩以及二次压缩前后,比例因子变化较小,如何将比例因子的变化扩大,利用其进行aac压缩音频的准确分类,值得研究,因此提出本发明。本发明提出的一种基于比例因子系数差值的aac双压缩音频检测方法,其总体实现框图如图1所示,其特征在于包括以下步骤:步骤一:随机选取no个时长一致而风格不同的原始音频,原始音频的格式为wav格式;然后使用aac编码器并采用nb种比特率,分别对每个原始音频进行压缩,得到nb类具有不同比特率的共n1个aac单压缩音频;接着使用aac解码器,对每个aac单压缩音频进行解压,得到每个aac单压缩音频对应的解压音频,解压音频的格式为wav格式;再使用相同的aac编码器并采用nb种比特率中大于或等于获取对应的aac单压缩音频时所采用的比特率的所有比特率,分别对每个aac单压缩音频对应的解压音频进行压缩,得到类共n2个aac双压缩音频,即对一个aac单压缩音频对应的解压音频进行压缩时采用的比特率大于或等于获取该aac单压缩音频时所采用的比特率,当对一个aac单压缩音频对应的解压音频进行压缩时采用的比特率等于获取该aac单压缩音频时所采用的比特率时,获得的aac双压缩音频与该aac单压缩音频同比特率;其中,no为正整数,no≥100,在本实施例中取no=2000,原始音频的时长为大于或等于0.5秒,nb为正整数,nb≥1,在本实施例中取nb=7,7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps,由于原始音频有no个,因此每类有no个aac单压缩音频,nb类则共有no×nb个aac单压缩音频,即n1=no×nb,在获取aac音频的过程中,若获取对应的aac单压缩音频时所采用的比特率为75kbps,那么大于或等于75kbps的所有比特率为75kbps、90kbps、105kbps、120kbps、135kbps和150kbps。使用相同的aac编码器并采用大于或等于aac单压缩音频的比特率,分别对该aac单压缩音频对应的解压音频进行压缩,如此共得到个aac双压缩音频,即在此,原始音频的时长一般要求大于0.5秒,如取0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒或10秒;原始音频的风格可以是蓝调、流行、古典、乡村、民谣等;原始音频的采样率可以是22.05khz、44.1khz、48khz等,在本实施例中原始音频的采样率为44.1khz;原始音频可以是双声道、单声道,在本实施例中原始音频为双声道音频。在本发明方法中,使用最为广泛的aac编码器为faac-1.28,最为广泛的aac解码器为faad2-2.7。图2给出了原始音频有2000个(no=2000),且7种比特率分别为60kbps、75kbps、90kbps、105kbps、120kbps、135kbps和150kbps时,得到的14000个(n1=no×nb=2000×7=14000)aac单压缩音频和56000个aac双压缩音频的示意图。在此,aac编码是以感知音频编码为基本模型开发的,其结合心理声学模型,先将输入的pcm(pulsecodemodulation,脉冲编码调制)信号经过滤波器组完成时频转换,再经过mdct变换得到mdct系数,对mdct系数进行量化编码得到比例因子系数,最后将量化编码后的比特流进行封装,形成最终的压缩音频。在aac编码过程中,调整量化步长在音频编码时会调节比例因子的表示范围,在最大可允许失真范围内控制每个比例因子的量化失真,比例因子的减小一定程度上是由于量化步长的增加。音频中高频信号分量的能量值较低,为保留高频信号的精度,在编码过程中使用较小的量化步长。在音频再次经历压缩操作之后,高频信息相对会被量化,成为0值。与第一次压缩音频相比,量化步长相对增加,比例因子相对减小。通过对比一次压缩与二次压缩前后的量化步长和比例因子,量化步长在一定程度上能够反映音频每帧的变化情况。步骤二:将步骤一中对每个aac单压缩音频对应的解压音频进行压缩时所采用的比特率与获取该aac单压缩音频时所采用的比特率相同时得到的aac双压缩音频作为该aac单压缩音频相应的同比特率再次压缩后aac音频;使用与步骤一中相同的aac解码器,对每个aac双压缩音频进行解压,得到每个aac双压缩音频对应的解压音频,解压音频的格式为wav格式;再使用与步骤一中相同的aac编码器并采用获取对应的aac双压缩音频时第二次压缩所采用的比特率(如:获取一个aac双压缩音频时第二次压缩所采用的比特率为75kbps,那么对该aac双压缩音频对应的解压音频进行压缩时仍采用75kbps),对每个aac双压缩音频对应的解压音频进行压缩,得到每个aac双压缩音频相应的同比特率再次压缩后aac音频;步骤三:随机选取压缩时比特率为60kbps的10秒的aac单压缩音频500个,得到500个aac单压缩音频相应的aac双压缩音频(60kbps→60kbps)作为同比特率再次压缩后aac音频,500个aac单压缩音频相应的aac双压缩音频(60kbps→150kbps),500个aac双压缩音频(60kbps→60kbps)相应的同比特率再次压缩后aac音频(60kbps→60kbps→60kbps),500个aac双压缩音频(60kbps→150kbps)相应的同比特率再次压缩后aac音频(60kbps→150kbps→150kbps)。提取上述不同压缩情况下的每个压缩音频的比例因子,并对其信息进行统计。压缩音频的比例因子的取值范围在[0,255]之间,其值分布近似服从拉普拉斯分布,图3a给出了500个10秒60kbps的aac单压缩音频、500个10秒60kbps→60kbps的aac双压缩音频、500个10秒60kbps→60kbps→60kbps的aac双压缩音频相应的同比特率再次压缩后aac音频,同码率压缩音频的比例因子系数矩阵值在[140,200]之间每个值出现概率的统计图;图3b给出了500个10秒60kbps的aac单压缩音频、500个10秒60kbps→150kbps的aac双压缩音频、500个10秒60kbps→150kbps→150kbps的aac双压缩音频相应的同比特率再次压缩后aac音频,低码率转高码率压缩音频的比例因子系数矩阵值在[140,200]之间每个值出现概率的统计图。在此,为了减少实验的维度,在进行统计分析时,只取比例因子主要值的分布范围[140,200]。从图3a和图3b中可以看出,aac音频压缩次数的增加,其比例因子出现概率相对减小。通过研究对比,认为可以通过增加待测aac音频的压缩次数,利用aac音频再次压缩前后比例因子变化的统计特性来进行aac重压缩音频的检测。提取每个aac单压缩音频的比例因子系数矩阵,将第n1个aac单压缩音频的比例因子系数矩阵记为然后获取每个aac单压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,n1为正整数,n1的初始值为1,1≤n1≤n1,的维数为m×n,m表示原始音频中包含的帧的总帧数,n表示比例因子子带数,表示中下标为(1,1)的比例因子系数,亦表示第n1个aac单压缩音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n1个aac单压缩音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n1个aac单压缩音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n1个aac单压缩音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,200-140+1=61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;提取每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵,将第n1个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵记为然后获取每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n1个aac单压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;同样,提取每个aac双压缩音频的比例因子系数矩阵,将第n2个aac双压缩音频的比例因子系数矩阵记为然后获取每个aac双压缩音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,n2为正整数,n2的初始值为1,1≤n2≤n2,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n2个aac双压缩音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n2个aac双压缩音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n2个aac双压缩音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n2个aac双压缩音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;同样,提取每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵,将第n2个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵记为然后获取每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率,将中值在[140,200]范围内的比例因子系数的出现概率记为其中,的维数为m×n,表示中下标为(1,1)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第1个比例因子带的系数,表示中下标为(1,n)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第1帧中的第n个比例因子带的系数,表示中下标为(m,1)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第1个比例因子带的系数,表示中下标为(m,n)的比例因子系数,亦表示第n2个aac双压缩音频相应的同比特率再次压缩后aac音频中的第m帧中的第n个比例因子带的系数,的维数为1×61,表示中比例因子系数为140的出现概率,表示中比例因子系数为200的出现概率;步骤四:计算每个aac单压缩音频的第一特征向量,将第n1个aac单压缩音频的第一特征向量记为并计算每个aac双压缩音频的第一特征向量,将第n2个aac双压缩音频的第一特征向量记为其中,和的维数为1×61,表示中的第1个元素,表示中的第61个元素,表示中的第1个元素,表示中的第61个元素;计算每个aac单压缩音频的比例因子系数矩阵与每个aac单压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵的绝对差值矩阵,将与的绝对差值矩阵记为并计算每个aac双压缩音频的比例因子系数矩阵与每个aac双压缩音频相应的同比特率再次压缩后aac音频的比例因子系数矩阵的绝对差值矩阵,将与的绝对差值矩阵记为然后计算每个aac单压缩音频的第二特征向量,将第n1个aac单压缩音频的第二特征向量记为并计算每个aac双压缩音频的第二特征向量,将第n2个aac双压缩音频的第二特征向量记为其中,和的维数均为m×n,表示中下标为(1,1)的元素,表示中下标为(1,n)的元素,表示中下标为(m,1)的元素,表示中下标为(m,n)的元素,符号“||”为取绝对值符号,表示中下标为(1,1)的元素,表示中下标为(1,n)的元素,表示中下标为(m,1)的元素,表示中下标为(m,n)的元素,和的维数均为1×n,表示中的第1个元素,的值为中第1列的所有元素的平均值,表示中的第n个元素,的值为中第n列的所有元素的平均值,表示中的第1个元素,的值为中第1列的所有元素的平均值,表示中的第n个元素,的值为中第n列的所有元素的平均值;随机选取300个10秒120kbps的aac单压缩音频及其相应的同比特率再次压缩后aac音频、120kbps→135kbps的aac双压缩音频及其相应的同比特率再次压缩后aac音频。图4给出了300个10秒120kbps的aac单压缩音频及其相应的同比特率再次压缩后的aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率的差值(aac单压缩音频的第一特征向量中的元素)、300个10秒120kbps→135kbps的aac双压缩音频及其相应的同比特率再次压缩后的aac音频的比例因子系数矩阵中值在[140,200]范围内的比例因子系数的出现概率的差值(aac双压缩音频的第一特征向量中的元素)的分布散点图。图4中“o”代表aac单压缩音频的第一特征向量中的元素,“+”代表aac双压缩音频的第一特征向量中的元素,从图4中可以看出,“o”分布较为离散,值较大;“+”分布较为集中,值较小。分布区分较为明显,因此认为可利用第一特征向量进行aac双压缩音频的检测。随机选取400个音频,其中200个acc单压缩音频,并获取其相应的同比特率再次压缩后的aac音频;200个acc双压缩音频(包含100个同码率acc双压缩音频,100个低码率转高码率acc双压缩音频),并获取相应的同比特率再次压缩后的aac音频。图5给出了200个acc单压缩音频的第二特征向量中的元素及100个同码率acc双压缩音频的第二特征向量中的元素和100个低码率转高码率acc双压缩音频的第二特征向量中的元素的分布散点图。从图5中可以看出,100个低码率转高码率acc双压缩音频的第二特征向量中的元素的分布与200个acc单压缩音频的第二特征向量中的元素的分布的差异性十分突出;而对于100个同码率acc双压缩音频,由于同码率音频压缩之间在编解码时差距相对较小,因此100个同码率acc双压缩音频的第二特征向量中的元素的分布与200个acc单压缩音频的第二特征向量中的元素的分布的差异性较小,但仍能区分开来。通过上述分析认为第二特征向量能够从全局反映再压缩对比例因子产生的影响,其可作为有效检测aac双压缩音频的手段。步骤五:获取每个aac单压缩音频的特征向量,将第n1个aac单压缩音频的特征向量记为其中,的维数为1×(61+n),表示中的第1个元素,表示中的第61个元素,表示中的第62个元素,表示中的第61+n个元素,即为与的拼接,符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;同样,获取每个aac双压缩音频的特征向量,将第n2个aac双压缩音频的特征向量记为其中,的维数为1×(61+n),表示中的第1个元素,表示中的第61个元素,表示中的第62个元素,表示中的第61+n个元素,即为与的拼接,符号“*”为卷积符号,ω1和ω2为权重值,ω1+ω2=1;在此具体实施例中,步骤五中,ω1=0.4,ω2=0.6。在此选择三种权重占比进行实验,以选择合适的权重值。选择ω1和ω2的比值为1:1、2:3、3:2,即ω1=0.5和ω2=0.5、ω1=0.4和ω2=0.6、ω1=0.6和ω2=0.4。选取1000个时长为10秒的wav音频,获取对应的aac单压缩音频和aac双压缩音频,进而得到每个aac单压缩音频的第一特征向量和第二特征向量及每个aac双压缩音频的第一特征向量和第二特征向量,再利用三种不同的权值,按照步骤五的过程进行计算,将利用ω1=0.5和ω2=0.5时得到的第n1个aac单压缩音频的特征向量记为第n2个aac双压缩音频的特征向量记为利用ω1=0.4和ω2=0.6时得到的第n1个aac单压缩音频的特征向量记为第n2个aac双压缩音频的特征向量记为利用ω1=0.6和ω2=0.4时得到的第n1个aac单压缩音频的特征向量记为第n2个aac双压缩音频的特征向量记为之后按照步骤六至步骤八的过程进行操作,得到不同权重融合情况下的检测结果,表1为不同权重融合情况下的待检测的aac音频的检测结果的检测准确率。表1不同权重融合情况下的待检测的aac音频的检测结果的检测准确率—faac融合方法平均检测准确率ω1=0.5和ω2=0.596.35%ω1=0.4和ω2=0.698.94%ω1=0.6和ω2=0.494.13%从表1中可以看出,ω1=0.4和ω2=0.6时的平均检测准确率最高,因此选择ω1=0.4和ω2=0.6。步骤六:从每类所有的aac单压缩音频中随机选取一部分aac单压缩音频,并从每类所有的aac双压缩音频中随机选取一部分aac双压缩音频;然后将选取的所有aac单压缩音频和选取的所有aac双压缩音频构成训练集,将剩余的所有aac单压缩音频和剩余的所有aac双压缩音频构成测试集;在本实施例中,设定从每类所有的aac单压缩音频中随机选取70%aac单压缩音频,并从每类所有的aac双压缩音频中随机选取70%aac双压缩音频,即70%aac单压缩音频和70%aac双压缩音频构成训练集,30%aac单压缩音频和30%aac双压缩音频构成测试集。步骤七:训练nb个libsvm分类器,训练第nb个libsvm分类器的具体过程为:将训练集中的第nb类的所有aac单压缩音频的特征向量作为输入,输入到libsvm分类器中进行训练,得到第nb个libsvm分类器模型,其适用于采用第nb种比特率的单压缩aac音频的测试;其中,nb为正整数,nb的初始值为1,1≤nb≤nb;训练个libsvm分类器,训练第n'b个libsvm分类器的具体过程为:将训练集中的第n'b类的所有aac双压缩音频的特征向量作为输入,输入到libsvm分类器中进行训练,得到第n'b个libsvm分类器,其适用于采用第n'b种比特率的双压缩aac音频的测试;其中,n'b为正整数,n'b的初始值为1,步骤八:将测试集中的每个单压缩aac音频或每个双压缩aac音频作为待检测的aac音频;然后根据待检测的aac音频的公开的比特率,将待检测的aac音频的特征向量输入到适用于采用公开的比特率的单压缩aac音频的测试的libsvm分类器模型中,得到第一判决结果;并根据待检测的aac音频的公开的比特率,将待检测的aac音频的特征向量输入到适用于采用公开的比特率的双压缩aac音频的测试的libsvm分类器模型中,得到第二判决结果;再根据第一判决结果和第二判决结果确定待检测的aac音频为aac单压缩音频或aac双压缩音频,若第一判决结果大于或等于0.5而第二判决结果小于0.5,则确定待检测的aac音频为aac单压缩音频;若第一判决结果小于0.5而第二判决结果大于或等于0.5,则确定待检测的aac音频为aac双压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果大于第二判决结果,则确定待检测的aac音频为aac单压缩音频;若第一判决结果和第二判决结果均大于或等于0.5且第一判决结果小于第二判决结果,则确定待检测的aac音频为aac双压缩音频;若第一判决结果和第二判决结果均小于0.5,则认为待检测的aac音频无法判定。为了进一步说明本发明方法的可行性和有效性。在此在不同的时长0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒下进行验证。此外,本发明方法中的音频样本主要是利用faac-1.28编码器、faac2-2.7解码器实施得到,为验证本发明方法的可行性与有效性,将音频样本利用neroaaccodec-1.5.1的编码器和解码器实施得到。利用不同时长、不同编码器对本发明方法进行实验验证。实验结果表明本发明方法具有较强的鲁棒性。随机获取2000个时长为10秒的原始wav音频,然后分别截取成0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒的wav音频片段,获得不同时长的wav音频各2000个,以对不同时长的aac音频进行讨论。按本发明方法的步骤一的过程,获得每个时长为0.5秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为1秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为2秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为3秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为4秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为5秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为6秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为7秒wav音频片段对应的aac单压缩音频和aac双压缩音频、每个时长为8秒wav音频片段对应的aac单压缩音频和aac双压缩音频;每个时长为9秒wav音频片段对应的aac单压缩音频和aac双压缩音频;每个时长为10秒wav音频对应的aac单压缩音频和aac双压缩音频;再按本发明方法获得每个aac单压缩音频的特征向量和每个aac双压缩音频的特征向量。将上述的每个时长为10秒的aac单压缩音频或每个时长为10秒的aac双压缩音频作为一个待检测的aac音频,按本发明方法,将待检测的aac音频的特征向量输入到适用于采用待检测的aac音频公开的比特率的单压缩aac音频的测试的libsvm分类器模型中和适用于采用待检测的aac音频公开的比特率的双压缩aac音频的测试的libsvm分类器模型中,得到第一判决结果和第二判决结果,进而得到最终的检测结果,检测准确率如表2所列。表2中,br1表示第一次压缩时所采用的比特率,br2表示第二次压缩时所采用的比特率。表2利用本发明方法对时长为10秒的待检测的aac音频进行检测的检测结果的检测准确率—faac以表2中第六行第七列的值(100%)为例,该值表示利用本发明方法对先后采用105kbps和135kbps比特率压缩(faac/faad2)的aac双压缩音频的综合检测准确率达到了100%。从表2中可以看出,低码率转高码率(第二次压缩采用的比特率高于第一次压缩采用的比特率)的aac双压缩音频的检测结果的平均检测准确率达到了99.91%,同码率(第二次压缩采用的比特率与第一次压缩采用的比特率一致)的aac双压缩音频的检测结果的平均检测准确率达到了97.98%。说明本发明方法提出的特征向量在低码率转高码率的情况下取得了较好的检测效果,均超过了99%,但针对相同码率的压缩音频,平均检测准确率相对偏低约1.93个百分点,这是由于在音频双压缩时,其比例因子系数变化较小,再次压缩前后差值变化也相对较小。将上述的不同时长的每个aac单压缩音频或每个aac双压缩音频作为一个待检测的aac音频,按本发明方法,将待检测的aac音频的特征向量输入到适用于采用待检测的aac音频公开的比特率的单压缩aac音频的测试的libsvm分类器模型中和适用于采用待检测的aac音频公开的比特率的双压缩aac音频的测试的libsvm分类器模型中,得到第一判决结果和第二判决结果,进而得到最终的检测结果。表3给出了利用本发明方法对不同时长的待检测的aac音频进行检测的检测结果的检测准确率。表3中,同码率压缩表示第二次压缩采用的比特率与第一次压缩采用的比特率一致情况下得到的平均检测准确率;低码率转高码率表示第二次压缩采用的比特率高于第一次压缩采用的比特率情况下得到的平均检测准确率。表3利用本发明方法对不同时长的待检测的aac音频进行检测的检测结果的检测准确率—faac时长(秒)同码率压缩(%)低码率转高码率(%)0.578.5691.561.082.3593.332.087.6395.123.091.3395.894.094.8797.855.096.0597.636.097.1498.588.097.0299.039.097.8999.8710.097.9899.91从表3中可以看出,在不同时长下0.5秒、1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒,不论是低码率转高码率还是同码率,都能获得较高的平均检测准确率。在上述实验中均使用faac-1.28和faad2-2.7对acc音频进行编解码。现为说明本发明方法的有效性,使用不同的编码器,在此选择了另一种流行的aac编解码软件neroaaccodec-1.5.1来处理aac音频,即aac编码器选用neroaaccodec-1.5.1的编码器,aac解码器选用neroaaccodec-1.5.1的解码器。即对于随机选取的2000个10秒长的wav音频,在步骤一和步骤二中,使用neroaaccodec-1.5.1的编码器对音频进行压缩,使用neroaaccodec-1.5.1的解码器对音频进行解压,从而获取aac单压缩音频及aac双压缩音频;并按照本发明方法获得aac单压缩音频的特征向量及aac双压缩音频的特征向量,进行训练和测试。表4为利用本发明方法对时长为10秒的待检测的aac音频进行检测的检测结果的检测准确率。从表4中可以看出,对于不同编码器的aac音频,仍有较好的检测准确率,在低码率转高码率的acc双压缩音频表现仍优于在同码率压缩音频上的表现。表4利用本发明方法对时长为10秒的待检测的aac音频在不同编码器上进行检测的检测结果的检测准确率—neroaac对比表2和表4发现,在faac重压缩音频上检测准确率高于在neroaac上的检测准确率,分析发现,neroaac重压缩音频在重压缩前后比例因子的变化相对于faac重压缩音频较小,所以利用比例因子特征进行检测时,其检测准确率略低。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1