一种amr音频的鉴定方法

文档序号:2827224阅读:151来源:国知局
一种amr音频的鉴定方法
【专利摘要】本发明公开了一种AMR音频的鉴定方法,用于对AMR格式的音频进行压缩的鉴定分析,是首先采用深度学习算法构造一次AMR压缩的分类器模型和二次AMR压缩的分类器模型;并采用多数表决投票机制判断待检测音频属于一次AMR/二次AMR压缩的音频。本方法是一种统计判别方法,属于信息取证领域。本发明方法利用深度学习方法从AMR音频的波形中学习得到模型,该模型可以判别音频小段属于AMR一次压缩还是二次压缩。对于较长的音频片断,采用一组多数表决的投票策略对其进行判别。本发明的技术可为音频/语音的原始性鉴定和音频/语音篡改检测提供一种计算机程序化的辅助手段。
【专利说明】—种AMR音频的鉴定方法
【技术领域】
[0001]本发明涉及信息取证领域,更具体地,涉及一种AMR音频二次压缩的鉴定方法。
【背景技术】
[0002]随着技术的快速发展,如今我们可以很方便地取得数字录音,并且可以很容易地通过各式各样的音频编辑软件对音频进行篡改。在给人们带来便利的同时,不留痕迹地篡改录音变成了可能,由此产生的道德和法律问题也变得越来越多。音频作为法庭证据的数量不断增加,使得音频认证技术变得十分重要,例如鉴定录音的原始性以及录音是否遭受篡改等。
[0003]AMR编码器是一种专门为语音录音设计的音频编码器,具有很高的压缩率(4.7kbps-12.2kbps),其标准也在1999年被3GPP认定为语音压缩编码标准,因此被广泛使用。目前,绝大部分的录音设备支持AMR格式,并且很多设备也把它设置成为默认的存储格式。由于AMR格式被广泛使用于手机等设备,对于AMR格式的原始性鉴定及篡改检测成为了重要的课题。
[0004]对AMR格式音频的二次压缩进行检测,是一种被动认证技术,它的目标是判断一个AMR音频是否被二次压缩过。如果发现音频是被二次压缩过,则其原始性应该受到质疑。目前,有部分文献进行了二次压缩检测的工作。文献“Rui Yang, Yunqing Shi, JiwuHuang,Defeating Fake-Quality MP3,in Proceedings of ACM Workshop on Multimediaand Security, Princeton, New Jersey, USA, 2009” 中提出釆用小数值的 MDCT 系数作为特征判别假音质的 MP3 文件,文献“M.Qiao,A.Sung,and Q.Liu.Revealing real quality ofdouble compressed MP3 audio, in Proc.0f the international conference on Multimedia,Firenze, Italy, 2010,pp.1011-1014”和文献“Q.Liuj A.Sung, and M.Qia0.Detectionof double MP3 compression, Cognitive Computation,vol.2,pp.291-296,2010.” 也公开了利用MDCT系数的统计特征对MP3文件进行重压缩检测。文献“D.Luoj I Luoj R.Yang, andJ.Huang, Compression history identification for digital audio signal, in Proc.0fthe International Conference on Acoustics, Speech and Signal Processing,Kyoto,2012, pp.1733-1736.,’、文献“F.Jenner and A.Kwasinskij Highly accurate non-1ntrusivespeech forensics for codec identifications from observed decoded signals, inProc.0f the International Conference on Acoustics, Speech and Signal Processing,Kyoto, 2012,pp.1737-1740” 和文献“S.Hicsonmezj Ε.Uzunj and Η.Τ.Senear, Methodsfor identifying traces of compression in audio, in Proc.0f thelst InternationalConference on Communications, Signal Processing,and their Applications, Sharjah,2013,pp.1-6”公开了利用针对MP3,WMA,AAC等格式进行重压缩检测,但没有涉及AMR格式二次压缩检测。文献“R.Yang,Z.Qu,and J.Huang, Detecting digital audio forgeriesby checking frame offsets, in Proc.0f the 10th ACM workshop on Multimedia andsecurity, Oxford, United Kingdom,2008.”和文献“C.Grigoras,Digital audio recordinganalysis:The electric network frequency ENF criterion,The International Journalof Speech Language and the Law, vol.12,n0.1, pp.63-76, 2005.”分别公开了米用计算中贞偏移的方法以及电网频率的方法来检测音频是否遭受篡改。

【发明内容】

[0005]本发明的目的在于提出一种AMR音频二次压缩鉴定方法,用于检测AMR格式的音频是否进行了二次压缩,从而判断该音频或语音是否经过篡改,为音频/语音取证提供一种辅助手段。
[0006]为了实现上述目的,本发明的技术方案为:
[0007]一种AMR音频的鉴定方法,
[0008]采用深度学习算法构造一次AMR压缩的分类器模型和二次AMR压缩的分类器模型;
[0009]采用多数表决投票机制判断待检测音频;
[0010]其中所述采用深度学习算法构造分类器模型的具体方式为:
[0011]将采样率为8000Hz、16bit的录制音频存放在WAV格式中,使用AMR编码器将该音频压缩成一次AMR压缩文件,其中压缩码率为:4.7-12.2kbps ;
[0012]将一次AMR压缩文件解压缩成为WAV格式的文件,再次使用AMR编码器将其压缩成二次AMR压缩文件,其中压缩码率为:4.7-12.2kbps ;
[0013]将一次AMR压缩和二次AMR压缩的音频解压缩,得到音频波形信号;将音频波形信号正则化之后切分为音频小段,采用深度学习算法对音频小段进行训练,得到一次AMR压缩的分类器模型和二次AMR压缩的分类器模型;
[0014]采用多数表决投票机制判断待检测音频的具体方式为:
[0015]将待检测音频切分为若干个音频段,将每个音频段切分为若干个音频小段,采用上述的一次AMR压缩的分类器模型或二次AMR压缩的分类器模型来判断各个音频小段;当音频段中多数音频小段属于一次AMR压缩则该音频段为一次AMR压缩,当音频段中多数音频小段属于二次AMR压缩则该音频段为二次AMR压缩。
[0016]在一种优选的方案中,采用SAE或Dropout的方法对音频小段进行训练。
[0017]在一种优选的方案中,所述将音频波形信号正则化是将音频波形信号减去均值并除以标准差的波形信号。
[0018]在一种优选的方案中,将待检测音频切分为若干个I秒钟的音频段,将各I秒钟的音频段分别切分成20个音频小段,各音频小段含400个样本点。
[0019]在一种优选的方案中,将待检测音频切分为若干个2秒钟的音频段,将各2秒钟的音频段分别切分成40个音频小段,各音频小段含400个样本点。
[0020]与现有技术相比,本发明的有益效果为:采用本方法识别出来的一次AMR/二次AMR压缩小段的与各自的识别准确率比较接近,虚警和漏检偏差较小。通过检测AMR格式的音频是否进行了二次压缩,从而判断该音频或语音是否经过篡改,为音频/语音取证提供一种辅助手段;采用本方法还能分析得到待检测音频的篡改点。
【专利附图】

【附图说明】[0021]图1是AMR 二次压缩检测的分类器构造框架示意图。
[0022]图2是隐层节点输出值分布示意图,其中图2 (a)为一次AMR压缩10个隐层节点输出值分布示意图,图2 (b)为二次AMR压缩10个隐层节点输出值分布示意图。
[0023]图3是一秒音频20段音频小段中识别错误的直方图,其中图3 (a)为一次压缩识别错误个数的直方图,图3 (b)为二次压缩识别错误的个数的直方图。
[0024]图4是检测音频篡改示意图。
【具体实施方式】
[0025]下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。
[0026]本发明方法通过以下两个步骤对AMR音频二次压缩进行检测:
[0027]( I)深度学习分类器模型的构造
[0028]a)录制录音,采样率8000Hz,16bit,存放于WAV格式中。使用AMR编码器将它们压缩成一次AMR压缩文件,压缩码率4.7-12.2kbps随机选取。解压缩成为WAV格式的文件,再次使用AMR编码器将它们压缩成二次AMR压缩文件,压缩码率4.7-12.2kbps随机选取。
[0029]b) AMR 二次压缩检测的分类器构造框架示意图如图1所示。首先要将一次AMR压缩和二次AMR压缩的音频解压缩,得到音频波形信号。然后将波形信号正则化,即减去均值并除以标准差之后切分为音频小段,每小段400个样本点。使用SAE或者Dropout方法进行训练,可以得到区分一次AMR/ 二次AMR压缩的分类器模型Model。
[0030](2)多数表决投票机制
[0031]a)对于I秒钟的音频,首先切分成20小段,每一小段都是使用上一阶段得到的分类器模型Model进行判断属于一次AMR/二次AMR压缩。采用多数表决投票机制,即如果有11小段判断为一次压缩,则认为这一秒钟音频属于一次压缩;如果有11小段判断为二次压缩,则认为这一秒钟音频属于二次压缩。
[0032]b)对于更长的音频,就切分成若干个I秒钟的音频段,重复上面步骤a)。
[0033]本发明方法的原理如下:
[0034]深度学习算法是一种模拟人类神经系统的多层表达的学习机制,每一层能学习到一些特征,它代表着原始数据的另一种抽象表示,网络中低层次的位置学习到低等级的特征,网络中高层次的位置学习到高等级的特征。深度学习的核心思想是,通过学习可以得到一个模型,它可以得到数据的另一种抽象表示(特征),而且它具有对数据进行分类的能力。
[0035]在本实施例中采用了两种深度学习算法,分别是SAE (Stack Auto-Encoder)以及Dropout方法。SAE的训练是逐层进行的,一个自动编码器(auto-encoder)包含3个层次,一个输入层,一个隐层,一个输出层。在训练的时候,把输出层的训练目标设置为输入的数据。这样,训练的结果,隐层节点的输出值可以认为是输入数据的另一种抽象表示。SAE就是把若干丢弃了输出层的自动编码器连接到一起组成的一个神经网络,它每一层训练出一组新的数据表示(特征)。Dropout方法是另一个深度学习算法,它在训练阶段随机弃用一部分神经元节点的值,这样的做法是为了避免隐层节点之间过强的相互作用的耦合。另一种角度来看,一部分的神经元节点弃用,则另外一部分神经元节点也必须能训练出合适的特征来处理问题。
[0036]下面给出本发明方法的一些实验以证实深度学习算法的可用性以及我们方法的准确率。
[0037]首先录制了 3600秒的录音作为实验数据,其采样率8000Hz,16bit,存放于WAV格式中。使用AMR编码器将它们压缩成一次AMR压缩文件,压缩码率4.7-12.2kbps随机选取。解压缩成为WAV格式的文件,再次使用AMR编码器将它们压缩成二次AMR压缩文件,压缩码率4.7-12.2kbps随机选取。试验中,8000Hz的一秒音频被分为20个音频小段,每小段400个样本点。3600秒音频,可以得到3600*20=72000个音频小段,每个小段都获得其对应的一次AMR压缩及二次AMR压缩的2类音频小段。对于每一类,其中10000段作为训练样本,使用SAE及Dropout训练,其他62000段左右测试样本。
[0038]将一次AMR压缩跟二次AMR压缩的音频解压缩,得到音频波形信号。然后将波形信号正则化(减去均值并除以标准差)之后切分为音频小段,每小段400个样本点。使用SAE或者Dropout方法进行训练,可以得到区分一次AMR/ 二次AMR压缩的分类器模型。
[0039]在图2中,展示了第二个隐层中的10个隐层节点的输出值分布示意图。2(a)、2(b)两个子图分别对应于一次AMR压缩和二次AMR压缩的输出结果,可以明显看出,其输出值有所区别。这也可以从侧面证实,深度学习方法确实可以从数据中学习到另外的抽象表示(特征),而这种表示可以区分不同的压缩音频片断。
[0040]表1展示了本实施例使用了不同的深度学习算法的结果。首先需要描述网络的表达方式,在本实施例中采用[i ^h2Iv]这个方式来表达一个网络,它代表这个网络有i个输入节点,第I隐层有h个节点,第2隐层有h2个节点,第3隐层有h3个节点,以此类推。表中NN的方法代表普通的神经网络算法,可以看出SAE及Dropout方法都可以得到比普通NN更低的错误率。其中使用Dropout网络[400 600 300]可以得到最好的结果。
[0041]表1不同算法,不同网络结构在400-600层迭代之后的错误率
【权利要求】
1.一种AMR音频的鉴定方法,其特征在于, 采用深度学习算法构造一次AMR压缩的分类器模型和二次AMR压缩的分类器模型; 采用多数表决投票机制判断待检测音频; 其中所述采用深度学习算法构造分类器模型的具体方式为: 将采样率为8000Hz、16bit的录制音频存放在WAV格式中,使用AMR编码器将该音频压缩成一次AMR压缩文件,其中压缩码率为:4.7-12.2kbps ; 将一次AMR压缩文件解压缩成为WAV格式的文件,再次使用AMR编码器将其压缩成二次AMR压缩文件,其中压缩码率为:4.7-12.2kbps ; 将一次AMR压缩和二次AMR压缩的音频解压缩,得到音频波形信号;将音频波形信号正则化之后切分为音频小段,采用深度学习算法对音频小段进行训练,得到一次AMR压缩的分类器模型和二次AMR压缩的分类器模型; 采用多数表决投票机制判断待检测音频的具体方式为: 将待检测音频切分为若干个音频段,将每个音频段切分为若干个音频小段,采用上述的一次AMR压缩的分类器模型或二次AMR压缩的分类器模型来判断各个音频小段;当音频段中多数音频小段属于一次AMR压缩则该音频段为一次AMR压缩,当音频段中多数音频小段属于二次AMR压缩则该音频段为二次AMR压缩。
2.根据权利要求1所述的AMR音频的鉴定方法,其特征在于,采用SAE或Dropout的方法对音频小段进行训练,其中采用Dropout方法时,其Dropout比率为0.5。
3.根据权利要求1所述的AMR音频的鉴定方法,其特征在于,所述将音频波形信号正则化是将音频波形信号减去均值并除以标准差的波形信号。
4.根据权利要求1、2或3所述的AMR音频的鉴定方法,其特征在于,将待检测音频切分为若干个I秒钟的音频段,将各I秒钟的音频段分别切分成20个音频小段,各音频小段含400个样本点。
5.根据权利要求1、2或3所述的AMR音频的鉴定方法,其特征在于,将待检测音频切分为若干个2秒钟的音频段,将各2秒钟的音频段分别切分成40个音频小段,各音频小段含400个样本点。
【文档编号】G10L19/16GK103871405SQ201410017066
【公开日】2014年6月18日 申请日期:2014年1月14日 优先权日:2014年1月14日
【发明者】罗达, 杨锐, 黄继武 申请人:中山大学, 深圳大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1