一种抗同步攻击的音频水印处理方法

文档序号：6759646阅读：343来源：国知局

专利名称：一种抗同步攻击的音频水印处理方法
技术领域：
本发明属于多媒体信号处理领域，具体涉及一种基于时域统计特征(直方图及均值)的抗同步攻击的音频水印处理方法。
背景技术：
在音频版权保护中，如何对抗同步攻击是一个需要考虑的难题，根据IFPI、STEP2000和SDMI对稳健性的定义，音频水印除了对一些常规的信号处理稳健之外，应能抵抗大约±10％时域伸缩、随机裁剪等同步攻击。然而，目前的音频水印算法仅仅针对一种同步攻击，且抗这种攻击的性能不是很理想。
在近年来的音频研究中，如何抵抗一些常见的音频信号处理和攻击已经得到很好的解决，如MP3压缩、重采样、重量化和一定程度的叠加噪声等。然而，音频水印对于TSM、随机裁剪等同步攻击的稳健性一直没有得到很好的解决。如何设计对同步攻击稳健的音频水印仍然是一个具有挑战性的研究课题。主要原因在于同步攻击导致了水印在时域嵌入位置的迷失，使得已嵌入的水印无处可寻，造成检测失败。基于帧同步的音频水印技术可以抵抗裁剪(cropping)攻击，通过搜索同步码来达到裁剪后重同步的目的。然而，这种水印框架对于其它同步攻击是非常敏感的，如即便是±1％的TSM攻击，嵌入的同步码已无法进行检测。
在许多常见的音频编辑处理工具中，TSM是一种常见的音频信号处理操作，如GoldWave v4.26和CoolEditPro v2.1.等。通常，即便是在±10％的TSM操作下，音频的听觉质量仍然相当完美，这主要是由于人类听觉系统(Human Auditory System，HAS)对TSM攻击不是很敏感。因此，TSM攻击成为了音频水印中一种常见的攻击操作。主要有两种可改变音频长度的TSM攻击模式1)保持音调不变(Pitch-invariant)的TSM攻击；2)基于重采样(Resample)模式的TSM攻击，相当于用一个较慢或较快的速度来重新播放和录制音频。Pitch-invariant模式在更改音频长度的同时保持音调不变，是一种常见的攻击模式。而Resample模式则通过插值的形式来改变音频的长度，在许多情况下可能碰到，如DA/AD变换中的时间轴上的线性伸缩等。
以往针对同步攻击的音频水印算法主要围绕一种或几种可能遭遇的攻击类型来设计，如有的仅仅针对Pitch-invariant的TSM攻击、有的仅仅针对基于重采样TSM攻击、也有的有的仅仅针对裁剪攻击等。目前，尚未发现能同时有效地抵抗各种常见的同步攻击的音频水印算法。

发明内容
本发明的目的是提出一种基于音频时域统计特征(直方图及均值)对同步攻击非常稳健的音频水印处理方法。该方法能够在保持水印不可察觉的情况下，可以抵抗近±30％的TSM攻击以及大幅度的随机裁剪、编辑和抖动等同步攻击。
本发明方法的技术方案如下该方法包括水印嵌入和水印检测两个过程；水印嵌入过程步骤如下1)计算音频的均值A；2)根据均值选择一个用于嵌入水印信息的幅值区间B＝[-λA，λA]，λ为一个正数；3)计算B的直方图；4)通过重新分配每三个BIN中的样本数量来嵌入一个水印比特；5)重复第4步直到水印信息全部嵌入；水印检测过程如下1)与嵌入时相同，计算音频的均值；2)根据均值提取直方图；3)计算每三个BIN中的样本数量关系来提取水印比特；4)重复第3步直到水印信息全部提取出来。
所述水印嵌入过程的详细步骤如下1)计算音频的均值A；2)根据均值选择一个用于嵌入水印信息的幅值区间B＝[-λA，λA]，λ为一个正数，大量的实验表明取值一般在[1.5，2.5]之间比较好；3)根据嵌入的信息量L＝L1+L2来计算B的直方图，嵌入信息的结构由同步序列(长L1)和水印信息(长L2)组成直方图BIN的尺寸大小相同，BIN的数量为3L；4)通过重新分配每三个BIN中的样本数量来嵌入一个水印比特；5)重复第4步直到信息全部嵌入。
所述水印检测过程的详细步骤如下1)与嵌入时相同，计算音频的均值，由于均值在TSM攻击后会产生一定的偏差，需要在这个偏差的范围内C利用嵌入的同步序列(长L1)来消除这种影响；2)根据均值提取直方图；3)计算每三个BIN中的样本数量关系来提取水印比特；4)重复步骤3)直到水印信息全部提取出来；5)比较嵌入时的同步序列和提取到的同步比特，如匹配则提取水印比特，否则根据一定的步长来改变均值，再重复本过程2)、3)、4)步；6)直到在范围C内搜索完毕，根据最好的匹配结果提取水印信息。
本发明的主要思想在于利用音频时域的两个统计特征1)不同BIN中的音频样本其数目在线性伸缩的前后其比例关系具有理论上不变的特性。从直方图的角度来说，就是时间轴上的线性伸缩不会改变音频直方图的形状；2)音频幅度的均值(Mean)在线性伸缩的前后也是理论不变的。对于可改变音频长度的TSM攻击而言，Pitch-invariant模式可以看成一种近似的在时间轴上的线性伸缩，而Resample模式则可以看成是一种基于插值算法的线性伸缩。因而，上述的两个特征对于TSM攻击来说是非常稳健的。从统计上讲，自由裁剪、复制或抖动等同步攻击所去除或增添的音频样本与原始音频具有近似相同的幅值分布，因而也可以看成一种近似的线性伸缩。显然，利用上述两个统计特征对线性伸缩的不变性，所设计的音频水印对这些常见的同步攻击将具有非常好的稳健性。本发明方法的主要思想如下1)根据直方图形状对同步攻击的特点，水印比特被嵌入在三个连续BIN中样本数量的比例关系上；2)针对幅值伸缩攻击，根据音频的均值来选择一个幅值区间，用于计算音频直方图。仿真结果表明，所设计的音频水印对常见的各种同步攻击(如TSM、裁剪、抖动等)是非常稳健的，对于常见音频信号处理或操作(如MP3压缩、重采样、能量变化等)也具有很好的稳健性。

图1是本发明水印嵌入过程的流程框图；图2是pitch-invariant模式TSM攻击(从70％和130％)下BIN中样本数目变化的相对情况；图3是Resample模式TSM攻击(从70％和130％)下BIN中样本数目变化的相对情况；图4是在70％～130％TSM攻击下音频均值的变化曲线；图5是每三个连续BIN中样本数量的相对关系在水印嵌入前后的变化情况。
具体实施例方式
下面结合附图对本发明方法作进一步说明。
该方法包括水印嵌入和水印检测两个过程；1.水印嵌入水印嵌入的基本思想是1)根据音频的均值选择一个用于嵌入水印信息的幅值区间，并根据嵌入量来确定直方图的BIN数；2)每三个BIN一组，通过调整每组中样本数量的大小来嵌入一个水印比特。根据嵌入规则，水印音频通过直接对原始音频的样本值进行修改所得。
图1所示为水印嵌入的流程框图，从图1可以看出根据音频的均值A及参数λ计算用于嵌入水印信息的幅值区间B，并根据嵌入量来确定直方图的BIN数L，每三个BIN一组，通过调整BIN样本数的大小来嵌入一个水印比特。详细的嵌入过程描述如下。假设打算将一个二进制水印序列W＝{wi|i＝1，…，Lw}嵌入到音频载体F＝{f(i)|i＝1，…，N}中。其中，Lw是嵌入信息的长度，N表示音频的长度。首先计算音频的幅值均值AA&OverBar;=Σi=1N|f(i)|...(1)]]>参照A，从F中选择一个幅值范围B＝[-λA，λA]。然后根据W的长度计算B的直方图H＝{h(i)|i＝1，…，L}，一般令L＝3Lw。λ是一个正数，用于满足在提取的直方图中，BIN中的样本数目满足h(i)＞＞L。对不同类型的音频进行测试表明，λ∈[1.5，2.5]是一个较为理想的取值范围，在此区间内取值的λ可满足从B计算的直方图中，BIN具有足够的样本数目。
在提取直方图后，假设三个连续的BIN(表示为Bin_1，Bin_2和Bin_3)中的样本数分别为a，b和c，可采用如下的关系来嵌入水印比特
2b/(a+c)&GreaterEqual;Tifw(i)=1(a+c)/2b&GreaterEqual;Tifw(i)=0...(2)]]>其中，T是一个阈值，作为嵌入强度用于控制嵌入信息的稳健性和嵌入失真，使之达到一个平衡。图2和图3分别是pitch-invariant模式及Resample模式TSM攻击(从70％和130％)下BIN中样本数目变化的相对情况。可以看出音频直方图的形状对这两种伸缩攻击是非常稳健的。其中，左边的子图显示了BIN的中样本数目的变化与伸缩因子成近似的线性关系，公式表示为αk=h′(k)h(k);]]>右边的子图显示了三个连续BIN中样本数量的相对关系在水印嵌入前后的变化情况，公式表示为βk=2·h(k)h(k-1)+h(k+1),]]>可以看出变化的范围在0.9到1.1之间。参考图2和图3可知，为了能抵抗±30％的TSM攻击，T的取值应在1.1以上。
如果要嵌入的信息w(i)为‘1’并且2b/(a+c)≥T，无需任何操作。否则如果2b/(a+c)＜T，通过调整三个连续BIN中的样本数量来满足2b/(a+c)≥T，以嵌入水印比特‘1’。同理，如果要嵌入的信息w(i)为‘0’并且(a+c)/2b≥T，无需任何操作。否则如果(a+c)/2b＜T，通过调整这三个连续BIN中的样本数量来满足(a+c)/2b≥T，以嵌入水印比特‘0’。如何更改BIN中的样本数目来嵌入水印比特的详情，可以参考公式(3)，(4)，(5)和(6)。
参考嵌入方程(2)，如果要嵌入的信息w(i)为‘1’并且2b/(a+c)＜T，从Bin_1和Bin_3分别选出I1和I3个样本，通过更改这些样本的值使之落入到Bin_2中，以达到2b′/(a′+c′)≥T的目的。考虑到安全性，这些样本可通过一个随机的密钥选出。a′，b′，c′为更改后三个BIN中相应的样本数目。更改规则表示如下
f1′(i)=f1(i)+M,1≤i≤I1f3′(i)=f3(i)-M,1≤i≤I3...(3)]]>其中，f1(i)和f3(i)为Bin_1和Bin_3中第i个样本值，f1′(i)和f3′(i)为相应更改后的值，M为BIN所包括的幅值区间。显然，更改后的样本值已经转移到Bin_2之中。如何确定I1和I3的大小是一个需要考虑的问题，一个理想的做法是让需要更改的样本数I1和I3同BIN中的样本数目a和c成比例关系，这样可避免BIN中的样本数目不够更改的情况。I1和I3的计算表达式如下I1＝I·a/(a+c)，I3＝I·c/(a+c)，I≥[T(a+c)-2b]/(2+T) (4)同嵌入比特‘1’类似，如果要嵌入的信息w(i)为‘0’并且(a+c)/2b＜T，需要从Bin_2中采用同样的密钥挑出I1和I3个样本分别更改到Bin_1和Bin_3中，以达到(a′+c)/2b′≥T的目的。相应更改规则表示如下f2′(i)=f2(i)-M,1≤i≤I1f2′(i)=f2(i)+M,1≤i≤I3...(5)]]>其中，f2(i)为Bin_2中第i个样本值，f2′(i)为相应更改后的值。显然，在Bin_2中共有(I1+I3)个样本被更改，I1和I3样本分别转移到Bin_1和Bin_3中之中。
类似地，采用如下的表达式来确定I1和I3的大小I1＝I·a/(a+c)，I3＝I·c/(a+c)，I≥[2Tb-(a+c)]/(1+2T) (6)每三个BIN一组重复以上的过程直到嵌入所有的水印比特。在所提出的嵌入策略中，一旦确定需要更改音频样本之后，直接更改原始音频即可得到嵌入信息后的水印音频。因而，重构水印音频非常简单。水印音频表示为F′＝{f′(i)|i＝1，…，N′}。显然，有N′＝N。
计算表达式(4)和(6)可以采用如下方法证明如果要嵌入的信息w(i)为‘1’并且2b/(a+c)＜T，需要重新调配从Bin_1，Bin_2和Bin_3中的样本数以达到2b′/(a′+c′)≥T的目的。假设分别从Bin_1和Bin_3中选出I1和I3个样本，通过公式(4)更改这些样本的值使其转移到Bin_2中，于是有a′＝a-I1，c′＝c-I3，b′＝b+I1+I3。a′，b′，c′是a，b，c在嵌入水印比特后的相应样本数。不失一般性，让I＝I1+I3并且a/c＝I1/I3，使得被更改的样本数目与BIN中的原样本数成线性关系。参考方程组(2)，可有如下的数学推导2b′/(a′+c′)≥T2(b+I1+I3)≥T(a+c-I1-I3)I≥[T(a+c)-2b]/(2+T)方程(4)证明完成。
类似地，如果要嵌入的信息w(i)为‘0’并且(a+c)/2b＜T，可从Bin_2中分别选择I1和I3个样本，通过方程(6)更改这些使其转移到Bin_1和Bin_3中，以达到(a′+c′)/2b′≥T的目的。于是有a′＝a+I1，c′＝c+I3，b′＝b-I1-I3。同样，让I＝I1+I3并且a/c＝I1/I3，于是有如下相应的数学推导(a′+c′)/2b′≥T(a+c+I1+I3)≥2T(b-I1-I3)I≥[2Tb-(a+c)]/(1+2T)方程(6)的数学证明完成。
2.水印检测在检测过程中，考虑到TSM对音频均值的影响，需要根据TSM的影响定义一个关于均值的搜索空间[A″(1-Δ1)，A″(1+Δ2)]。这里A″用来表示待检测音频F″＝{f″(i)|i＝1，…，N″}的均值。图4是在70％～130％TSM攻击下音频均值的变化曲线，从图4可以看出，音频均值对TSM攻击是比较稳健的，在±30％的拉伸下导致的均值误差比率在±5％之间。参照在图4中的实验结果，Δ1和Δ2根据TSM攻击对音频均值可能造成的最大误差比来设计，一般为5％即可。在搜索过程中，涉及到匹配和收敛的问题，这里可将嵌入信息的一部分用作同步匹配，另一部分即为隐藏的水印比特。嵌入信息的结构如下表1所示表1

表1中，同步信息为一PN(Pseudo-random Noise)序列，表示为{Syn(i)}，紧跟的水印信息表示为{Wmk(i)}。
搜索的目的是从F″中以最小误码的形式来获取水印信息的最佳估计W′＝{w′i|i＝1，…，Lw}。与嵌入过程类似，在搜索空间[A″(1-Δ1)，A″(1+Δ2)]中，根据搜索步长S来一一决定用于计算的均值A1，进而由参数λ计算幅值区间B1＝[-λA1，λA1]，再生成直方图H1＝{h1(i)|i＝1，…，L1}，L1＝3Lw。假设三个连续的BIN中的样本数分别为a1″，b1″and c1″，用如下的公式即可提取隐藏的水印比特w′i=1if2b1′′/(a1′′+c1′′)&GreaterEqual;10other...(7)]]>每三个为BIN一组重复以上过程直到提取所有隐藏的水印比特。一旦同步码{Syn(i)}与提取到的同步序列{Syn1(i)}匹配或者搜索过程结束，根据最佳的匹配即可得到隐藏在同步序列后的水印比特{Wmk1(i)}。在搜索过程中，参数Lw，λ和同步序列{Syn(i)}是预知的，无需原始音频信息参与，因此本发明方法是盲检测的。
图5是直方图BIN中的样本数量的相互关系在水印嵌入前后的示意图。从图5可以看出，在嵌入前，βk的范围在0.9到1.1之间；在嵌入后变化的范围在0.7到1.3之间。表1显示了音频水印在不同常规信号处理操作或攻击下的稳健性能。表2显示了音频水印在裁剪和抖动攻击下的稳健性能。表3显示了音频水印TSM攻击下的稳健性能。
图5中，实验参数λ＝2.4，结合音频的均值用于选择幅值嵌入区间。水印信息的长度为100比特(31比特的同步信息和69比特的水印)，生成的直方图共300个BIN用于隐藏这些信息。以一段长为20秒的单声道、双极性44.1kHz采样率的轻音乐‘多瑙河’(Danube.wav)为例，当嵌入阈值T＝1.3时，在嵌入100比特的信息后，水印音频的SNR为46.30dB。音频在嵌入信息的前后均值几乎保持不变，分别为4001.3和4001.4，这是由于在嵌入过程中，那些用于嵌入信息的音频样本值被增加和减小的数目在概率上是大致相同的。由于更改的幅度相同，所以嵌入前后均值改变很小。考虑到TSM对音频均值的影响一般在±5％之间，所以参数Δ1＝Δ2＝5％。水印嵌入前后三个连续BIN间样本数量关系βk的示意图如图5所示。
从下表2可看出，算法对一些常规的信号处理操作是稳健的，如±50％的幅值伸缩攻击、80kbps的MP3压缩和截止频率为8kHz的低通滤波等。
表2

下表3为算法对自由裁剪的稳健性测试结果。在测试中，平均10个样本随机剪取1个共剪去20000个样本，或者在20秒的音频中随机裁剪掉5秒的音频，水印仍可完全地正确提取。至于抖动(jitter)攻击，相当于一种特殊的裁剪攻击，算法也显示很好的稳健性。算法能抗自由裁剪的原因在于，无论是随机抽取的样本还是随机剪掉的音频部分，在概率上具有同原始音频类似的幅值分布。也就是说，裁剪很少改变直方图的形状，这是算法对裁剪稳健的原因。
表3

基于Resample模式的TSM攻击和基于Pitch-invariant模式的TSM攻击都可改变音频在时间轴的长度从而造成水印的去同步。下表4列出了Danube.wav在两种TSM模式下用-30％到+30％的伸缩幅度提取信息的误码率。可以看出，本发明中的音频水印技术可以抵抗将近±30％的TSM攻击。
表4

权利要求
1.一种抗同步攻击的音频水印处理方法，其特征在于该方法包括水印嵌入和水印检测两个过程；水印嵌入过程步骤如下1)计算音频的均值A；2)根据均值选择一个用于嵌入水印信息的幅值区间B＝[-λA，λA]，λ为一个正数；3)计算B的直方图；4)通过重新分配每三个BIN中的样本数量来嵌入一个水印比特；5)重复第4步直到水印信息全部嵌入；水印检测过程如下1)与嵌入时相同，计算音频的均值；2)根据均值提取直方图；3)计算每三个BIN中的样本数量关系来提取水印比特；4)重复第3步直到水印信息全部提取出来。
2.根据权利要求1所述的音频水印处理方法，其特征是所述水印嵌入过程的详细步骤如下1)计算音频的均值A；2)根据均值选择一个用于嵌入水印信息的幅值区间B＝[-λA，λA]，λ为一个正数，大量的实验表明取值一般在[1.5，2.5]之间比较好；3)根据嵌入的信息量L＝L1+L2来计算B的直方图，嵌入信息的结构由同步序列(长L1)和水印信息(长L2)组成直方图BIN的尺寸大小相同，BIN的数量为3L；4)通过重新分配每三个BIN中的样本数量来嵌入一个水印比特；5)重复第4步直到信息全部嵌入。
3.根据权利要求1所述的音频水印处理方法，其特征是所述水印提取过程的详细步骤如下1)与嵌入时相同，计算音频的均值，由于均值在TSM攻击后会产生一定的偏差，需要在这个偏差的范围内C利用嵌入的同步序列(长L1)来消除这种影响；2)根据均值提取直方图；3)计算每三个BIN中的样本数量关系来提取水印比特；4)重复步骤3)直到水印信息全部提取出来；5)比较嵌入时的同步序列和提取到的同步比特，如匹配则提取水印比特，否则根据一定的步长来改变均值，再重复本过程2)、3)、4)步；6)直到在范围C内搜索完毕，根据最好的匹配结果提取水印信息。
全文摘要
本发明是一种抗同步攻击的音频水印处理方法，属于多媒体信息安全领域。本发明方法包括水印嵌入和水印检测两个过程，利用音频在时域的直方图形状和均值对时域伸缩攻击的稳健性，实现了一种可抗大幅度时域伸缩攻击、裁剪和抖动等同步攻击的稳健音频水印处理方法。在水印嵌入失真不可察觉的情况下，本发明方法可抗±30％的TSM攻击，对裁剪和抖动等常见同步攻击也有很好的稳健性。该发明方法解决了以往音频水印算法中很难抵抗同步攻击的技术难题，是一种对同步攻击非常稳健的音频水印技术，可用于音频媒体版权保护领域。
文档编号G11B20/00GK1928991SQ20061003660
公开日2007年3月14日申请日期2006年7月20日优先权日2006年7月20日
发明者项世军, 黄继武申请人:中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：项世军;黄继武
技术所有人：中山大学
我是此专利的发明人

上一篇：一种可兼容大小盘片的吸入式光盘载入系统的制作方法
上一篇：一种用快捷键选曲的便携式音频播放器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。