一种在avs音频流中嵌入稳健水印的方法

文档序号:2832007阅读:292来源:国知局
专利名称:一种在avs音频流中嵌入稳健水印的方法
技术领域
本发明属于多媒体信息安全领域,具体涉及一种在AVS音频流中嵌入稳健水印的方法。

背景技术
AVS(Audio and Video Standard of China)标准中的第三部分,即AV3,是我国提出的第一个音频压缩标准。由于有着专利费用低廉的优势,有望在众多IT领域获得应用,例如高密度数字存储媒体、互联网宽带音频业务、多媒体邮件、分组网络的多媒体业务和数字音视频广播等。
与MP3作品一样,AVS作品同样面临版权保护的问题。数字水印是解决这个问题的技术之一。利用水印技术,可以把额外的信息(例如版权所有人的信息)嵌入于AVS作品中,并在需要的时候把这些信息提取出来,从而达到认证作品的目的。因此AVS水印有着重要的实际意义。


发明内容
本发明的目的在于提供一种保护AVS音频作品的方法,采用本发明可以判断一个AVS音频作品的版权归属的问题,从而达到保护该音频作品的方法。
为了实现发明目的,采用的技术方案如下 一种在AVS音频流中嵌入稳健水印的方法,包括如下步骤 (1)确定所要嵌入的水印信息W={wj|wj∈{0,1},1≤j≤L,L∈Z+}; (2)选取需要嵌入水印信息的音频帧; (3)将水印信息嵌入到音频帧里,将水印信息wj=1嵌入到稳态帧里,而wj=0嵌入到瞬态帧里,即嵌入了比特“1”的音频帧的类型是稳态帧,而嵌入了比特“0”的音频帧的类型是瞬态帧。
本发明还包括水印提取步骤,所述水印提取步骤在AVS压缩流的边信息中提取嵌入了水印的音频帧的类型,组合成水印,即音频帧的类型为稳态帧表示水印比特为“1”,音频帧的类型为瞬态帧表示水印比特为“0”。
所述步骤(2)所选取的音频帧的最大能量变化量和不可预测度最大值接近阈值。
所述步骤(3)在嵌入水印步骤操作时还包括对音频帧的类型转换如果音频帧的类型是瞬态帧,而所要插入的水印比特wj=1,则修改该音频帧样本点的值,令其变为稳态帧;如果音频帧的类型是稳态帧,而所要插入的水印比特wj=0,则修改该音频帧样本点的值,令其变为瞬态帧。
所述将音频帧稳态帧修改为瞬态帧通过计算机程序实现,该计算机程序采用如下算法 将音频帧1024个样本点X={X0,X1,…,X1023}分成16个子块,每个子块由64个样本点组成,第k子块记为 算法具体包括两个步骤 步骤1修改样本点的值以获得新的最大能量变化量, 令α2=β2*E_SWITCH β2>1、k1=具备Maxe的子块下标、 for(i=0;i<63;i++) 步骤2修改样本点的值以获得新的不可预测度最大值, 令α3=β3*P_SWITCH β3>1、 k2=满足|k2-k1|≥4且有着不可预测度最大值Maxp的子块下标 for(i=0;i<63;i++) { } 算法中采用的变量的计算公式和符号含义如下所述 第k子块的能量。
Ek=ek+ek-1相邻两子块的能量和。
子块之间的能量变化量。


为汉宁窗,FFT为正向傅立叶变换,Yk为FFT频谱系数。
Yk,ip是第k子块第i条FFT频谱预测值,arg是求相位函数。
第k子块第i条频谱的不可预测度。
第k子块的不可预测度。
Maxe=max{ΔEk|k=1,2,3…,14,15}该音频帧的最大能量变化量。
Maxp=max{Ck|k=1,2,3…,14,15}该音频帧的不可预测度最大值。
E_SWITCHAVS标准中采用E_SWITCH=2.5作为阈值,与该音频帧的最大能量变化量相比较,作为判别该帧为瞬态还是稳态的依据之一。
P_SWITCHAVS标准中采用P_SWITCH=20作为阈值,与该音频帧的不可预测度最大值相比较,作为判别该帧为瞬态还是稳态的依据之一。
β2和β3算法中采用β2=β3=1.1,也可以根据音频质量调整这两个系数。
经过上述算法步骤修改后,音频帧新的最大能量变化量Maxe=α2>E_SWITCH且新的不可预测度最大值Maxp=α3>P_SWITCH,从而令该帧转变为瞬态帧。
所述将音频帧从瞬态帧修改为稳态帧通过计算机程序实现,该计算机程序采用如下算法 令α1=β1*2*E_SWITCH/30≤β1≤1 for(k=0;k<16;k++) { 记第k子块的样本点为Xk,i|i=0,1,…,63 计算ek-2,ek-1和ek 计算ΔEk if(ΔEk≥2*E_SWITCH/3) { e′k=α1*(ek-2+ek-1)+ek-2for(i=0;i<63;i++) } }。
以上各变量和符号与从稳态帧修改为瞬态帧的计算机程序所述一致,其中β1=0.9,也可以根据音频质量调整此系数。经过上述算法步骤修改后,音频帧新的最大能量变化量Maxe=α1<2*E_SWITCH/3,从而令该帧转变为稳态帧。
所述步骤(3)对音频帧的类型转换之前包括采用心理声学模型判断音频帧的类型属于稳态帧或瞬态帧。
本发明能有效对抗重压缩,因此能够稳健的存在于AVS作品中,故能有效地保护该音频作品。



图1是AVS编码(压缩)流程图; 图2是AVS解码(解压缩)流程图; 图3是AVS中每帧的分块示意图; 图4是AVS中采用的心理声学模型; 图5是所有测试音频片断的质量下降示意图; 图6是水印的稳健性示意图。

具体实施例方式 下面结合附图对本发明方法作进一步说明。
采用本发明,先对音频帧进行分块,如附图3所示,在AVS编码器中,当前帧1024个样本点X={X0,X1,…,X1023}分成16个子块,每个子块由64个样本点组成。第k子块记为 本发明方法包括以下步骤 1)取定水印信息; 2)选取需要嵌入水印信息的音频帧; 3)水印嵌入和检测。
每个步骤具体说明如下 1)确定水印信息W={wj|wj∈{0,1},1≤j≤L,L∈Z+}。L为水印长度,即水印比特的数量;Z+表示正整数。
2)选取需要嵌入水印信息的音频帧。这些音频帧的最大能量变化量和不可预测度最大值应该尽量接近阈值,也就是说这些音频帧不应该过于平稳或变化过于急剧。
3)水印嵌入步骤 ①若帧Fj是瞬态帧,而wj=1,修改该帧样本点的值令其变为稳态帧。修改算法如下所示 α1=β1*2*E_SWITCH/3 0≤β1≤1 for(k=0;k<16;k++) {记第k子块的样本点为Xk,i|i=0,1,…,63计算ek-2,ek-1和ek计算ΔEkif(ΔEk≥2*E_SWITCH/3){ e′k=α1*(ek-2+ek-1)+ek-2 for(i=0;i<63;i++) } }。
②若帧Fj是稳态帧,而wj=0,修改该帧样本点的值令其变为瞬态帧。修改算法包括两个步骤,如下所示 步骤1修改样本点的值以获得新的最大能量变化量 α2=β2*E_SWITCH β2>1 k1=具备Maxe的子块下标 for(i=0;i<63;i++) 步骤2修改样本点的值以获得新的不可预测度最大值 α3=β3*P_SWITCH β3>1 k2=满足|k2-k1|≥4且有着不可预测度最大值的字块下标 for(i=0;i<63;i++) { }。
经过以上修改,需要嵌入水印的音频帧的类型将是希望得到的类型,即嵌入了比特“1”的音频帧的类型是稳态帧,而嵌入了比特“0”的音频帧的类型是瞬态帧。按照AVS的压缩格式,在压缩流的边信息中,音频帧的类型将被编码为一个比特“1”表示稳态帧,“0”表示瞬态帧。
本发明还包括水印提取步骤4)。
在AVS压缩流的边信息中提取嵌入了水印的音频帧的类型,就可以组合成水印稳态帧表示水印比特“1”,瞬态帧表示水印比特“0”。
本发明方法的原理是AVS对一段音频信号的压缩是以帧为单位进行的,该帧的类型将作为一个比特保留在压缩流中,从而为解码提供辅助。因此可以利用帧的类型来代表水印比特,从而令水印比特嵌入于压缩流中。由于帧的稳态或瞬态类型是信号的本质特征,不容改变,因此其代表的水印信息也就能够稳健的存在于压缩流中,而不会被重压缩抹掉。
图1是AVS的编码器,图2是AVS的解码器。从图1可以看到一帧信号首先要经过心理声学模型的判断从而被认定为稳态或瞬态信号,接着通过长短窗切换,令稳态信号进行长窗IntMDCT变换,而瞬态信号进行短窗IntMDCT变换。该帧类型将被编码为一比特存于压缩码流中。在解码端将需要读取这一比特,以决定对该帧进行长窗IntMDCT变换还是进行短窗IntMDCT变换。
所述心理声学模型如附图4所示。该模型是通过音频帧的最大能量变化量和不可预测度最大值与各阈值(E_SWITCH,2*E_SWITCH和P_SWITCH)相比较,从而判定该帧为瞬态还是稳态。图4中NEED_LP表示判别为瞬态帧,NO_LP表示判别为稳态帧。AVS标准中采用E_SWITCH=2.5和P_SWITCH=20。
具体判别过程如下所述 1)若本帧的前一帧为稳态,而本帧的最大能量变化量>=E_SWITCH且不可预测度最大值>=P_SWITCH,则本帧为瞬态帧; 2)若本帧帧的前一帧为稳态,而本帧的最大能量变化量<E_SWITCH或不可预测度最大值<P_SWITCH,则本帧为稳态帧; 3)若本帧的前一帧为瞬态,而本帧的最大能量变化量>=2*E_SWITCH/3,则本帧为瞬态帧; 4)若本帧的前一帧为瞬态,而本帧的最大能量变化量<2*E_SWITCH/3,则本帧为稳态帧。
其中,本帧的最大能量变化量和不可预测度最大值可通过以下公式组获得第k子块样本点。
第k子块的能量。
Ek=ek+ek-1相邻两子块的能量和。
子块之间的能量变化量。


为汉宁窗,FFT为正向傅立叶变换,Yk为FFT频谱系数。
Yk,ip是第k子块第i条FFT频谱预测值,arg是求相位函数。
第k子块第i条频谱的不可预测度。
第k子块的不可预测度。
本帧的最大能量变化量=max{ΔEk|k=1,2,3…,14,15} 本帧的不可预测度最大值=max{Ck|k=1,2,3…,14,15} 下面给出利用本发明方法的一些实验结果。选取了10组、每组10段共100段音频信号。这10组分别为blues(蓝调)、classical(古典音乐)、disco(迪斯科)、country(田园歌曲)、hiphop(嘻哈)、jazz(爵士)、metal(金属)、pop(流行音乐)、rock(摇滚)和speech(人类言语)。嵌入水印时采用的压缩频率为128kbps。
水印嵌入后不能影响音频的质量,也就是说水印应该是无法感知到的。在音频水印中,一般用SNR来衡量水印对音频质量带来的影响。SNR值越高,说明影响越小,质量下降越小,反之越大。在表1中,SNR1是纯粹压缩带来的质量下降,而SNR2是压缩+嵌入带来的质量下降。可以看到,所有SNR2的值都在20db以上,这是符合IFPI要求的。每组的SNR下降值在1.5db左右,这是比较小的质量下降。在图5中列出100段音频的SNR1和SNR2值。另外,还进行了主观性的测试,邀请10位人员对压缩加嵌入后的音频质量进行评分,得出MOS值(mean opinion scores,平均意见分数)。100段音频的平均MOS值为4.2,说明水印是听不出来的。
表1SNR 在稳健性方面,对嵌入了水印的AVS音频信号进行解压/重压缩测试。重压缩分别是AVS重压缩(128kbps和32kbps)和MP3重压缩(128kbps和32kbps)。我们把结果(BER,bit error rate,比特错误率)显示在图6中。BER是提取的水印与原始水印进行比特配对后,错误的比特数占水印比特数的比率。例如采用的水印是120bits,假设在提取端提取的水印有12bits是错误的,则BER为10%。从图6可以看到,在AVS或MP3重压缩时,即使面对最大的压缩率32kbps,水印仍然能够全部正确提取。这说明本发明对于解压/重压缩是非常稳健的。
权利要求
1、一种在AVS音频流中嵌入稳健水印的方法,其特征在于包括如下步骤
(1)确定所要嵌入的水印信息W={wj|wj∈{0,1},1≤j≤L,L∈Z+},其中L为水印长度,即水印比特的数量,Z+表示正整数;
(2)选取需要嵌入水印信息的音频帧;
(3)将水印信息嵌入到音频帧里,将水印信息wj=1嵌入到稳态帧里,而wj=0嵌入到瞬态帧里,即嵌入了比特“1”的音频帧的类型是稳态帧,而嵌入了比特“0”的音频帧的类型是瞬态帧。
2、根据权利要求1所述的在AVS音频流中嵌入稳健水印的方法,其特征在于还包括水印提取步骤,所述水印提取步骤在AVS压缩流的边信息中提取嵌入了水印的音频帧的类型,组合成水印,即音频帧的类型为稳态帧表示水印比特为“1”,音频帧的类型为瞬态帧表示水印比特为“0”。
3、根据权利要求1或2所述的在AVS音频流中嵌入稳健水印的方法,其特征在于所述步骤(2)所选取的音频帧的最大能量变化量和不可预测度最大值接近阈值。
4、根据权利要求1所述的在AVS音频流中嵌入稳健水印的方法,其特征在于所述步骤(3)在嵌入水印步骤操作时还包括对音频帧的类型转换如果音频帧的类型是瞬态帧,而所要插入的水印比特wj=1,则修改该音频帧样本点的值,令其变为稳态帧;如果音频帧的类型是稳态帧,而所要插入的水印比特wj=0,则修改该音频帧样本点的值,令其变为瞬态帧。
5、根据权利要求4所述的在AVS音频流中嵌入稳健水印的方法,其特征在于所述将音频帧稳态帧修改为瞬态帧通过计算机程序实现,该计算机程序采用如下算法
将音频帧1024个样本点X={X0,X1,…,X1023}分成16个子块,每个子块由64个样本点组成,第k子块记为
算法具体包括两个步骤
步骤1修改样本点的值以获得新的最大能量变化量,
令α2=β2*E_SWITCH β2>1、k1=具备Maxe的子块下标、
for(i=0;i<63;i++)
步骤2修改样本点的值以获得新的不可预测度最大值,
令α2=β3*P_SWITCH β3>1、
k2=满足|k2-k1|≥4且有着不可预测度最大值Maxp的子块下标,
for(i=0;i<63;i++)
上述算法中采用的变量的计算公式和符号含义如下
表示第k子块的能量、Ek=ek+ek-1表示相邻两子块的能量和、表示子块之间的能量变化量、
为汉宁窗,FFT为正向傅立叶变换,Yk为FFT频谱系数、Ykip是第k子块第i条FFT频谱预测值,arg是求相位函数,表示第k子块第i条频谱的不可预测度,表示第k子块的不可预测度,
Maxe=max{ΔEk|k=1,2,3…,14,15}表示音频帧的最大能量变化量,
Maxp=max{Ck |k=1,2,3…,14,15}表示音频帧的不可预测度最大值,
E_SWITCH=2.5作为阈值,P_SWITCH=20作为阈值,β2=β3=1.1或根据音频质量进行调整,
经过上述算法步骤修改后,音频帧新的最大能量变化量Maxe=α2>E_SWITCH且新的不可预测度最大值Maxp=α2>P_SWITCH,从而令该帧转变为瞬态帧。
6、根据权利要求5所述的在AVS音频流中嵌入稳健水印的方法,其特征在于所述将音频帧从瞬态帧修改为稳态帧通过计算机程序实现,该计算机程序采用如下算法
令α1=β1*2*E_SWITCH/3 0≤β1≤1
for(k=0;k<1 6;k++)
{记第k子块的样本点为Xk,i|i=0,1,…,63
计算ek-2,ek-1和ek
计算ΔEk
if(ΔEk≥2*E_SWITCH/3)
{e′k=α1*(ek-2+ek-1)+ek-2
for(i=0;i<63;i++)
}
其中β1=0.9或根据音频质量进行调整此系数,经过上述算法步骤修改后,音频帧新的最大能量变化量Maxe=α1<2*E_SWITCH/3,从而令该帧转变为稳态帧。
7、权利要求4所述的在AVS音频流中嵌入稳健水印的方法,其特征在于所述步骤(3)对音频帧的类型转换之前包括采用心理声学模型判断音频帧的类型属于稳态帧或瞬态帧。
全文摘要
本发明提供一种在AVS音频流中嵌入稳健水印的方法,包括如下步骤(1)确定所要嵌入的水印信息W={wj|wj∈{0,1},1≤j≤L,L∈Z+};(2)选取需要嵌入水印信息的音频帧;(3)将水印信息嵌入到音频帧里,将水印信息wj=1嵌入到稳态帧里,而wj=0嵌入到瞬态帧里,即嵌入了比特“1”的音频帧的类型是稳态帧,而嵌入了比特“0”的音频帧的类型是瞬态帧。本发明能有效对抗重压缩,因此能够稳健的存在于AVS作品中,故能有效地保护该音频作品。
文档编号G10L19/00GK101635146SQ20091004003
公开日2010年1月27日 申请日期2009年6月5日 优先权日2009年6月5日
发明者泳 王, 黄继武 申请人:中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1