使用相位修改给音频信号隐蔽地加水印的制作方法

文档序号：2836909阅读：433来源：国知局

专利名称：使用相位修改给音频信号隐蔽地加水印的制作方法
技术领域：
本发明涉及一种用于通过使用音频信号的相位修改来传输或取回嵌入所述音频信号的水印数据的方法和设备。
背景技术：
音频信号的水印倾向于以音频内容中的变化不能被人类听觉系统所识别的的方式来操作音频信号。大多数音频水印技术向原始的音频信号添加覆盖该音频信号的整个频谱的扩频信号，或者向原始的音频信号插入使用扩频信号调制的一个或更多个载波。存在或多或少可听见的、以或多或少的鲁棒方式的水印的诸多可能性。当前最主要的技术使用心理声学整形的扩展频谱，例如参见WO-A-97/33391和 US-A-6061793。该技术提供了可听度与鲁棒性之间的良好折衷，尽管其鲁棒性并不是最佳的。在另一技术中，通过相位编码将编码的数据(即水印)隐藏在原始音频信号的相位中W. Bender, D. Gmhl, N. Morimoto， A. Lu， "Techniques for Data Hiding", IBM Systems Journal 35 ， Nos. 3&4, 1996，第313-336页。另一技术是相位调制S.S. Kuo， J.D. Johnston, W, Turin, S.R. Quackenbusch， "Covert Audio Watermarking using Perceptually Tuned Signal Independent Multiband Phase Modulation", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)， 2002年5月，vol.2 ， IEEE Press,第1753-1756页。发明内容然而，对于某些类型的音频信号而言，不可能在解码器侧重新获得扩展频谱并对其进行解码。如果使用通过扩频序列调制的载波，则可能通过应用陷波滤波器而容易地移除载波。上述相位编码技术的缺点在于，该技术对于剪切而言不具有鲁棒性，并且未实现可接受的数据速率，而且这两种与相位有关的技术均需要原始音频信号以用于解码，因而检测器以非隐蔽(non-blind)的方式工作。本发明要解决的问题是提高解码器侧的水印检测可靠性和改进水印信号的鲁棒性，从而仍然允许解码器中隐蔽(blind)的检测器操作。该问题通过权利要求1和3中公开的方法来解决。在权利要求2和4中公开了利用这些方法的设备。本发明使用音频信号的相位修改来嵌入水印信号数据。在解码器侧的隐蔽检测是可行的，g卩，对水印信号的解码不需要原始音频信号。在频域中，可以根据参考相位序列(例如相位值在"-ti"和"71"之间且包括和"7i"的扩频序列或m序列或伪随机分布)的相位来操作音频信号的相位。这可以包括将音频信号分离到重叠块中，使用傅立叶或任何其它时域到频域的变换来变换这些块，并基于参考相位序列的伪随机数和人类听觉系统模型来改变原始相位，将相位改变的频谱逆(傅立叶)变换回时域中，并对该块执行重叠/相加。所产生的改变后的音频信号听起来与原始音频信号相似。由于在整个频率范围上的音频信号相位的改变是可听见的，因此仅在位于较高的频率和/或有噪声的音频信号部分中的一个或更多个较小的频率范围内执行较强(例如-兀/+兀)的相位操作，相应的频率范围根据心理声学原理来确定。在另一实施例中，也可以在剩余的频率范围中改变相位值，根据心理声学原理来控制可允许的相位改变程度。此外，可以根据心理声学原理来改变(可听度较低的)频点的幅度，以允许更大的(不可听见的)相位改变。通过将接收的音频信号与在编码中使用的相应的逆(傅立叶)变换的候选参考相位序列进行相关，或者通过使用匹配滤波器代替相关，在解码器侧对加水印的音频信号进行解码。本发明实现了鲁棒性与可听度之间的良好的折衷，实现了高数据速率，有利于实时处理并且适用于嵌入式系统。原则上，本发明的方法适用于通过使用音频信号的相位修改而把数据加水印嵌入所述音频信号的方法，所述方法包括以下步骤-根据所述水印数据的当前比特值来控制相应的参考数据序列的选择或产生；-根据所述相应的参考数据序列，来修改所述音频信号的当前的时域到频域转换后的块中的相位值，由此通过与心理声学有关的计算，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围；-对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换；-输出加水印的音频信号的相应部分。本发明的设备大体上适用于通过使用音频信号的相位修改而把数据加水印嵌入所述音频信号的设备，所述设备包括-装置，适用于根据所述水印数据的当前值来控制相应的参考数据序列的选择或产生；-装置，适用于根据所述相应的参考数据序列来修改所述音频信号的当前的时域到频域转换后的块中的相位值，由此通过与心理声学有关的计算，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围；-装置，适用于对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换，以及适用于输出加水印的音频信号的相应部分。原则上，本发明的水印解码适用于取回通过使用音频信号的相位修改而嵌入所述音频信号的水印数据，其中所述水印数据的当前比特值由相应的参考数据序列的选择或产生来控制，而且，根据所述相应的参考数据序列，对所述音频信号的当前的时域到频域转换后的块中的相位值进行修改，由此通过与心理声学有关的计算，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围，并对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换，以形成加水印的音频信号的相应部分，所述方法包括以下步骤-将所述加水印的音频信号的当前块与所述参考数据序列候选的频域到时域转换后的版本进行相关或匹配；-根据所述相关或匹配的结果来确定所述水印数据的比特值。原则上，本发明的水印解码设备取回通过使用音频信号的相位修改而被嵌入所述音频信号的水印数据，其中所述水印数据的当前比特值是通过相应的参考数据序列的选择或产生来控制的，而且，根据所述相应的参考数据序列，对所述音频信号的当前的时域到频域转换后的块中的相位值进行修改，由此通过与心理声学有关的计算，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围，并对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换，以形成加水印的音频信号的相应部分，所述设备包括-装置，适用于产生或存储所述参考数据序列候选的频域到时域转换后的版本；-装置，适用于将所述加水印的音频信号的当前块与所述参考数据序列候选的频域到时域转换后的版本进行相关或匹配，以及适用于根据所述相关或匹配的结果来确定所述水印数据的比特值。在各个从属权利要求中公开了本发明的有益的附加实施例。

参照附图描述了本发明的示例性实施例，其中示出了.-图1是本发明的水印编码器和解码器的简化的框图；图2是更详细的水印编码器框图；图3示出了时域中的原始音频信号和加水印的音频信号；图4是水印解码器框图；图5示出了相关结果；图6示出了音频信号频谱的特定区域中的是/否相位变化；图7示出了音频信号频谱的其它区域中的附加的心理声学控制的相位变化；图8示出了基于音频信号频谱中的幅度变化的音频信号频谱中的增加的相位变化。
具体实施方式
在图1中，在编码器侧，将原始的音频输入信号AUI (以帧形式或块形式)馈入相位改变模块PHCHM和心理声学计算器PSYA,在该心理声学计算器PSYA中确定该音频输入信号的当前的心理声学特性，并控制在哪个或哪些频率范围中和/或在哪个时刻允许级PHCHM 将水印信息分配给该音频信号的相位。级PHCHM中的相位修改是在频域中执行的，并且在输出修改的音频信号之前，将该修改的音频信号转换回至时域。可以通过分别使用FFT和逆FFT来执行这些向频域和向时域的转换。在级PHCHM中，根据在扩频序列级SPRSEQ中存储或产生的扩频序列(例如m序列)的相位，来操作音频信号的相应的相位部分。将水印信息(即有效载荷数据PD)馈入相应地控制级 SPRSEQ的比特值调制级BVMOD。在级BVMOD中，使用该PD数据的当前比特值来调制级SPRSEQ中的编码器伪噪声序列。例如，如果该当前比特值是"1"，则不改变该编码器伪噪声序列，而如果该当前比特值与"0"相对应，则倒置(invert)该编码器伪噪声序列。该序列由数值的"随机"分布组成，并且优选地具有与该音频信号帧的长度相对应的长度。用于相位变化的一个或多个当前频率范围取决于当前的音频信号AUI，并且由心理声学模型动态地确定。可以在不同的频率范围处执行相位操作，以避免这些区域的截止(cut-off)。还可能在时域或频域中附加地向该音频信号的幅度添加"常规" 扩频水印信号。相位改变模块PHCHM输出相应的加水印的音频信号WMAU。在解码器侧，加水印的音频信号WMAU (以帧形式或块形式)经过相关器CORR，在该相关器CORR中将该音频信号的相位与在解码器扩频序列级DSPRSEQ中存储或产生的候选的解码器扩频序列或伪噪声序列(其中一个用于编码器中)的一个或更多个频-时域转换的版本进行相关。该相关器提供了相应的水印输出信号WMO的比特值。有益地，解码器侧的相关输出总是包含(与水印信息比特相对应的)有意义的波峰，如果向音频信号幅度添加(整形的)扩频序列则情况通常不是如此。不可能从音频信号移除这种水印而不严重损坏音频信号的质量。因此提高了水印的鲁棒性。在某些条件下，可以对整个频率范围进行相位修改，而不是在一个或多个特定频率范围中和/或仅在特定的时刻修改相位。该实施例的一个示例性实施方式如下。产生两个不同的相位矢量 p_0和p—1，每个矢量包括513个在-兀和兀之间的伪随机数(在实践中，从不使用第一个值和最后一个值，但是这里为了简明起见省略了这个事实)。在图2中，在窗口操作级WND中，将音频输入信号AUI剪切为长度为1024个采样的块或帧。在傅立叶变换器FTR中使用FFT将第一个块变换到频域中，从而产生长度为513的矢量s (幅度，相位)。基于心理声学定律，在相位限制计算器PHLC中，针对当前的频谱块的每个点(bin)，来计算可应用于该点的相位值而不会变得可听见的最大可允许相移，从而产生矢量m (仅相位)。由于位于频率零处的系数或点不具有相位值，因此矢量m的第一个和最后一个元素为零。如果将传输有效载荷(即水印)数据PD比特"零"，则在参考相位部分级RPHS中生成矢量p，其中p=p—0，如果将传输水印数据比特"一"，则生成矢量p，其中p，—1。在相位修改级PHCH中根据d=p-phase (s)来计算新的矢量d，对于矢量d的每个点j，执行如下的正规化步骤如果 d(j)<-7i则d(J"2兀+ d(i)如果 d(j)〉兀则d(j) =-2兀+ d(j)否则不改变d(j)结束。然后在级PHCH中通过针对每个点i进行如下计算，来考虑在级 PHLC中检查的心理声学限制如果 d(j)<-m(j)贝U dCJ) = -m(j) 如果d(j)>m(j)则d(j) = m(j) 否则不改变d(j)结束。在下个步骤中，在逆傅立叶变换级IFTR中如下地计算修改的音频信号y:y= IFFT ( i S| ei (phase (s)+c ))其中i表示虚数。该修改的音频信号听起来与原始信号相似，但是包含水印数据比特。在重叠和相加级OADD中，可以通过例如把块与众所周知的正弦窗进行重叠来减少块假象(artefact)。图3示出了信号s的块的原始相位与该信号块中通过"o"标记的修改的相位的示例图，由此使用在每个频率点处允许最大为IO度的相移的非常粗糙的心理声学模型。图4示出了本发明的水印解码器中的数据流。加水印的音频信号 WMAU (以帧形式或块形式)经过可选的整形级SHP到达相关器 CORR。对所接收的音频信号进行整形放大或衰减，以使得该音频信号的幅度值变得平坦或者变为值"1"。将平坦的幅度值(例如"1") 分配给(在解码器侧己知的)由矢量p二p—0和p二p一l表示的参考相位值，然后在参考相位级REFPH中，对所产生的复数组或复数序列进行IFFT变换以产生参考矢量或参考序列w一0和w—1 ，或者已经以IFFT 变换的格式存储在级REFPH中，艮口0 =工FFT(eiP一0) , 1 =工FFT(e土P—工)。在相关器CORR中，在时域中将这两个矢量或伪噪声序列w_0 和w_l与整形的加水印的音频信号进行相关。加水印的音频信号与具有与嵌入的水印数据比特相同的相位矢量的序列W一0或W_l的相关将在相关结果中显示波峰PK，而加水印的音频信号与相应的另一序列W一1或W一0的相关仅在相关结果中显示噪声。相关器分配相应的比特值，并提供由此产生的水印输出信号WMO。图5示出了针对图3的示例性相位信号的相关结果。"CPH"标记正确的相位信号的一部分，而"WPH"标记错误的相位信号的一部分。在图1和图4中，可以用适当的匹配滤波器来代替相关器CORR，导致相同的结果。'理论上，针对一个水印数据比特的传输，仅使用单个相位矢量是足够的，并且使用例如原始矢量来传输"一"以及使用以"-7i"来调整的相同矢量来传输"零"是足够的。但是实验表明，如果使用两个不同的相位矢量，则该处理的鲁棒性好得多。在针对每个块使用若干不同的随机相位矢量并且将每个值映射到一个相位矢量的情况下，可能针对每个音频信号块传输若干水印数据比特。可以将本发明的处理的基本技术与根据扩频水印已知的特征相组合-把起始于有效载荷比特之前的同步块处的独立帧中的有效载荷进行分离，该有效载荷比特受到纠错保护；-根据音频信号的当前内容，使用不同的相位矢量来对相同的有效载荷值进行编码；-根据当前的音频信号内容来跳过音频信号帧，并用信号向解码器通知该跳过。通过不仅考虑相位而且考虑音频信号的幅度，来实现进一步的改进。例如，在所描述的实施方式中，心理声学模块PSYA或PHLC确定在某个频率点处10度的相移是不可听见的。改进的心理声学模块将确定该IO度的相移仅在给定的当前幅度下才是不可听见的，但是如果当前的幅度减半，则将允许15度的相移仍是不可听见的。在这种情况下，原始谱中的一个或多个幅度值将被减半，并且其相应的相位值将改变15° 。图6至8示出了本发明的三个实施例。图6以功率P/频率f的表示示出了当前的音频块中的原始音频频谱幅度ASA。将音频信号频谱的特定频率范围中的相位值设置为预定的最大音频信号相位变化值ASPH。在右边缘处的比例示出了相对的相位变化RPH。在图7中，在该音频信号频谱的其它频率范围中存在附加的相位变化ASPH，根据心理声学来确定该相位变化的数量。换言之，在当前块内，在频域中，在除了具有最大(例如-兀/+兀)相位值修改的一个或多个频率范围之外的剩余的一个或多个频率范围中，利用小于该最大数量的数量，使用心理声学计算来自适应地修改该音频信号的相位。图8示出了响应于音频信号改变的幅度ASCHA (在该图示中夸大了 ASCHA的数量)、基于音频信号频谱的幅度变化ASPH的、该音频信号频谱中的另一增加的相位变化，最右侧的比例示出了幅度变化 ACH。
权利要求
1、一种用于通过使用音频信号(AUI)的相位修改(PHCHM，PHCH)而把数据(PD)加水印嵌入所述音频信号的方法，所述方法包括以下步骤-根据所述水印数据(PD)的当前比特值来控制(BVMOD，RPHS)相应的参考数据序列(SPRSEQ，p)的选择或产生；-根据所述相应的参考数据序列，来修改(PHCHM，PHCH)所述音频信号(AUI)的当前的时域到频域转换(FTR)后的块中的相位值，由此通过与心理声学有关的计算(PSYA，PHLC)，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围；-对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换(IFTR)；-输出加水印的音频信号(WMAU)的相应部分。
2、一种用于通过使用音频信号(AUI)的相位修改(PHCHM， PHCH)而把数据(PD)加水印嵌入所述音频信号的设备，所述设备包括-装置(BVMOD， RPHS)，适用于根据所述水印数据(PD)的当前比特值来控制相应的参考数据序列(SPRSEQ， p)的选择或产生；-装置(PHCHM， PHCH)，适用于根据所述相应的参考数据序列来修改所述音频信号(AUI)的当前的时域到频域转换(FTR)后的块中的相位值，由此通过与心理声学有关的计算(PSYA， PHLC)，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围；-装置(IFTR)，适用于对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换，以及适用于输出加水印的音频信号 (WMAU)的相应部分。
3、一种用于取回通过使用音频信号(AUI)的相位修改(PHCHM，PHCH)而嵌入所述音频信号的水印数据(WMO)的方法，其中所述水印数据(PD)的当前比特值由相应的参考数据序列(SPRSEQ， p) 的选择或产生来控制(BVMOD， RPHS)，而且，根据所述相应的参考数据序列，对所述音频信号(AUI)的当前的时域到频域转换(FTR) 后的块中的相位值进行修改(PHCHM， PHCH)，由此通过与心理声学有关的计算(PSYA， PHLC)，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围，并对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换(IFTR)，以形成加水印的音频信号(WMAU)的相应部分，所述方法包括以下步骤-将所述加水印的音频信号(WMAU)的当前块与所述参考数据序列候选(DSPRSEQ; w_l， w_0)的频域到时域转换后的版本进行相关(CORR)或匹配；-根据所述相关或匹配的结果来确定所述水印数据(WMO)的比特值。
4、一种用于取回通过使用音频信号(AUI)的相位修改(PHCHM， PHCH)而被嵌入所述音频信号的水印数据(WMO)的设备，其中所述水印数据(PD)的当前比特值是通过相应的参考数据序列(SPRSEQ， p)的选择或产生来控制的(BVMOD， RPHS)，而且，根据所述相应的参考数据序列，对所述音频信号(AUI)的当前的时域到频域转换(FTR)后的块中的相位值进行修改(PHCHM， PHCH)，由此通过与心理声学有关的计算(PSYA， PHLC)，来确定在所述当前块中针对预定的最大数量的所述相位值修改的可允许的一个或多个频率范围，并对所述音频信号的所述当前块的修改后的版本进行频域到时域的转换(IFTR)，以形成加水印的音频信号(WMAU)的相应部分，所述设备包括-装置(DSPRSEQ; REFPH)，适用于产生或存储所述参考数据序列候选(DSPRSEQ; w一l， w—0)的频域到时域转换后的版本；-装置(CORR)，适用于将所述加水印的音频信号(WMAU)的当前块与所述参考数据序列候选的频域到时域转换后的版本进行相关或匹配，以及适用于根据所述相关或匹配的结果来确定所述水印数据(WMO)的比特值。
5、根据权利要求1或3所述的方法，或者根据权利要求2或4 所述的设备，其中，所述时域到频域的转换是FFT，而所述频域到时域的转换是逆FFT。
6、根据权利要求1或5所述的方法，或者根据权利要求2或5 所述的设备，其中，所述音频信号(AUI)在输入处以重叠方式进行窗口操作(WND)，并且在输出处相应地进行重叠和相加(OADD)。
7、根据权利要求3、 5和6中任意一项所述的方法，或者根据权利要求4至6中任意一项所述的设备，其中，在所述相关或匹配之前对所述加水印的音频信号(WMAU)进行整形，使得其幅度值变得平坦或变为值"1"。
8、根据权利要求1、 5或6中任意一项所述的方法，或者根据权利要求2、 5和6中任意一项所述的设备，其中，与参考数据序列相对应的所述相位值修改(PHCHM， PHCH)是与扩频序列或m序列的相位相对应的修改。
9、根据权利要求1、 5和6中任意一项所述的方法，或者根据权利要求2、 5和6中任意一项所述的设备，其中，在所述当前块内，在频域中，在除了具有预定最大数量的相位值修改的所述一个或多个频率范围之外的剩余的一个或多个频率范围中，利用小于所述预定最大数量的数量，使用心理声学计算(PSYA， PHLC)来自适应地修改音频信号的相位。
10、根据权利要求1、 5、 6和7中任意一项所述的方法，或者根据权利要求2、 5、 6和7中任意一项所述的设备，其中，在频域中，在一个或更多个频率范围中，使用心理声学计算来修改音频信号的幅度，以增加所述一个或更多个频率范围中的可允许的相位修改。
11、一种存储介质，例如在光盘上，所述存储介质包含或存储或在其上记录有根据权利要求1、 5、 6和8至10中任意一项所述的方法而编码的数字视频信号。
12、一种数字视频信号，所述数字视频信号根据权利要求1、 5、 6和8至10中任意一项所述的方法而编码。
全文摘要
音频信号的水印倾向于以音频内容中的变化不能被人类听觉系统所识别的方式来操作音频信号。本发明使用音频信号的相位修改，以减少水印的可听度和改进水印的鲁棒性。在频域中，根据参考相位序列来操作音频信号的相位，然后变换到时域中。由于在整个频率范围上的音频信号的相位改变是可听见的，因此仅仅在较高频率和/或有噪声的音频信号部分中的一个或更多个较小的频率范围内，根据心理声学来执行相位操作。优选地，根据心理声学原理来控制剩余的频率范围中的相位变化的可允许幅度。通过将加水印的音频信号与相应的逆变换后的候选参考相位序列进行相关，从加水印的音频信号中对水印进行解码。
文档编号G10L19/018GK101263552SQ200680033872
公开日2008年9月10日申请日期2006年9月4日优先权日2005年9月16日
发明者彼得·乔治·鲍姆, 沃尔特·弗斯辛申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沃尔特.弗斯辛;彼得.乔治.鲍姆
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

上一篇：噪声环境中语音信号的健壮分离的制作方法
上一篇：在比特率分级和带宽分级的音频解码中的比特率切换方法