透明无损的音频水印增强的制作方法

文档序号：15308035发布日期：2018-08-31 21:19阅读：184来源：国知局

本发明涉及对音频信号加水印处理，特别涉及对原始音频信号的具有改进的透明性的加水印处理以及对原始音频信号的恢复。

背景技术：

wo2015150746a1描述了对音频信号加水印的方法，使得加水印的音频是原始的高保真度版本，并且是可完全去除水印以恢复原始音频信号的精确复制品。

参考wo2015150746a1的图1a，其在此被复制为图1a，该已知方法采用确保信号104遵守已知边界的削波单元133，随后是噪声成形数字转换器，该噪声成形数字转换器嵌入包括控制数据141和水印数据的数据143以生成输出信号102。图1b示出了来自wo2015150746a1的相应解码信号流。

图1c示出了图1a的编码信号流的简化模型，其中，生成位于量化网格o3上的信号104的所有部分示出为预处理，以及该装置的其余部分是数据嵌入器114，数据嵌入器114添加了噪声以在量化网格o2上产生输出102。从而，音频信号受到一些预处理，产生被削波至已知范围的信号104。然后，数据嵌入器114添加已知峰值幅度的数据相关噪声以在量化网格o2上产生输出信号102。噪声取决于待被嵌入的数据143，数据143包括水印数据和由预处理产生的附加数据141。

图1d以类似的方式示出了图1b的解码信号流的简化模型。通过提取器214供给输入信号202(输入信号202是来自图1c的编码器的输出102的复制品)，提取器214将嵌入器114的操作反转以产生复制信号104的信号204。进一步的后处理可反转编码器的预处理。图1d示出了提取器如何反转嵌入器的示例性内部结构，其中，通过检查加水印的信号提取数据243(数据243复制了143)。现在，提取器可生成并减去嵌入器添加的相同噪声。

然而，为了确保输出信号102不会过载，存在一个问题是必须将信号104削波至更窄的范围，以允许在数据嵌入单元中添加噪声。

更窄的范围不会降低真实音频的透明度，但通常的做法是在测试信号(包括全电平正弦波)上评估系统的性能。在测试装备上对全电平正弦波进行削波会产生可见的失真产物，为避免对系统保真度不满，需要将这些失真产物的电平最小化。

技术实现要素：

根据本发明的第一方面，提供了用于对音频信号进行无损水印处理的方法，该方法包括以下步骤：

执行噪声成形量化；以及

将来自所述噪声成形量化的输出削波至由一对量化的线性函数计算的范围，其中，所述一对量化的线性函数对所述噪声成形量化的输入的梯度为0.5。

以此方式，本发明增强了wo2015150746a1中描述的全尺寸测试材料的技术的透明性，同时保留了精确反转水印操作并恢复原始音频信号的完美复制品的能力。

本发明通过以下方式广泛实现：

(i)允许输入104至数据嵌入器以获得峰值表示值；

(ii)通过将带水印的信号削波至由到噪声成形数字转换器的输入的线性函数所量化的范围来处理由嵌入器引入的过载，其中，量化确保范围传达与信号相同的水印信息，并且线性函数具有梯度0.5；

(iii)检查输入至数据嵌入器的输入104，并在接近峰值表示值时产生附加比特的重构数据，这允许解码器解决由小于0.5的单位梯度引入的模糊性。

根据本发明的第二方面，提供了用于处理无损水印音频信号的方法，该方法包括以下步骤：

对音频信号执行噪声成形量化；以及，从由噪声成形量化的输出和音频信号的梯度为2的一对量化线性函数构成的三元组中选择中间值。

根据本发明的第三方面，提供了适于使用第一方面的方法对音频信号进行无损水印处理的编码器。

根据本发明的第四方面，提供了适于使用第二方面的方法处理无损水印音频信号的解码器。

根据本发明的第五方面，提供了编解码器，该编解码器包括根据第三方面的编码器与根据第二方面的解码器的组合。

根据本发明的第六方面，提供了数据载体，该载体包括使用第一方面的方法无损地加水印的音频信号。

根据本发明的第七方面，提供了包括指令的计算机程序产品，该指令在由信号处理器执行时使所述信号处理器执行第一或第二方面的方法。

如本领域技术人员将理解的，本发明提供了用于增强音频信号的透明无损水印的技术和设备，同时能够反转用于恢复原始音频的完美复制品的水印操作。根据本公开，进一步的变化和修改对于技术人员将变得显而易见。

附图说明

下面参照附图，详细地描述本发明的示例，在附图中：

图1a示出了用于透明无损的音频水印的已知编码器的信号流示意图；

图1b示出了与图1a的编码器对应的已知解码器的信号流示意图；

图1c示出了图1a的信号流示意图的简化模型；

图1d示出了图1b的信号流示意图的简化模型；

图2示出了根据本发明实施方式的编码器，该编码器在图1c中的嵌入器周围增加了检测器和削波单元；

图3示出了在正削波极限lδ的区域中的可能的信号值；

图4示出了根据本发明的实施方式的与图2的编码器对应的解码器，该解码器向图1d的解码器添加了解除削波单元和lsb强制单元；

图5示出了根据本发明第二实施方式的编码器；

图6示出了与图5的编码器对应的根据本发明的第二实施方式的解码器；以及，

图7示出了本发明的第四实施方式中用于在削波发生时禁止噪声成形的信号流。

具体实施方式

对于本发明的需求来自可逆性要求。没有可逆性要求，保存水印的任何形式的削波都可在加水印的信号上执行。

符号

我们使用表达式[a，b]来表示a与b之间的封闭区间，该闭区间包括端点a和b。表达式[a，b)表示包括a但不包括b的a与b之间的半开区间。

我们使用δ来表示音频的量化步长，并且使用l(我们假设l是偶数)来将编码器输出105上的样本值的极限表示为[-lδ，+lδ)。我们将±lδ称为峰值表示值。

当我们引用音频值x的isb时，我们的意思是(floor(x/δ)modulo2)，其中floor(y)是不超过y的最大整数。

我们将k用于嵌入器114中添加的噪声的峰值电平，使得噪声值处于[-kδ，+kδ]的范围内。我们要求k是整数，所以k是指四舍五入的噪声峰值电平。

示例性实施方式

我们首先描述适合使用的当图1c中的信号104和102是δ的整数倍时本发明的实施方式。因为该约束排除了wo2015150746的水印方法，所以这不是特别有用的实施方式，但是它能使我们在处理新增的复杂性之前引入本发明的基本特征。

图2示出了根据本发明的编码器，该编码器在嵌入器114周围增加了两个元件。第一是检测器134，如果音频接近峰值表示值±lδ，则检测器134传输音频的lsb作为数据144。第二是削波单元115，其中，削波(由最小操作171和最大操作172执行)通过线性函数151和152以及数字转换器161和162对极限值(该极限值取自输入到嵌入器114的输入104)进行削波。

信号104在全范围[-lδ，+lδ)内，以及因此，由于嵌入器114增加了噪声，嵌入器114的输出信号102可超过此范围。因此，需要采取措施确保信号105位于[-lδ，+lδ)的范围内。削波器115采取此措施。

然而，削波会从音频流中移除信息，因为它会将削波点周围的多个输入样本值映射至较少的输出样本值。对于此丢失的信息需要有旁路，并且该旁路由检查音频数据的检测器134提供，以及如果需要，则发送数据144，尽管在削波中固有的信息丢失，但数据144将允许解码器重构原始信号。

理想地，该数据144将精确地传达在削波中丢弃的信息，并且仅当削波器115产生模糊性时才被发送。然而，这是不切实际的，因为能够用于将数据传递至解码器的唯一通道是将其复用至数据143中，并且(如图1c所示)由嵌入器114所添加的噪声以及因此在任何特定时刻削波是否实际上发生都取决于数据143。由于此种循环性，只要信号104(其不依赖于数据143)指示可能发生削波，就需要传输数据144。

在这些情况下，使削波器115被设计成使得1比特数据足以解决出现的任何模糊性是数据有效的，以及因此，只要信号104足够接近±lδ，以致解码器可需要数据来解决模糊性，检测器就传输音频的lsb。随后，我们将讨论足够接近的方法。

继续解释削波器115的设计，因为解码器最多只能提供一个比特来解决模糊性，所以削波器必须确保没有输出值105被信号104的多于两个的值映射到。我们还希望削波应最小化其对信号的修改。因此，考虑到正削波点，我们希望信号104的两个最大可能值映射至信号105的最大值，并且接下来的两个最大可能值映射至信号105的下一个最大值，依此类推，直到不再需要削波为止，其中，削波器不再修改信号。

这正是削波器115所实施的。在此实施方式中，161和162的传递函数是q(x)＝δfloor(x/δ)，并且线性函数151和152分别将x映射至0.5(x+lδ)和0.5(x-lδ)。通过最小操作171来实施正削波点，该最小操作171将信号102削波成信号104的量化线性函数。查看线性函数151，0.5的梯度确保信号104的两个值映射至信号105的每个值，同时0.5lδ的偏移确保信号104的两个最大值映射至信号105的最大可能值。最后，最小操作171确保当不再需要削波时，我们停止将信号104的两个值映射至信号105的每个值。

这在图3中进行了说明，图3示出了正削波极限lδ区域内的可能信号值。对于信号104的峰值附近，我们绘制了线性函数151的输出以及由最小操作171实施的正削波点。由于在数据嵌入器114中引入了噪声，我们还示出了信号102可采用的示例性范围的值。

从而，图3示出了信号102的范围(对于示例性的k＝4)、线性函数151的输出以及量化后的削波点161。当信号104变化时，远离+lδ的值意味着无论如何嵌入器114都不会修改信号。当信号104增加时，噪声的较大+ve值导致削波，直到对于最大可能信号104，噪声的所有正值导致削波。无论由嵌入器114所添加的瞬时噪声电平如何，最多有信号104的两个值可导致任意输出值105，以及因此，侧通道数据144的一比特足以解决模糊性。

负削波点由最大操作172、线性函数152和数字转换器162实施，其具有与正削波点相似的属性。

在讨论了削波器115的形式之后，我们现在可返回以限定检测器134中的“足够接近”。可由+ve削波改变的信号104的最小值是(l-2k+1)δ，并且该削波可导致它生成与(l-2k)δ相同的输出。同样地，可由-ve削波影响的最大值是(-l+2k-2)δ，其可生成与(-l+2k-1)δ相同的输出。因此，只要信号检测器134就传输lsb。

在此计算中，没有必要使用k的精确值，较大的值以稍高的数据成本仍能给出正确的操作(因为当模糊性永远不出现时也可传输lsb)。然而，计算便利性超过数据成本，且可由使用2的幂产生。在此种情况下，可使用较大的可能高达4kδ的保护频带。

图4示出了与图2的编码器对应的解码器，该解码器向图1d的解码器添加了解除削波单元215和lsb强制单元234。解除削波单元215近似地反转由编码器的削波单元115进行的任何信号修改，并且lsb强制器使用补充数据244完成反转以强制音频的lsb。

从而，类似于编码器，图1d的提取器214通过解除削波215和lsb强制器234(由数据244与提取器214提取的数据243进行解复用来驱动)来增强。它们一起反转由削波115进行的任何信号修改，以及因此，信号204是编码器中信号104的无损复制品。

要明白这一点，让我们首先考虑正削波极限+lδ周围的操作。线性函数251和252分别是编码器中的线性函数151和152的逆映射，并且分别将x映射至2(x-lδ)和2(x+lδ)。

如果编码器被削波，那么信号105等于数字转换器161的输出，其依次等于0.5(x+lδ)-ε，其中，我们将信号104表示为x并且将来自数字转换器161的修改表示为ε(其可是0或0.5δ)。

线性函数251的输出可计算为2(0.5(x+lδ)-ε)-lδ＝x-2ε，它是δ的偶数倍，并且可是x或x-δ。

由于编码器被削波，我们知道信号102>信号105。由于信号205复制信号105并且提取器214减去与嵌入器114所添加的噪声相同的噪声，这意味着信号104>信号202，以及因此，信号202≤信号104-δ＝x-δ。因此，最大操作271确保信号206等于线性函数251的输出，以及因此，信号206是δ的偶数倍以及是x或x-δ。然后，在234中恢复lsb以确保信号204复制信号104。

如果编码器没有削波，则最大操作271不起作用，并且信号206复制信号104。将lsb强制为正确值(如果其在234中发生)对信号没有影响，并且信号204也根据需要复制信号104。同样地，可看出的是，操作252、272和234将编码器中发生的对负范围的任何削波反转，否则不起作用。

需要考虑的剩余问题是lsb强制器234的数据消耗。如果信号206“接近边界”，这消耗了一些数据并强制lsb，并且我们使用的对“接近边界”限定与检测器134中相同。因为信号206并不总是完全复制信号104，所以选择“接近边界”的限定以确保传输比特与不传输比特之间的判定点位于信号206不复制信号104的区域中。

量化网格

在本发明的第二实施方式中，信号被限定为位于量化网格上，如在wo2015150746a1中所讨论的。它们通过偏移偏离δ的整数倍，偏移可能因样本而异。

信号104、202、204、206以及数字转换器261和262的输出全部位于我们称为o3的同一量化网格上，以与wo2015150746a1兼容。信号102、105和205全部位于另一量化网格o2上。网格o3可统一为零(对应于无偏移)，但通常由编码器与解码器之间同步的伪随机序列来限定。网格o2取决于数据143并且是在wo2015150746a1中描述的用于对音频进行水印处理的机理。我们将限定量化网格的偏移归一化至位于[0，δ)的范围内。

根据第二实施方式的编码器如图5所示，其中，偏移器116确保削波115不改变水印。信号104上的偏移o3实际上不影响数字转换器161或162的输出，它只向ε增加0.5o3。然而，我们需要确保削波115保留水印(即，当削波发生时信号105仍然位于o2上)。这由偏移器116完成，偏移器116将偏移o2添加至数字转换器161和162的输出端。

编码器知道o2，但是如果需要，可通过从信号102中减去它自己的量化版本来进行计算。

图6中示出了根据本发明第二实施方式的对应解码器。数字转换器217从呈现给线性函数251和252的信号中移除偏移o2，并且偏移器216将偏移o3添加至它们的输出上，使得该信号位于所需的网格上。从而，数字转换器217补偿编码器中的偏移器116，并且偏移器216确保信号206位于正确的量化网格上。

矢量量化

在本发明的第三实施方式中，量化网格o2和o3上的信号被如wo2015150746a1中所建议的进行矢量量化，wo2015150746a1讨论了由{[2^-16,2^-16]、[2^-16，-2^-16]}限定的量化晶格。

在此实施方式中，我们希望削波以单声道进行操作，使得一个通道削波不会影响另一个。这可通过将δ限定为每个通道上晶格点之间的最小距离来完成。在[2^-15,0]＝[2^-16,2^-16]+[2^-16,-2^-16]且[0,2^-15]＝[2^-16,2^-16]-[2^-16,-2^-16]的情况下，我们可为每个通道限定δ＝2^-15。因为音频的量化步长，这是对我们对δ的限定的略微不恰当的使用，但它确实使一切按照预期的单声道工作。

唯一的略微例外是由偏移器116和216添加的偏移需要考虑另一通道的奇偶性以及量化网格o2或o3。然而，通过分别从其自身的量化版本中减去信号102和202来得到正确的偏移，以用于偏移器中。

禁用噪声成形

在本发明的第四实施方式中，我们注意到嵌入器114实际上由噪声成形数字转换器(即，图1a中的数字转换器112和滤波器112)实施。

当削波正在运行时，它生成对信号105的瞬时改变，而不是噪声成形。我们不试图对这些变化进行噪声成形，但是它们的存在使得对数字转换器112所提交的较小(而不一定是相同的极性)误差的噪声成形变得没有意义。

因此，在本发明的第四实施方式中，我们禁用编码器嵌入器114中的噪声成形，如图7所示，其中，多路复用器115正常地反馈数字转换器112的输出，但是在发生削波时反馈其输入。从而，多路复用器115选择是否对数字转换器112所提交的误差进行成形(在右手位置中)或不进行成形(在左手位置中)。

同样地，反馈在解码器提取器214中以同步的方式被改变。

在操作234结束之前，解码器不能明确地知道是否发生了削波，允许它比较信号202和204。这可能不便于实施，所以优选地，解码器决定以基于信号206禁用反馈。为了保持编码器与解码器之间的同步，编码器必须通过模拟解码器信号206并应用相同的逻辑而以锁步进行操作。

明确限定的数字签名

在本发明的第五实施方式中，期望解码器通过验证在数据流243中传送的音频的数字签名来对流进行认证。

优选的是，计算签名的音频独立于嵌入数据143，而且还可在解码过程中被提前访问，以最小化仅在没有解码的情况下执行认证的计算负载。信号206为认证提供了很好的点，但是在该点处，如果削波可发生或可不发生，则音频的lsb不确定。

因此，在根据本发明的解码器的第五实施方式中，当音频靠近边界时，通过强制信号206的lsb来生成音频流以用于验证数字签名。这正如lsb强制器234，它不消耗数据，而是代之以强制lsb至方便选择的值(例如清除它)。

相应地，在根据本发明的编码器的第五实施方式中，当音频靠近边界时，通过强制信号104的lsb来生成音频流以用于计算数字签名。

算法笔记

执行削波和解除削波操作的算法可以以多种方式重新排列。例如，一种调整可被计算(其通常为零，但是在发生削波时是δ的整数倍)并添加至信号102或202，以代替执行最大/最小操作171、172、271和272。

削波至计算范围相当于选择3个信号(102和偏移器116的输出)的中间。不明显地，解码器解除削波也选择3个信号(202和偏移器216的输出)的中间。

无论削波还是解除削波都不一定需要计算两个线性函数。例如，当处理正值时，明显影响-lδ周围操作的线性函数不会改变信号，当处理负值时，明显影响+lδ周围操作的线性函数不会改变信号。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马尔科姆·罗
技术所有人：马尔科姆·罗
我是此专利的发明人