音频处理的制作方法

文档序号：2836953阅读：597来源：国知局

专利名称：音频处理的制作方法
技术领域：
本发明涉及音频处理。
背景技术：
在诸如数字指紋标识或水印标识的应用(可以将其统称为侦辨
(forensic)标记)当中，可以将有效载荷信号以诸如伪随机噪声信号的噪声模式的形式插入到初级音频信号当中。其目的一般在于使噪
声信号近乎不被察觉，或者即使能够听到噪声信号，也使其不致造成主观干扰。这种类型的技术允许通过某种方式添加各种类型的有效载荷，在所述方式中，不必改变初级音频信号的总带宽、比特率和格式。
可以添加的有效载荷数据的类型的例子包括安全数据(例如，用于识别盗版或非法复制的)、广播监视数据以及描述由所述初级音频信号表示的音频信号的元数据。
以后可以通过相关技术恢复所述有效载荷数据，即使施加了水印的音频信号在水印施加和水印恢复之间受到了各种方式的操作或破坏，所述有效载荷数据往往仍然能够起作用。
但是，例如，就胶片声带而言，使施加了水印的信号(例如，疑似盗版复制件)的部分与整个声带相关所需的相关处理的规模相当庞大，因为处理操作一般随所涉及的音频样本的数量的平方增大。由于很多水印恢复技术要求针对所述可疑材料测试每一候选水印，因而完成这一操作所需的处理的工作量将大到脱离常理的地步。
相应地，特别是在仅能获得一部分可疑信号的情况下，恢复所述有效载荷数据的一个要求是原始信号与所述可疑材料时间对准。在某些情况下，以人工方式实现这一操作，但是这样往往是不精确的，而且依赖于对原始材料的非常详尽的了解。

发明内容
本发明提供了一种音频处理设备，其用于对两个抽样音频信号进行处理，以探测所述音频信号中的一个相对于另一个的时间位置，所述设备包括用于相对于所述两个信号中的每者的相继的、连续的时间部分探测每一信号的音频功率特征的装置，所述部分具有等同的长度，并且每一部分包括至少两个音频抽样；以及用于使相对于所述两个音频信号探测的音频功率特征相关，以获取所述两个音频信号之间的最接近的时间偏移的装置。本发明提供了一种精确方便的技术，其用于在不需要一个接一个抽样地使整个信号交叉相关的情况下(至少在一个或几个部分长度内) 实现两个信号的时间对准(在很多情况下，要一个接一个抽样地使整个信号交叉相关是相当困难的)。相反，将信号分解为连续的部分或块，并相对于每一个这样的部分推导出音频功率特征。可以对所得的功率特征的集合实施相关处理，从而找到所述信号之间的最佳对准。在权利要求中定义了本发明的其他相应方面和特征。

现在将参考附图，仅通过举例的方式描述本发明的实施例，在附图中图1示意性地示出了包括指紋编码器的数字影院布局；图2示意性地示出了指紋检测器；图3是指紋编码器的操作的示意性概述；图4示意性地示出了有效载荷发生器；图5示意性地示出了指紋流发生器；图6示意性地示出了频谱分析器；图7示意性地示出了频谱跟随器；图8到11示意性地示出了包络跟随器的操作；图12是指紋检测器的操作的示意性概述；图13是示出了时间对准单元的操作的一部分的示意性流程图；图14示意性地示出了被划分成块的可疑材料和代理权材料；图15示意性地示出了低通滤波器布局；图16示意性地示出了设定了阈值的信号；图17示意性地示出了相关操作；图18示意性地示出了功率曲线；
图19示意性地示出了去巻积器训练操作；
图20示意性地示出了幅度曲线；
图21示意性地示出了应用了阈值并且受到了内插的幅度曲线; 图22示意性地示出了图19所示的处理的中间结果；图23示意性地示出了脉冲响应；图24示意性地示出了平滑曲线；
图25示意性地示出了受到了平滑处理的脉冲响应；以及图26示意性地示出了数据处理设备。
具体实施方式
引言
目前，已经有人提出了一般被称为侦辨标识技术的指紋标识或水印标识技术，这些技术适用于—见频信号。例如，参考EP-A-1 324262。尽管其总体数学框架在理论上似乎适用于音频信号，但是仍然存在着几项显著的技术差异。在本说明书中，采用"指紋，，和"水印"表示材神+的侦辨标记。
所要考虑的一项主要因素是如何将指紋数据编码到音频信号当中。就灵敏度和动态范围而言，人耳与人眼存在着非常大的差别，这使得^f艮多已往的商业指紋标识方案在主观收听("A/B，，)测试中失败。
在48kHz的采样速率下，人耳能够听到小于一个采样的相位差，并且其在任一时刻都具有能够跨越9个数量级的动态工作范围。考虑到这一点，我们认为一种合适的编码方法是将指紋数据作为简单地添加到介质上的低水平噪声信号进行编码。
噪声具有很多对完成这一任务有利的心理学-声学性质，其中最重要的是，当噪声处于低水平，并且是一种一般使人宁静(模仿自然界中的风、流淌的溪流或海浪的声音)而不是一般使人恼怒的声音时，耳朵就会倾向于忽略这种噪声。噪声流的随机属性还意味着，像(例如)闪光(strobe)效应或恶意使用阀下信息作用于视觉那样对脑功能造成干扰的可能性非常小。
现在将说明这种技术的实现。
数学基础考虑指紋有效载荷"矢量"P = p[l]…p[n]。对于嵌入处理而言，将这一有效载荷加到音频信号矢量V = v[l]..v[n]上，从而得到施加了水印的有效载荷矢量W = V + P。有效载荷矢量P的元素是具有平均值0和标准偏差a"的统计独立随机变量，其中，将a称为水印的强度，将所述元素写作N(O, oc2)。简而言之，釆用这一记法表示所述有效载荷是高斯随机噪声流。对所述噪声流进行比例缩放，从而使所述标准偏差作为音频信号处于 +/-1.0的范围内。这一比例缩放是至关重要的，因为如果不能正确地完成这一操作，那么下面计算的相似性指示符("Sim Val，，)就不会正确。注意，这里约定，认为+/-1. 0是音频域内的"满标度"，因而在当前情况下，高斯噪声流的很多采样实际上大于满标度。对于提取处理而言，从施加了水印的可lt矢量(例如，所讨论的音频材料的盗版)Ws中减去初始代理权(proxy)矢量V，则可得到可疑有效载荷矢量Ps=Ws-V。换言之，Ps:可疑音频流-代理权音频流。为了测试是否采用候选有效载荷矢量P对所述内容施加了水印，则在候选有效载荷矢量P和归一化可疑有效载荷矢量Ps之间执行内循环相关(写作" ")，以获得下文写作Sim Val的相似性值Sim Val = (Ps / |Ps |) *P其中，IPs |是Ps的矢量幅度，即，|Ps I = sqrt (Ps Ps)。这里， sqrt表示平方根函数。注意，使矢量归一化是指对矢量内的值进行比例缩放，从而使它们相加恰好得到幅度1。这一公式表示Ps和P之间的统计相关度，其最大值接近所述矢量的长度的平方根。我们说，如果SimVal大于特定的阈值T,那么有效载荷P存在于Ps内，如果Sim Val<=T,那么其不存在于Ps内。为了给Sim Val的值赋予某些统计学含义，使T的值与通过下式得到的假阳性的概率相关。T = sqrt( 2 In ( M2/p sqrt (2兀)))其中，p是假阳性的概率，ln是自然对数，M是群体大小(即，为指定音频内容配发的唯一有效载荷矢量的数量)。例如，如果要求假概率超过1/1 00000000，并且群体大小为1 000，那么值Sim Val则必须大于8。一般说来，值为10的Sim Val是采用当前技术的盗版音频材料的侦辨分析中的有用目标。对于特别大的群体M而言，值为12可能更加合适。在经验检验中，已经发现在对可疑音频材料的几秒钟的分析内就达到了值8，而一般还需要几秒钟才能达到值12。图1示意性地示出了一种数字影院布局，其中，固定播放设备IO 接收加密音频A见频材料，以及解密密钥。解密器20对音频和碎见频材料解密。将解密视频材料提供给投影仪30,从而将其投影到屏幕40上。将解密音频材料提供给如上所述应用指紋的指紋编码器5 0。一般而言，所述指紋针对该材料、该影院以及该重放事例可以是唯一的。这样能够将盗版行为追溯到特定的影片播放。将添加了指紋的音频信号传输到放大器60,所述放大器60在已知的影院音响构造中驱动多个扬声器70和亚低音扬声器80。还可以将指紋应用于一见频信息。可以采用已知的—见频指紋标识装置(未示出)。所述播放设备最好是固定的，因为所述播放设备是一个没有能够通过其获得未添加指紋的音频(或者视频)的外部连接的密封单元。当然，所述放大器60和投影仪30未必一定是所述固定系统的组成部分。如果在电影院内对该影院播放的内容进行了非法复制，例如，利用摄像放像机，那么与电影相关的音频内容将具有通过影院内包括的指紋编码器50编码的指紋信息。出于调查或法律方面的原因，为了对其加以证实，可以将可疑的材料复本连同原始(或"代理权")材料以及用于生成原始指紋的密钥提供给图2的指紋检测器80。在最简单的情况下，指紋检测器80生成在可疑材料内存在的特定指紋的概率。在下文中将更为详细地说明检测过程。嵌入处理在视频指紋标识当中，所述技术一般以帧为基础(帧是视频域中的自然的处理块尺寸)，并且将整个指紋有效载荷矢量(以较低的水平) 埋入到每一帧内。在某些系统中，将指紋的强度设为在帧的"较为繁忙的"图像区域内较大，并且处于较低的空间频率上，在视频内容的性质不发生严重改变的情况下，难以或者不可能去除所述空间频率。其思路在于，可以在很多帧上累加每一帧上的相关度，就像对单个矢量实施相关一样；如果在可疑有效载荷Ps和候选有效载荷P之间存在实统计相关，那么所述相关度将从帧到帧持续增大。对于音频而言，通常不存在这种自然的处理块。在当前实施例中，出于快速傅里叶变换(FFT )操作的效率的原因，将音频版本的处理块尺寸设为2的幂个音频抽样，例如64k个抽样 (65536个抽样)。还要注意，矢量长度将与处理块具有相同的尺寸。可以按照与视频系统相同的方式累加这些音频帧的连续相关度。针对内容的每一抽样存在一个有效载荷矢量的抽样。而且，所述有效载荷集中在"中频"，因为可以在不严重降低音频质量的情况下丟失高频内容(即〉5kHz )和低频内容(即，<150Hz)。这些频率的丟失可能是盗版者一方较差的记录设备或技术的缺陷导致的，也有可能是盗版者有意将其删除的，以遏制指紋恢复过程。因此，更适合使有效载荷集中在主观上更为重要的中频内，即，集中在无法在不严重降低质量的情况下容易地删除的频率内。总体上来讲1. 所述有效载荷以基于AES Rijndael的伪随机数流为种子生成噪声流。2. 根据音频流的知觉分析对噪声流"整形"。3. 将经整形的噪声流以低水平添加到音频流中。所生成的噪声流在其内含有多个层，每一层是由有效载荷数据的不同子集生成的。应当认识到，也可以在有效载荷内包含其他数据，例如，帧序号和/或日期/时间。通过将256位Rijndael加密重复应用于移动计数器生成所述随才7L 数流。之后，对所述数进行比例缩放，使之处于+/-1.0的范围内，以生成满标度白噪声。通过对点对施加Box-Muller变换将所述白噪声流转化为高斯噪声。在本实施例中，噪声流存在16层。伪随机噪声发生器的第一层以有效载荷的第一个16位为种子，第二层以有效载荷的第一个32位为种子，依此类推，直到以整个256位有效载荷为种子的第16层。觉知分析涉及简单的频谱分析，以建立某一增益值，从而针对音频流内的每一抽样对指紋噪声流进行比例缩放。其思路在于，音频流中的声音较大的部分将隐藏较高强度的指紋噪声。对这一原理做进一步扩展，即，将(隐藏了指紋的)音频流的中9频内容划分成几个带(例如8个或12个)，所述带优选在对数频标上
均分分布(当然，可以采用任何频带划分)。这意味着，例如，将所述频谱大致划分成了倍频程。单独处理每一频带，以生成相应的用于调制指紋噪声流中的对应频带的幅度的增益包络。当在所有的频带中采用包络调制时，结果是所述噪声流听起来非常像原始音频信号的"重影"再现。更重要的是，由于这一重影再现具有与内容的相似性，因此在将其添加至原始材料时，即使以相对较高的信号水平添加，也会
变得听不见。例如，即使相对于所述音频以高达-30dB (分贝)的水平添加受到了调制的噪声，该噪声在主观上几乎也是听不见的。
本实施例采用了 2049个抽样脉冲响应内核(kernel)实现用于分离每一频带内的信息的"砖墙"(陡边响应)巻积带通滤波器。出于速度的考虑，在FFT域内完成巻积。将巻积滤波器而不是递归滤波器用于所述带通滤波器的一个重要原因在于，可以使巻积滤波器具有独立于频率的固定时延。其之所以重要的原因在于，在添加噪声流时，必须使针对任何指定频带的噪声流的调制与原始内容的实际包络对正。如果滤波器将具有随频率而变化的延迟，那么所产生的错位将难以校正，因而可能导致噪声的可觉知性增强，并且可能导致相关值随频率变化。
图3是诸如图1的编码器50的指紋编码器的操作的示意性一既述。有效载荷发生器1Q0产生被编码成指紋的有效载荷数据。如上所述，其可以包括各种内容和其他标识符，并且其有可能对所述内容的重方文事例是唯一的。在下文中，将参考图4描述有效载荷发生器。
将有效载荷提供给指紋流发生器110。如上所述，其根本上是一种采用基于密钥的AES-Rijndael加密生成取决于由有效载荷发生器100 提供的有效载荷的输出序列的随机数发生器。在下文中，将参考图5 进一步说明所述指紋流发生器。
将(施加了指紋的)源材料提供给频谱分析器120。其在一个或多个频带内分析所述源材料的幅度或包络。所述频谱分析器将包络信,包、提供给频谱跟随器130。频谱跟随器根据来自频谱分析器120的包络信息调制指紋流发生器110输出的噪声信号。在下文中，将参考图6进一步说明所述频镨分析器，参考图7进一步说明所述频镨跟随器。
所述频谱跟随器130的输出是具有显著低于源材料的水平的噪声信号，但是其基本遵循源材料的包络。通过加法器140将噪声信号添加至源材料。因此，所述加法器140的输出是施加了指紋的音频信号。在源材料路径中示意性地示出了延迟元件150。其目的在于表明，与传输至加法器140的版本相比，将对源材料的时间提前版本进行光谱分析和包络确定。在下文中将对这一时间提前特征做进一步说明。图4示意性地示出了有效载荷发生器。如上所述，其釆用了各种标识数据，例如，序号、位置标识符和位置私有密钥，并生成作为种子提供给指紋流发生器110的有效载荷数据160。可以采用位置私有密钥通过加密装置170对位置标识符加密。通过逻辑180使有效载荷数据的各种成分位对准，进而将其作为种子输出。图5示意性地示出了指紋流发生器110。其从有效载荷发生器100 接收种子数据160，并且接收密钥数据190,通过扩展逻辑200将密钥数据190扩展成16个不同的密钥K-1. . . K-16。可以任选通过加法器210将帧序号加到种子数据160上。所述流发生器具有16个AES-Ri jndael数发生器220. . 236。其中的每者从密钥扩展逻辑200接收相应的密钥。每者还以来自种子数据 160的相应的位组为种子。数发生器220以种子数据160的第一个16 位为种子。数发生器221以种子数据160的第一个32位为种子，依此类推。这种设计能够建立有效载荷的层次，从而在译码阶段更易于搜索特定的指紋，即，首先搜索第一个16位的所有可能的值，之后搜索第17到32位的所有可能的值(已知第一个16位)，依此类推。将每一数发生器220. . 236的输出提供给高斯映射结构240. . 256。所述高斯映射结构采用实际上为白噪声的所述数发生器的输出，并应用已知的映射处理生成带有高斯分布的噪声。通过加法器260使来自每一映射逻辑240. . 256的高斯噪声信号相加，以生成噪声信号270作为输出。图6示意性地示出了频谱分析器120。其接收所述(将要添加指紋的)源材料作为输入，并生成包络信息280作为输出。所述频镨分析器包括8个(在这一例子中)带通滤波器290. . 297, 每一所述带通滤波器从所述源材料滤出相应的频带。所述滤波器在频率上可以是重叠的或者不重叠的，这8个滤波器覆盖整个可用频率范围的程度可以是百分之百，但是在更为一般的情况下，则比百分之百低得多。与所述8个滤波器相关的相应频带可以是相连的(即，彼此邻接的)，也可以不相连。所采用的滤波器(频带)的数量可以大于或小于8。相应地，应当意识到，本说明只是这些滤波器的工作方式的一个例子。
在当前实例中，通过滤波器处理大约150Hz到大约5kHz的中频范围。将其划分成8个对数相等频带，因此每一频带大约在一个倍频程上延伸。用于所述带通滤波器290. . 297的滤波技术与上文所述一致。
在每一带通滤波器的输出处连接包络检波器300. .307。所述包络检波器生成与相应的带通滤波器输出的经滤波的源材料的包络相关的包络信号。
图7示意性地示出了频镨跟随器。频谱跟随器接收来自频谱分析器120的包络信息280以及来自指紋流发生器110的高斯噪声信号270。
将所述高斯噪声信号270提供给一组带通滤波器310. . 317。将这些带通滤波器设置为具有与对应的频谱分析器120的滤波器290. .297 相同的(或者尽可能相近的实际)响应。其生成处于噪音频i普内的8 个频带。将每一经滤波的噪声频带提供给相应的包络跟随器320. . 327。所述包络跟随器采取与所述源材料中的该频带的包络相关的包络信号，并对同一频带内的经滤波的噪声信号进行调制。通过加法器330 将所有包络跟随器320..327的输出相加，以生成经整形的噪声信号 340。
包络跟随器可以包括缩放设置，从而使最终的经整形的噪声信号 340相对于所述源材料处于适当的水平，例如，相对于所述源材料处于负30dB。
如上所述，通过加法器14Q将所述经整形的噪声信号340加到所述源材料上，以生成施加了指紋的源材料作为输出信号。
可以对不同的音频信道(例如，左右声道)单独或同步实施指紋标识处理。但是，优选将不同的噪声信号用于每一信道，以避免盗版者试图通过多信道比较得到(之后去除或破坏)指紋。在任一种情况下，包络信号280优选与正在接收指紋加密的单独音频信道相关。
现在将参考图8到11更加详细地i兌明上述包络冲企波和包络跟随操作。注意，就上述频谱跟随器而言，包络跟随是相对于每一信道或频带发生的。而且，可以使将要在下文中予以说明的时间常数取决于可应用于频带的音频或频率范围，例如，取决于该频带内的信号的最快上升时间。这样可以通过简单地改变时间常数和最快上升时间之间的关系而将它们作为一个群体加以调整。
在图8到11中，横轴表示处于任意标度上的时间，实线曲线(以示意图的形式)表示与源材料相关的包络信号的例子，虚线(以示意
图的形式)表示由包络跟随器320. . 327施加的调制。
在图8中，由包络跟随器响应于源材料的包络的突然升高而施加时间常数，以限制所述噪声信号的上升时间。这一点由虚线的左侧部分表示，该部分在时间上滞后于实线的更为垂直的上升。通常将这样的时间常数称为"攻击，，时间常数。但是，应当注意，在图8到11的所有图中，尽管噪声信号的上升速率有限，但是噪声信号开始升高的时间与包络信号开始升高的时间相同(只存在由检测延迟导致的微小的时间差)。也有可能使噪声信号的上升的开始相对于包络信号延迟 (乃至借助如下所述的时间提前构造)，但是这看起来没什么好处。具体而言，使噪声信号的上升发生延迟限制了能够在处于上升过程中的信号的后面隐藏的有用的有效载荷，而且使噪声信号的开始时间提前可能导致听得见的人为干扰，所述人为干扰与将要参考图8的包络的下降沿说明的类似。
类似地，在源材料包络的下降沿上，由拖尾虚线所示的噪声包络的下降也受"衰减，，时间常数的限制。令人遗憾的是，这意味着，在从^到t2的周期内，噪声信号大于源材料信号，因而噪声从主观上对收听者造成了干扰。 '
图9示出了包络跟随音频效果处理器中共同的情形，由此定义了包络跟随信号(在这种情况下为噪声信号)的衰减开端延迟的"维持，，周期350。其使得上述情况变得更差，因为现在在时刻t!和t3之间，噪声信号都大于源材料信号。因此，在当前实施例中，不采用维持时期。
将参考图10和11说明解决这一问题的措施。
在图10中，使噪声信号开始下降的时间相对于源材料的包络下降的时间提前提前时间360。在该例子中，这意味着噪声信号在到达时刻 t;时已经衰减到了^Ti不足道的水平。
在图11中，如果略微缩短提前周期360,那么噪声信号在源材料包络降低之前开始下降，但是在到达t]时尚未完成下降。这意味着，在时刻tl和t4之间仍然存在着少量的噪声，但是该问题比图8所示要轻微得多。因此，通过在比源材料包络下降提前的时间上使噪声信号开始降低促进了噪声降低，由此能够降低或避免图8和图9所示的过量噪声带来的主观干扰。为了实现这一目的，必须在该系统内的某处包括延迟，/人而在相对于通过加法器140使原材料与噪声相加的时间提前关系下获得源材料的包络信息。图3所示的延迟是说明怎样实现这一目的的一个非常概略的例子。本领域技术人员应当认识到还存在^f艮多其他的可能。提取处理指紋提取的主要阶段如下1. 对可4是材料进行处理，从而尝试逆转(reverse )任何损伤或失真。2. 从可疑内容中减去所谓的代理权内容(用于描述所述内容的未施加水印的原始版本的术语)，从而留下可疑指紋。这一操作有赖于能够使可疑材料与代理权内容时间对准。在某些情况下，可以采用施加了水印的代理权。当然，代理权中的水印可能通过相关检测出来，但是其不会妨碍々企测出其4也水印，因而可以将其忽i咯。通过这种方式，可以将安全复本发送给根据合约实施提取处理的第三方。3. 根据代理权内容的频谱分析对可疑指紋"去整形"。4. 对于针对这一内容的群体中的候选有效载荷而言，在相对4交短的内容部分上将候选有效载荷与可疑有效载荷进行比较。如果值SimVal看起来有希望，那么将这一候选者添加到将受到长得多的分析的候选者的短列表中。图12是诸如图2的检测器80的指紋检测器的操作的示意性概述。所述检测器接收可疑材料，例如，某条内容的疑似盗版复制件，并接收作为同一材料的普通(未施加水印的)复制件的所谓的代理权材料。首先，将可疑材料提供给时间对准单元400。在下文中将参考图 13到18描述其操作。但是，简言之，所述对准单元检测所述代理权材料和所述可1€材3+之间的任何时间偏移，/人而使两组材津牛时间对准。可能由时间对准单元400大致实现的对准将处于一定的容差内，例如，处于±—个抽样的范围内。通过如下所述的去巻积器410执行进一步的时间4交正，乂人而实现两个信号之间的完全对准。去巻积器将脉冲响应应用于所述可疑材料上，从而尝试使其表现得更像代理权材料。这里的目标在于逆转可疑材料中的信号劣化的影响(至少部分)；下面列举了这样的劣化的例子。为了实现这一目的，由其去巻积器训练单元420 "训练"去巻积器 410。在下文中，将参考图19到25说明去巻积器训练单元的操作，但比:，以推导1示代理权材料可能经过怎i的处理转化为可疑材料的变换响应。由去巻积器410 "以逆反的方式"施加这一变换响应。优选在可疑材料内的不同位置更新所述变换响应，从而使之代表在特定点处存在的劣化。在如下所述的实施例中，由去巻积器训练单元^^测的变换响应是以在可疑材料和代理权材料的块的预定数量的最近(most recent )部分上纟企测到的响应的移动平均为基础的。可以提供延迟430,以补偿所述去巻积器和去巻积器训练操作。之后，交叉归一化单元440通过操作使经过去巻积的可疑材料和代理权材料的幅度归一化。在图12对这一操作加以图示时，是使其作用于可疑材料，但是应当认识到，也可以调整代理权材料的幅度，或者可以调整二者的幅度。在归一化之后，通过减法器450获得经归一化和去巻积的可疑材料和代理权材料之间的差值。将这一差信号传输至"去整形器"460,"去整形器"460被布置为逆转由频谱跟随器130实施的噪声整形的效果。为了实现这一目的，使代理权材料受到光谱分析级470的处理，所述光谱分析级470按照与图3所示的频谱分析器120相同的方式操作。因而，可以认为频语分析器470和去整形器460按照与频谱分析器120和频谱跟随器130相同的方式操作，只是这里为了生成基本均匀的噪声包络作为去整形器460的输出而采用了包络控制增益值的倒数。将通过去整形器460生成的噪声信号Ps传输至比较器480。按照下述说明生成比较器的另一输入P。指紋发生器490按照与图3中的有效载荷发生器100和指紋流发生器110相同的方式操作。因此，这里不再详细描述这些操作。指紋发生器490生成可能存在于可疑材料内的指紋的所有可能的异体。接
下来对每一异体进^亍测试，以推导出相应的相似性^直Sim Val。当然，有可能采用多个指紋发生器490,并采用多个并行操作的比较器480, 从而将噪声流P s每次与一个以上的指紋进行比较。
通过提供延迟500和510来补偿施加到可疑材料上的处理延迟，从而使指紋发生器490生成的指纹与可疑材料内可能含有的指紋得到适当的时间对准。
时间对准
首先要对所述可疑盗版信号做的是找到与代理权信号的实际同步化。
可以包括亚抽样延迟，从而在有必要的情况下，补偿由再抽样或 MP3编码作用带来的亚抽样延迟/提前。
图13是示出了时间对准单元400的操作的一部分的示意性流程图。该流程图的每一步骤是通过时间对准单元400的相应部分或功能实现的。
尽管在理论上有可能通过直接相关处理使可疑材料和代理权材料对准，但是就诸如影片声带的实质材料而言，所需的相关处理是相当庞大的，因为处理操作通常随着所涉及的音频抽样的数量的平方而增加。因此，当前处理的目的在于，在不需要两信号的全相关的情况下，至少提供近似对准。
参考图13,在步骤600中，将两个音频信号划分成相连的按时间划分的部分或块。对于两个信号中的每者而言，这些块具有相等的尺寸，但是无须具有预定尺寸。因而，一种选择是具有(例如)64k抽样的固定尺寸，而另一种选择是具有固定数量的块，从而通过预定数量的块划分两条材料(统称为代理权材料)中较长者的总长度，从而得到这一特定的时间对准处理事例所需的块尺寸。在任何情况下，所述块尺寸都应当至少为两个抽样。
可以在图13的步骤600之前包括低通前置滤波阶段(未示出)。其将降低由两个信号之间相对于块尺寸的任意错位引起的干扰。
在步骤605中，获取每一信号的绝对值，并针对每一块(相对于所述绝对值)检测最大功率。当然，也可以获取不同的功率特征，例如，平均功率。其目的在于最终从代理权信号和可疑信号中的每者找到功率特征信号，该信号具有针对每一块的少量的值(例如，1个或2 个值)。在当前例子中，每块具有一个值。在步骤610中，对两个功率特征信号进行低通滤波或平滑处理。图14示意性地示出了如何将两个信号划分成块，因而在这一例子中，代理权材料表示电影胶片的全长，可疑材料代表从电影胶片中取出的部分。图15示意性地示出了独立应用于两个功率特征信号的低通滤波器。通过乘法器611使每一抽样乘以一个系数，并通过加法器612使其与所述加法器的输出和第二系数的乘积相加。所述加法器的输出与第二系数的相乘发生在乘法器613处。上述处理产生了每一信号的低通滤波版本。在这一阶段，两个功率特征信号具有大致处于0和1之间的幅度。所述滤波处理可能导致某些超过1的微小偏移，但是由于步骤605中的绝对值检测不可能存在0以下的偏移。在步骤630中，应用阈值。在图16中对其给出了示意性的图示。所述阈值的例子可以是0. 3，当然也可以采用各种其他值。按照下述说明应用阈值。将落在阈值以下的信号值映射为处于0和1之间的信号值。将落在阈值以上的信号值映射为大于1的信号值。因而，实现这一目的的一种简捷的方法是使整个功率特征信号乘以值1/阈值，在这种情况下，该值为3. 33...。这种^f故法之所以贴切的原因在于，在下一步骤640中将对所述信号应用幂定律。这里以对每一信号平方为例，也就是说，使每一抽样值乘以自身。但是，也可以采用其他大于1的整数或非整数幂。步骤 6 3 0和6 4 0的总体作用在于增强较高信号值，并削弱较低信号值的影响。其成立的原因在于，任何处于0和1之间的数的大于1的幂(例如平方)都会变得更小，而任何大于1的信号值的大于1的幂都会变得更大。在应用了幂定律之后，在步骤650中，对所得信号进行任选的高通滤波处理。在步骤660中，减去每一信号的平均值，从而生成均值为O的信号。(这一步骤有助于下述相关步骤670的更好的操作)最后，在步骤670中，对功率特征信号进行相关处理。图17对其给出了示意性图示，其中，以0填充来自可疑材料的功率值，以提供
与代理权材料具有相同长度的数据集。所述相关处理将(有希望)生
成峰值相关度，其与中间位置702的偏移701表明两文件之间存在时间偏移。可以通过向代理权或可1€信号施加相对延迟来校正这一偏移。
可以采用更小的块尺寸以及有限的执行相关的范围(以来自第一阶段的偏移701作为起始位置并采取近似应答)来重复参考图13到17 描述的处理。实际上，可以在适当降低块尺寸的情况下将这一处理重复两次以上。为了体现优势，最好使块尺寸至少保持两个抽样。
图18示意性地示出了由步骤605生成的功率特征信号，以及由步骤660生成的经滤波的功率特征信号。这里，阈值为0.3,步骤640中的幂因数为1.5，并且已经应用了 1/10的缩放。
损伤反转
损伤反转的目的在于通过某种方式变换盗版内容，从而使其变得尽可能接近原始代理权内容。这样，通过从盗版版本中减去代理权而得到的可疑有效载荷Ps将变得尽可能小，其通常将导致更大的Sim Val。
对于音频而言，存在一个可能的失真的长列表，所述失真可能是由盗版者无意或有意施加的，每一失真均引起Sim Val值的下降。
■ 高、低、陷波、带通或参量滤波
■ 压缩、放大、限制、选通
■ 过激励、剪辑
■ 膨胀、阀门声以及其他声音增强作用
■ 再抽样、ADC和DAC再转换
■ 频率漂移、抖晃、相位反转、变速
■ MP3系损耗编码/i奪码-技术
■ 回波、混响、空间化^
■ 所谓的去essing、去嘶嘶声、去噼啪声
为了尽可能多地考虑这些损伤，采取了一种指紋恢复结构，其包括通用去巻积器，可以参考代理权信号训练所述通用去巻积器，从而显著降低/消除可能在巻积滤波器的作用下产生的作用。可以在电信领域发现上述去巻积器的使用，其目的在于去除由采取了通过系统的不同路径的信号带来的有害回声，也可以在存档材料恢复项目中找到上述的去巻积器的使用，其目的在于消除老化损伤，或者消除不完善的记录设备导致的缺陷。简言之，通过将可疑盗版音频材料和代理权版本变换至FFT域对去巻积器进行训练。(采用复形除法)使预期信号(代理权)的实/虚值除以实际信号(盗版版本)的实/虚值，以获得能够将所述实际响应变换为预期响应的脉沖响应内核的FFT。对所得的FFT进^f亍平滑处理，之后，采用前面的事例对其求均值，从而推导出表示所述音频信号最新经历的大致变换的FFT。之后，将所述FFT转化到时域脉沖响应内核当中，可以将该内核作为巻积滤波器应用(一种涉及使时域信号旋转，并对其实施窗口同步功能，例如，"加重平tf"窗口，以降^f氐混叠影响的处理)。在理论上，得到了良好训练的去巻积器能够以因数10降低(例如) 通过传声器压缩电路施加到盗版版本上的非线性增益作用的影响。在经验检验中，已经发现，去巻积器能够将Sim Val的每一块的值从15 提高到40。图19示意性地示出了由去巻积器训练单元420实施的去巻积器训练操作。该过程从可疑材料(700 )和代理权材料(710) 二者的逐块的快速傅里叶变换(FFT)开始，其中，块尺寸可以是(例如)64k连续抽样。除法器720将所述FFT中的一个除以另一个。在当前情况下，由于希望生成将要应用于可疑材料的变换响应，因而所述除法器使代理权FFT除以可1€ FFT。平均器730对来自除法器720的当前除法结果和存储在緩冲器740 中的n个最近的除法结果求均值。当然，还将最近的结果添加到所述緩冲器内，并删除最早存储的结果。N的一个例子为5。当然，有可能存储原始FFT,形成两个平均值( 一个是代理权的，一个是可疑材料的)，并使平均值相除，但这样可能增加所需的存储容量。之后，转换器将作为复数结果的平均除法结果转化为幅度和相位表述。逻辑750删除所有的小幅度的值。这里，在删除幅度值的同时，使对应的相位值保持不变。逻辑75 0仅对幅度值产生左右。由通过线性内插根据周围最近的未删除幅度值内插的值替代所删除的小幅度值。在图20和21中示意性地示出了这一处理，其中，图20示意性地示出了作为一组幅度值(相位值未示出)的幅度/相位转换器740的输出。删除任何落在阈值T肖之下的幅度值，并通过最近的未删除值之间的线性内插生成^齐^/f直751、 752和753。在通过转换器770将所得的幅度值重新转换为复数表示之前通过低通滤波器760对所得的幅度值进行平滑处理。之后，实施反向FFT 780。由此将生成与图22所示的相当类似的脉冲响应。为了得到对可疑材料的去巻积的适当形式，使脉冲响应旋转半个窗口尺寸，从而将两个半波瓣结合成诸如图23所示的中央峰。通过逻辑790实施这一操作。但是，图23所示的来自逻辑790的输出仍然并非完全适合所述去巻积。这是因为，这一响应的旁瓣791跨越整个窗口延伸。如果将这样的响应用到去巻积器410中，可能会导致混叠问题。因此，调制器 800使图23的响应乘以诸如图24所示的同步窗口函数，以生成诸如图 25所示的所需的脉冲响应。将这一脉沖响应提供给去巻积器"0。水平匹配在去巻积操作之后，使盗版信号与代理权信号的水平尽可能匹配。实际上，经验检验表明实现这一操作的一种有用的方法是使两个信号的平均幅度匹配，而不是4吏峰值匹配。一旦完成了这三个步骤(时间对准、去巻积和水平匹配)，就从盗版材料中减去代理权信号，由此获得可疑有效载荷Ps。可疑有效载荷提取注意，在嵌入过程中从噪声整形器出来的有效载荷信号与进入其的高斯噪声流相差悬殊。为了恢复出于计算Sim Val值的目的而(在统计学意义上)与候选有效载荷高斯噪声流更为紧密匹配的可疑有效载荷信号，一种适当的做法是反转噪声整形作用，即，对有效载荷信号"去整形"。利用相同的噪声整形部件实现"去整形"，只是不再使增益值乘以噪声流，而是采用除法。另一种可能的方法是在比较之前对候选有效载荷流进行噪声整形，该方法从技术层面是可能的，但是出于法律方面的原因不受青睐。这是因为，其将违背数字权利管理系统中所采取的候选流由统计独立抽样构成的数学原理。对噪声流应用滤波器将自动使抽样联系起来。另一个原因在于，如果正在寻求的信号掩埋在噪声当中，那么巻积技术倾向于得到更为成功地运用。一般而言，寻找处于噪声当中的噪声流比寻找处于受到相似整形的剩余音频信号当中的整形信号更为有效，也更为可靠(因为其将得到更为稳定的交叉相关)。最后，图26示出了一种数据处理设备。其只是提供了一个说明可以怎样实现图1中的编码器50和图2中的检测器80的例子。但是，应当注意，至少在图1中，整个数字影院结构IO优选是没有外部连接的固定单元，因而至少优选将指紋编码器实现为硬布线装置，例如，一个或多个现场可编程门阵列(FPGA)或专用集成电路(ASIC)。参考图26,所述数据处理设备包括中央处理单元900、存储器910 (例如随机存取存储器、只读存储器、非易失存储器等)、为(例如) 显示器930以及诸如键盘、鼠标或二者的用户输入装置945提供接口的用户接口控制器920、诸如硬盘存储器、光盘存储器或二者的存储器 930、用于连接至局域网或Internet 950的网络-接口 940以及信号4妻口 960。在图26中，按照适合于指紋编码器50的方式示出了信号接口，因为所述指紋编码器50接收未施加指紋的材料，并输出施加了指紋的材料。但是，当然也可以采用所述设备实现指紋检测器。通过总线97(H吏元件900、 910、 940、 920、 930、 960互连。在才喿作过程中，通过存储介质(例如，光盘)、网络或Internet连线950 提供计算机程序，并将其存储在存储器910内。通过CPU 900执行连续指令，以实施如上所述的与指紋编码或检测相关的功能。
权利要求
1.一种音频处理设备，用于对两个抽样音频信号进行处理，以探测所述音频信号中的一个相对于另一个的时间位置，所述设备包括用于相对于所述两个信号中的每者的相继的、连续的时间部分探测每一信号的音频功率特征的装置，所述部分具有等同的长度，并且每一部分包括至少两个音频抽样；以及用于使相对于所述两个音频信号探测的音频功率特征相关，以获取所述两个音频信号之间的最接近的时间偏移的装置。
2. 根据权利要求1所述的设备，其中，所述探测装置包括用于对所探测的音频功率特征进行滤波的低通滤波器-。
3. 根据权利要求1或2所述的设备，其中，所述探测装置包括用于对所述音频信号应用阈值，从而缩小处于所述阈值之下的音频信号幅度，增大处于所述阈值之上的音频信号幅度的装置。
4. 根据权利要求3所述的设备，其中，所述探测装置包括用于对所述应用了阈值的音频信号进行滤波的高通滤波器。
5. 根据前述权利要求中的任何一项所述的设备，其中，所述功率特征是每一块内的最大功率。
6. 根据前述权利要求中的任何一项所述的设备，其中，将所述的用于相关的装置设置为在应用相关之前使每一信号归一化为平均值 0。
7. 根据前述权利要求中的任何一项所述的设备，将每一信号划分成各个部分，从而由被划分成预定数量的部分的两个信号中的较长者的长度确定每一部分的长度。
8. 根据前述权利要求中的任何一项所述的设备，所述设备能够在连续地进一步细化的部分尺寸下以迭代的方式重复所述探测和相关操作，从而使较早的迭代提供接近的时间偏移，后面的迭代将围绕所述接近时间偏移搜索。
9. 根据前述权利要求中的任何一项所述的设备，其包括用于在探测所述音频功率特征之前对每一信号滤波的装置。
10. —种音频处理方法，用于对两个抽样音频信号进4亍处理，以探测所述音频信号中的一个相对于另一个的时间位置，所述方法包括步骤相对于所述两个信号中的每者的相继的、连续的时间部分探测每一信号的音频功率特征，所述部分具有等同的长度，并且每一部分包括至少两个音频抽样；以及使相对于所述两个音频信号探测的音频功率特征相关，以获取所述两个音频信号之间的最接近的时间偏移。
11. 一种具有程序代码的计算机软件，其通过在计算机上运行使计算机执行根据权利要求10所述的方法。
12. —种通过其提供根据权利要求11所述的软件的介质。
13. 根据权利要求12所述的介质，所述介质为存储介质。
14. 根据权利要求12所述的介质，所述介质为传输介质。
全文摘要
一种音频处理设备，其用于对两个抽样音频信号进行处理，以探测所述音频信号中的一个相对于另一个的时间位置，所述设备包括用于相对于所述两个信号中的每者的相继的、连续的时间部分探测每一信号的音频功率特征的装置，所述部分具有等同的长度，并且每一部分包括至少两个音频抽样；以及用于使相对于所述两个音频信号探测的音频功率特征相关，以获取所述两个音频信号之间的最接近的时间偏移的装置。
文档编号G10L19/018GK101297354SQ200680040228
公开日2008年10月29日申请日期2006年10月27日优先权日2005年10月28日
发明者N·J·海恩斯, W·E·C·肯蒂什申请人:索尼英国有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.E.C.肯蒂什;N.J.海恩斯
技术所有人：索尼英国有限公司
我是此专利的发明人