响应补克信息修改音频或视频感知编码系统的一个或多个参数的制作方法

文档序号:2823222阅读:1109来源:国知局
专利名称:响应补克信息修改音频或视频感知编码系统的一个或多个参数的制作方法
技术领域
本发明涉及音频或视频信号情形中的隐写术。更具体来说,本发明涉及根据补充信息修改音频或视频感知编码系统的编码器和/或解码器的操作,使得补充信息能够在解码器输出中可检测到。这种补充信息常常称为“水印”。水印是隐写术的一种方式。
背景技术
隐写术和水印隐写术是在另一种信号内隐藏信号的科学。约束性的算法或过程可能是卤棒的或“脆弱”的-就是说,破坏隐藏的信号可能非常困难或非常容易。考虑音频应用,一个非常脆弱的隐写术技术要使用PCM频道的最低有效位携带本来在上位中携带的独立于音频节目内容的数据流。最低有效位中携带的隐藏的数据频道不会显著使音频节目失真,而是其作用是作为低电平振动信号。这一技术在简单音频处理能够破坏数据信号的意义下是脆弱的,诸如增益变化,数字到模拟转换等。
水印是隐写术的一种形式,其中典型的信号隐藏技术对于由正常的处理或故意的攻击造成的破坏要有卤棒性。这样,水印在涉及安全的应用中是有价值的,诸如拷贝保护或内容所有权的识别。在这种应用中,例如水印可携带拷贝控制状态,版权信息,及涉及主节目材料如何被解除的信息。即使主节目后来被盗窃或被非法拷贝,理想上水印可仍然嵌入在节目材料内,并提供了确定所有权的证据。
一个或多个水印可在沿“内容”(例如音频或视频性能)分布通路许多点插入。添加到这通路开始的信号的信息可包括版权信息或控制地区,而添加到信号链末端的信息可包含回放信息,诸如日期/时间印记和/或机器序列号码。为使内容可被追踪到其来源,水印可在沿分布通路各种位置被嵌入。
对音频和视频信号水印的一个重要考虑是隐藏的信号应当不会降低其在其中被隐藏的信号的质量。理想上,水印应当完全是透明的;就是说水印信号和原始信号之间的差别应当是感觉不到的(对于以肉眼人员的观察)。当然,通过某些手段差别必须是可检测的,否则水印信号就是不可恢复的。然而,水印对某些应用可用是故意可感知的。例如,图象可以是可看见的水印,以便防止商业使用。此外,纸张可以被水印以便传达可感知的真实性的封印。
这样,水印的目的可归纳如下·一次信号的修改的方式是添加一种二次信号或补充信息,结果得到修改的一次信号,·原始信号与修改的一次信号之间的差别应当可检测但不可感知,以及·修改应当是难以去除或混淆的。
感知编码感知编码是从信号去除感知无关性以便将信号简化为更有效的表示形式的科学。例如,在某些应用中,感知编码用来降低数字音频或视频信号的传输数据速率,以便适合预定的信道容量限制。音频和视频信号的感知编码是成熟建立的学科,能够使音频和视频信号简化为相当低的数据速率,供有效存储和传输。
相当感知编码的操作是通过分析原始信号的内容并识别每一信号成分的感知相关性。然后生成原始信号的修改版本,使得修改的版本可使用比原始信号较低的数据速率表示。理想上,原始信号与修改的信号之间的差别是不可感知的。注意,通常量化噪声,或其它失真被可控制地引入以便较低信号的数据速率。考虑到人类感知的性质要生成噪声或其它失真使得其保持不可感知或最小可感知。
感知编码器采用目的要以某种精确程度反应人类感知的掩蔽模型。掩蔽模型提供了确立了可感知性边界的感知掩蔽阈值。

图1的实线表示诸如正弦波或噪声窄带的声音刚刚可听见声压水平,就是说听见的阈值。曲线之上水平的声音是可听见的;其下面的声音不可听见。这一阈值很明显与频率相关。一个人可以在大约4kHz听见比在50Hz或15kHz轻得多的声音。在25kHz,阈值是无法标度的--声音无论如何大,都不能听见。
考虑如图1中虚线所示的阈值,在一频率例如500Hz正弦波相对响的信号,如图中垂线所示。阈值在紧靠500Hz附近急剧上升,在频率远离时趋缓,并在可听见远处部分完全没有。
阈值的这种上升被称为掩蔽。在响亮的500Hz正弦波信号(“掩蔽信号”或“掩蔽”)存在时,该在可称为“掩蔽阈值”的阈值以下的信号被响亮的信号隐藏,或掩蔽。越远其它信号能够某种程度上升到没有信号阈值之上,但是仍然低于新的掩蔽阈值,因而仍然听不见。然而,在其中没有信号阈值变化的频谱的远部分,在没有500Hz掩蔽可听见的任何噪声仍然如同有它那样可听见。这样,掩蔽与一个或多个掩蔽信号的存在无关;在频谱上它与它们所在什么地方相关。例如,某些音乐段落包含许多遍布可听见频率范围分布的频谱成分,并因而给出处处相对于无信号阈值曲线升高的掩蔽阈值曲线。例如,另外音乐段落由相对响亮的来自具有限制到频谱的一小部分的成分的独奏乐器声音组成,这样给出掩蔽曲线更象图1的正弦波掩蔽例子。
掩蔽还有与掩蔽(多个)与被掩蔽的信号(多个)之间的时间关系相关的时间性质。某些掩蔽信号提供掩蔽基本只是在掩蔽信号(多个)存在时(“同期掩蔽”)。其它掩蔽信号提供掩蔽不只是在掩蔽出现时,而且还在时间上稍早(“向后掩蔽”或“先期掩蔽”)及时间上稍晚(“向前掩蔽”或“后期掩蔽”)出现。信号电平“暂时的”,突然的,迅速和明显的增加困难呈现所有三种“类型”掩蔽向后掩蔽,同期掩蔽,及向前掩蔽,而稳定的状态或准稳定的状态的信号可能只呈现同期掩蔽。
通过可感知的编码处理添加的所有的噪声和失真应当保持的掩蔽阈值之下,以便避免可感知的损害。如果通过编码过程添加的噪声和失真达到但没有超过掩蔽阈值,则称信号在“刚刚可觉察的差”的水平被编码。系统的“编码迹”可定义为由其添加的噪声或失真位于掩蔽阈值之下的量-零编码迹意味着信号以刚刚可觉察的差别被编码,而正编码迹意味着添加的噪声或失真有某些余地不可感知,且负的编码迹是指存在可感知的损害。
注意,信号的不同的方面(例如,带宽,时间分辨率,空间精度等)可被编码为不同程度的精度,其结果是对不同的信号特征有不同的编码迹。如果源信号被这样编码,使得编码迹对所有的信号特征是非负的,则它可被称为感知上与源等同的。
感知编码系统由可向解码器与被编码的数据一同传达位分配信息或感知模型信息的编码器构成。有三种主要类型的感知编码系统前向自适应,后向自适应,及两者的混合。在前向自适应系统中,编码器明显向解码器发送位分配信息。后向自适应系统不向解码器发送任何位分配或感知模型信息。解码器从被编码的数据重新生成位分配。混合系统允许某些分配信息,诸如小于感知模型的全分辨率形式,包含在被编码的数据,但是比全前向自适应系统中小得多。在以下文献中提出感知编码系统这三种类型更为详细的讨论“AC-3FlexiblePerceptual coding for Audio Transmission and Storage,”by Craig C.Todd et al,Preprint 3796,96th Convention of the Audio EngineeringSociety,February26-March1,1994。感知编码系统由DolbyLaboratories开发,诸如Dolby Digital and Dolby E编码系统,这将在以下进一步认别,是混合前向/后向自适应系统的例子,而也将在以下进一步认别的MPEG-2AAC编码系统则是前向自适应系统的例子。
感知编码器的作用可概括如下·一次信号的修改结果是修改的信号,·原始信号与修改的信号之间的差别应当是不可感知的,以及·修改的信号的表达应当比原始信号的表达更有效。
安全水印作为安全措施只不过是水印免遭直接攻击的能力那样强。当前使用的许多水印技术试图通过保持水印的细节的秘密而避免其本身受到成功的攻击,在预先假设如果水印不被公开知道,攻击者就不知道如何修改水印信号以隐匿水印数据。这是称为“通过隐匿的安全性”的原则。在密码术领域,通过隐匿的安全性一般作为非逻辑原则而被摒弃。如果算法或过程通过保密推导其安全性,则只需一个人揭露技术细节整个系统安全性即被损害。
安全的目标可归纳如下·以这样的方式保护内容,使得对内容的偷窃或者是不可能的,或者使能获得侵权行为随后的证据及对侵权行为根源的可追踪性,·对攻击是卤棒性的,及·即使在系统中最微弱的链接下也能维持高的安全性。
本发明的公开本发明旨在响应补充信息修改感知编码系统的编码器和/或解码器的操作的一种方法,使得补充信息在解码器的输出中是可检测的。响应补充信息编码器和/或解码器中一个或多个参数被修改。
根据本发明,通过调节感知编码系统的编码器和/或解码器中的一个或多个参数,传送诸如水印信息这样的补充信息,以便在解码器的输出中引起可检测的但最好是不可感知的变化。这信息是补充的在于,它是对由编码器携带的一次信息诸如音频或视频信息的补充。典型地,这种补充信息在于“水印”的自然性,虽然不是必须的。一个或多个参数的调节可被称为在被编码的信号中(在调节感知编码器中的参数的情形下)和在被解码的信号中(在调节感知编码器和/或感知解码器中的参数情形下)“嵌入”的补充或水印信息。
当至少部分地在编码器中实现时,虽然本发明一定的实现可能间接地修改表示一次信息的位流数据,但本发明并不打算直接修改表示一次信息的位流数据(也不修改在感知编码器中量化之后变为位流数据的一次信息)。本发明注重在感知解码器输出中而不是在未解码的位流中的补充信息的检测(不论这种信息是否作为编码器和/或解码器中行为的结果被传送)。
修改的意思是改变有关或多个值(状态)之间或它们之中的参数的值,其中所述值可包含“默认值”,如果不是对于本发明的行为,参数本来就是这种值。例如,参数值可在其默认值与一个或多个其它值之间或它们之中改变(在参数只有两个可能的值的情形下,这种参数有时称为“标志”,参数可以在这两个值之间变化),或者它可以在不包含默认值的一个或多个嵌入值之间或它们之中被改变。
“响应调节”补充信息或水印信号或序列的意思是,参数的调节由补充信息或水印信号或序列或者是直接或者是间接控制,诸如当控制由一个或多个其它信号的功能修改时,这种信号例如包括一组指令,诸如施加到编码系统的确定性序列或输入信号。
“参数”的意思是在感知编码系统内不是表示一次信息的位流数据的变量。根据本发明的各方式适用于修改的Dolby Digital(AC-3),MPEG音频,及MPEG视频参数的例子在以下分别示于图6,7和8的表格中。本发明还注重于在公布的感知编码器标准中没有被认可的一个或多个参数包括待定义的参数的调节。
“表示一次信息的位流数据”的意思是由感知编码器产生但没有被解码而携带一次信息的被编码的位流中的数据位,诸如音频或视频信息。表示一次信息的位流数据例如在Dolby Digital(AC-3)系统的情形下包括指数和对数,并在MPEG-2ACC系统的情形下,包括比例因子及Huffman编码系数。
在复合感知编码系统中(例如,Dolby Digital与音频,MPEG音频,MPEG视频等),大量的独立的编码参数提供了显著的编码灵活度。“Dolby”,“Dolby Digital”及“Dolby E”是Dolby LaboratoriesLicensing corporation的商标。
Dolby Digital编码的细节在以下文献中提出“Digital AudioCompression Standard(AC-3),”Advanced Television SystemsCommittee(ATSC),Document a/52,December20,1995(在因特网的万维网网址www.atsc.org/Standards/A52/a_52.doc.可得)。也可参见Errata Sheet of July 22,1999(在因特网的万维网网址www.dolby.com/tech/ATSC_err.pdf可得)。
Dolby E编码的细节在以下文献中提出“Efficient Bit Allocation,Quantization,and Coding in an Audio Distribution System”,AESPreprint 5068,107th AES Conference,August 1999 and“ProfessionalAudio Coder Optimized for Use with Video”,AES Preprint 5033,107th AES Conference,August 1999。
MPEG-2ACC编码的细节在以下文献中提出ISO/IEC13818-71997(E)“Information technology-Generic coding of movingpictures and associated audio information--,Part 7Advanced AudioCoding(ACC),”International Standards Organization(April 1997);“MP3 and AAC Explained”by Karlheinz Brandenburg,AES 17thInternational Conference on High Quality Audio coding,August 1999;以及“ISO/IEC MPEG-2 Advanced Audio Coding”by Bosi,et.Al.,AES preprint 4382,101st AES Convention,October 1996。
各种感知编码器包括Dolby编码器,MPEG编码器及其它的概览在以下文献中提出“Overview of MPEG AudioCurrent and FutureStandards or Low-Bit-Rate Audio Coding,”by KarlheinzBrandenburg and Marina Bosi,J.Audio Eng.Soc.,vol.45,No.1/2,January/February 1997。
一般通过编码系统基于输入信号特征选择感知编码参数的特定默认值。然而,通常有不只一种方法选择产生没有感知差别的解码信号的编码参数值,且编码参数值的这种变异结果可能是被解码的信号以可检测的但不能感知差别。注意,不能感知性是指对人类的感知,而可检测性是基于非人类检测器的能力。
补充信号或示于检测器恢复包含在再生(被解码的)信号内嵌入的信息。例如在音频信号的情形下,检测可在某些情形下在声学上实现,而在其它情形下可能需要电子检测。电子检测可以是数字的或模拟领域的。在数字领域的电子检测可以是以被解码的输出的时域或频域,或可以是频率到时间转换之前解码器内的频域。因为室内噪声的添加,扬声器与话筒特性,及过渡回放量,在声学处理之后抽取水印被认为是更困难的挑战。
许多实际的感知编码系统不满足保持添加的噪声在刚刚可觉察差别之下的要求。在感知编码系统中的可感知性要求常常放宽到满足位速率目标或复杂性限制。在这些情形下,虽然在感知编码期间添加的噪声困难是可感知的,但仍然会有编码参数可被调节到的不同于默认值的值,这将不会使已经可感知的噪声变得更加可感知。虽然参数的调节的结果可能是在所感觉的噪声中基本上不能感知的变化,但是这结果可能是在解码信号中可检测的变化。
根据本发明的各方式,最好是调节一个或多个参数,使得调节的效果引起通过感知编码添加的噪声和失真在所有或部分频谱,接近但是低于刚刚可觉察的差别(“失真”这里是指被编码的与原始信号直接的差别,并且可能或可能不造成可听见的若干效果)。因而,在不超过掩蔽阈值并不生成可感知的减损情形下很难去除或模糊听调节一个或多个参数的结果效果。另一方面,若干攻击在掩蔽阈值之下,则参数调节效果的一部分似乎不能保持。
如上所指出,本发明的各方式也可以在编码器不对一次源信号编码时采用,使得噪声和失真在刚刚可觉察差别之下。这种情形下,源信号以这样的方式被编码,使得它相对于源受到减损,且参数调节导致解码信号的不同于检测观点的减损,但最好可感知上基本上是相同的。如以上的情形,在不以更大的可感知程度扩大减损或引入附加的减损之下,很难去除或模糊解码信号中参数修改结果的效果。
本发明的方法基本上不同于在感知编码之前施加水印的技术。在那些技术中,即使编码系统可能包含足够的编码迹转换水印,但还是不能保障为传达先验的水印所选择的具体的方法与感知编码系统的编码迹重合。因为这种先验的系统操作是独立的,它们可能偶然相互作用不良,导致可感知的减损或引起水印模糊。
如上所述,感知编码器通过去除感知的冗余信息,降低了输入信号的数据速率。例如定常的数据速率编码器把固定的输入信息速率降低到较低的固定信息速率。这种数据降低的部分有时要求一种其特征为“速率控制”的功能,该功能保证编码器输出不超过最终固定信息量。速率控制降低信息直到它已经达到限制编码量。
在某些感知编码器中,失真测量是与速率控制配对的,以保证抛弃正确的信息。失真测量比较原始输入信号与被编码的信号(速率控制的输出)。失真测量可用来控制编码参数以改变速率控制过程的结果。
本发明的失真速率控制方式寻求解决,如何把水印嵌入感知编码器,同时使强度最大化且使嵌入的信号的可感知性最大化的问题。在一个实施例中,本发明还允许用户通过调节水印嵌入过程中的参数,选择嵌入信号的强度或能量。
除了参数调节,本发明的各方式还采用指令集诸如确定性序列改变参数调节一定的方面,因而改变所得水印的特征。确定性的序列是通过给出定义的方程式(发生器方程式)和初始状态(关键字)产生计算的二进制的一和零序列的数学过程产生的。公开了采用确定性序列的若干本发明的可替代方式。这些技术可改进水印的不可感知性,并还能够改进水印的卤棒性,这是有意义和有用的,因为许多改进不可感知性的其它技术倾向于降低卤棒性。最后,在能够实现水印系统所有方式(除了确定性序列关键字之外)而不牺牲系统的卤棒性的意义下,这些技术可以改进安全性。
本发明的确定性的序列方式可包括以下一个或多个行动·使用确定性序列修改参数调节转换速率,并因而水印符号的转换速率(参见以下表1),·使用确定性序列选择用于调节的参数(多个)(参见以下表2),及·使用确定性序列修改用于调节的参数选择变化的速率(参见以下表3)。
此外,本发明可替代的方式包括使用源信号的特征控制参数调节和/或选择用于调节的参数的行动。本发明的源信号响应方式可包括以下一个或多个行动·使用源信号特性可变地修改参数调节速率,并因而水印符号转换速率(参见以下表4),
·使用源信号特性可变地修改用于调节的参数选择变化的速率(参见以下表5),以及·使用源信号特性可变地修改用于调节的参数可以集中参数数目(参见以下表6)。
如以下进一步的说明,根据本发明可替代的方式,确定性序列和源信号的特性都与调节参数相关联使用。参见以下表6,7和8。
对于本发明的某些实现方式,在感知解码器的输出中的水印检测可能需要访问施加到编码器的一次信息。对于本发明的某些其它实现方式,水印检测可在不访问原始一次信息而以检测中较大复杂性为代价进行。
常常希望在信号向听众投送点施加唯一的或“序列化”的(例如一序列号码)水印。根据本发明的各方式,补充的信息或水印在感知解码过程期间被嵌入。在逆向量化正确在解码器中一个或多个参数被调节。
若干通过解码器参数调节过程添加的噪声或失真不超过感知的阈值,则不可感知性被保持。为了作为解码过程的一部分不可感知地嵌入水印,水印了感知阈值。许多感知编码器以某种形式把感知模型从编码过程转换为解码过程;然而其它的解码器只提供了感知阈值近似的或粗糙的表示。最精确的感知阈值是从非量化的源频谱系数推导出的,但如果向解码器传送这种数据,则数据速率增加是显著的。另外,在感知编码系统中向解码器提供的感知阈值可以是对数的指数,其中指数表示在临界带内具有最大能量的信息采样(如在Dolby Digital系统中)。为了改进解码器中感知阈值的精确性,可把指数从基于频带中采样能量的平均的编码器转换为基于频带中最大能量的编码器。
虽然在许多方面解码器中调节参数类似于在编码器中调节参数,但有较少的灵活性。例如,在解码系统中调节一个或多个参数可能要求注意当基于编码参数重新表示位分配信息时。此外,在解码器中实现参数调节效果不可感知是更为困难的。其中的一个原因在于,至少在理想的编码器的情形下,编码过程已经添加了量化误差达到可感知性的阈值。然而,例如由于感知模型的不完备性,正的信号噪声比偏移或信号状态所至,编码迹可能存在时,也不总是这样。
附图的简要说明图1是一理想化的曲线图,表示(实线)在没有掩蔽信号存在时声音刚刚可听见(闻听的阈值)的声压水平,并表示(虚线)在有500Hz正弦波存在时可听见的阈值。
图2是表示本发明的基本原理的功能框图,其中补充信息调节感知编码系统中感知编码器功能和/或感知解码器功能的一个或多个参数。
图3A是表示本发明的一个方式的功能框图,包括接收编码系统输出的补充信息检测器功能。
图3B是更详细表示检测器功能的功能框图,本发明的该方式包括接收编码需要输出的补充信息检测器功能。
图4是表示本发明一种方式的功能框图,该方式包括补充信息检测器功能,即接收编码系统的输出又接收编码系统的输入。
图5是表示本发明一种方式的功能框图,其中补充信息检测器功能不仅包括比较器功能,而且包括感知编码器功能和感知解码器功能,它们的参数都不被调节。
图6是一表,表示在一定的混合的前向/后向自适应型感知音频编码器中适用于调节的参数。
图7是一表,表示在一定的混合的前向自适应型感知音频编码器中适用于调节的参数。
图8是一表,表示在一定的感知视频编码器中适用于调节的参数。
图9是一定的参数的图示,这些参数在一定的感知音频编码器中模拟人耳掩蔽曲线(频谱掩蔽模型参数)频谱。
图10是可在一类感知音频编码器被调节的频谱掩蔽模型参数的图示。
图11A是一种理想化的表示,表示在一定的感知音频编码器中存在正弦波信号时SNR偏移参数(一种掩蔽阈值参数)的调节。
图11B是一种理想化的表示,表示对于位约束编码系统的情形,当SNR偏移参数以图11A中所示的方式被调节时,参数解码器的输出中的效果。
图11C是一种理想化的表示,表示对于非位约束编码系统的情形,当SNR偏移参数以图11A中所示的方式被调节时,参数解码器的输出中的效果。
图11D表示图11A-C及图12A-C中采用的图例。
图12A是一种理想化的表示,表示在一定的感知音频编码器中存在正弦波信号时快速增益代码参数(一种掩蔽阈值参数)的调节。
图12B是一种理想化的表示,表示对于位约束编码系统的情形,以图12A中所示的方式快速增益代码参数被调节时,感知解码器的输出中的效果。
图12C是一种理想化的表示,表示对于非位约束编码系统的情形,以图12A中所示的方式快速增益代码参数被调节时,感知解码器的输出中的效果。
图13是一种理想化的表示,表示在一定的感知音频编码器中,调节一定的感知音频编码器中非掩蔽参数的参数的效果,即“使用中结合”标志,使用中重新矩阵化(rematrixing)的标志,及结合开始频率代码。
图14是一种理想化的表示,表示在一定的感知音频编码器中,调节中非掩蔽参数的参数即相位标志的效果。
图15是一系列理想化的波形,表示编码期间对于嵌入补充信息的时域别名窗口形状。
图16是一系列理想化的波形,表示编码期间对于嵌入补充信息的时域别名窗口形状。
图17是一理想化的时间包络响应,描绘声压水平(SPL)对时间的关系,表示掩蔽信号的时间掩蔽效果。
图18是一理想化的表示,表示可用于信号的使得效果限于时间掩蔽包络内的调节的类型。
图19是一系列理想化的振幅对频率的图示,表示2-位的符号如何能够由四个不同带宽表示。
图20是一理想化的频率对时间的图示,表示包含嵌入信号的音频信号的一例,使用信号的带宽表示不同的符号。
图21是一理想化的振幅对频率的图示,表示存在正弦波信号时添加整形为接近人类闻听阈值水平的噪声。
图22是一理想化的能量对频率的图示,表示为检测生成2位符号的四种不同带宽所需的三种不同的能量水平。
图23是一理想化的振幅对能量的图示,表示‘高’和‘低’状态的分布的若干示例性直方图。
图24-26是逻辑流程图,表示使用可感知性的阈值用于嵌入水印的过程。
图24是一逻辑流程图,表示使用可感知性的阈值用于嵌入水印的过程的内部叠代循环部分。
图25是一逻辑流程图,表示使用可感知性的阈值用于嵌入水印的过程的外部叠代循环部分,其中外部循环频谱系数被放大。
图26是一逻辑流程图,表示图25的过程改型,以便尽可能实现心理声学模型,或感知阈值,同时还嵌入补充信息或水印信号。
图27表示一系列理想化的波形的描绘,跨越频谱,感知阈值,量化器误差,及修改的量化器误差,表示调节临界频带内影响量化误差的参数的情形下,如何能够使用失真测量过程嵌入水印。
图28表示一系列理想化的波形的描绘,跨越频谱,感知阈值,量化器误差,及修改的量化器误差,表示调节影响信号噪声比在频谱上偏移的参数的情形下,如何能够使用失真测量过程嵌入水印。
图29是一逻辑流程图,表示在解码期间根据本发明的方式嵌入水印过程的步骤。
图30是一功能流程图,表示本发明的其它方式,其中通过水印的补充信息调节的控制由一个或多个其它信号或数据序列的功能修改,这些序列例如包含确定性的序列和/或施加到编码系统的输入信号。
实施本发明的最佳方式图2是表示本发明的基本原理的一功能框图。感知编码器功能2和感知解码器功能4包括感知编码系统。诸如音频或视频信息的一次信息施加到感知编码器功能2。编码器功能2产生由感知解码器4接收的数字位流。响应补充信息(例如水印信号或序列)调节编码器功能和/或解码器功能中的一个或多个参数。因为补充信息可施加到编码器功能或解码器功能或施加到两者,虚线是分别表示从补充信息到解码器功能并到解码器功能。感知解码器功能的输出是带有嵌入的补充信息的一次信息。补充信息在解码器功能的输出中是可检测的。
若干补充信息施加到编码器功能2和解码器功能4两者,则典型地施加到一个的信息不同于施加到另一个的信息。例如,控制一个或多个编码器功能参数的补充信息可能是标识音频或视频内容拥有者的水印,而控制一个或多个解码器功能参数的补充信息可能是标识向一个或多个顾客提供音频或视频内容的设备的序列号码。典型地,补充信息将在不同时间施加到编码器功能和解码器功能。
图3-5是表示本发明方式的基本原理的功能框图,这包括用于检测解码器功能的输出中的补充信息的检测器功能。检测可以在解码器功能输出的数字域或模拟域中实现(电学的或声学的)。检测还可以在编码之后但在频域到时域转换之前在解码器的数字域中实现。
图3A与图2类似,所不同在于它包括检测器功能6,该检测其功能6接收检测在检测器功能的输出中的补充信息的检测器功能4的输出。检测器功能6的输出是补充信息。图4与图3A类似,所不同在于包括检测器功能8,该检测器不仅接收检测器功能4的输出,而且接收施加到编码器功能的相同的一次信息。检测器功能8的主要功能是比较施加到编码器功能的原始输入信息与解码器功能的输出,以便作为其输出提供补充信息。图5是图4配置的变形。如同图4中那样在图5中,检测器功能10接收检测器功能4的输出及施加到编码器功能2的一次信息。然而,检测器功能10不同于检测器功能8,在于不仅包括比较器功能12,而且包括感知编码器功能14和感知解码器功能16。编码器功能14与编码器功能2类似,所不同在于其参数不被调节。检测器功能16与检测器功能4类似,所不同在于于其参数不被调节。这样检测解码器输出中的补充信息的行动是由以下行动之一始实现的观察被解码的信号,比较被解码的信号与施加到编码器功能的信号,及比较被解码的信号与来自基本等同的感知编码系统被解码的信号,其中在编码器功能与解码器功能中没有响应补充信息的参数被调节。
图3A的检测配置最适合检测一定类型的参数调节的效果,诸如当带宽参数被调节时(调节带宽参数在以下详述)。为了检测调节大多数参数的效果,如图4和5的配置中那样,必须比较施加到编码器的一次信息与携带了由解码器提供的嵌入的补充信息。图5的配置使得能够作出更严格的比较,因为只有被比较的信息之间的差才是由调节参数所引起的差。在图4的配置中,差包括可能由感知编码和解码过程引入的其它效果。
因为图3A检测配置不需要访问施加到感知编码器的一次信息,取决于调节的是哪些编码器和/或解码器的参数,它可以实时或近似实时地实现。例如,调节带宽参数可允许通过实时或近似实时地只分析解码器而检测。特别地,图3A的配置的检测器功能6可包括一个或多个延迟功能,使得解码器功能4的输出可对其本身进行比较。例如,如图3B中所示,检测器功能6可包括比较器功能12’及一个或多个延迟功能7,7’等,使得观察被解码的信号的行动包括比较被解码的信号与其本身时间延迟的版本。来自一个或多个先前块的能量状态经受使用阈值的比较器功能,以便例如是按以下所述的带宽调节检测方式确定符号。块长度是检测器已知的,并必须出现某种同步的形式,以便使预期的符号速率与实际的符号速率一致。其它参数的调节可能不允许实时或近似实时检测,或可能如图4和5中的配置那样需要比较检测器的输出与编码器的输入信号。
在如图4和5其中解码器的输出与编码器的输入比较的配置中,重要的是要使输入与输出信号同步。取决于为调节而选择的什么参数或多个参数以及补充信息的数据速率,可能必须提供这些信号之间高度的同步。这样作的一个方法是在一次信号中嵌入确定的序列,诸如PRN序列,使得序列也被嵌入到解码器的输出。通过比较输入和输出信号中的序列,能够实现细粒度的同步。
检测可以人工实现,或在某些情形下可以自动实现。使用一次信号中的PRN序列可便于自动检测。如果人工进行,可采用视觉工具诸如被比较的信号的频谱分析。
可被调节以便嵌入水印的编码参数的某些例子在若干表中列出图6中所示的第一表(Dolby音频编码器参数),示于图7中的第二表(MPEG音频编码器参数),及示于图8中的第三表(MPEG视频编码器参数)。对于参数的每一范畴(例如“掩蔽模型和位分配”),如果参数(多个)在编码器和/或解码器中对调节是敏感的,并当参数被调节时结果是被检测的信号中水印信号的特征的有变化,各表指示了参数的类型(例如“SNR偏移”),具体的参数(例如“csnroffst”,“fsnroffst”等)。在图6中所示的表的第一列,列出参数的六个范畴掩蔽模型和位分配,频道之间的耦合,频率带宽,抖动控制,相位关系,及时间/频率转换窗口。注意,在第一表中,如果rematflg是“0”(编码器中没有矩阵化),则才能在解码期间进行重新矩阵化,并在第二表中,如果ms_used为“0”(在编码器中没有M/S),才能在解码期间进行M/S编码。
在在编码系统中参数类型有一个或多个参数的情形下,对于各参数被认可的缩写示于括号中。这样,例如参数的“SNR偏移”类型在Dolby Didital中包括四个参数“csnroffst”(粗SNR偏移),“fsnroffst”(频道细SNR偏移),“cplfsnroffst”(耦合细SNR偏移),及“lfesfsnroffst”(低频效果频道细SNR偏移)。这些和其它Dolby Didital编码参数在以上引述的A/52Document中有进一步的说明。虽然大部分列出的Dolby音频编码器参数对于Dolby Didital和Dolby E编码系统是通用的,并在A/52Document中以解释,但少量参数是对于Dolby E唯一的(例如,Back增益代码(后增益(backgain))和Back衰减代码(后泄漏(backleak)))。关于后增益和后泄漏进一步的信息在以下提供。
在统中所示的表的第一列中,列有有四个参数范畴掩蔽模型和位分配,频道之间或它们之中的耦合,时间噪声整形滤波器系数,及时间/频率转换窗口。类似地,在图8中所示的表的第一列中,列出有两个参数范畴帧类型和运动控制。关于列出的MPEG音频编码器和视频编码器参数的进一步的信息在以上引述的ISO/IEC文献,MPEG-2AAC文章和其它出版的MPEG文献中有述。本发明的各方式不仅可用于Dolby和MPEG感知编码系统,而且可用于编码器和/或解码器中参数可调节的其它感知编码系统。其它感知编码器的例子在以上引述的Brandenburg和Bosi(J.Audio Eng.Soc.,1997)杂志文章中有讨论。
调节感知闻听模型参数在诸如Dolby Didital和Dolby E感知音频编码系统中,有表示感知闻听模型或掩蔽模型的参数并在位分配过程中使用。特别地,一定的参数在频谱上模拟出人耳的掩蔽曲线向下的掩蔽曲线对于频率陡然衰减,向上的掩蔽曲线对于频率陡然衰减,向上的掩蔽曲线对于频率逐渐衰减。这些图示在图9中。虽然频谱掩蔽是一频域的概念,但衰减这些掩蔽参数的标准命名采用采用时域的术语(例如“慢”和“快”)。
参见图9,对应于频谱掩蔽模型的编码参数元素通过它们的电平和斜率(分别是增益和泄漏)对于掩蔽信号定义如下向下的掩蔽曲线后增益/后泄漏向上的掩蔽曲线(快)快增益/快泄漏向上的掩蔽曲线(慢)慢增益/慢泄漏注意,后增益和后泄漏是在Dolby E编码中规定的参数,但不是在Dolby Didital编码中规定的参数。在Dolby Didital中,如上述A/52文献中所述,快增益参数是快速增益代码(fgaincod,cplfgaincod及lfegaincod);快泄漏参数是快速衰减代码(fdcycod及cplfleak);慢增益参数是慢速增益代码(sgaincod);以及慢泄漏参数是慢速衰减代码(sdycod及clpsleak)。
以上定义的每一参数适用于调节以便在感知编码期间传送水印。它们任何之一的调节轻微改变频谱掩蔽模型,因而影响位分配过程。这样,掩蔽模型参数与一次输入信号紧耦合,从而形成水印的卤棒性。图10提供了可被调节的的频谱掩蔽模型的参数的图示。
Dolby Didital和Dolby E编码系统中一定的其它参数控制总的信号噪声比(SNR)。在Dolby Didital中这些参数是SNR频域参数“csnroffst”,“fsnroffst”,“cplfsnroffst”,及“lfesfsnroffst”。SNR参数在信号和量化噪声之间存在而保持所需的最低的信号对噪声净空高度水平。这些参数均匀地影响整个频谱,这与最初只影响相对于掩蔽信号的频谱的部分的频谱掩蔽模型参数不同。
但其它参数的作用是作为基于临界频带的细SNR调节,称为“结合(banded)SNR”,或德尔塔位分配即Dolby Didital编码中的deltba和cpldeltba。
图11A到11C和12A到12C提供了调节感知编码系统的掩蔽阈值的图示(图11A中的SNR频域的调节,及图12A中的快速增益代码的调节),即当编码系统是位约束(分别是图11B和图12B)时调节的结果的效果,及当编码系统不是位图示时(分别是图11C和图12C)调节的结果效果。图11D标识出图11A-11C和12A-12C中采用的图例。当编码器被限制而产生具有相同长度被编码的块时出现位约束,这是许多传输频道的需要。当编码器能够从块到块改变位数目时,对用来表示信号的位的数目没有有效的约束。如所示(图11B和12B),在位约束编码器中,被解码的信号的量化器误差不是在所有频率精确匹配掩蔽阈值;该例子示出存在多于必须的位(阈值与被解码的信号之间的间隙),结果造成在某些频率掩蔽阈值与原始量化器误差之间的正迹。没有位原始时,编码器能够在整个频带使量化器误差精确匹配掩蔽阈值。对于默认参数值,意向的水印符号可能是位值“0”。对于被调节的参数值,意向的符号可能是如本例中的位值“1”。图11A和12A示出在调节之前和之后的掩蔽阈值。图11B,11C,12B和12C示出结果的被编码的信号。被调节的掩蔽阈值在图11/12B和11C/12C被重叠以提供与被调节的被编码的信号频谱的比较。图11D示出在图11A-C和12A-C中所采用的图例。
调节非掩蔽参数图3和14提供了从调节Dolby编码器中非掩蔽参数的参数所得结果的信号特性的表示。在每一图中,信号特性使用默认参数值和被调节的参数值示出。在图13中,示出调节耦合参数的效果。对于在水平轴线上表示时间中的每一块,示出标记为左和右的两个频道。当使用标志中的耦合为“0”时,每一频道被独立处理。当使用标志中的耦合为“1”时,两个频道在一定频率上被组合为单个的耦合频道,由cplbegf参数表示。除了使用标志中的耦合以外,耦合开始频率也可以被调节,这也在图13中示出。
图14中,示出调节相位标志的效果。当相位标志等于“0”时,相位不被调节,但是如果标志等于“1”,则信号的相位平移180度。
调节TDAC窗口参数如上所述,感知编码器通过去除感知冗余信息降低了输入信号的数据速率。这些系统通过把输入信号分解为一个或单个分量开始,然后使用感知分析确定,为了在量化的分量被解码之后使源和被编码的材料之间不可感知(或达到可感知性可接受的水平),这些分量的每一个需要多大的精确性。这种系统的一个例子是使用时域混迭相消(TDAC)变换把时间采样转换为基于频率表示的变换编码器。为了保证优秀的重构,在变换之前使用重叠窗口处理时域采样。在变换之后,频率采样被量化并以降低间速率的方式被编码,因而在解码时感知上不明显。为了保持解码器中逆变换之后优秀的重构性,使用与在编码器中使用过的参数匹配的那些参数对时域采样开窗口,重叠,并求和。一般来说,选择用于编码和解码窗口的窗口参数,使得当它们在前向和逆向TDAC变换被施加时,混叠被减小到最小或消除。关于使用TDAC变换的变换编码细节在以下文献中有述“Analysis/SynthesisFilter bank Design based on Time Domain Aliasing cancellation”byPrincen and Bradley IEEE Trans.On Acoustics,Speech,and SignalProcessing,Vol.ASSP-34,No.5,October 1986,pp.1153-1161,及“Subband/Transform Coding using Filter bank Design based onTime Domain Aliasing cancellation”by Princen et al,ProceedingsICASSP 87,1987 Intl. Conf on Asoustics,Speech,and SignalProcessing,April,1987,Dallas,Texas,pp.2161-2164。
可通过调节在构成或重构被变换的相信号中使用的时域参数施加水印。例如,在编码或解码期间使用的时域窗口的斜率或alpha(α)之间的不匹配结果造成在使用临界采样变换时时域的混叠。这种混叠结果是在时域和频域两者中独特的噪声或失真。这样,或者在编码器或解码器中的窗口参数可被调节以便传送在编码器输出中可检测的水印。在这意义下的失真被定义为被编码的和原始信号之间的差,并可能或可能不造成可听见的人为噪声(artifacts)。在一优选实施例中,时域窗口的alpha(斜率)值被调节。通过引入不可感知但与源信号相关或被其隐藏的噪声或失真信号,在不生成可感知的减损时很难去除或模糊所得水印。
为了传送水印可被改变的另一时域窗口的参数是窗口本身类型。例如,Kaisrer-Bessel Defined窗口可用来嵌入“0”的水印位,而Hanning窗口可用来嵌入1的水印位。被调节的时间变化可在编码器或解码器中进行。
此外,为了改进可检测性并使可感知性降低到最小,可按信号特性及时调节窗口参数。例如,瞬时信号可以模糊水印信号,因而最好能够检测到这些信号并调节窗口,以便重新定位水印信号的位置,以便获得心理声学的时间效果的优点。此外,取决于源信号特性,可自适应修改调节的强度,以及后来被解码的信号中水印信号的强度。窗口参数不匹配的量直接影响相加的失真的强度。因而,输入信号心理声学掩蔽特性可被分析并用来传信水印嵌入过程,以便改变水印符号不匹配的量,使得其被信号内容最大限度掩蔽。
直接形式前向TDAC变换方程式由以下给出X(k)=-2/NΣn=0N-1x(n)w(n)cos(2πN(k+1/2)(n+n0)),0≤k≤N/2]]>其中n=采样号码k=频率箱号码x(n)=输入PCM序列w(n)=窗口序列X(k)=生成变换系数序列N=变换中的采样总数n0=变换中的采样总数的一半使用Kaisrer-Bessel Defined(KBD)窗口的TDAC变换窗口序列可由以下方程式定义WKBD(n,α,N)=Σp=0nWKB(p,α,N)Σp=0N/2WKB(p,α,N)]]>其中WKB是Kaisrer-Bessel核窗口函数,定义为WKB(p,α,N)=I0[πα1-(p-N/4N/4)2]I0(πα)]]>且I0是第0阶Bessel函数,定义为I0(x)=Σk=0∞[(x/2)kk!]2]]>图15示出长度256的五个重叠的编码器窗口。对窗口号码5使用α=4值,水印被插入在编码相位。应当注意,窗口4和6是使用α=3和α=4窗口组合的混合窗口,以提供在α=3和信号α=4窗口之间的平滑过渡。在图中,解码器窗口对所有变换实现α=3窗口。窗口类型的这一不匹配在所得的示出信号中引入了时域混叠人工噪声。在解码器α值(α=4)和解码器α值(α=3)之间的差增加时,引入被解码音频的时域混叠的量增加,并只在由编码器窗口号码5处理过的音频部分中存在。为了传送水印信号,α改变的这一方法不需要修改解码器,并可用于在信号的分布源处进行水印。
图16又示出长度为256的五个重叠窗口,然而在这例子中,在以逆向TDAC窗口解码过程期间改变α窗口值。又出现时域混叠,向被解码的信号注入水印信号。然而,在这例子中,嵌入的信号在解码器中被注入,允许水印信息对于特定的最终用户或装置被引入。这一α修改允许解码器向信号数据嵌入序列化的信息。
当施加水印时使用较短的变换窗口可能是有益的,因为它们降低了混叠失真的持续时间,并可在过渡状态(音频编码中)一般地使用。可以采样对于过渡信号的时间掩蔽特性,以便使用与“正确”的值更加不同的alpha值,从而产生更为卤棒性的水印。
TDAC窗口调节检测器通过修改TDAC窗口的alpha值,与被编码的信号相关的时域混叠信号被引入。这一混叠能够作为被编码信号的频谱噪声或频谱成分的失真的引入被测量。
一个可能的检测方法是如图4和5的配置的方式那样,可比较源材料与水印数据之间的差。这一方法将对于使用水印修改窗口之处的频谱失真搜索差信号。如果频谱失真超过阈值,对于数据的水印部分这将以‘1’符号指示。阈值以下的频谱失真将被检测为‘0’符号。
这一方法对于可能被引入以掩蔽水印信号的宽带噪声是灵敏的。另一检测方法是跟踪水印信号的频谱峰值,并寻找频谱峰值之前和之后两者的频率箱的调幅,这是在水印施加中由时域混叠引入的。类似于以下所述的一般的频谱失真方法,这一检测方法将比较围绕主要频谱成分的频率箱与阈值。然而,这一阈值将与源信号频谱成分的强度相关。阈值以下的频谱侧凸起将被解释为‘0’符号,而一以上频谱侧的凸起将被解释为‘1’符号。
调节TNS滤波器系数时间噪声整形是能够帮助防止感知音频编码中前回声人为噪声的一种编码技术;这在以下文献中有述“Enhancing the Performance ofPerceptual Audio Coder by Teporal Noise Shaping(TNS)”by JurgenHerre and James Johnston,101st AES(Audio Engineering Society)Convention Preprint 4384,November 8-11,1996。频域中的预测性编码用来对时域中的量化噪声整形。预测能够帮助控制量化噪声在时域中所放置的位置。在音频编码的情形下,噪声被限制在时域掩蔽信号振幅包络内以防止预回声。在音频编码的情形下,噪声被限制在在时域掩蔽信号振幅包络内以有助于防止预回声。预回声是一种人为噪声,这发生在过渡状态期间当施加的频率变换没有足够的时间分辨率防止量化噪声在输出信号中过渡之前出现时。
虽然时间噪声整形(TNS)是MPEG-2AAC感知编码系统的特性,但它可用于其它的系统,注入Dolby Digital,因而提供了又一方法调节这种其它系统中的参数。
根据本发明的这一方式,调节一个或多个TNS滤波器参数。特别地,如以下进而说明,TNS噪声整形滤波器阶与TNS噪声整形滤波器形状可被调节。
TNS过程涉及以下步骤1.使用时间到频率的变换把信号分解为频谱系数,2.通过形成开窗口的自相关矩阵并使用递归施加标准的线性预测程序,以及3.如果预测增益超过一定的阈值,则噪声整形滤波器施加到频谱系数。
本发明依赖于在TNS处理期间所施加的噪声整形滤波器的性质。谱域滤波器可以这样的方式被修改,以至可对任何不同时间响应数目中的噪声整形。通过谱域滤波器改变这一时间包络的一定的参数,水印能够被嵌入在信号中。换言之,如果在谱域或频域中调节噪声整形滤波器,从而就在时域中改变了量化噪声。
在图7中示出一个示例性时间包络响应,描绘出声压水平(SPL)对时间。
时间掩蔽模型颇类似于一定感知编码器中使用的频谱掩蔽模型。特别是,用于频谱掩蔽的向下和向上的包络类似于向后与向前时间掩蔽包络。为了更具体地识别出根据本发明方式可调节的TNS参数,宜更详细考虑时间噪声整形过程操作的部分。在使用时间到频率的变换把信号分解为频谱系数之后,对频谱数据进行线性预测编码(LPC)计算,以确定预测增益是否超过一定的阈值,并推导信号的包络。然后对每一块的每一TNS滤波器计算预测系数如下h=Rxx-1rxx其中rxx T={Rxx(i,j)};Rxx(i,j)=AutoCorr(|i-j|);i,j=1,2,...Nrxx’=rxx*win其中Rxx是N-by-N自相关方阵,N是TNS预测阶,而h是向量-优化预测系数。这些方程式是基于著名的正交性原理,该原理说最小预测误差是与所有在预测中使用的数据正交的。
在初始化时间,根据以下方程式计算自相关矩阵窗口win(i=0...31)=e(i+12)2·guassExp]]>其中gaussExp=-12(π·FSAMP·0.001·timeResolutiontransformResolution)transformResolution]]>其中FSAMP=信号采样率TimeResolution变量与位速率及频道数相关。类似地,变换块长度定义transformResolution变量。
通过从系数阵列末端去除一定阈值以下的反射系数而确定噪声整形滤波器的优化阶。为了传送水印可被调节的一个参数是噪声整形滤波器的阶。例如,,一个感觉的水印位可由优化的滤波器阶表示,而其它感觉的水印位可由非优化的滤波器阶(或者较高或者较低)表示。为了传送水印而可被改变的另一参数是噪声整形滤波器本身的形状。例如,一个感觉的水印位可使用由LPC计算确定的优化系数指示,而另一感觉的水印位可通过修改该系数并这样噪声整形滤波器的形状指示。
通过调节TNS参数(滤波器阶或滤波器系数),噪声在输入信号的时间包络中被调节,使得它可在被解码的输出信号中被检测。图18示出时间掩蔽包络和量化器误差可在包络内被调节的可变性的一例。对于时间中的每一块,TNS参数可被调节以便传送水印。
本发明实际的实施例能够提供非常卤棒性的的水印解决办法。由于通过TNS过程添加的噪声与源信号的包络紧耦合,很难去除或描绘水印而不退化原始信号。
本发明中描述的水印的透明度可使用以下所描述的类型的自适应失真过程控制。这种情形下,一旦信号的时间包络已经使用TNS被修改,结果反复与时间掩蔽阈值的时间或频谱表示进行比较。如果阈值被超过,对时间掩蔽参数作出调节,且重复该过程以保证水印信号的卤棒性与可感知性之间所需的平衡。
图18所示的时间掩蔽特性可被施加到信号的子频带。这允许水印成层以及嵌入水印的潜在较多的位置。
调节带宽已知较低音频信号的带宽引起主观质量最小的退化,只要它保持在大约16kHz最小水平之上。只要它保持在最小水平之上,实验也已证明了当带宽动态变化时的最小退化。如果学编码器或解码器中根据补充的或水印信号调节带宽,该信号可从被解码的音频推导。例如,一位代码可被嵌入其中16kHz的带宽表示“0”符号而信号20kHz的带宽表示“1”符号的音频信号。这能够扩展到表示生成较高被嵌入的信号数据速率的多位符号的多带宽。图19示出使用四个不同的带宽的2位符号。这一策略能够在需要非卤棒,不可听见的水印的地方使用。不可听见的标准可按以上实现。这一策略是非卤棒的,因为通过低通滤波被解码的音频信号水印能够易于去除。
图20示出使用信号的带宽表示不同的符号包含嵌入的信号的音频信号的例子。
上述的带宽水印技术的一个问题在于,它与最小带宽以上信号的内容的存在相关。对于限度时候,最小带宽以上的信号内容是不存在的。没有高频信号的内容不能获得定常的被嵌入的信号数据速率。例如,如果音频信号内容由1kHz处的信号正弦波组成,则在在一信号中传输嵌入的数据唯一的方法会把带宽降低到低于1kHz。这将可清晰地听见并破坏了原始信号。
可提供定常的内容水印嵌入速率的方法要保证音频信号包含高频能量。实现这种方式的一种方法是向音频信号的上部频率添加噪声,使得听者不能感知这种噪声。如果添加的噪声小于或等于人类听见的阈值,则它是不可感知的。使用这种噪声的添加,嵌入的信号能够使用音频带宽作为提供定常数据速率的传信机制。注意,这种噪声只需要被添加到传信的频带内。这种传信频带被定义为用于放置水印的最低频率与最高频率之间的频带。传信频带能够被划分为较小的部分,其中采用两个以上的带宽生成水印。
图21示出被整形为近似于听见的阈值的水平的噪声的添加。它添加到只由单一正弦波组成的信号,并只添加到传信频带。噪声添加到传信频带不必受听见的阈值的限制,但如果能量在该阈值以上,则它可能听到。传信的另一维可通过调节闻听阈值之下的噪声振幅被添加。例如,如果传信频带区中的能量包含刚刚多于一种能量状态,且没有通过添加半能量状态的能量状态,则附加的数据可被隐藏或插入。这振幅传信将增加嵌入的信号的数据速率。
只要保证某种信号内容刚刚低于上带宽,该信号就能够检测。重要的是,在传信频带内添加的信号在每一频道中要类似。许多情形下,这些信号在电学上或声学上是混合的,且重要的是它们不要彼此相消。如果相位内正弦波被添加到多个频道并用于传信,当声学添加的与位置相关时,则它们会删除。这降低了水印的可靠性。使用独立随机的噪声是更好的解决方案,因为当混合时这不会删除。
由于信号内容可能出现在传信频带中,且被整形的噪声添加到传信频带以保证内容嵌入速率,故添加两个信号并有时增加传信频带中的能量。这种能量的可变性使检测过程更为困难。在本发明这一方式的实施例中,低通滤波器在整形的噪声添加之前施加到源信号,以消除传信频带中任何源信号的相互作用。
在Dolby Digital算法或编码过程中,即使上部频带中的内容被确定为不明显,也要在位流中传输粗糙的能谱,这能够用来在解码器中向能谱添加整形的随机噪声。这是当位流中的抖动标志启动时解码器接通的的一个特征。即使编码器已经判断它在感知上是不明显的,解码器中添加的噪声重新在被解码的音频中生成水印。可以在编码或解码过程期间插入水印。
Dolby Digital音频编码器能够根据两个带宽参数之一在带宽中产生变化(在图21的表中列出的chwcod和cplendf代码)。这生成实现水印的一种有效的方法。然而,调节这些代码以便在解码的信号中产生可检测的变化并不对嵌入的信号数据速率加什么限制1.所有的频道应当包含相同的带宽,使得向下混合信号不会破坏嵌入的数据。这限制了向单频道的等价物嵌入数据速率。
2.对于优化的声音质量,带宽代码不应当只是每帧设置一次,这限制嵌入的数据速率为符号深度及嵌入的采样速率。如果带宽代码被改变多于每帧一次,则编码的音频总体的声音质量将降低。
3.可用的符号数目限于最小带宽以上的可用的带宽代码数目。
例如,编码器使用正在两个不同的带宽状态以48kHz嵌入数据,则则嵌入的数据速率接近31.25bps。(每秒31.25帧,每帧包含一位的信息)。如果以48kHz使用四带宽状态,则数据速率为62.5bps。这些数目是从这样的事实推导出的,即每一Dolby Digital帧包含1536个单一的音频采样。如果使用每帧包含2048单一音频采样的另一编码器,则对于一位代码数据速率将接近23.5bps。
Dolby Digital编码器在编码器位流中发送每音频帧能谱密度近似值。每当音频频谱中有显著变化时它即被更新。能谱密度信息作为频率上线性间隔的指数被发送。在Dolby Digital解码器中,向任何没有收到量化信息的频谱部分添加抖动。基本上是随机噪声的抖动被标定为指数水平。这向频谱部分增加了信号能量。如果传信频带中的指数被整形为小于或等于闻听阈值,则抖动保证了信号能量。
以下步骤概述了保证在Dolby Digital编码信号内传信频带中有能量的当前方法。
1.随机噪声添加在整形为闻听阈值或其之下的最小传信带宽之上。这引起最小能量遵从闻听阈值的形状。
2.在噪声添加之后计算的指数捕获这一最小能量水平。
3.即使因为通常添加了抖动而已经没有位分配到最小传信带宽之上,解码器也要从传输的指数重新生成谱能量。这保证了信号内容用于被嵌入的的传信。
上述的两种技术(带宽变化和抖动)能够用来集成低复杂性。固定位速率水印到Dolby Digital编码器或解码器。这系统对于违反包含向下混合、动态范围扩展、音量规范化、矩阵环绕解码等的编码/解码链的“正常使用”是卤棒性的。
这样,本发明的这一方式的实施例可包括以下步骤1.调节带宽以嵌入隐藏的数据信号。
2.使用Dolby Digital编码/解码系统的带宽代码调节带宽以嵌入隐藏的数据信号。
3.在传信频带调节噪声以保证信号内容能够用来以定常速率嵌入数据。
4.整形这一添加的噪声使之小于或等于人闻听阈值以防止添加的噪声的可听见的感知。
5.调节这种添加的噪声的振幅,以添加另一维传信增加被嵌入的信号的数据速率。
6.以Dolby Digital编码器集成整形的噪声以保证信号内容在传信频带内。
水印检测器解释包含在再生的音频信号内的嵌入的信息。最好能够以电学和声学两种方式抽取信息,但这种能力不是对所有应用必须的。在声学处理之后抽取水印被人为是更困难的挑战,因为添加了室内噪声,扬声器和话筒特性,及总的回放音量。
检测器的目标是要确定在给定的传信频带内是否有能量,以找到音频带宽。这需要能够通过付立叶变换,即一组分析传信频带的带通滤波器等,计算的音频的频率分解。能够从这一信号分解获得每一传信频带中的能量。检测器能够使用这一能量信息确定被嵌入的符号。
一种可能的检测方法是在每一传信频带中采样固定阈值比较以确定嵌入的符号。这一阈值可设置在刚刚高于噪声底线的能量水平。任何高于这一水平将的能量被人为是包含信号水平。通22示出检测生成2位符号的四种不同带宽所需的三种不同的能量水平。任何高于检测阈值的能量被人为是‘高’的,而任何低于这阈值被人为是‘低’的。
这一固定的阈值只对系统的噪声底线总是已知且峰值信号水平从不衰减的封闭的环境效果良好。例如,如果其它噪声添加到以上简图的噪声底线,则第三能量水平将被人为人为是‘高’的,且将解释为不正确的符号。
如果在阈值计算之前能量水平被均等化或正规化。则能够使用固定的已知。实现这种方式的一种技术是在确定能量水平之前向传信频带施加AGC算法或过程。整形水平通过AGC被正规化,使得‘低’和‘高’水平变得更一致。这种情形下因为水平的正规化能够施加固定阈值。
自适应阈值被认为对于噪声水平和信号能量不断变化的任何环境中是最好的。采用自适应阈值的一种可能的检测方法使用先前的能量状态对当前的状态计算阈值。这种检测器工作的前提是,对于给定的能量带在有限数目的先前的状态中,应当存在处于‘高’状态某些能量水平和‘低’状态的某些能量水平。
最大的能量可认为是‘高’的,而最小的可认为是‘低’的。这些‘高’和‘低’状态可被认为是两个不同的组。图23包含‘高’和‘低’状态分布的几个示例性直方图。阈值可被确定为位于这两种‘集群’之间某处。
如果在预定有限的集合中假设‘高’状态的数目等于‘低’状态的数目,则最大的一半属于‘高’组,而最小的一半属于‘低’组。如果对每一组找到平均能量水平或均值,则能够作为这两个均值的平均计算简单的阈值。对两个组和阈值假设不同的分布,考虑每一组更多的统计量如均值和方差,这可能容易变为更为复杂。
可能包括的另一种考虑是改进向‘高’和‘低’组的分离。当在嵌入过程中包括多于两个带宽时,传信频带中的能量水平就有相关性。当最高带宽为‘接通’时,每一传信频带中的所有能量水平应当被检测为‘高’。当次最高带宽为‘接通’时,低于带宽中所有传信水平应当被检测为‘高’。对每一传信频带这改变了能量的分布。
例如,假设水印编码器使用四个不同带宽产生二位符号。设A,B,C,和D表示带宽,其中A是最大带宽,D是最高带宽。需要对三个不同的能量频带确定这些带宽。设三个能量频带由1,2和3表示,它们分布是带宽A-B,B-C,和B-D之间的能量。以下表格列出如果符号均匀分布作为在‘高’状态每一个能量频带的概率。

概率不相等是因为每一能量频带在带宽上的相关性。例如,能量频带1中信号内容的概率是B,C和D符号发生的概率和。每一符号有1/4的发生概率;因而能量频带1中的信号内容的概率为3/4。
如果先前的四十个状态用来对每一能量频带计算当前阈值,则最高的三十个状态将假设表示能量频带1内的信号内容。其余的十个采样将表示没有信号内容。这种情形下通过找到这两组之间的均值的平均而确定当前的阈值。
为保证符号分布基本上为均匀,频道编码的添加对于这一检测器是重要的。如果编码器输入对于延伸的周期正好是最高带宽的符号,则这一检测器将有对被编码的数据解码的困难。符号分布越靠近假设的概率,被嵌入的数据的检测越精确。
一种困难的频道编码的方法是保证在有限周期上每一符号只出现一次。例如,如果有四个不同的带宽代码,则在四个符号的组中每一符号可能需要出现一次。这产生24的单独的符号,这是四个带宽代码组。24(四阶乘)是四带宽代码的排列的最大数。如果A,B,C和D代表四个带宽代码,则符号将象ABCD,BACD,ABDC,BADC,BCAD等。注意,这简单了嵌入的数据速率。
这样,根据本发明这一方式的水印检测器可包括1.嵌入的信号检测器,使用通过检验先前状态计算的自适应阈值。先前状态基于能量水平被划分为组。阈值基于试图把组分为尽可能多的组每一组的统计量。
2.当涉及多个组时,基于来自带宽调节的相关性调节组中元素的数目。
3.频道编码器,保证符号在有限时间上的分布接近均匀。这保证了上述的水印检测器的归纳正确。
控制参数调节的强度自适应失真控制本发明的一个目的是要嵌入具有最大化可检测性且最小化可感知性的水印。感知编码器使用概率阈值确定如何降低输入信号的冗余性。这同一阈值可用来调节水印信号,使得其为可检测的同时保持基本上不可感知。
如上所述,在某些感知的编码器中,失真测量与速率控制配对以保证正确的信息被抛弃。失真测量比较原始输入信号与嵌入的信号(速率的控制输出)。为控制某些编码参数以改变速率控制过程的结果,失真测量可能是有用的。这可以生成以下所述的嵌套环形结构,其中外环包含失真测量而内环是速率控制。通过检验失真测量对编码参数反复进行修改,直到满足某种标准。通过去除速率环相同的方法可用于可变数据速率编码器。
使用根据本发明一种方式的可感知性阈值嵌入水印的过程示于图24-26。这种过程类似于在MPEG-2AAC感知编码器中定义的过程,其中使用两个嵌套环确定最优量化。图24所示的内迭代环修改量化器步长,直到频谱数据能够以可用位数目被编码(速率控制)。图25所示的外迭代环放大所有频谱带中的频谱系数,使得尽可能满足心理声学模型的需求(失真控制)。图25的过程通过调节感知编码参数或多个参数被修改(图26所示),以尽可能满足心理声学模型,或感知阈值,同时还嵌入水印信号。图6,7和8中所列出的所有参数可按这种方式调节,虽然在位分布过程中某些参数比另外一些更难以改变。
图24中的速率控制过程试图以较小的固定信息量表示信号。输入信号根据感知阈值被量化(步骤20),并对用作为量化结果的位进行计数(步骤22)。如果使用的位的数目不超过可用的位,则过程结束(步骤24)。否则,迭代过程继续进行直到使用的位的数目尽可能接近匹配可用位的数目。这通常通过调节感知阈值,经过量化器步长的修改,直到足够的信息已被抛弃来实现(步骤26)。
图25中所示的失真测量过程可添加到量化器步长过程,以保证速率控制编码过程的某些简化没有引起易于感知的误差。失真测量允许精细调节编码参数,以尽可能减小这种误差。在该过程的第一步,执行速率环或内环以根据速率约束量化输入信号(步骤28)。然后失真评估计算存在多大的失真(步骤30),并确定失真相对于感知阈值是否是可接受的(步骤32)。如果失真不可接受,则放大频谱系数(步骤34)并重复该过程。如果失真是可接受的,量化的结果施加到输入信号(步骤36)且过程完成。在这种意义下“失真”是已编码的和原始信号之间的差,并可能或可能不造成可听见的认为噪声。
在本发明的各方式中,图26所示的失真测量过程用来确定编码参数值,当被调节但仍然处于感知阈值边界内时,可从其默认值变化的量。这使得可能的水印检测最大化,因为通过感知阈值约束使失真不可感知,这最好的方式引起尽可能大的失真。重复速率控制(步骤28),失真控制(32),编码参数调节(步骤38)步骤,直到达成可接受的折衷。
诸如Dolby Digital等一定的编码系统在编码期间使用速率控制过程,但不施加失真控制。因而,为了使这种编码系统可采样本发明这一方式,添加了失真测量。其它的编码器,诸如MPEG-2AAC,已经有为编码的目的集成的失真控制过程,因而作较小的修改也即可用来根据本发明的这种方式实施水印。应当注意,在可变速率编码系统中,不需要率环,这样对参数调节过程提供了优化的解决方案同时降低了复杂性。
图27示出根据本发明使用刚才描述的类型的失真测量过程如何可嵌入水印。目的是通过迫使通道2中作为量化器误差变化所示的调节的参数效果尽可能靠近感知阈值,使卤棒性最大化。在第一通道,计算感知阈值。在第二通道,显示量化器误差。注意,有某种可用的迹可用以不可感知地修改量化器误差。在通道3,选择的水印编码参数,在这例子中是德尔塔位分配型参数(即德尔塔或cpdelta参数,它影响基准频带内的量化器误差),已被调节并且结果是修改的量化器误差。即使进而仍然保持不可感知,量化器误差仍可被修改。注意,编码参数调节的结果是在整个频谱上稍微不同的量化误差,因为可用位数受到影响。这表示编码参数的调节,及一定频带中所得量化器分辨率,引起不仅是其中参数被调节的频带,而且整个频谱中的误差。在通道4中,编码参数调节的度已经再次使用例子通道3的信息被调节,其所得量化误差尽可能接近感知阈值。虽然当调节一个或多个影响量化器误差的参数时,最好使量化器误差尽可能接近但低于感知阈值,但本发明还是注重一个或多个参数这样的调节,使得量化器误差低于但不接近感知阈值,例如图27通道3中所示。
图28示出水印嵌入过程,其中选择的水印编码参数是总体SNR偏移型参数(即csnroffst,fsnroffst,cplfsnoffst或lfesnroffst参数)。注意,这例子中,总体SNR偏移参数的调节结果是精确的与感知阈值的匹配。这是因为SNR偏移型参数是感知阈值在整个频谱上的一致偏移。于是,使用SNR偏移型参数使量化器误差适应感知阈值的过程只需要一个步骤。
本发明这一方式的一个又一方面允许用户控制参数阈值的偏移,于是这控制水印可能的‘增益’或能量。这可以是对感知阈值的线性偏移,或允许在特定频带中有更多失真的更复杂的功能。这允许用户控制检测的难易度及最终嵌入的信号的可闻听度。这可以通过按固定量提高感知阈值曲线而实现。此外,通过修改感知阈值,用户可在水印编码迹为负的地方嵌入水印。
在诸如Dolby Digital,Dolby E,及MPEG-2AAC编码器等感知编码器中,量化或位分配过程是基于对编码器可用的位数及整体信号对噪声比计算的。然后,比较感知阈值与量化器误差。如果失真(感知阈值与量化器误差之间的差)不满足完成的要求,基于失真调节所选择的编码参数调节,并重复过程直到失真为可接受。
在本发明的这一方式的一优选实施例中,从分带的系数组计算失真(即按临界频带分组),形成感知阈值的基础。应当注意,感知阈值也可以增加复杂性为代价基于各频谱系数的量化误差。
一旦建立了阈值,本发明这方式的失真控制部分即开始。测试下的编码参数根据失真过程的后继迭代被调节。编码测试的调节影响在速率控制过程中进行频谱带位分配的结果。位分配所得阈值与原来的感知阈值比较,并反复调节编码参数直到满足完成的需要。如果对完成的要求没有被满足,则使用调节的参数重新以公式计算掩蔽阈值。
在本发明的这一方式的优选实施例中,当感知阈值和掩蔽阈值对于任何给定的相关频带等同且没有掩蔽阈值的频带超过感知阈值时,可出现自适应失真过程的终止。如果感知和掩蔽阈值总不收敛,则进而只要掩蔽阈值不超过感知阈值,即可采样终止逻辑。终止需要存在是为了限制复杂性。
检测器参数调节图29示出本发明的一个方式,其中调节感知音频解码器的参数。在这例子中,解码器采用混合位分配(即感知模型从编码器被传送到解码器)。收到的感知编码的位流40在解码器中分离为编码参数42(表示位分配模型)与出现格式化的数据44(即被量化的数据)。执行位分配46和逆向量化48。在下一步50,作出判定(是否计算感知阈值?)。如果还没有计算(即第一次通过该环),则基于来自编码的位流计算感知阈值(步骤52)。如果感知阈值存在(即在第一次通过该环之后),则在逆向量化的信号与阈值之间进行比较(步骤54)。然后在步骤56作出判定(失真是否可接受?)。如果失真不可接受,则调整正被调节的编码参数(步骤58),并重复位分配,逆向量化,及感知阈值比较过程。起初基于水印符号(即补充信息)输入60调节编码参数,并随后基于感知阈值的比较调整编码参数。
在采用前向自适应位分配(即在编码器中生成感知模型并显式发送到解码器)的感知音频解码器系统中,可采用类似的过程。使用传输的感知模型重新格式化信号数据。然后该感知模型可通过一参数被修改以便嵌入水印。音频的水印版本与未标记的信号比较。如果失真测量不满足规定预定完成要求(多个),则使用修改的参数调节值对信号重新进行公式计算。
响应水印序列和/或确定性序列控制参数调节在本发明的其它方式中,一个或多个参数的调节间接地由补充信息或水印信号或序列控制。例如,通过水印的调节的控制是通过一个或多个其它信号或数据序列的功能调节,例如这包括指令集诸如确定性序列和/或施加到编码系统的输入信号。图30是表示本发明的这一方式的一功能框图。如同图2中的基本配置,一次信息施加到感知编码器功能2。在本发明的这一方式中,补充信息施加到参数控制器功能62。参数控制器功能62还接收一次信息或一个或多个确定性序列,或一次信息和一个或多个确定性序列两者。参数控制器62修改二次信息调节编码器功能或解码器功能参数的方式。如下所述,这是通过修改一个或多个二次信息进行的,每一个带有或者一次信息的功能和/或一个或多个确定性序列的功能。因为来自参数控制器功能的修改的补充信息可以施加到或者编码器功能或者解码器功能或者两者,从补充信息分别到编码器和解码器功能示出虚线。如同图2配置的情形,感知解码器功能的输出是带有嵌入的补充信息的一次信息。可在解码器功能输出中检测出补充信息。
如果修改的补充信息控制编码器功能2和解码器功能4两者中的参数调节,则施加到之一的信息将不同于施加到另一个的信息。例如,控制一个或多个编码器功能参数的补充信息可表示标识音频或视频内容所有者的水印,而控制一个或多个解码器功能参数的补充信息可能是标识向一个或多个顾客提供音频或视频内容的设备的序列号码。
当参数控制器62采用确定性序列修改补充信息调节一个或多个参数的方式时,在解码器功能输出中补充信息或水印的检测要求产生器方程式和确定性序列的关键字由检测器功能知道。产生器方程式可以公开获知,可以通过检测器(但不是公开的)先验获知,或可以通过安全频道传送给检测器。类似地,关键字可以公开获知,可以通过检测器(但不是公开的)先验获知,或可以通过安全频道传送给检测器。对于安全的系统,要求只是关键字不要被公开。
当参数控制器62采用输入信号修改补充信息调节一个或多个参数的方式时,在解码器功能输出中检测补充信息或水印需要源信号或至少关于源信号一定的信息(例如,参数控制器对其响应而被编程的源信号的特性)要使检测器功能获知。通过传送源信号或最好是参数控制器对其响应而被编程的源信号的特性,这即可对解码器功能实现。如果传送的是源信号而不是源信号相关的特性,检测器功能能够基于对源信号的分析和解码器功能的输出独立地推导出相关特性。然而,因为特性原来是基于源信号不带量化误差被确定的,因而可能出现误差。
响应确定性序列控制参数调节修改水印符号转换速率本发明这一方式的一个变形涉及以确定性序列控制参数调节状态转换的速率,并继而控制水印符号转换速率。特别地,它涉及响应确定性序列改变参数调节状态的持续时间,并继而水印符号速率的持续时间。如果水印符号转换以达成速率被嵌入,水印符号模式中重复的序列可能是可感知的。通过修改参数调节状态持续时间,继而符号持续时间,把重复修改降低到最小。表1示出参数调节状态持续时间,以及继而水印符号持续时间依赖于确定性序列的例子,这样结果是作为修改的序列的模式。在这一特定的例子中,如果确定性序列值等于“1”,则水印序列被重复。如果DS的值为“0”,则水印符号不被重复。应当注意,水印符号模式的周期基于值“1”在确定性序列中的出现而重复。于是,应当使用适当重置的有限序列,使得在检测期间能够同步。

表1选择参数用于嵌入水印根据本发明这一方式的进一步变形,确定性序列选择用来嵌入水印的参数或多个参数。一般来说,能够采用若干参数任何之一嵌入水印。例如,一个参数的调节的结果可能是特定频率范围中频谱能量的修改,而另一参数调节的结果可能是被解码的信号带宽的降低。如果只调节一个参数,所得水印对于频谱能量调节感觉敏锐的人可能更可感知。另一方面,如果所使用的嵌入技术在调节一个参数与调节另一参数之间切换,则所得使用可能比较不易感知。在使用嵌入参数的数目增加时,这一效果变得更为明显(由使用引入的减损更象噪声)。
表2示出可对调节选择编码参数的两种方式。在表2的部分“a”中所示的第一例子中,参数1和2采用与确定性序列(DS)相关的使用序列(WS)值。例如,如果DS值为“0”,参数1被调节为反映WS值的状态,否则它被调节为反映“0”值的状态(或者状态可以是但不需要是参数的默认值)。于是,如果DS值为1,参数2被调节为反映WS值的状态,否则它被调节为反映“0”值的状态(或者状态可以是但不需要是参数的默认值)。在这例子中,要求来自两个参数和来自DS的序列检测WS。在表2的部分“b”中所示的第二例子中,参数1和2被调节为反映只与WS本身相关的值的状态。例如,参数1从其默认状态被调节为反映WS值“0”的状态,而参数2从其默认状态被调节为反映WS值“1”的状态。这样,任一参数在它们都传送WS时可被独立检测。

表2修改用于调节参的数选择变化的速率根据本发明这一方式进一步的变形,用于调节的参数的选择可依赖于确定性序列变化。在消除通过以定常速率改变嵌入技术引入的周期性效果时,这进而可降低水印的可感知性。这一实施例示于表3。在这例子中,参数1被调节为反映WS逆的状态(任一状态可以是但不必是参数默认值),并当DS值为“1”时符号重复,否则它不重复。参数2被调节为反映WS默认值(任一状态可以是但不必是参数默认值),并当DS值为“1”时符号重复,否则它不重复。如同表2的部分b的例子中那样,两个参数都传送水印。

表3响应源信号的特性控制参数的调节使用源信号分析修改水印符号转换速率本发明的这一方式的另一变形涉及分析源信号的特性,并然后自适应控制参数调节转换的速率,继而基于这一分析结果控制水印符号转换速率。具体来说,它涉及响应源信号的特性改变参数调节状态的持续时间,并继而是水印符号状态的持续时间。例如,迅速改变信号状态可提供有用的时间掩蔽程度,这可用来降低水印符号转换的可感知性。如果时域源信号的振幅从帧1到帧2(假设源信号已经格式化为具有帧的数字信号流)变化超过预定的阈值,则可允许水印符号从帧1中的一个值改变到帧2中的另一个值。在帧3中,如果源信号的特性从先前帧(多个)的变化不超过阈值,则可不允许符号改变值。通过使水印符号转换与掩蔽事件或潜藏源信号中的其它“友好变化”状态相关联,可改进水印的不可感知性。
表4中,源-定义的序列(SDS)表示阈值过程的输出,诸如转换检测。对这一例子,SDS值“0”指示没有转换状态出现,而值“1”指示在块中存在转换。在表4的部分“a”中,如果SDS值为“1”则WS值被重复。如果SDS值为“0”则水印符号不被重复。在这例子中,假设单个编码参数传送水印。
使用源信号分析修改用于调节的参数选择变化的速率在本发明的另一方式中,刚刚说明的方式被修改,以便使用源信号特性修改用于调节的参数选择变化的速率,这与参数调节的速率相反。如同在刚刚说明的方式中,其好处在于,当源信号提供时间掩蔽或其它“友好变化”状态时,转换可较少感知。这一实施例的一个例子示于表4的部分b中。在这例子中,参数1被调节为反映WS的逆的状态(任一状态可以是但不必是参数的默认值),并当SDS值为“1”时符号重复,否则它不重复。参数2被调节为反映WS默认值的状态(任一状态可以是但不必是参数的默认值),并当SDS值为“1”时符号重复,否则它不重复。如同表2的部分b中的例子那样,两个参数都传送水印。这一方法类似于表3中所示的情形,但差别只在于这里的转换速率是由SDS定义的。

表4使用源信号分析选择用于嵌入水印的参数在本发明的另一方式中,基于源信号的特性修改用于调节的可用参数的可用集中的数个参数。假设特定的水印系统能够通过修改几个不同的参数任何之一嵌入水印(例如参数造成频谱能量增长,时间噪声插入,带宽降低等)。取决于源信号的当前特性,不是所有这些参数都可引起不解码的信号中不可感知的变化。例如,如果源信号是固定的,则在感知上被掩蔽的频率范围时间噪声插入可能比频谱能量增长更可感知。其结果是,最好是减少可用的参数集合,以禁止可能引起对当前信号特性更可感知的结果的那些参数。
在表5中,一个例子示出基于先前所述相同阈限过程(过渡检测)的信号定义的序列(SDS)。SDS值“1”指示在块中过渡状态存在,而SDS值“0”指示没有过渡状态存在。在表5中,当名义过渡状态存在时(SDS=0),参数1和2名义上传送水印,参数1有对于WM值“0”反映值“1”的调节状态,并有另外反映值“0”的调节状态,且参数2有对于WM值“1”反映值“1”的调节状态,并有另外反映值“0”的调节状态。如果过渡状态存在(SDS=1),则参数3和4被调节,这些参数优化地引起时间失真,而参数1和2它们引起频谱失真。如果已经减少了参数数目,则可使用确定性序列从较小的集合中选择参数,从而保持在参数之间或它们之中切换的好处,同时就当前源信号特性来看最好是同时在参数它们之中自适应选择。


表5响应确定性序列和源信号特性控制参数调节除了只使用确定性序列或只使用输入信号特性控制参数之外,本发明还注重响应确定性序列和输入信号的特性两者控制参数的调节。
有多种方法组合使用确定性序列和源信号特性以便控制参数调节。这样作可进一步改进不可感知性和/或卤棒性。在一种这样的方法中,确定性序列选择什么样的编码参数子集用于信号特性不同状态。使用以上表5的例子更为具体来说,当过渡不存在时(SDS=0)选择头两个参数用于调节,并基于确定性序列DS选择那些参数。表6示出这一方法。


表6在另一例子中,确定性序列修改由信号定义的序列修改的水印序列的转换速率。表7示出这一方法。第二列示出基于SDS改变嵌入技术的第一步骤,且第三列示出基于DS进而改变序列的第二步骤。如前例那样,如果SDS具有值“1”序列值被重复。如果SDS具有值“0”序列值不被重复。

表7就其中多个编码参数传送嵌入序列的每一例子,通过向多个编码参数施加相同的水印序列,还存在添加冗余性的可能性,以便增加对攻击或处理的误差弹性。为了便于较低复杂性的检测,这种编码参数可具有约束的关系,或预定的层次,使得如果一个参数出错,检测器能够从另外的编码参数恢复消息。
此外,确定性的序列可用来同时调节一个或多个其它编码参数,以使攻击者难以推断出水印携带什么参数。在表8所示的例子中,参数1传送水印序列及确定性序列,规定参数2或参数3哪一个将基于水印序列改变。这种情形下参数2和3并携带水印,但作用如同假目标。这例子中,对于DS适当的状态假目标将等于WS,并否则将为“0”。

表8结论应当理解,本发明及其各方式其它变形和改型的实现对于隐匿专业人员是明显的,且本发明不限于所述这些特定实施例。因而,目的是要通过本发明覆盖属于所公开的和此间所述的基本原理的实质精神和范围的任何和所有改型、变形或等价物。
本发明及其各方式可作为在数字信号处理器、编程的通用数字计算机、和/或专用数字计算机中执行的软件功能实现。模拟和数字信号流之间的接口可在适当的硬件和/或作为软件和/或固件中的功能执行。
权利要求
1.根据补充信息修改感知编码系统的编码器功能和/或解码器功能的操作的一种方法,使得补充信息可在解码器功能的输出中检测,包括响应所述补充信息调节所述编码器功能和/或所述解码器功能中一个或多个参数。
2.根据权利要求1的方法,其中所述感知编码器是采用混合向前/向后位分配型的音频编码器。
3.根据权利要求2的方法,其中所述一个或多个参数包括一个或多个属于一个或多个以下范畴内的参数掩蔽模型和位分配,频道之间或它们之中的耦合,频率带宽,抖动控制,相位关系,及时间/频率变换窗口。
4.根据权利要求1的方法,其中所述感知编码器是采用向前位分配型的音频编码器。
5.根据权利要求4的方法,其中所述一个或多个参数包括一个或多个属于一个或多个以下范畴内的参数掩蔽模型和位分配,频道之间或它们之中的耦合,时间噪声整形滤波器系数,及时间/频率变换窗口。
6.根据权利要求1的方法,其中所述感知编码器是视频编码器,且其中所述一个或多个参数包括一个或多个属于一个或多个以下范畴内的参数帧类型,及运动控制。
7.根据权利要求1的方法,其中所述一个或多个参数是从影响被解码的输出信号中以下一个或多个的参数中选择的信号噪声比,量化器噪声,频道之间或它们之中的时间关系,频率带宽,被整形的噪声,频道之间或它们之中的相位关系,及宽频谱,时间混叠噪声。
8.根据权利要求1的方法,其中所述一个或多个参数是通过执行以下行动之一被调节的在其两个值之间改变一两值的参数,在其默认值和一个或多个其它值之间或它们之中改变参数,及在与默认值不同的值之间或它们之中改变参数。
9.根据权利要求1的方法,其中所述一个或多个参数的调节程度受到控制。
10.根据权利要求9的方法,其中所述一个或多个参数的调节程度受到控制,以便限制从调节所述一个或多个参数所得被编码的输出信号中人为噪声的可感知性。
11.根据权利要求1的方法,其中参数的调节根据补充信息被间接控制,使得一个或多个以下调节特性用于调节的一个或多个参数的选择,参数选择的速率,及参数状态转换速率响应补充信息并作为一个或多个其它信号或序列的函数被确定。
12.根据权利要求11的方法,其中所述一个或多个其它信号或序列包括以下任一个或两者一指令集,及向编码系统的编码器输入的信号的特性。
13.根据权利要求12的方法,其中所述指令集包括确定性序列。
14.根据权利要求13的方法,其中所述确定性序列是伪随机数序列。
15.根据权利要求1的方法,其中所述一个或多个参数在所述编码器功能中被调节。
16.根据权利要求1的方法,其中所述一个或多个参数在所述解码器功能中被调节。
17.根据权利要求1的方法,其中所述一个或多个参数在所述编码器功能和所述解码器功能中被调节。
18.根据权利要求1的方法,用于根据补充信息修改感知编码系统的编码器和/或解码器的操作,并用于检测解码器输出中补充信息,还包括检测解码器功能的输出中的补充信息。
19.根据权利要求18的方法,其中检测解码器功能的输出中的补充信息的行动由以下行动之一实现观察被解码的信号,比较被解码的信号与施加到解码器功能的信号,及比较被解码的信号与来自基本等同的感知编码系统的被解码信号,该感知编码系统中编码器功能或解码器功能中没有参数响应补充信息被调节。
20.根据权利要求19的方法,其中观察被解码的信号的行动包括比较被解码的信号与其时间滞后版本。
全文摘要
一种根据诸如水印等补充信息修改感知编码系统的编码器功能和/或解码器功能的操作的方法,使得补充信息可在解码器功能的输出中可检测。响应补充信息在编码器功能和/或解码器功能中一个或多个参数被调节。
文档编号G10L19/00GK1672418SQ01814062
公开日2005年9月21日 申请日期2001年8月15日 优先权日2000年8月16日
发明者马修·奥布雷·沃特森, 迈克尔·米德·特鲁曼, 斯蒂芬·德克尔·维尔农, 布雷特·格拉汉姆·克罗克特 申请人:多尔拜实验特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1