数字信息的编码的制作方法

文档序号:7603704阅读:306来源:国知局
专利名称:数字信息的编码的制作方法
技术领域
本发明的通常应用领域涉及将数字信息编码为音频、图像、和视频媒体文件、测定容量数据文件、2-D和3-D样条及其他数据文件等等的改进技术;本发明更具体地但不是专门地旨在使大数据序列能够无缝并灵活地嵌入到特别是压缩的音频、图像、视频、3-D及其他媒体文件等等中,这些大数据序列与在将简单的版权或所有权或有关的有限信息编码到此类媒体文件中的相对较短序列不同,且该技术还可用于其它类型的压缩数据文件和格式。
背景技术
迄今为止,数据常常会被嵌入到模拟表示的媒体信息和格式中。这已经被广泛用在,例如电视和无线电应用中,用于辅助数据,例如电文的传输;但所用的这些技术通常不能够发送高比特率的数字数据。
也已经嵌入水印数据,以便对媒体的降级和操纵具有强壮性。典型的水印技术依赖通过应用于媒体文件的公知类型的变换保存的信号总特征。这些技术又被限制在相当低的比特率。音频水印技术的良好比特率实际上只是每秒编码大约几十比特的数据。
虽然数据已经嵌入到能够利用高比特率的数字媒体信号域的低位,但是这种数据或者不能被压缩,或者只能够具有相对较低的压缩率。此外,许多现代的压缩文件格式不使用这种信号域表示,因而不适于使用此技术。另外,此技术在用于编码声音文件数据时趋向引入声频噪声。
说明这种和相关技术的在先专利有美国专利4,379,947(对同时发送数据与音频的处理);5,185,800(根据心理听觉标准利用自适应量化将位分配用于变换的数字声频广播信号);5,687,236(隐写技术);5,710,834(通过图形图象传送的编码信号);5,832,119(通过嵌入到经验数据的控制信号控制系统);5,850,481(嵌入的文件,但不是用于任意数据或计算机代码);5,889,868(数字数据中的数字水印);和5,893,067(隐藏于声频信号中的回波数据)。
关于这种技术的在先出版物包括Bender,W.D.Gruhl,M.Morimoto和A.Lu的“用于数据隐藏的技术”,1996年的IBM系统期刊第35卷,3&4号,第313-336页。
MPEG规范ISO/IEC III72,1-3部分,信息技术-将活动图象和相关的音频编码为高达大约1.5Mbit的数字存储媒体,1993年版,ISO/IEC;和ID3v2规范http//www.id3.org/easy.html和http//www.id3.org/id3v2.3.0.html将水印用于编码低比特率信息的用于多媒体数据标记和特别用于版权标记的技术概论由Langelaar,G.C.等人在″根据标记技术用于多媒体数据的版权保护″中提出。(http//www-it.et.tudelft.nl/html/research/smash/public/benlx96/Benelux_cr.html)。
在具体联系到上述引用的″MPEG Spec″和″ID3v2 Spec″参考应用中,我们已经在待审查的名称为“用于将可执行程序代码无缝嵌入到由数字媒体播放机和可视系统执行的诸如MP3的媒体文件格式中的处理和系统”的美国专利申请中公开了应用本发明一些嵌入概念的技术,其尤其旨在使预先准备的音频、视频、静止图像、3-D或其它通常未压缩的媒体格式中的一个或多个具有扩展的功能,以便将在数字媒体重放装置中的增加的图形、交互式和/或电子商务展示内容补充到他们预先准备的展示内容中。
但是,如前所述,本发明更广泛的涉及典型地通过傅里叶变换、离散余弦变换、子波变换或其它公知的函数将数据嵌入压缩格式中,以及涉及编码数据的频率表示。本发明将高速数据嵌入到压缩的媒体数字表示中,包括通过修改压缩数据的频率表示系数的低位,从而能够得到快速的编码和译码的额外收益,因为压缩媒体的系数可以直接变换而不需要冗长的附加的解压缩/压缩过程。本发明的技术也可与水印结合使用,但水印要在数据编码过程之前应用。
先前引用的langelaar等人的出版物又参考和论述了下列其它的现有技术出版物J.Zhao,E.Koch″将强壮标记嵌入图像中用于版权保护″,关于专业化信息、知识和新技术的知识产权的国际会议论文,维也纳,奥地利,1995年8月;E.Koch,J.Zhao″关于强壮和隐藏的图像版权标记″,非线性信号和图像处理的IEEE讨论会记录,Neos Marmaras,1995年6月;和F.M.Boland,J.J.K O Ruanaidh,C,Dautzenberg″水印数字图像用于版权保护″,图像处理及其应用的第五次国际会议论文,No.410,Endinburgh,1995年7月。
Langelaar的另一篇文章还公开了更早的MPEG压缩视频格式标记G.C Langelaar,R.L.Lagendijk,J.Biemond“用于MPEG压缩视频的实时标记法”,Benelnx关于信息理论的第18次研讨会,1997年5月15-16日,荷兰,Veldhoven。
这些Zhao和Koch、Boland等和Langelaar等虽然讲解了部分类似于本发明所采用技术组件的编码技术方法,正如现在要更充分解释的,并没有预料到或实际上适于解决本发明所要解决和探寻的具有期望优势的全部问题。
首先考虑上面参考的Zhao和Koch的方法,他们利用基于JPEG的技术将一信号嵌入图像中。([JPEG]连续色调静止图像的数字压缩和编码,第1部分技术要求和准则,ISO/IEC DIS 10918-1)。他们首先按照三个系数的大小顺序对信号进行编码,这三个系数是从8×8分组DCT的中间频率范围的系数中选择出来的。他们将这三个系数排序关系的九种置换分成三组一组编码“1”位(HML、MHL、和HHL),一组编码“0”位(MLH、LMH、和LLH),第三组编码“无数据”(HLM、LHM和MMM)。他们还将此技术扩展到视频数据的水印。虽然他们的技术对改变具有强壮性和弹性,但他们不能编码大量的数据,因为他们只能改变已经接近于正被编码的数据的数据;否则,他们必须改变系数来编码“无数据”。
他们还必须大量地修改数据,因为他们必须大规模的改变系数的排序关系。正如后面要充分解释的,这些是本发明通过它的编码数据技术克服的不利情况,该编码数据技术只改变系数中的一个比特。
至于Boland、Ruanaidh和Dautzenberg,他们使用这样一种技术,即产生图像的DCT沃尔什变换或子波变换,然后使选择的系数加一以编码“1”位,或从选择的系数减一以编码“0”位。这种技术尽管乍一看表面上有些类似于本发明一部分的一个方面,但具有非常严重的局限性,即只能通过比较编码图像与原始图象才能提取信息,但本发明避免了该局限性。这是指要使水印起作用,必须同时发送任何媒体文件的水印和非水印拷贝。这是相当严重的局限性,本发明通过新的引进使用最小有效位编码技术克服了该局限性。
虽然这种最小有效位编码以前已经被广泛建议了;但没有象在在本发明中那样被实现。例如,Langelaar、Langendijk和Biemond的出版物讲解了这样一种技术,即通过改变表示DCT系数的可变长度码(VLC)的最小有效位来编码MPEG视频信息流中的数据。Langelaar等人的编码通过只允许替换那些可被相同长度的另一个值替换的且幅度差为1的VLC值来保持文件的长度恒定。该编码只是转换该文件并修改所有适当的VLC值。但是,他们技术的缺点在于适当的VLC值相对稀少(在1.4兆位/秒视频文件中每秒167比特,因此在1.4百万比特的信息中只允许编码167个比特)。
比较起来,本发明的技术用于视频时,消除了这种局限性并可以实现更高的比特率同时保持文件长度恒定,即允许一组或一套附近的系数一起被改变。本发明还允许存储更大量的信息而感觉不到影响,因为它允许心理知觉模型来确定对要改变的系数的选择。
实际上,本发明的改进技术不同于现有技术,允许将数字信息编码为速率为高于以前在文献中描述的速率(300比特/秒的数量级)几个数量级的音频、图像或视频文件。正如以后所公开的,实际上,本发明很容易将3000比特/秒的数据流嵌入128,000比特/秒的声音文件中。
在现有技术中,只能将相对较短序列的数据嵌入媒体文件,一般编码简单的版权或所有权信息。我们的技术允许媒体文件包含完全新种类的内容,诸如整个计算机程序、多媒体注释或冗长的补充通信。正如在所述待审查的申请中所述,嵌入媒体文件的计算机程序允许扩展集成交易的各种媒体,包括销售、交互式内容、交互式和传统广告、民意测验、电子商务请求,诸如购买CD或音乐会入场券、和完全反应性的内容,诸如对用户的鼠标动作作出反应和与音乐节拍同步的游戏和交互式音乐视频。这使得购买销售点与音乐能够集成在诸如电视、比如索尼Walkman的便携式装置、Nintendo game Boy和诸如Rio和Nomad的便携式MP3播放器等等的软件和硬件平台上。本发明甚至创建新的商业模型。例如,唱片公司不再设法阻止其歌曲的拷贝,而是鼓励自由和开放的发行音乐,以便嵌入的广告和电子商务消息传播到最大可能的为潜在客户的听众。

发明内容
因此,本发明的一个主要目的在于提供一种新颖和改进的过程、系统和装置,用于将数据嵌入到压缩的音频、图像、视频及其他媒体文件等等中,而不受制于如上所述现有技术的局限性和不利情况,而是相反,能够无缝和轻易地使大序列的数据嵌入到这种压缩数据媒体文件中,能够增加新型的内容,包括但决不局限于整个计算机程序、多媒体注释和冗长的补充通信,以及其它的补充内容。
另一个目的在于提供这样一种其中可以使用数字水印的新的处理过程,但是该水印应用在数据编码处理之前。
还一个目的在于提供这样一种新的嵌入技术,其更通用和普遍适用于测定容量数据文件、2-D和3-D样条数据点文件及其他数据文件。
其它和更进一步的目的将在下面解释,并且更具体地在所附权利要求书中指出。
因此,总的来说,从本发明的一个更广泛的方面,本发明包含将补充数字数据嵌入到一预先准备的压缩数字媒体文件的过程,它包括将该压缩数字媒体文件编码为一组系数表示的该预先准备的媒体文件信息;将该补充数字数据的各个部分嵌入选择的系数处,以便产生包含这种嵌入数据的媒体文件,使用户能够译码和重放预先准备好的媒体文件信息和嵌入的补充数据。
随后详细陈述优选和最佳方式实施例、设计和技术。


现在将结合附图描述本发明,图1是概观根据本发明一优选实施例的数据编码处理和系统、操作的方框图和流程图;图2是一类似图,表示由媒体播放机或电视接收机重放时,对嵌入图1的数据的媒体文件进行译码的概况;图3是类似于图1的视图,表示在编码过程中对先前(和随后)论述的隐写(steganographic)技术的使用;图4示出对具有本发明的编码过程的上述数字水印过程的应用;图5是一示范性信号波形和该信号的基于傅里叶变换的、压缩的、基于系数的表示,用于本发明有用的系数域奇偶校验编码过程中;图6具体为音频数据隐写编码的更详细的方框和流程图,根据本发明,该音频数据通过变换进系数域被压缩、被嵌入数据并被数字水印;图7和8类似于图6,但分别是将数据编码进图像和视频文件中,也是通过将各自的图像和视频数据变换到系数域而被压缩的;图9为一类似图,应用于将数据编码到2-D或3-D样条数据点中;和图10所示为将数据编码到测定容量数据文件中。
具体实施例如前所述,本发明的过程和系统的一个重要的应用在于将补充的相对大量的数据加到预先准备的媒体文件中,该媒体文件已经通过频域变换被压缩,提供一组近似或表示源媒体的系数。这种大量的补充数字数据无缝并轻易地被嵌入到这些文件中。此外,这通过使数字媒体重放装置能够提取补充数据的方式实现,同时保持与现有媒体播放机的向后兼容性。
适当的压缩媒体格式是那些通过将一媒体文件从信号域变换为一组函数系数来压缩该媒体文件的压缩媒体格式;例如,傅里叶变换、正弦变换、余弦变换或子波变换及它们的变型。在这些压缩的媒体格式中,如前所述,这组系数近似源媒体,但其表示小于原始数据文件。
本发明可以操作的适当的压缩媒体格式的例子包括,但不限于前面引用的参考文献中所述的MP3、MP2、MPEG和JPEG格式。该压缩媒体还可以具有额外嵌入的数据,诸如数字水印。
可以嵌入到已压缩媒体的数据包括,但不局限于文本文件、数据库文件、可执行程序代码(诸如Java文件、Macromedia Director、Shockwave或Flash、Peri、VRML、TCL、Visual Basic、机器码或字节代码)、图像文件、声音文件、3-D文件或任何档案格式诸如cab、jar、或zip等等。
用于呈现原始预先准备的媒体文件内容和补充的嵌入数据内容的重放装置类型包括任何一种能够播放或观看媒体文件的计算机系统。播放机的具体例子包括,但不局限于,便携式音乐播放机、个人数字助理(PDAs)、WebTV、数字电视、汽车用立体声收音机、家用声频系统、视频墙和落地式接收机和便携式游戏装置等等。
正如在下文中结合附图中所示的各种系统和应用所更充分解释的,本发明实施的基础在于通过对系数的少量改变编码数字数据信号比特的新技术。因为预先准备的数据文件以数字形式存储和发送,所以小的改变会保持数据原样无损。但是,当用于编码高比特速率的信息时,这些技术未必总是对数据文件的改变具有强壮性,而且该数据可能会被破坏。通过重发数据和小心的选择要修改的系数可以改进强壮性,但在本发明技术的许多期望的应用中,在用户对压缩文件的回放中,只要回放质量不是过度地降低,编码最大的信息比强壮性具有更高的优先级。
现在参见图1,其示出一媒体文件,诸如先前论述的音频、图像、视频、3-D或其它多媒体数据等等,其通过频率变换被编码,被如此标记,并应用前述的傅里叶变换、余弦变换、正弦变换、子波变换或相关的离散变换显示为该媒体数据的系数表示,而且正如图5所示的信号波形和基于系数的图表显示。变换成系数表示造成压缩的媒体文件内容格式。如果预先准备的媒体文件之前已经被编码为系数表示,则当然不需要更进一步的变换步骤。但是,还可能使用更进一步的压缩步骤。
如此压缩的媒体文件内容用图示出,将其以任何一种公知的编码过程(以后会充分讨论)与嵌入该媒体文件的补充数据内容(“数据”)组合,这种附加的数据如前所述是任何一种数字数据,包括但不限于音频、视频、图像、数据库、文本、可执行码或具体于应用的数据等等。然后这会生成具有补充的嵌入数据的媒体文件而不会影响其与现有文件格式的后向兼容性,而且不会显著影响用户重放媒体文件的经历。此外,如果希望的话,图1的变换步骤可以组成编码过程的一部分,甚至可以包括可选择的压缩步骤;或者这些可以用作另外单独的步骤。在对这些变换、压缩和编码过程进行组合的情况下,实际上有可能使用可感觉的编码技术来选择将数据嵌入哪些系数。
继续广泛的论述,译码和重放在图2中示出,在其中如此标记和随后更充分讨论的译码过程取决于图1用于将补充的数据嵌入到媒体文件中的编码过程的类型。一般,这涉及编码过程的简单逆转,这是公知的。如图所示的媒体文件通常在译码过程中不发生改变,因为通常不仅删除数据不可行,而且这样做一般不会改进用户在媒体播放机或电视接收机的重放经历,如在重放环境下的图2所示。但是,补充的数据可以通过熟知的校验和或数字签名来验证(“验证过程”)以确保数据的每个比特都与图1的原始被编码和嵌入的数据相同。
此外,在重放环境中,媒体播放机和执行环境可以彼此通信,这在图2中,由重放机和数据操作环境方框之间的同步(SYNC)线示意地示出,使得补充数据的执行可以与媒体文件内容的重放同步。
之前,在引用的参考文献中提到对利用隐写技术的数据编码的可能的使用,本发明技术的这种应用在图3中示出。在那里示出待要嵌入的补充数据被变换成位流码,同时数据字节被提取成一个个比特表示,使得它们可以作为小变化插入媒体文件中。对要嵌入数据位的媒体文件内容中适当的位置的选择,如所标记的,是根据对微小改变的识别,对实际的媒体内容所作出的微小改变对用户重放该文件的经历的影响最小。但是这种改变必须是可以轻易地通过自动译码过程检测到并恢复该信息。
在图3的“插入可执行码”的步骤中,可以使用多个隐写编码过程(包括前面引用的参考文献)的任何一个。根据本发明,在媒体内容表示为一组函数系数的情况下,最好使用改变一些选择的系数的最小有效位的技术嵌入这些数据位,这在下文还要更充分地讨论。
得到的具有嵌入可执行码的媒体文件在某些情况下也与可能的用户重放经历后向兼容,由于嵌入过程,该重放质量稍微削弱但完全可以接受。
当期望使用具有本发明的编码技术的数字水印时,可以利用图4的系统,在编码过程嵌入数据之前完成媒体文件的水印过程,正如所标记的。有许多不同类型的数字水印过程可以利用,包括那些以前引用的参考文献。大多数水印都很强壮,因此不会轻易地由于媒体文件的改变而消除,因此不会受到后来如图4所示要嵌入数据的“编码过程”的影响。但是因为一些数据嵌入技术对媒体文件的改变不强壮,所以在水印之后实行数据嵌入。因此,在文件具有强壮的水印且包含嵌入其中的补充数据的情况下,获得具有嵌入数据的水印媒体文件。
传统的水印技术只能够以相对较低的比特率嵌入数据;例如,每秒音频大约22个二进制数字(比特)数据。根据本发明,每秒3000比特以上的数据已经轻易地嵌入到以128,000比特/秒的比特率编码的MP3声音文件中。
我们实际上已经成功地完成了本发明多种编码技术的初级测试。利用取自Natalie Merchant的歌曲″Jealousy″的示范性声音文件,我们利用Fraunhofer的MP3enc编码器以128千比特/秒编码为(MPEG)MP3。文件的编码部分为30秒长,大小为720千字节。所选定的主要编码技术是相位/幅度频率-域低位编码技术,同时改变文件中对数据进行编码的间隔。
成功的结果在下面示出

进一步结合音频媒体文件应用,现在参考图6的声音文件数据和编码系统。
如同图1的整体方案,图6的预先准备的声音文件通过前面讨论的变换到系数域被压缩,假如它尚未在系数域编码。但是如果声音文件已经是这种格式,则此步骤不必要,例如在上面报告的测试中的MPEG音频内容,它在DCT域编码。如前所述,在图3的隐写技术系统中,所示的要嵌入到声音文件的补充数据被变换成比特流。
现在的目的是,最好以有规则的间隔选择声音文件变换的几组适当的系数,用于实现根据本发明的数据位嵌入。正如前面指出的,本发明只需要改变选择的系数中的单个比特,不同于现有技术对系数关系的大规模的顺序变化(例如,如同前面引用的Zhao和Koch的参考文献)。这可以通过简单地选择声音文件中连续的一系列系数来选择。优选的技术是选择一组编码音频数据中大范围频率的一组系数(图5)。
对于数据位流的每个比特,图6,组合选择的系数和待被编码的下一个数据位,重新换算(rescale)系数以编码该位(“重新换算”)。如果可能,最好结合量化和重新换算步骤进行,因此可以根据原始系数与期望值的近似程度来选择要改变的系数。而且在量化和重新换算以后,没有这么多据以进行该判断的数据。
而且,重新换算可以在已经编码的音频文件中实现,增加了保持文件大小恒定的限制。在这种情况下,即不可能只是重新换算单个系数编码该比特同时保持帧速率的情况下,可以改变多个系数使得它们的压缩表示保持相同的长度,而且音频文件相应地受到最小的干扰。
此编码可以通过LSB编码过程,或者最好通过LSB奇偶编码(图5)实现。这种奇偶编码允许更多的选择要修改的系数。
参照图5的表所说明的基于系数的表示,这些系数的奇偶性可以通过将他们加在一起来计算12+15+5+3+10+6+12+1=64。因为64是偶数,则当前编码进这些系数的比特值是0。但是,如果希望在这组系数中编码1,唯一必要的使奇校性为奇。这可以通过选择任何幅度或相位值,以及加或者减1来实现。此值的选择可以任意执行或者根据目前用于上述MPEG编码过程的音质模型的类型进行。
这说明了在通过幅度频率域低位编码对数据进行编码中,对一系列系数低位奇偶性的使用。举例来说,假定希望编码一系列,如八个系数的单个比特的数据信息。根据本发明,不是仅仅改变第一个系数的低位,而是通过对八个低位的奇偶性一起修改来影响编码。该算法检验一组连续的系数,提取低位,和计算其中多少被设置。因此,利用本发明的技术,可以编码单个比特的数据,无论设置位的位数是偶数是奇(奇偶性)。这具有提供确定哪组系数要改变的算法选择的优点,如果有的话。
换句话说,此技术可以应用于更宽的数值范围,同时利用更高阶的奇偶性。举例来说,可以在32个系数的范围内对可在两个8-系数区域内被编码的相同数量的数据进行编码,通过累加这32个系数的低位然后计算模4所得的结果(除以四时的余数)。这在选择要改变哪个系数方面提供了更大的灵活性,但是不允许那样多的数据插入到信息流中。
虽然前面已经例如结合图1的总体实施例进行了描述,公知类型的编码过程,包括在此引用的参考文献,可用于实施本发明,现在将详细介绍上面讨论的用于MPEG层III音频声音文件(MP3)的一优选编码过程。在下面的说明中,符号$xx用于表示十六进制编码的八位字节;例如,$00表示二进制数字00000000。此帧是ISO-8859-1(ASCII)字符“EXEC”。这之后是四个八位字节Size标头和两个八位字节Flags标头,如ID3v2规范所述。这之后是$00,表示在该帧内利用ISO-8859-1电文编码,或是$01,表示利用ISO/IEC 10646-1(Unicode)电文编码,以后将提及。标头是首先产生包含对可执行码的描述及其如何被嵌入。第一个八位字节是无符号数,表示要集中在一起表示一位的系数的个数。它通常是8。之后是八个八位字节的无符号数,表示标头加上可执行码的长度。下一个是ISO 8859-1(ASCII)编码的MIME类型的可执行内容,如IETF RFC 2045所述,也在后面提及,后面是$00。例如,上述Macromedia Flash文件的MIME类型是“application/ex-shockwave-flash”。后面是在ISO-8859-(ASCII)中对可执行码的描述,由$00结束。这后面又有单个八位字节,如果没有校验和,其为$00,或如果有校验和,则为$01,如结合图2所述。如果有校验和,后面有单个八位字节的校验和,其通过求和可执行码的八位字节并对该结果模256产生。这非常有用,因为这使可执行码在执行之前被检验,减少存在传输误差的可能性,该传输误差会引起执行错误的指令。
该标头位于可执行内容的开始。然后,通过依次检验每个八位字节和将这些其各个比特按最高有效位到最低有效位顺序放置到一比特流内,使得标头加上内容的整个分组被转换成该比特流。既然已经产生比特流,就必须将其嵌入到MPEG声音文件中。为此,可以使用在此描述的任何技术。一个优选技术是使用先前描述的LSB奇偶性编码。这里,人们可以改变八个系数的组的奇偶性,当然可以使用任何数目。通过选择数据文件中每第七个系数选择这组八个系数。通过这种方法,总共七个比特可以编码在一组56个系数中,其中每组系数包含代表大范围频率的系数。先前描述的奇偶性编码技术可以用来编码每组系数中的一个比特,直到该数据被完全嵌入。在数据太大不能放入文件的情况下,可以利用少于八个系数的奇偶性表示一个比特,尽管这会减低收听经历的质量。当利用除了八个之外的系数个数时,利用八个系数对数据文件的第一个比特编码,然后所有后续的字节利用在第一字节指定的系数个数进行编码。
在本发明的该优选方案中,正如前面结合图2陈述的,译码过程是上述编码过程的简单逆转。将第一个八位字节从音频数据中提取,基于此,也提取所有后续位。如果在标头编码有校验和,则对可执行码的八位字节求和,该结果模256,并与编码的校验和比较。如果它们相等,则执行继续。
根据MIME类型的可执行码,示出了适当的执行环境。在先前讨论的application/x-shockwave-flash类型的情况下,基准执行环境由Macromedia在Flash标准网页http//www.macromcdia.com/software/fash/open/中进行了描述。
然后,该执行环境与声音文件的重放同时被启动开始执行可执行码。其它的应用编程界面(APIs)可以参照该执行环境来定义以便控制发生重放时执行环境相对于声音文件的精确行为。
可用于本发明编码和译码过程部分的上述技术的细节的具体参考文献是[ISO 8859-1]ISO/IEC DIS 8859-1。
8-比特单个字节编码图形字符集,第一部分拉丁字母No.1,技术委员会/下属委员会JTC 1/SC 2;[MIME]Freed,N.and N.Borenstein,“多目的互联网邮件扩展(MIME),第一部分互联网消息主体的格式”,RFC 2045,1996年11月,
<urlftp//fttp.isi.Cdu/in-notcs/rfc2045.txt>;和[UNICODE]ISO/IEC 10646-11993。
通用多个八位字节编码字符集(UCS),第一部分结构和基本多语明文技术委员会/下属委员会JTC 1/SC 2<urlhttp//www.unicode.org>
继续利用图6示出的MPEG音频与视频文件(和图8随后讨论的视频文件),例如参考以前引用的MPEG和MP3参考文献,文件频率表示的幅度系数的最低有效位用于编码程序内容(所谓的幅度频率域低位编码)。依赖需要编码在例如音乐文件的数据量,可将数据保存在小百分比的系数中;也就是说,通过仅修改每第十个系数,或通过利用伪随机的重复序列确定要改变的系数。当应用于MP3格式时,MP3利用附加的霍夫曼编码步骤进一步压缩数据,该系数可在霍夫曼编码之前改变,而在这样情况下,它将稍微改变文件的大小。或者,在本发明的该优选实施例中,系数在编码过程之后被改变或重新换算,如前所述。这避免增加文件的大小以及允许数据提取过程更快地执行。
同样对于具有嵌入数据的水印声音文件,可以如图7所示嵌入图像文件。正如所说明的,如果图像文件尚未编码,只需要变换进系数域。如果图像文件处于一种格式,例如上述的JPEG格式,其在DCT域内编码,则此步骤不是必要的。同样,选定的这组系数最好涵盖图像数据中的大范围的频率。在用于数据比特编码的系数重新换算中,优选奇偶编码,如前所述,其允许对要改变的系数进行更多的选择。
图8类似于图6,但是要变换压缩视频文件而不是声音文件。
图9的数据编码同样类似于图7,但是用于例如在整个3-D模型域使用的2-D和3D样条数据点。它们已经利用系数表示、两维和三维参数方程的编码系数来表示。这种样条的典型例子包括Bezier曲线和非均匀有理B样条(NURBS)。选定用于数据比特流嵌入的这组系数仅仅是样条数据点文件中的一系列连续系数。
作为本发明通用性的另一个例子,图10说明应用本发明的原理来编码测定体积数据文件中的补充数据。测定体积数据用于使用“voxels”-具有第三维的像素表示空间数据集。Voxels通常被排列为3-D阵列,被3-D模型工具和环境用于表示,例如3-D立体模型、磁共振成象(MRI)数据、空间温度分布等等。因为目前没有通用的压缩技术用于这种测定体积数据,因此需要变换成系数域,如图所示。这可以利用公知的3-D变换来完成,例如3-D DCT或3-D快速傅里叶变换。
虽然已经讨论了优选利用,例如压缩音频与视频文件的变换频率表示的幅度或振幅系数的最低位,也可以利用其它的技术,例如相位频率域低位编码,其中,媒体文件的变换频率表示的相位系数的最低位(图5)用于编码该程序。该实施是相同的,除了利用相位系数而不是幅度系数来编码数据之外-并且,在音频内容的情况下,因为人耳对声音的相位比音量较不敏感,在重放时所遭遇的听得见的变形更少。
本领域技术人员也可以作出进一步的改变,这些修改被认为是落入所附权利要求书定义的本发明的精神和范围内。
权利要求
1.一种将补充的数字数据嵌入一预先准备的压缩数字媒体文件中的过程,其包括,将该压缩数字媒体文件编码为一组系数表示的该预先准备的媒体文件信息;并将该补充数字数据的各个部分嵌入选择的系数处,以便产生包含这种嵌入数据的一媒体文件,用于使用户能够译码和重放该预先准备的媒体文件信息和嵌入的补充数据。
2.一种将补充的数字数据嵌入一预先准备的数字媒体文件中的过程,其包括,将该媒体文件变换为经编码的多组频率域系数表示的该预先准备的媒体文件信息并压缩该文件;选择预定的系数组;和将该补充数字数据的各个位嵌入选择的系数处,以便产生包含这种嵌入数据的补充数据文件,用于使用户能够译码和重放该预先准备的媒体文件信息和嵌入的补充数据。
3.根据权利要求2的过程,其中,通过离散变换准备所述系数,所述离散变换包括傅里叶变换、余弦变换、正弦变换和子波变换。
4.根据权利要求2的过程,其中,所述嵌入步骤利用所选系数的最小有效位。
5.根据权利要求4的过程,其中,该所选系数是以有规则的间隔被选择的。
6.根据权利要求4的过程,其中,所述系数被选择作为频率和相位系数中的一个或该两者。
7.根据权利要求4的过程,其中,通过计算一组所述系数的最小有效位的奇偶性来嵌入单一数据位。
8.根据权利要求7的过程,其中,感知编码技术用于选择哪一组所述系数要通过数据嵌入来被修改。
9.根据权利要求8的过程,其中所述系数组的最小有效位的所述奇偶性嵌入一个数据比特,同时使对所述用户感知媒体文件回放的影响最小化。
10.根据权利要求2的过程,其中所述重放保持用于这种重放的装置的后向兼容性。
11.根据权利要求2的过程,其中,利用隐写编码将数据变换成一比特流,且在该媒体文件信息中选择插入和嵌入补充数据位的位置,使得在所述重放期间对用户的感觉影响最小。
12.根据权利要求11的过程,其中,所述插入和嵌入是在选择的系数的最小有效位实现的。
13.根据权利要求2的过程,其中,数字水印是在嵌入该补充数据之前被应用于媒体文件信息的。
14.根据权利要求2的过程,其中,利用隐写编码将数据变换成一比特流;选择系数组以涵盖媒体文件信息中的一个频率范围;且对于比特流中的每个比特,组合所选系数和下一个待编码的比特以便重新换算这些系数并如被嵌入的那样编码该比特。
15.根据权利要求14的过程,其中,选择的该媒体文件信息至少是音频、图像、视频、2D和3D样条数据点和测定体积数据文件中的一种。
16.根据权利要求15的过程,其中,所述媒体文件信息是MPEG格式的音频与视频信息中的至少一个。
17.根据权利要求15的过程,其中,所述媒体文件信息是JPEG格式的图像文件信息。
18.根据权利要求15的过程,其中,所述样条数据是Bezier曲线和NURBS中的一个。
19.根据权利要求15的过程,其中,通过利用3D变换对所述测定体积数据进行压缩。
20.根据权利要求2的过程,其中,所述媒体文件包含音频、图像、视频、2D和3D样条、测定体积和多媒体信息中的一个。
21.一种将补充数字数据嵌入一预先准备的数字媒体文件中的系统,具有结合在一起的,将该媒体文件信息变换为多组频率域系数表示的该预先准备的媒体文件信息并压缩该文件的编码装置;选择预定的系数组的装置;和将该补充数字数据的各个位嵌入选择的系数处的进一步的编码装置,用以产生包含这种嵌入数据的补充媒体文件,使用户能够在重放装置上解码和重放该预先准备的媒体文件信息和嵌入的补充数据。
22.根据权利要求21的系统,其中,所述媒体文件信息从包含音频、图像、视频、2D和3D样条、测定体积和多媒体信息的组中选择。
23.根据权利要求22的系统,其中,所述首先提到的编码装置通过傅里叶变换、余弦变换、正弦变换和子波变换中的一种准备所述系数。
24.根据权利要求21的系统,其中,在操作中,所述进一步的编码装置利用所述选择系数的最小有效位。
25.根据权利要求24的系统,其中,所述选择系数以有规律的间隔被选择。
26.根据权利要求24的系统,其中,所述系数被选择作为频率和相位系数中的一个或两个。
27.根据权利要求24的系统,其中,所述进一步的编码装置通过计算一组所述系数的最小有效位的奇偶性来嵌入单个比特的数据。
28.根据权利要求27的系统,其中,使用感知编码技术来选择哪一组所述系数要通过数据嵌入被修改。
29.根据权利要求28的系统,其中,所述进一步的编码装置响应所述系数组的最小有效位的所述奇偶性嵌入一个数据位,同时,最小化对所述用户感知媒体文件重放的影响。
30.根据权利要求21的系统,其中,所述重放保持该重放装置的后向兼容性。
31.一种将补充数字数据嵌入一压缩数字信息流的过程,其包括,将该压缩数字数据流编码为所述信息的一组系数表示;和将该补充数字数据的各个部分嵌入选择的系数处,以便产生包含这种嵌入数据的信息流,使用户能够解码以呈现所述信息和嵌入的补充数据。
32.一种将补充数字数据嵌入一数字信息流的过程,其包括,将该信息流变换为所述信息的多个经编码的频率域系数表示组并对其进行压缩;选择预定的系数组;和将该补充数字数据的各个位嵌入选择的系数处,以便产生包含这种嵌入数据的补充数据文件,使用户能够解码以呈现所述信息和嵌入的补充数据。
33.根据权利要求32的过程,其中,所述经由选择的系数基本上是按有规则的间隔被选择的。
全文摘要
一种新的处理和系统,用于通过压缩一数字媒体文件(音频、图像、视频、3D、测定容量的和多媒体等等)和将这些文件编码为多组系数表示的该预先准备的媒体文件信息(最好为频域系数表示),最好但不专有地利用经由选择的系数的最小有效位和利用速记编码处理,将辅助数字数据的各个位嵌入选择的系数处,使相对大量的辅助数字数据能够无缝和容易地嵌入到该预先准备的数字媒体文件中。
文档编号H04N1/387GK1379952SQ00812410
公开日2002年11月13日 申请日期2000年3月6日 优先权日1999年9月3日
发明者托马斯·W·米耶, 杰斯林·马休·米耶 申请人:托马斯·W·米耶, 杰斯林·马休·米耶
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1