用于记录数字数据的方法和设备的制作方法

文档序号：7959732阅读：264来源：国知局

专利名称：用于记录数字数据的方法和设备的制作方法
技术领域：
本发明涉及一种用于记录数字数据的方法和设备。
背景技术：
MXF(素材交换格式)是一种将视听(AV)素材与相关数据和元数据进行交换的文件格式，为这些数据提供包装。它是基于分组的，并且可以被用于例如存储具有相关元数据的数据、以可流传输的格式(即允许在传送同时进行查看的格式)存储文件、或者包装任意压缩或未压缩的数据。
各种应用(例如用于数字电影的专业摄像机)记录或处理未压缩视频。根据视频光栅或帧速率以及每一个象素的颜色分辨率，逐行扫描系统中每一帧或者隔行扫描系统的每一场所需的信息量是恒定的。如果添加恒定大小的报头，如在MXF包装中所做的，这同样是适用的。
除了视频信息(即实际画面项)之外，分别与每一个视频帧或场一起存储其他信息。该信息可以包括例如包含关于例如视频光栅的信息的系统项、包含伴随视频的音频信息的声音项以及包含任意种类元数据(尤其是与描述性的元数据相对的结构元数据)的数据项。具有相应报头的这四个项(即系统项、画面项、声音项和数据项)的序列包含一帧或一场的信息，并且处于针对每一个新输入的帧或场而重复的MXF文件中。因此，具有恒定数据量的画面项具有恒定的持续时间，该持续时间由所采用的帧速率和视频光栅定义，例如每一帧1/24秒。相关的声音项同样具有由音频采样速率定义的恒定持续时间，例如对于96kHz音频采样速率为每一样本1/96000秒。在这种情况下，96000/24＝4000个音频样本的量属于每一帧。
因为定义了各种标准视频帧速率和音频采样速率并且可以独立地组合，所以每一视频帧或场的音频样本量可以改变。
然而，对于视频帧速率和音频采样速率的一些组合，比值是非整数值。不同视频系统之间的转换可能导致非整数的帧速率。例如，可以采用29.97fps(每一秒的帧)的视频帧速率，这对应于1/29.97秒的帧持续时间。在这种情况下，与该持续时间相匹配的音频样本的数目是96000/29.97＝3203.203...，是非整数值。用于调节音频或视频数据的一般解决方案是在连续帧的序列上分配音频样本，从而在多个帧上实现平均音频速率。然而每一帧的音频样本的量改变，因此每一帧的音频数据改变，从而帧具有可变大小。

发明内容
本发明是基于对如下事实的认识。对于像快进、后退、快退、慢动作、单帧提取等特技模式，目前在记录(和/或回放)设备中必须解码文件，以便找到任意帧或场的开始、或者任意的特定位置。
本发明简化并因此改进了该过程，并因此能够进行例如加速的特技模式。希望属于一个帧/场的信息的开始在文件中的字节上是等距离的，因为这样则解码器可以通过在文件中应用地址偏移来找到任意帧或场的开始，而不需要解码文件本身。同样通过仅加上或减去这种偏移，向后或向前跳过多个帧或跳转到文件中的给定位置是可能的。
具体地，根据本发明的方法提供了一种将任意的定义音频采样频率处的音频样本和视频样本封装到恒定大小的容器内的方式，从而在一个视频帧/场所需的时间段内存在整数量的音频样本，而与使用的视频光栅无关。
根据本发明，确定在属于帧的数据集内的音频数据或声音项的大小范围，在该范围内大小可以变化，并且根据该变化来修改紧接的数据项的大小。因此，容器内声音项和紧接的数据项的和是恒定的，这在帧的所有四个项的数据上实现了恒定的长度，并因此实现了恒定的帧长度。
所公开的方法可用于记录数字化视频、音频和附加系统数据或元数据，其中，使用定义的视频帧速率、视频采样速率和音频采样速率。在数字化之前不显示视频和音频数据，他们分别直接来自摄像机或麦克风。该方法包括多个步骤，这些步骤如下。
在第一步骤中，接收系统和摄像机参数数据或元数据，例如视频帧速率、分辨率、逐行扫描/隔行扫描指示、音频帧模量、电影格式标识符、场景/镜头/开拍板(slate)数据、数据和/或时间码数据。例如可以从处理单元、存储器、开关等接收数据。
在第二步骤中，产生包含数字化视频数据的完整帧或场的第一键-长度-值(KLV)编码分组，其中，帧或场与取决于帧速率和模式的定义时间段相对应。例如，当视频帧速率是1/25秒并且帧类型是逐行扫描时，此时间段是1/25秒。因为未压缩视频数据，所以第一KLV编码分组包含定义量的视频数据，该定义量根据每一个帧或场的象素数目和每一个象素的比特数目得到。例如，对于分辨率为1920×1080象素、对每一RGB信号进行10比特量化的情形，帧的数据量是62208000比特或1944000字(每一个字具有32比特)。
第三步骤是产生第二KLV编码分组，所述第二KLV编码分组包含与跟上述视频数据相同的1/25秒相对应(即相同的时间段是所述定义时间段)的数字化音频数据，其中，第二KLV编码分组的数据量取决于所述定义音频采样速率和分辨率深度(字宽度)以及视频帧速率所给出的时间段。例如，对于96kHz的采样速率和24比特的分辨率，每1/96000秒接收到每一个信道24比特的样本。可以计算每一个时间段的音频数据的量，例如，96000/25＝3840个样本，每个样本24比特。然而，当帧时间段是非整数值时，其具有相应的非整数数目的音频样本。则，根据本发明，或者最后的样本被移动到下一个帧，或者延长当前的音频帧以完全包括最后的样本。因为在第一种情况中下一个音频帧可能同样必须包括它自己的最后样本，所以音频帧的大小可以在平均值周围的两个音频样本的范围内变化。计算并可以例如存储这些可能的最小和/或最大值，因为只要音频和视频参数是稳定的，就只需要计算这些值一次。根据固定的方案或自适应地做出音频帧中样本数目的决定。固定方案例如可以是给每第五个帧分配比其他帧少一个的样本。
在第四步骤中，计算所述第二KLV编码分组的数据量(是整数样本数目)和通常的预定固定值之间的差。该差可以是非整数值、或者样本的片断。优选地，预定固定值是音频数据的最大可能量。
第五步骤是产生至少包含应用数据(例如时间码数据)和缺省数据(即填充字节)的第三KLV编码分组。优选地，缺省数据的量是在前一步骤中计算出的值。下面给出第四和第五步骤的更一般的说明。
在上述视频帧速率为1/29.97的示例中，在五个帧上的音频样本的数目近似恒定5*96000/29.97～16016，导致平均每一个帧3203.2个音频样本。
第六步骤是产生并记录至少包含前面产生的第一、第二和第三KLV编码分组(即视频、音频和附加数据分组)的应用分组。这种应用分组例如是MXF文件中的内容分组，如图1和2所示。在该示例中附加数据被分配到附加数据分组(DatI)和系统数据分组(SysI)，其中，系统数据分组(SysI)具有恒定的大小。
结果，缺省数据VPD的量和音频数据VA的量的总和恒定。因为分组被键-长度-值编码的，所以计算第三分组的长度并写入长度值LD中。
在权利要求8中公开了一种用于记录数字化视频、音频和附加系统数据的设备，其中，使用定义的视频帧速率和采样速率以及定义的音频帧速率。这种设备包括用于接收包括摄像机数据的恒定长度系统数据和像输入级等恒定长度时间码数据的装置；用于产生包含数字化视频数据的完整帧或场的第一KLV编码分组的装置，其中，帧或场与取决于帧速率和模式的定义时间段相对应，并且，第一KLV编码分组包含根据每一个帧或场的象素数目和每一个象素的比特数目所得到的定义量的视频数据；用于产生包含与跟所述定义时间段相同的时间段相对应的数字化音频数据的第二KLV编码分组的装置，其中，第二KLV编码分组的数据量取决于所述定义音频采样速率，并且可以在最小和最大值之间变化；用于计算第二KLV编码分组的所述数据量和第二KLV编码分组中所述最大数据值之间的差的装置；用于产生至少包含时间码数据和缺省数据的第三KLV编码分组的装置，其中，缺省数据的量是所述计算的差；以及用于记录至少包含第一、第二和第三KLV编码分组的应用分组的装置。原则上可以在任意存储设备(例如闪存设备)上进行该记录。
在本发明的一个实施例中，该设备还包括用于使接收到的模拟视频和/或音频数据数字化的装置，例如模数转换器(ADC)。
在从属权利要求、下面的说明和附图中公开了本发明的有利实施例。

参考

了本发明的示例性实施例，其中图1是具有系统、视频、音频和辅助部分的MXF格式化应用帧；图2是具有根据本发明修改的辅助部分的MXF格式化应用帧；图3是根据本发明的应用帧的音频和辅助部分的细节；以及图4是在视频帧时间段期间的音频样本。
具体实施例方式
在电影和摄像的领域，尤其是在不使用压缩的专业摄像领域中，公知的问题是视频帧的时间段经常是音频样本的持续时间的非整数倍。对于封装视频和相应的音频数据(例如根据MXF格式)，这是希望的。尽管下面的示例是基于MXF格式的，显而易见的是本发明还适用于其他格式。实现声音项的MXF一致表示的一种方式是将最后的音频数据样本LS的几个字节移动到相邻的分组，如图4所示，从而表示帧周期fp的时间的每一分组AUD1、AUD2仅包含完整的音频样本，并且不包含其片断。结果，导致MXF文件中音频条目为不同长度。下面，采用逐行扫描的视频系统，因此只提到帧。显而易见的是本发明同样适用于隔行扫描视频系统，在这种情况下视频帧对应于视频场。
图1示出了以MXF格式记录的文件的主体。因此，它还被称为基本容器(EC)。在它之前是未示出的文件报头。文件主体包含多个被称为内容包(CP_1、CP_2、CP_3、…、CP_N)的应用分组。例如，在处于摄像机内的或附加在摄像机上的闪存上执行记录，并且整个文件属于单个摄像镜头。每一个内容包(CP_1、CP_2、CP_3、…、CP_N)包含与一个视频帧相对应的数据，包括未压缩的视频数据、未压缩的音频数据、系统数据以及例如结构元数据之类的附加数据(例如摄像机参数)。
示例性地，根据本发明的内容包的结构可以如下。
内容包包含四项，所有四项都被KLV(键-长度-值)编码。键具有16字节的恒定长度并且指示项的类型，值字段包含各个应用数据(例如视频或音频数据)，并且长度值具有4字节的长度并且指示值字段中的数据量。因此，可以确定内容包的长度为16字节+4字节+(长度字段的值)。
通常，根据本发明的内容包需要至少包含三项，即视频或画面项PicI，持有视频帧时间段fp的视频数据；音频或声音项AudI，持有相同时间段的音频数据，但是由各个音频采样速率的整数个完整音频样本近似，其中，声音项AudI的数据量可以在定义的范围内变化；以及至少一个其他项DatI，其至少包含与声音项AudI具有的变化范围相同多的填充字。
系统项SysI由各自的键KS、长度字段LS和值VS组成。对于本发明假定值VS的长度总是四个字节，并因此长度字段LS具有值四。然而，尽管长度是恒定的，MXF格式规定了KLV编码的使用。
画面项PicI由各自的键KP、长度字段LP和值VP组成。值VP包含完整帧的未压缩视频数据，因此由长度字段LP所指示的其长度对于所有帧(至少在一个镜头的连续序列中)都是恒定的。
声音或音频项AudI由各自的键KA、长度字段LA和值VA组成。值VA包含与画面项PicI的视频帧的时间相对应的未压缩音频数据。因此由长度字段LA所指示的其长度不是恒定的，而是取决于音频采样频率和视频帧速率之间的比。
最后，如图2所示，数据项DatI由各自的键KD、长度字段LD和值VD组成，值VD又包括应用数据的固定长度第一值VDA和缺省或填充数据的可变长度第二值VDP。因此由长度值LD所指示的其长度不是恒定的，而是取决于之前的声音项AudI的长度，使得声音项AudI和数据项DatI一起具有恒定长度。因此，整个内容包CP_3、因此基本容器EC中的所有内容包CP_1、CP_2、CP_3、…、CP_N都具有恒定长度。
可以针对给定的视频光栅来计算任意声音项的最小和最大长度。当声音项的长度小于平均值时，则延长数据项，并且如果声音项长于平均值，则数据项就不那么长。
长度(声音项(帧_n))+长度(数据项(帧_n))＝常数因为系统项和画面项具有恒定长度，这将导致长度(系统项(帧_n))+长度(画面项(帧_n))+长度(声音项(帧_n))+长度(数据项(帧_n))＝常数数据项的长度不是严格的。可以填充数据项中未使用的空间。
下面，根据图3更详细地说明上面解释的本发明方法的第四和第五步骤。
在第四步骤中，计算整数样本数目的KLV编码音频分组的数据量和通常的预定固定值之间的差。该差可以是非整数值、或者样本的片断。原则上预定固定值可以是任意值。优选地，预定固定值是音频数据的最大可能量，因此差指示剩下的可用数据量，并且只可以是零或正数。作为另一个示例，可以将其设置为每一个视频帧时间段的音频样本的平均量。在接下来的步骤中将再一次使用预定固定值。
第五步骤是产生至少包含应用数据(例如时间码数据)和缺省数据(即填充字节)的第三KLV编码分组，其中，按照在前述第四步骤中计算的差跟最大可能音频分组长度与在前一步骤中使用的预定固定值的差之间的差，来计算缺省数据的量。如上所述，在优选变体中，预定固定值等于最大可能音频分组长度，因此在前一步骤中计算的值同样是缺省数据的量。如果最大音频分组长度是maxA，并且实际音频分组长度是LA并且预定恒定值是X，则前一步骤计算了(LA-X)，并且当前步骤计算缺省数据量VPD如下VPD＝(maxA-X)-(LA-X)＝maxA-LA然而可以向该数目VPD添加恒定值，因此应该将其视为最小值。
作为示例，可以在作为摄像机一部分的或附加在摄像机的设备中使用本发明。这可以是用于记录数字化视频、音频和附加系统数据的存储设备，包括用于从摄像机接收数字值的装置，其中数字值具有恒定长度并且包括例如视频帧速率、视频采样速率、音频采样速率之类的摄像机数据和恒定长度的时间码数据；用于从摄像机接收模拟或未压缩数字视频和音频数据的装置，其中，该装置包括模数转换装置，用于在接收到的视频和/或音频数据是模拟数据时使它们数字化；用于产生包含数字化视频数据的完整帧或场的第一KLV编码分组的装置，其中，帧或场对应于取决于帧速率和模式的定义时间段，并且，第一KLV编码分组包含根据每一帧或场的象素数目以及每一象素的比特数目所得到的定义量的视频数据；用于产生包含与跟所述定义时间段相同的时间段相对应的数字化音频数据的第二KLV编码分组的装置，其中，第二KLV编码分组的数据量取决于所述定义音频采样速率；用于计算第二KLV编码分组的所述数据量和预定值之间的差的装置；用于产生至少包含时间码数据和缺省数据的第三KLV编码分组的装置，其中，缺省数据的量是所述计算的差；以及用于记录至少包含第一、第二和第三KLV编码分组的应用分组的装置。
通常这种设备记录大量的应用分组，其中，所有记录的应用分组具有由数据量和被填充到数据项分组中的填充数据的选定量所预定的恒定长度。
此外，这种设备可以包括用于在文件中导航的装置，其中，该装置包括用于存储和检索预定恒定长度的应用分组的装置；以及用于通过从已知地址加上或减去应用分组的长度，来在文件中跳过应用分组的装置。
本发明具有可以容易地在文件中导航的优点，因为可以容易地检测和计算帧的开始或帧中的固定位置，而不需要调查每一个分组。例如，可以通过使地址增加(或减少)N*(帧长度)来实现向前(或向后)跳过N帧。在所有生产后的步骤(例如特技模式、后退、前进、选择每第n帧等)中这是有利的。
有利地，音频采样频率独立于视频光栅，因此对于与标准一致视频光栅相结合的音频采样使用标准一致采样频率是可能的。
示例性地，可以以MXF格式将所有应用分组记录在单个文件的基本容器中。
权利要求
1.一种用于记录数字化视频、音频和附加系统数据的方法，其中，使用定义的视频帧速率或场速率以及定义的音频采样速率，所述方法包括步骤接收包括摄像机数据的恒定长度数字数据和恒定长度时间码数据；产生包含数字化视频数据(VP)的完整帧或场的第一KLV编码分组(PicI)，其中，第一分组(PicI)具有预定的恒定大小；产生第二KLV编码分组(AudI)，所述第二KLV编码分组(AudI)包含在预定范围内实质上与第一分组(PicI)的所述数字化视频数据相对应的数字化音频数据(VA)，其中，数字化音频数据是由视频帧速率或场速率和音频采样速率所确定的整数数目的音频样本；确定所述第二KLV编码分组(AudI)的数据量和预定最大数据量(maxA)之间的差(maxA-LA)；产生至少包含时间码数据(VDA)和缺省数据(VDP)的第三KLV编码分组(DatI)，其中，缺省数据(VDP)的量是所述差(maxA-LA)加上非负整数常数；以及记录至少包含第一(PicI)、第二(AudI)和第三(DatI)KLV编码分组的应用分组(CP_3)。
2.根据权利要求1所述的方法，其中，预定范围是一个或两个音频样本。
3.根据权利要求1或2所述的方法，其中，非负整数常数是零。
4.根据上述权利要求之一所述的方法，其中，所述确定使用固定方案。
5.根据前一权利要求所述的方法，其中，由视频帧速率和音频采样速率确定固定方案。
6.根据上述权利要求之一所述的方法，其中，记录多个应用分组(CP_1、CP_2、…、CP_N)，并且所有记录的应用分组(CP_1、CP_2、CP_3、…、CP_N)具有相同的预定长度。
7.根据上述权利要求之一所述的方法，其中，以MXF格式将所有应用分组(CP_1、CP_2、CP_3、…、CP_N)记录到单个文件(EC)中。
8.一种用于记录数字化视频、音频和附加系统数据的设备，其中，使用定义的视频帧速率或场速率以及定义的音频采样速率，所述设备包括用于接收包括摄像机数据的恒定长度数字数据和恒定长度时间码数据的装置；用于产生包含数字化视频数据(VP)的完整帧或场的第一KLV编码分组(PicI)的装置，其中，第一分组(PicI)具有预定的恒定大小；用于产生第二KLV编码分组(AudI)的装置，所述第二KLV编码分组(AudI)包含在预定范围内实质上与第一分组(PicI)的所述数字化视频数据相对应的数字化音频数据，其中，数字化音频数据是由视频帧速率或场速率和音频采样速率所确定的整数数目的音频样本；用于确定所述第二KLV编码分组(AudI)的数据量和分组的数据字的预定最大量(maxA)之间的差(maxA-LA)的装置；用于产生至少包含时间码数据(VDA)和缺省数据(VDP)的第三KLV编码分组(DatI)的装置，其中，缺省数据(VDP)的量是所述计算的差(maxA-LA)加上非负整数常数；以及用于记录至少包含第一(PicI)、第二(AudI)和第三(DatI)KLV编码分组的应用分组(CP_3)的装置。
9.根据前一权利要求所述的设备，其中，预定范围是一个或两个音频样本。
10.根据权利要求8或9所述的设备，其中，非负整数常数是零。
11.根据上述权利要求8至10之一所述的设备，还包括用于向产生第三KLV编码分组的所述装置提供固定方案的装置。
12.根据权利要求5至8之一所述的设备，还包括用于在文件(EC)中导航的装置，其中，所述装置包括用于存储和检索预定的恒定长度的应用分组(CP_1、CP_2、CP_3、…、CP_N)的装置；以及用于通过将应用分组长度加到已知地址上来在文件(EC)中跳过应用分组的装置。
13.根据权利要求8至12之一所述的设备，其中，接收到的恒定长度数字数据是摄像机数据，并且设备附加在摄像机上或者是摄像机的一部分。
全文摘要
在每一帧或场所需的信息量是恒定的情况下，各种应用根据视频帧速率和每一象素的颜色分辨率，来记录或处理未压缩视频。因为定义了各种视频帧速率和音频采样速率并可以独立组合，每一视频帧的音频样本量可以改变。所公开的方法允许将音频样本和视频样本封装到恒定大小的容器(例如MXF容器)内，因此在一个视频帧所需的时间段内存在整数量的音频样本，而与使用的视频光栅无关。该方法包括产生恒定长度的KLV编码视频分组(PicI)；产生与视频分组(PicI)相同的时间段相对应的可变长度的KLV编码音频分组(AudI)；产生可变长度的KLV编码数据分组(DatI)，其中音频分组和数据分组的长度总和是恒定的；以及根据所述分组产生恒定大小的内容包(CP_1、…、CP_N)。
文档编号H04N5/91GK1848955SQ20061007357
公开日2006年10月18日申请日期2006年4月10日优先权日2005年4月15日
发明者迪特尔·豪普特, 米夏埃尔·德雷克斯勒申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迪特尔.豪普特;米夏埃尔.德雷克斯勒
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。