指示音频对象的部分的元数据时间标记信息的制作方法

文档序号:6747717阅读:190来源:国知局
专利名称:指示音频对象的部分的元数据时间标记信息的制作方法
技术领域
本申请涉及音频编码,尤其涉及音频数据中的用于指示音频对象的部分的元数据。
背景技术
常常可以通过聆听音乐片段的特征部分(诸如副歌合唱(chorus))来识别音乐片段。此外,聆听音乐片段的特征部分也足以评价音乐听众是否喜欢音乐片段。当音乐听众寻找存储为数字音频数据的音乐片段的特征部分时,他必须手动地在音乐片段内快进以寻找该特征部分。这是繁重的,当音乐听众在大的音乐集合中浏览多个音乐片段以寻找特定的音乐片段时尤其如此
发明内容
本发明的第一方面涉及用于在音频数据中编码时间标记信息的方法。优选地,包括时间标记信息的编码音频数据被存储在单个音频文件(诸如MP3 (MPEG-1音频层3)文件或AAC (高级音频编码)文件)中。根据本方法,时间标记信息被编码为音频数据中的音频元数据。时间标记信息指示音频数据中编码的音频对象的至少一个部分。例如,时间标记信息可指定该部分的开始位置和结束位置或仅仅指定开始位置。所述至少一个部分可是音频对象的特征部分。该特征部分常常使得通过收听该特征部分可即时识别所述音频对象。音频数据中编码的该时间标记信息使得能够即时浏览到所述音频对象的某个部分。因此,避免了手动寻找音频对象以寻找某个部分。音频数据中编码的该时间标记信息使得能提取某个部分,例如,特征部分,特别是合唱(chorus)。该部分可以被用作铃声或警报信号。为此,该部分可以被保存在新文件中,或者当播放铃声或警报音调或信号时,音频数据中的时间标记可用于开始特定部分处的重放。当至少一个部分是音频对象的特征部分(即,重要部分或代表部分)时,标记部分结合时间标记信息提供了使得通过收听能够即时识别的音频对象的音频缩略图。即使听众设备支持音频数据的自动分析以发现某个部分,诸如音乐片段的特征部分,用于寻找所述部分的分析也是不需要的,这是因为时间标记信息已经提前被识别并包括在首频数据中。应该注意音频数据可以是单纯的音频数据、复合多媒体视频/音频数据(诸如MPEG-4视频/音频比特流或MPEG-2视频/音频比特流)、或者这样的复合视频/音频数据的音频部分。时间标记信息可当产生音频数据时被编码,或者该时间标记信息可包括在给定音频数据中。
从编码器输出的或输入到音频解码器的音频数据一般形成比特流。因此,在本申请中,可使用术语“比特流”替代术语“音频数据”。包含时间标记信息的编码音频数据优选地被保存在存储介质上储存的单个文件中。然而,编码音频数据(换句话说编码比特流)可通过复用分离的文件(具有音频信息的一个音频文件以及具有一个或多个时间标记的一个元数据文件)的信息而产生。音频数据可用于流应用,诸如因特网无线电比特流或包括音频和视频的多媒体比特流。可替换地,音频数据可保存在听众的存储介质(诸如闪存或硬盘)中。优选地,音频对象通过感知编码方法(诸如MP3、DoIby数字化或(HE-) AAC中所用的编码方法)被编码。可替换地,音频对象可是PCM(脉冲码调制)编码的音频对象。
例如,音频对象可以是音乐片段或讲话记录,诸如音频书。优选地,时间标记信息的编码允许向前兼容,即,时间标记信息的编码以如下方式执行不支持时间标记信息的解码器可跳过该信息。优选地,可实现向后和向前兼容。向后兼容指得是支持时间标记信息的解码器(例如,具有用于时间标记元数据的提取器和处理器的HE-AAC解码器)可读取不具有时间标记信息的常规音频数据(例如,常规HE-AAC比特流)以及具有时间标记信息的音频数据(例如,具有附加的时间标记元数据的ffi-AAC比特流)。向前兼容性指得是不支持时间标记信息的解码器(例如,常规的HE-AAC解码器)可以读取不具有时间标记信息的常规音频数据以及具有时间标记信息的音频数据的常规部分(在这种情况下,因为不支持,时间标记信息被跳过)。根据实施例,时间标记信息指示音频对象的特征部分的位置。例如,在音乐片段的情况下,时间标记信息可指示合唱、副歌或其部分。换句话说时间标记元数据指向重要部分或代表部分。这使得解码音频比特流的音乐播放器能够在重要时刻开始重放。时间标记信息可以指示音频对象中的例如在音乐片段或音频书中的多个部分。换句话说时间标记信息可包含和多个音频对象部分相关的多个时间标记。例如,时间标记信息可指明多个部分的开始点和结束点的时间位置。这使得可浏览到音频对象内的不同部分。时间标记信息可指定与音乐片段的时间音乐结构有关的不同时间位置。换句话说时间标记信息可指示音乐片段内的多个部分,该多个部分涉及时间音乐结构的不同部分。例如,时间标记信息可指示如下部分中的一个或多个的开始例如,前奏、第一主歌(verse)、第一副歌或合唱、第二(第三)主歌、第二(第三)副歌或合唱或过渡乐节(bridge)。时间标记信息也可以标记音乐片段内主导旋律(motive)、主题和/或主题变奏。此外,时间标记信息可指定其他音乐方面,诸如歌声(singing voice)的出现(例如,第一个歌唱项(vocal entry)),或涉及音乐配置,诸如特定乐器的出现(具别地,某个乐器的独奏(solo)出现)或乐器组(例如,铜管乐器部分、背景音乐)的出现,或音乐片段中最大声部分。该时间标记信息也可指示具有特定音乐属性的部分。音乐属性可以是例如特定音乐类型或类别、特定曲调、特定节拍、特定音调、特定发音。该时间标记的部分也可与用于标注该部分的标签信息相关。例如,标签信息可描述部分的若干音乐属性,诸如音乐类型或类别(例如,轻音乐、经典音乐、电子音乐等)、相关曲调(例如,快乐的、悲伤的、进取的)、节奏(例如,由每分钟的节拍指定或由音乐项标注的音频信号的速度或步速,诸如,欢快的,舒缓的等)、音频信号的部分的音调(例如,A大调、C小调)或发音(例如,次断音、连奏、拨奏)的说明。标签信息可包括在另一元数据字段中。该标签信息可包含文本标签。可替换地,为了标注,时间标记也可以和例如如上所述地指定音乐结构或音乐属性的表中的索引相关。在这种情况下,各个标签的索引可包括在音频数据中作为标签信息。该查询表的示例如下所示
权利要求
1.一种在音频数据中编码时间标记信息的方法,该方法包括 -编码时间标记信息为所述音频数据中的音频元数据,所述时间标记信息指示所述音频数据中音频对象的至少一个部分。
2.如权利要求I所述的方法,其中所述音频对象是音乐片段。
3.如权利要求1-2中任一项所述的方法,其中所述部分是所述音频对象的特征部分。
4.如权利要求3所述的方法,其中所述音频对象是音乐片段,以及所述部分是合唱、副歌或其部分。
5.如前述权利要求中任一项所述的方法,其中所述时间标记信息指示所述音频对象的多个部分。
6.如权利要求5所述的方法,其中所述音频对象是音乐片段,以及所述多个部分是涉及所述音乐片段的时间音乐结构的不同部分。
7.如权利要求6所述的方法,其中所述多个部分包括如下部分中的至少一个 -前奏, -主歌, -副歌或合唱, -过渡乐节,或 -独奏。
8.如前述权利要求中任一项所述的方法,其中所述音频对象是音乐片段,以及所述时间标记信息指示如下中的至少一个 -所述音乐片段中特定乐器或乐器组的出现, -歌声的出现, -所述音乐片段的最大声部分, _主题J -主导旋律,或 -主题变奏。
9.如前述权利要求中任一项所述的方法,其中所述音频对象是音乐片段,以及所述时间标记信息指示具有特定音乐属性的部分。
10.如权利要求9所述的方法,其中所述音乐属性包括如下中的一种 -特定节拍, -特定发音, -特定曲调, -特定音调,或 -特定音乐类型或类别。
11.如前述权利要求中任一项所述的方法,其中所述时间标记信息指定所述部分的 -开始位置;和 -结束位置或持续时间。
12.如前述权利要求中任一项所述的方法,所述方法包括 -在所述音频数据中编码标签信息,所述标签信息标注所述音频对象的至少一个部分。
13.如权利要求12所述的方法,其中所述标签信息被编码为文本标签。
14.如权利要求12或13中任一项所述的方法,其中所述标签信息被编码为表的索引。
15.如前述权利要求中任一项所述的方法,其中所述时间标记信息包括 -秒值, -秒值和小数秒值, -样本数, -帧数, -整数帧数和整数样本数,或 -整数帧数和小数帧值。
16.如前述权利要求中任一项所述的方法,其中所述时间标记信息被编码在所述音频 数据的头部分中。
17.如权利要求1-15中任一项所述的方法,其中所述时间标记信息被编码在所述音频数据的多个部分中。
18.如权利要求17所述的方法,其中所述多个部分在所述音频数据比特流中以特定出现率出现。
19.如权利要求17或18中任一项所述的方法,其中多个部分的给定部分中的所述时间标记信息相对于所述比特流中所述给定部分的出现而指定。
20.如前述权利要求中任一项所述的方法,其中所述音频数据是用于流应用的比特流。
21.如权利要求20所述的方法,其中所述比特流是无线电比特流。
22.如前述权利要求中任一项所述的方法,进一步包括 -确定所述时间标记信息,其中所述时间标记信息来自于 -提取算法或服务, -外部数据库,或 _手动输入。
23.如前述权利要求中任一项所述的方法,其中所述时间标记信息被编码在元数据容器中。
24.如前述权利要求中任一项所述的方法,其中所述时间标记信息被编码在如下容器中 -ID3容器或扩展ID3容器, -MPEG-I或-2层的I、II或III音频数据的辅助数据容器, -MPEG-2或-4AAC音频数据的扩展有效载荷容器,或 -MPEG-4部分12兼容的元数据容器。
25.一种解码音频数据中的时间标记信息的方法,所述方法包括 -解码在所述音频数据中提供为音频元数据的时间标记信息,所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。
26.如权利要求25所述的方法,其中所述音频对象是音乐片段。
27.如权利要求25-26中任一项所述的方法,其中所述部分是所述音频对象的特征部分。
28.如权利要求25-27中任一项所述的方法,进一步包括 -在所述部分的开端开始重放,所述开端由所述时间标记信息指示。
29.如权利要求28所述的方法,进一步包括 -在所述部分的末端停止重放,所述末端由所述时间标记信息指示;以及 -再次开始在所述部分的所述开端的重放。
30.如权利要求28-29中任一项所述的方法,其中解码所述时间标记信息以及在各个部分的开端的重放对于多个音频对象执行。
31.如权利要求28-30中任一项所述的方法,其中 -所述音频数据中多个音频对象的时间标记信息被解码,以及 -对于多个音频对象,相继地,开始在各个音频对象的各个部分的开端的重放。
32.如权利要求31所述的方法,其中所述音频数据和无线电信道相关。
33.如权利要求32所述的方法,其中所述方法对于多个无线电信道执行。
34.如权利要求28-33中任一项所述的方法,其中 -使用和多个无线电信道相关的多个比特流,解码多个比特流中的时间标记信息,以及-对多个比特流的每个,相继地,在由各个比特流的所述时间标记信息指示的至少一个相应部分的开端开始重放。
35.如权利要求25-34中任一项所述的方法,其中所述部分用作铃声或警报信号。
36.如权利要求35所述的方法,其中 -所述部分被存储在用于重放所述铃声或警报信号的文件中,或-指示所述部分的所述时间标记信息用于在用于重放所述铃声或警报信号的所述部分的开端开始重放。
37.如前述权利要求中任一项所述的方法,其中包括所述时间标记信息的所述音频数据被存储在文件中。
38.如前述权利要求中任一项所述的方法,其中所述音频对象由感知编码方法进行编码。
39.如权利要求1-25所述的方法,其中编码所述时间标记信息允许向前兼容。
40.一种被配置用于在音频数据中将时间标记信息编码为音频元数据的编码器,所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。
41.一种被配置用于解码在音频数据中提供为音频元数据的时间标记信息的解码器,所述时间标记信息指示在所述音频数据中编码的音频对象的至少一个部分。
42.一种包含根据权利要求41所述的解码器的音频播放器。
43.如权利要求42所述的音频播放器,其中所述音频播放器被配置用于在所述部分的开端开始重放,所述开端由所述时间标记信息指示。
44.一种音频数据,所述音频数据包括作为音频元数据的时间标记信息,所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。
45.一种存储介质,所述存储介质包括包含音频数据的文件,所述音频数据包括作为音频元数据的时间标记信息,所述时间标记信息指示所述音频数据中编码的音频对象的至少一个部分。
全文摘要
本申请涉及一种在音频数据中编码时间标记信息的方法。根据该方法,时间标记信息被编码为音频数据中的音频元数据。该时间标记信息指示音频数据中编码的音频对象的至少一个部分。例如,时间标记信息可指定部分的开始位置和结束位置或仅仅开始位置。该至少一个部分可以是音频对象的特征部分,其使得通过聆听可即时识别。在音频数据中编码的该时间标记信息使得能够即时浏览到音频对象的某个部分。本申请进一步涉及用于解码在音频数据中编码的时间标记信息的方法。
文档编号G11B27/10GK102754159SQ201080047066
公开日2012年10月24日 申请日期2010年10月14日 优先权日2009年10月19日
发明者B·雷施, J·恩德加德 申请人:杜比国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1