复杂度可缩放的感知节拍估计的制作方法

文档序号:2827709阅读:125来源:国知局
复杂度可缩放的感知节拍估计的制作方法
【专利摘要】本发明公开了复杂度可缩放的感知节拍估计。本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏的方法和系统。特别地,本申请涉及由人类听众感知的节奏的估计,以及涉及用于以可缩放的计算复杂度进行节奏估计的方法和系统。一种用于从包括谱带复制数据的音频信号的编码的比特流中提取该音频信号的节奏信息的方法和系统。该方法包括以下步骤∶确定对于音频信号的一时间间隔在该编码的比特流中包含的谱带复制数据量相关联的有效载荷量;对于该音频信号的编码的比特流的连续的时间间隔,重复该确定步骤,从而确定有效载荷量的序列;识别该有效载荷量的序列的周期性;以及从识别的周期性提取音频信号的节奏信息。
【专利说明】复杂度可缩放的感知节拍估计
[0001] 本申请是申请号为201080048994. 4、申请日为2010年10月26日、发明名称为"复 杂度可缩放的感知节拍估计"的发明专利申请的分案申请。

【技术领域】
[0002] 本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏 (tempo)的方法和系统。特别地,该申请涉及由人类听众感知的节奏的估计,以及用于以可 缩放的计算复杂度进行节奏估计的方法和系统。

【背景技术】
[0003] 例如PDA、智能电话、移动电话和便携式媒体播放器的便携式手持设备通常包括音 频和/或视频再现(render)能力并且已经变成重要的娱乐平台。此发展由无线或有线传 输能力在这样的设备中的逐渐渗透推进。由于诸如HE-AAC格式之类的媒体传输和/或存 储协议的支持,媒体内容可以被连续下载并存储到便携式手持设备上,从而提供实际上无 限量的媒体内容。
[0004] 但是,由于有限的计算功率和能量消耗是重要的约束,因此低复杂度的算法对于 移动/手持设备是关键性的。这些约束对于新兴市场中的低端便携式设备更加关键。考虑 到在通常的便携式电子设备上可用的海量媒体文件,为了对媒体文件聚类(cluster)或分 类从而使得便携式电子设备的用户能够识别例如音频、音乐和/或视频文件的合适的媒体 文件,MIR(音乐信息检索)应用是期望的工具。用于这样的MIR应用的低复杂度的计算方 案是期望的,这是因为否则,它们在具有有限计算和功率资源的便携式电子设备上的可用 性将受到损害。
[0005] 用于各种MIR应用(例如风格(genre)和情感(mood)分类、音乐概括 (smnmarization)、音频缩略化、自动播放列表生成和使用音乐相似性的音乐推荐系统等 等)的重要的音乐特征是音乐节奏。因而,具有低计算复杂度的用于节奏确定的过程将有 助于对于移动设备的所提到的MIR应用的分散实施的发展。
[0006] 此外,虽然通常通过以BPM(每分钟拍数)计的活页乐谱或乐谱上的标记节奏 (notated tempo)来表征音乐节奏,但是此值通常不对应于感知节奏(perceptual tempo)。 例如,如果一群听众(包括熟练的音乐家)被要求评注音乐选段的节奏,则他们通常给出不 同的答案,即他们通常以不同的度量水平(metrical level)拍击。对于一些音乐选段,感 知的节奏较不含糊,并且所有听众通常以相同的度量水平拍击,但是对于其它音乐选段,节 奏可能是含糊的,并且不同的听众识别不同的节奏。换句话说,感知实验已经显示感知的节 奏可能不同于标记节奏。一段音乐可能感觉比它的标记节奏快或慢,因为占优势的感知的 律动(pulse)可能是比标记节奏高或低的度量水平。鉴于MIR应用应当优选地考虑最有可 能被用户感知的节奏这一事实,自动节奏提取器应当预测音频信号的在感知上最突出的节 奏。
[0007] 已知的节奏估计方法和系统具有各种缺点。在很多情况下,它们限于特别的音频 编解码器,例如MP3,并且不能应用于利用其他编解码器编码的音轨。此外,这样的节奏估 计方法通常仅仅在应用于具有简单明了的旋律结构的西方流行音乐上时才能正常工作。另 夕卜,已知的节奏估计方法没有考虑感知方面,即它们没有针对估计最有可能被听众感知的 节奏。最后,已知的节奏估计方案通常在未压缩PCM域、变换域或压缩域中的仅仅之一中工 作。
[0008] 期望的是提供克服已知节奏估计方案的上述缺点的节奏估计方法和系统。特别 地,期望的是提供编解码器不可知的和/或可适用于任何类型的音乐风格的节奏估计。此 夕卜,期望的是提供一种估计音频信号的在感知上最突出的节奏的节奏估计方案。此外,期望 一种可应用于上述域(即未压缩的PCM域、变换域和压缩域)中的任何一个中的音频信号 的节奏估计方案。还期望提供具有低计算复杂度的节奏估计方案。
[0009] 节奏估计方案可以用于各种应用中。由于节奏是音乐中的基础语义信息,因此这 样的节奏的可靠估计将提高例如自动的基于内容的风格分类、情感分类、音乐相似、音频缩 略化和音乐概括之类的其他MIR应用的性能。此外,感知节奏的可靠估计对于音乐选择、t匕 较、混合和播放列表化是有用的统计。值得注意的是,对于自动播放列表生成器或音乐导航 仪或DJ装置,感知节奏或感觉通常比标记的或物理的节奏更相关(relevant)。此外,对于 感知的节奏的可靠估计可以对游戏应用有用。举例来说,音带节奏可以用于控制相关的游 戏参数,例如游戏的速度,反之亦然。这可以用于使用音频来个性化游戏内容并且用于为用 户提供增强的体验。进一步的应用领域可以是基于内容的音频/视频同步,其中音乐节拍 (beat)或节奏是用作用于定时事件的锚标(anchor)的首要信息源。
[0010] 应当注意,在本申请中,术语"节奏"被理解为触觉律动(pulse)的速率。此触觉 也被称为脚拍击速率,即听众在收听例如音乐信号的音频信号时拍击他们的脚的速率。这 不同于定义音乐信号的层级结构的音乐计量。
[0011] W02006/037366A1描述了用于基于音乐片段的时域PCM表示生成编码的旋律图案 的设备和方法。US7518053B1描述了用于从两个音频流提取节拍并且将这两个音频流的节 拍对齐的方法。


【发明内容】

[0012] 根据一方面,描述了一种用于从音频信号的编码的比特流中提取音频信号的节奏 信息的方法,其中该编码的比特流包括谱带复制数据。编码的比特流可以是HE-AAC比特流 或mp3PR0比特流。该音频信号可以包括音乐信号,并且提取节奏信息可以包括估计音乐信 号的节奏。
[0013] 该方法可以包括确定对于音频信号的时间间隔编码的比特流中所包含的谱带复 制数据的量相关联的有效载荷量的步骤。值得注意的是,在编码的比特流是HE-AAC比特流 的情况下,后一步骤可以包括确定在该时间间隔中该编码的比特流的一个或多个填充元素 字段中所包括的数据的量,以及基于在该时间间隔中包括在该编码的比特流的该一个或多 个填充元素字段中的数据的量来确定有效载荷量。
[0014] 由于谱带复制数据可以使用固定头部被编码这一事实,在提取节奏信息之前去除 这样的头部可能是有益的。特别地,该方法可以包括确定在该时间间隔中该编码的比特流 的一个或多个填充元素字段中所包含的谱带复制头部数据的量的步骤。此外,在该时间间 隔中该编码的比特流的该一个或多个填充元素字段中所包含的数据的净量可以通过扣除 或减去在该时间间隔中该编码的比特流的该一个或多个填充元素字段中所包含的谱带复 制头部数据的量来确定。因此,头部比特已被去掉,并且可以基于数据的净量确定有效载荷 量。应当注意,如果谱带复制头部具有固定长度,则该方法可以包括:对在一时间间隔中谱 带复制头部的数目X计数,以及从在该时间间隔中该编码的比特流的一个或多个填充元素 字段中所包含的谱带复制头部数据的量扣除或减去该头部的长度的X倍。
[0015] 在一个实施例中,该有效载荷量与在该时间间隔中编码的比特流的一个或多个填 充元素字段中所包含的谱带复制数据的量或净量对应。可替换地或附加地,可以从该一个 或多个填充元素字段中去掉进一步的开销数据,以便确定实际的谱带复制数据。
[0016] 编码的比特流可以包括多个帧,每个帧与预定时间长度的音频信号的选段对应。 举例来说,帧可以包括音乐信号的几毫秒的选段。时间间隔可以与由编码的比特流的一帧 覆盖的时间长度对应。举例来说,AAC帧通常包括1024个频谱值,即MDCT系数。频谱值是 音频信号的特定时间实例或时间间隔的频率表示。时间和频率之间的关系可以被表示为下 式:
[0017]

【权利要求】
1. 一种用于估计音频信号的感知突出的节奏的方法,该方法包括: 确定来自该音频信号的调制谱,其中该调制谱包括指示该音频信号中的周期性的多个 出现频率和相应的多个重要性值,其中该重要性值指示在该音频信号中的相应的出现频率 的相对重要性; 将物理上突出的节奏确定为与该多个重要性值的最大值对应的出现频率; 从该调制谱确定音频信号的节拍度量; 从该调制谱确定感知节奏指示符,其中该感知节奏指示符包含以下中的一个或多个: 该调制谱的矩心、该音频信号的节拍强度、以及该调制谱的混乱程度;以及 通过根据该节拍度量修改该物理上突出的节奏来确定感知突出的节奏, 其中该修改步骤考虑了该感知节奏指示符和物理上突出的节奏之间的关系。
2. 如权利要求1所述的方法,其中该音频信号由沿着时间轴的PCM样本的序列表示,以 及其中确定调制谱包括: 从PCM样本的序列中选择多个接连的、部分重叠的子序列; 对于该多个接连的子序列确定具有谱分辨率的多个接连的功率谱; 利用感知非线性变换浓缩多个接连的功率谱的谱分辨率;以及 对该多个接连的浓缩的功率谱执行沿着该时间轴的谱分析,从而得到多个重要性值和 它们的相应的出现频率。
3. 如权利要求1所述的方法,其中该音频信号由沿着时间轴的接连的MDCT系数块的序 列表示,以及其中确定调制谱包括: 利用感知非线性变换浓缩块中的MDCT系数的数目;以及 对该接连的浓缩的MDCT系数块的序列执行沿着该时间轴的谱分析,从而得到多个重 要性值和它们的相应的出现频率。
4. 如权利要求1所述的方法,其中该音频信号由包括谱带复制数据和沿着时间轴的多 个接连的帧的编码的比特流表示,以及其中确定调制谱包括: 确定在该编码的比特流的帧序列中的谱带复制数据量相关联的有效载荷量的序列; 从该有效载荷量的序列中选择多个接连的、部分重叠的子序列;以及 对该多个接连的子序列执行沿着该时间轴的谱分析,从而输出多个重要性值和它们的 相应的出现频率。
5. 如权利要求1到4中的任何一个所述的方法,其中确定调制谱包括: 将该多个重要性值乘以与它们的相应出现频率的人类感知偏好相关联的权重。
6. 如权利要求1到4中的任何一个所述的方法,其中确定物理上突出的节奏包括: 将物理上突出的节奏确定为与多个重要性值的绝对最大值对应的出现频率。
7. 如权利要求1到4中的任何一个所述的方法,其中确定节拍度量包括: 确定对于多个非零的频率滞后的调制谱的自相关; 识别自相关的最大值和相应的频率滞后;以及 基于相应的频率滞后和物理上突出的节奏确定节拍度量。
8. 如权利要求1到4中的任何一个所述的方法,其中确定节拍度量包括: 确定调制谱和分别与多个节拍度量对应的多个合成的拍击函数之间的互相关;以及 选择得到最大互相关的节拍度量。
9. 如权利要求1到4中的任何一个所述的方法,其中该节拍度量是以下中的一个: 在3/4节拍的情况下,为3;或 在4/4节拍的情况下,为2。
10. 如权利要求1到4中的任何一个所述的方法,其中确定感知节奏指示符包括: 将第一感知节奏指示符确定为通过该多个重要性值的最大值规格化的该多个重要性 值的均值,其中该第一感知节奏指示符指示该调制谱的混乱程度。
11. 如权利要求10所述的方法,其中确定感知突出的节奏包括: 确定第一感知节奏指示符是否超过第一阈值;以及 只有当第一阈值被超过时,才修改该物理上突出的节奏。
12. 如权利要求1到4中的任何一个所述的方法,其中确定感知节奏指示符包括: 将第二感知节奏指示符确定为多个重要性值的最大重要性值,其中该第二感知节奏指 示符指示该音频信号的节拍强度。
13. 如权利要求12所述的方法,其中确定感知突出的节奏包括: 确定第二感知节奏指示符是否低于第二阈值;以及 如果第二感知节奏指示符低于第二阈值,则修改物理上突出的节奏。
14. 如权利要求1到4中的任何一个所述的方法,其中确定感知节奏指示符包括: 将第三感知节奏指示符确定为调制谱的矩心出现频率。
15. 如权利要求14所述的方法,其中确定感知突出的节奏包括: 确定第三感知节奏指示符和物理上突出的节奏之间的失配;以及 如果失配被确定,则修改物理上突出的节奏。
16. 如权利要求15所述的方法,其中确定失配包括: 确定第三感知节奏指示符低于第三阈值并且物理上突出的节奏高于第四阈值;或 确定第三感知节奏指示符高于第五阈值并且物理上突出的节奏低于第六阈值; 其中该第三、第四、第五和第六阈值中的至少一个与人类感知节奏偏好相关联。
17. 如权利要求1到4中的任何一个所述的方法,其中根据节拍度量修改物理上突出的 节奏包括: 将节拍水平增大到基础节拍的下一较高的节拍水平;或 将节拍水平减小到基础节拍的下一较低的节拍水平。
18. 如权利要求17所述的方法,其中增大或减小节拍水平包括: 在3/4节拍的情况下,将物理上突出的节奏乘以或除以3 ;以及 在4/4节拍的情况下,将物理上突出的节奏乘以或除以2。
19. 一种被配置为估计音频信号的感知突出的节奏的系统,该系统包括: 用于确定该音频信号的调制谱的装置,其中该调制谱包括指示该音频信号中的周期性 的多个出现频率和相应的多个重要性值,其中该重要性值指示在该音频信号中的相应的出 现频率的相对重要性; 用于将物理上突出的节奏确定为与该多个重要性值的最大值对应的出现频率的装 置; 用于通过分析该调制谱确定音频信号的节拍度量的装置; 用于从该调制谱确定感知节奏指示符的装置,其中该感知节奏指示符包含以下中的一 个或多个:该调制谱的矩心、该音频信号的节拍强度、以及该调制谱的混乱程度;以及 用于通过根据该节拍度量修改该物理上突出的节奏来确定感知突出的节奏的装置, 其中该修改考虑了该感知节奏指示符和物理上突出的节奏之间的关系。
20. 如权利要求19所述的系统,其中该音频信号由沿着时间轴的PCM样本的序列表示, 以及其中用于确定调制谱的装置包括: 用于从PCM样本的序列中选择多个接连的、部分重叠的子序列的装置; 用于对于该多个接连的子序列确定具有谱分辨率的多个接连的功率谱的装置; 用于利用感知非线性变换浓缩多个接连的功率谱的谱分辨率的装置;以及 用于对该多个接连的浓缩的功率谱执行沿着该时间轴的谱分析,从而得到多个重要性 值和它们的相应的出现频率的装置。
21. 如权利要求19所述的系统,其中该音频信号由沿着时间轴的接连的MDCT系数块的 序列表示,以及其中用于确定调制谱的装置包括: 用于利用感知非线性变换浓缩块中的MDCT系数的数目的装置;以及 用于对该接连的浓缩的MDCT系数块的序列执行沿着该时间轴的谱分析,从而得到多 个重要性值和它们的相应的出现频率的装置。
22. 如权利要求19所述的系统,其中该音频信号由包括谱带复制数据和沿着时间轴的 多个接连的帧的编码的比特流表示,以及其中用于确定调制谱的装置包括: 用于确定在该编码的比特流的帧序列中的谱带复制数据量相关联的有效载荷量的序 列的装置; 用于从该有效载荷量的序列中选择多个接连的、部分重叠的子序列的装置;以及 用于对该多个接连的子序列执行沿着该时间轴的谱分析,从而输出多个重要性值和它 们的相应的出现频率的装置。
23. 如权利要求19到22中的任何一个所述的系统,其中用于确定调制谱的装置包括: 用于将该多个重要性值乘以与它们的相应出现频率的人类感知偏好相关联的权重的 装直。
24. 如权利要求19到22中的任何一个所述的系统,其中用于确定物理上突出的节奏的 装置包括: 用于将物理上突出的节奏确定为与多个重要性值的绝对最大值对应的出现频率的装 置。
25. 如权利要求19到22中的任何一个所述的系统,其中用于确定节拍度量的装置包 括: 用于确定对于多个非零的频率滞后的调制谱的自相关的装置; 用于识别自相关的最大值和相应的频率滞后的装置;以及 用于基于相应的频率滞后和物理上突出的节奏确定节拍度量的装置。
26. 如权利要求19到22中的任何一个所述的系统,其中用于确定节拍度量的装置包 括: 用于确定调制谱和分别与多个节拍度量对应的多个合成的拍击函数之间的互相关的 装置;以及 用于选择得到最大互相关的节拍度量的装置。
27. 如权利要求19到22中的任何一个所述的系统,其中该节拍度量是以下中的一个: 在3/4节拍的情况下,为3;或 在4/4节拍的情况下,为2。
28. 如权利要求19到22中的任何一个所述的系统,其中用于确定感知节奏指示符的装 置包括: 用于将第一感知节奏指示符确定为通过该多个重要性值的最大值规格化的该多个重 要性值的均值的装置,其中该第一感知节奏指示符指示该调制谱的混乱程度。
29. 如权利要求28所述的系统,其中用于确定感知突出的节奏的装置包括: 用于确定第一感知节奏指示符是否超过第一阈值的装置;以及 用于只有当第一阈值被超过时,才修改该物理上突出的节奏的装置。
30. 如权利要求19到22中的任何一个所述的系统,其中用于确定感知节奏指示符的装 置包括: 用于将第二感知节奏指示符确定为多个重要性值的最大重要性值的装置,其中该第二 感知节奏指示符指示该音频信号的节拍强度。
31. 如权利要求30所述的系统,其中用于确定感知突出的节奏的装置包括: 用于确定第二感知节奏指示符是否低于第二阈值的装置;以及 用于如果第二感知节奏指示符低于第二阈值,则修改物理上突出的节奏的装置。
32. 如权利要求19到22中的任何一个所述的系统,其中用于确定感知节奏指示符的装 置包括: 用于将第三感知节奏指示符确定为调制谱的矩心出现频率的装置。
33. 如权利要求32所述的系统,其中用于确定感知突出的节奏的装置包括: 用于确定第三感知节奏指示符和物理上突出的节奏之间的失配的装置;以及 用于如果失配被确定,则修改物理上突出的节奏的装置。
34. 如权利要求33所述的系统,其中用于确定失配的装置包括: 用于确定第三感知节奏指示符低于第三阈值并且物理上突出的节奏高于第四阈值的 装置;或 用于确定第三感知节奏指示符高于第五阈值并且物理上突出的节奏低于第六阈值的 装置; 其中,该第三、第四、第五和第六阈值中的至少一个与人类感知节奏偏好相关联。
35. 如权利要求19到22中的任何一个所述的系统,其中用于根据节拍度量修改物理上 突出的节奏的装置包括: 用于将节拍水平增大到基础节拍的下一较高的节拍水平的装置;或 用于将节拍水平减小到基础节拍的下一较低的节拍水平的装置。
36. 如权利要求35所述的系统,其中,用于增大或减小节拍水平的装置包括: 用于在3/4节拍的情况下,将物理上突出的节奏乘以或除以3的装置;以及 用于在4/4节拍的情况下,将物理上突出的节奏乘以或除以2的装置。
37. -种用于产生包括音频信号的元数据的编码的比特流的方法,该方法包括: 确定与音频信号的节奏相关联的元数据,其中该节奏根据如权利要求1 一 18中任一项 所述的方法确定;以及 将该元数据插入到编码的比特流中。
38. 如权利要求37所述的方法,其中该元数据包括表示音频信号的物理上突出的节奏 和/或感知突出的节奏的数据。
39. 如权利要求37和38中的任何一个所述的方法,其中该元数据包括代表来自该音频 信号的调制谱的数据,其中该调制谱包括多个出现频率和相应的多个重要性值,其中该重 要性值指示相应的出现频率在该音频信号中的相对重要性。
40. 如权利要求37和38中的任何一个所述的方法,还包括: 利用 HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 编码器中的一个,将音 频信号编码成编码的比特流的有效载荷数据的序列。
41. 一种音频编码器,被配置为产生包括音频信号的元数据的编码的比特流,该编码器 包括: 用于确定与音频信号的节奏相关联的元数据的装置,其中该节奏根据如权利要求1 一 18中任一项所述的方法步骤确定;和 用于将该元数据插入到编码的比特流中的装置。
42. 如权利要求41所述的音频编码器,其中该元数据包括表示音频信号的物理上突出 的节奏和/或感知突出的节奏的数据。
43. 如权利要求41和42中的任何一个所述的音频编码器,其中该元数据包括代表来自 该音频信号的调制谱的数据,其中该调制谱包括多个出现频率和相应的多个重要性值,其 中该重要性值指示相应的出现频率在该音频信号中的相对重要性。
44. 如权利要求41和42中的任何一个所述的音频编码器,还包括: 用于利用 HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 编码器中的一个, 将音频信号编码成编码的比特流的有效载荷数据的序列的装置。
【文档编号】G10H1/40GK104157280SQ201410392507
【公开日】2014年11月19日 申请日期:2010年10月26日 优先权日:2009年10月30日
【发明者】A·比斯沃斯, D·霍洛斯, M·舒格 申请人:杜比国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1