音频对象提取的制作方法

文档序号:8366037阅读:654来源:国知局
音频对象提取的制作方法
【技术领域】
[0001] 本发明总体上涉及音频内容处理,更具体地,涉及用于音频对象提取的方法和系 统。
【背景技术】
[0002] 传统上,音频内容以基于声道(channelbased)的格式被创建和存储。在此使用 的术语"音频声道"或"声道"是只通常具有预定义物理位置的音频内容。例如,立体声、环 绕5. 1、环绕7. 1等都是用于音频内容的基于声道的格式。近来,随着多媒体工业的发展,三 维(3D)电影和电视内容在影院和家庭中都变得越来越流行。为了创建更具沉浸感的声场 以及准确地控制离散的音频元素而无需受制于特定的回放扬声器配置,很多传统的多声道 系统已经被扩展为支持一种新型格式,这种格式包括声道和音频对象二者。
[0003] 在此使用的术语"音频对象"是指在声场中存在特定持续时间的个体音频元素。一 个音频对象可以是动态的也可以是静态的。例如,音频对象可以是人、动物或者能够充当声 源的任何其他元素。在传输期间,音频对象和声道可以被分开发送,继而由重现系统动态使 用,以基于回放扬声器的配置来自适应地重建创作意图。作为示例,在称为"自适应音频内 容"(adaptiveaudiocontent)的格式中,可以存在一个或多个音频对象以及一个或多个 "静态环境声"(audiobed),静态环境声是将以预定义的、固定的位置进行重现的声道。
[0004] -般而言,基于对象的音频内容以明显不同于基于声道的传统音频内容的方式被 生成。然而,由于物理设备和/或技术条件等方面的限制,并非所有的音频内容提供方都能 够生成自适应音频内容。而且,尽管基于对象的新型格式允许在音频对象的辅助下创建更 具沉浸感的声场,但是在影音产业中(例如在声音的创建、分发和使用的产业链中)占据主 导地位的仍然是基于声道的音频格式。因此,对于传统基于声道的音频内容,为了能够为终 端用户提供音频对象所提供的类似沉浸体验,需要从传统的基于声道的内容中提取音频对 象。然而,目如并不存在一种解决方案能够从已有的基于声道的首频内容中准确、_效地提 取音频对象。
[0005] 由此,本领域中需要一种从基于声道的音频内容中提取音频对象的解决方案。

【发明内容】

[0006] 为了解决上述问题,本发明提出一种用于从基于声道的音频内容中提取音频对象 的方法和系统。
[0007] 在一个方面,本发明的实施例提供一种用于从音频内容中提取音频对象的方法, 所述音频内容具有基于多个声道的格式。所述方法包括:至少部分地基于所述多个声道之 间的频谱相似性,对所述音频内容的各帧应用音频对象提取;以及基于对所述各帧的所述 音频对象提取,跨所述音频内容的帧执行音频对象合成,以生成至少一个音频对象的音轨 (track)。这方面的实施例还包括包含相应的计算机程序产品。
[0008] 在另一方面,本发明的实施例提供一种用于从音频内容中提取音频对象的系统, 所述音频内容具有基于多个声道的格式。所述系统包括:帧级音频对象提取单元,被配置为 至少部分地基于所述多个声道之间的频谱相似性,对所述音频内容的各帧应用音频对象提 取;以及音频对象合成单元,被配置为基于对所述各帧的所述音频对象提取,跨所述音频内 容的帧执行音频对象合成,以生成至少一个音频对象的音轨。
[0009] 通过下文描述将会理解,根据本发明的实施例,可以通过两个阶段从传统基于声 道的音频内容中提取音频对象。首先,执行帧级音频对象提取以对声道进行分组,使得一个 群组内的声道被期望以包含至少一个共同的音频对象。继而,跨多个帧合成音频对象以获 得音频对象的完整音轨。以此方式,不论是静态还是运动中的音频对象均可从传统基于声 道的音频内容中被准确地提取。本发明的实施例所带来的其他益处将通过下文描述而清 楚。
【附图说明】
[0010] 通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和 优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其 中:
[0011] 图1示出了根据本发明的一个示例实施例的用于音频对象提取的方法的流程图;
[0012] 图2示出了根据本发明的一个示例实施例的用于对基于声道格式的时域音频内 容进行预处理的方法的流程图;
[0013] 图3示出了根据本发明的另一示例实施例的用于音频对象提取的方法的流程图;
[0014] 图4示出了根据本发明的一个示例实施例的声道群组的示例概率矩阵的示意图;
[0015] 图5示出了根据本发明的示例实施例的用于五声道输入音频内容的合成完整音 频对象的示例概率矩阵的示意图;
[0016] 图6示出了根据本发明的一个示例实施例的用于对提取的音频对象进行后处理 的方法的流程图;
[0017] 图7示出了根据本发明的一个示例实施例的用于音频对象提取的系统的框图;以 及
[0018] 图8示出了适于实现本发明的示例实施例的计算机系统的框图。
[0019] 在各个附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0020] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述 这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何 方式限制本发明的范围。
[0021] 如上所述,期望从传统基于声道格式的音频对象中提取音频对象。为此,需要考虑 诸多问题,包括但不限于:
[0022] ?音频对象可能是静态的,也可能是运动的。对于一个静态音频对象而言,尽管其 位置是固定的,但是它可能出现在声场中的任何位置。对于移动的音频对象而言,难以简单 地基于一些预定义的规则来预测其任意的轨迹(trajectory)。
[0023] ?音频对象可能共存。多个音频对象可能在某些声道中轻微重叠地共存,也可能 在若干声道中严重地重叠(或混合)。难以盲测在某些声道中是否发生了重叠。而且,将这 些重叠的音频对象分离为多个纯粹的音频对象是具有挑战性的。
[0024]?对于传统的基于声道的音频内容而言,混音师通常激活将点声源对象的某些相 邻或不相邻声道,以便增强其尺寸的感知。不相邻声道的激活使得难以估计轨迹。
[0025]?音频对象可能具有高度动态的持续时间,例如从30毫秒到10秒。特别地,对于 具有长持续时间的对象而言,其频谱和大小二者通常都随时间改变。难以找到鲁棒的线索 用于生成完整或者连续的对象。
[0026] 为了解决上述以及其他潜在的问题,本发明的实施例提供了一种两阶段音频对象 提取的方法和系统。首先对各个个体帧执行音频对象提取,使得声道至少部分地基于它们 彼此之间在频谱方面的相似性被分组或者说聚类。这样,同一群组内的声道被期望包含至 少一个共同的音频对象。继而,可以跨帧对音频对象进行合成,以获得音频对象的完整音轨 (track)。以此方式,不论是静态的还是运动中的音频对象都可以从传统的基于声道的音频 内容中被准确地提取。在某些可选实施例中,借助于诸如声源分离的后处理,可以进一步改 善提取出的音频对象的质量。备选地或附加地,可以应用频谱综合(spectrumsvnthesis) 以获得期望格式的音轨。而且,诸如音频对象随时间的位置等附加信息可以通过轨迹生成 而被估计。
[0027] 首先参考图1,其示出了根据本发明的示例实施例的用于从音频内容中提取音频 对象的方法100的流程图。输入的音频内容具有基于多个声道的格式。例如,输入音频内容 可以遵循立体声、环绕5
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1