音频对象提取的制作方法_3

文档序号：8366037阅读：来源：国知局

容具有基于多个声道的格式，所述方法包括：至少部分地基于所述多个声道之间的频谱相似性，对所述音频内容的各峽应用音频对象提取；W及基于对所述各峽的所述音频对象提取，跨所述音频内容的峽执行音频对象合成，W生成至少一个音频对象的音轨。
2. 根据权利要求1所述的方法，其中对各峽应用音频对象提取包括：确定所述多个声道中每两个声道之间的频谱相似性，W获得频谱相似性的集合；W及基于所述频谱相似性的集合对所述多个声道进行分组W获得声道群组的集合，每个所述声道群组内的声道与至少一个共同的音频对象相关联。
3. 根据权利要求2所述的方法，其中基于所述频谱相似性的集合对所述多个声道进行分组包括：将所述多个声道中的每一个声道初始化为一个声道群组；针对每个所述声道群组，基于所述频谱相似性的集合来计算群组内频谱相似性；基于所述频谱相似性的集合，计算每两个所述声道群组的群组间频谱相似性；W及基于所述群组内频谱相似性和所述群组间频谱相似性，迭代地对所述声道群组进行聚类。
4. 根据权利要求2或3所述的方法，其中对各峽应用音频对象提取包括：针对所述峽中的每一个峽，生成与每个所述声道群组相关联的概率矢量，所述概率矢量指示该峽的全频带或者子频带属于相关联的所述声道群组的概率值。
5. 根据权利要求4所述的方法，其中执行音频对象合成包括：通过跨所述峽聚集相关联的所述概率矢量，来生成与每个所述声道群组对应的概率矩阵；W及根据对应的所述概率矩阵，跨所述峽执行所述声道群组间的所述音频对象合成。
6. 根据权利要求5所述的方法，其中所述声道群组间的所述音频对象合成基于W下至少一个执行：所述概率值在所述峽上的连续性；所述声道群组间的共享声道的数目；连续的峽跨所述声道群组的频谱相似性；与所述声道群组相关联的能量或者响度；W及概率矢量是否在先前音频对象的合成中已被使用的确定。
7. 根据权利要求1到6任一项所述的方法，其中所述多个声道间的所述频谱相似性基于W下至少一个来确定：所述多个声道的频谱包络的相似性；W及所述多个声道的频谱形状的相似性。
8. 根据权利要求1到7任一项所述的方法，其中所述至少一个音频对象的所述音轨W 多声道格式被生成，所述方法还包括：生成所述至少一个音频对象的所述音轨的多声道频谱。
9. 根据权利要求8所述的方法，还包括：通过对生成的所述多声道频谱应用统计分析，来分离所述至少一个音频对象中的两个或更多音频对象的声源。
10. 根据权利要求9所述的方法，其中所述统计分析参考跨所述音频内容的所述峽的所述音频对象合成而被应用。
11. 根据权利要求1到10任一项所述的方法，还包括W下至少一项：执行频谱综合W按照期望的格式生成所述至少一个音频对象的所述音轨；W及至少部分地基于所述多个声道的配置，生成所述至少一个音频对象的轨迹。
12. -种用于从音频内容中提取音频对象的系统，所述音频内容具有基于多个声道的格式，所述系统包括：峽级音频对象提取单元，被配置为至少部分地基于所述多个声道之间的频谱相似性，对所述首频内容的各帧应用首频对象提取；W及音频对象合成单元，被配置为基于对所述各峽的所述音频对象提取，跨所述音频内容的峽执行音频对象合成，W生成至少一个音频对象的音轨。
13. 根据权利要求12所述的系统，其中所述峽级音频对象提取单元包括：频谱相似性确定单元，被配置为确定所述多个声道中每两个声道之间的频谱相似性， W获得频谱相似性的集合；W及声道分组单元，被配置为基于所述频谱相似性的集合对所述多个声道进行分组W获得声道群组集合，每个所述声道群组内的声道与至少一个共同的音频对象相关联。
14. 根据权利要求13所述的系统，其中所述声道分组单元包括：群组初始化单元，被配置为将所述多个声道中的每一个声道初始化为一个声道群组；群组内相似性计算单元，被配置为针对每个所述声道群组，基于所述频谱相似性的集合来计算群组内频谱相似性；W及群组间相似性计算单元，被配置为基于所述频谱相似性的集合，计算每两个所述声道群组的群组间频谱相似性，其中所述声道分组单元被配置为基于所述群组内频谱相似性和所述群组间频谱相似性，迭代地对所述声道群组进行聚类。
15. 根据权利要求13或14所述的系统，其中所述峽级音频对象提取单元包括：概率矢量生成单元，被配置为针对所述峽中的每一个峽，生成与每个所述声道群组相关联的概率矢量，所述概率矢量指示该峽的全频带或者子频带属于相关联的所述声道群组的概率值。
16. 根据权利要求15所述的系统，其中所述音频对象合成单元包括：概率矩阵生成单元，被配置为通过跨所述峽聚集相关联的所述概率矢量，来生成与每个所述声道群组对应的概率矩阵，其中所述音频对象合成单元被配置为根据对应的所述概率矩阵，跨所述峽执行所述声道群组间的所述音频对象合成。
17. 根据权利要求16所述的系统，其中所述声道群组间的所述音频对象合成基于W下至少一个执行：所述概率值在所述峽上的连续性；所述声道群组间的共享声道的数目；连续的峽跨所述声道群组的频谱相似性；与所述声道群组相关联的能量或者响度；W及概率矢量是否在先前音频对象的合成中已被使用的确定。
18. 根据权利要求12到17任一项所述的系统，其中所述多个声道间的所述频谱相似性基于W下至少一个来确定：所述多个声道的频谱包络的相似性；W及所述多个声道的频谱形状的相似性。
19. 根据权利要求12到18任一项所述的系统，其中所述至少一个音频对象的所述音轨 W多声道格式被生成，所述系统还包括：多声道频谱生成单元，被配置为生成所述至少一个音频对象的所述音轨的多声道频谱。
20. 根据权利要求19所述的系统，还包括：声源分离单元，被配置为通过对生成的所述多声道频谱应用统计分析，来分离所述至少一个音频对象中的两个或更多音频对象的声源。
21. 根据权利要求20所述的系统，其中所述统计分析参考跨所述音频内容的所述峽的所述音频对象合成而被应用。
22. 根据权利要求12到21任一项所述的系统，还包括W下至少一个：频谱综合单元，被配置为执行频谱综合W按照期望的格式生成所述至少一个音频对象的所述音轨；W及轨迹生成单元，被配置为至少部分地基于所述多个声道的配置，生成所述至少一个音频对象的轨迹。
23. -种用于音频对象提取的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上，并且包括机器可执行指令，所述指令在被执行时使得所述机器执行根据权利要求1到11任一项所述的方法的步骤。
【专利摘要】本发明的实施例涉及音频对象提取。公开了一种用于从音频内容中提取音频对象的方法，所述音频内容具有基于多个声道的格式，所述方法包括：至少部分地基于所述多个声道之间的频谱相似性，对所述音频内容的各帧应用音频对象提取；以及基于对所述各帧的所述音频对象提取，跨所述音频内容的帧执行音频对象合成，以生成至少一个音频对象的音轨。还公开了相应的系统和计算机程序产品。
【IPC分类】H04S3-00
【公开号】CN104683933
【申请号】CN201310629972
【发明人】胡明清, 芦烈, 王珺
【申请人】杜比实验室特许公司
【公开日】2015年6月3日
【申请日】2013年11月29日
【公告号】WO2015081070A1

完整全部详细技术资料下载

当前第3页1 2 3