音频信号的客观化的制作方法

文档序号：43470549发布日期：2025-10-21 23:55阅读：20来源：国知局

本公开总体涉及音频处理技术，并且更具体地，涉及用于从音频信号中提取单独声源并操纵(例如，空间化、去除和/或以其他方式修改)所提取的单独声源的技术。

背景技术：

1、如今，许多音频文件都以某一方式创建，使得能够独立地操纵与不同音频源(例如，乐器)相对应的单独音频信号。例如，基于对象的音频传送与不同音频源相对应的离散音频“对象”。这样做的优点是容易进行对音频产品内的离散声源的操纵。例如，改变人声的级别可通过以下方式来完成：对离散的人声音频流进行操作，同时不使音频混音的其他元素失真。另一个示例是，离散的音频对象可以灵活和交互的方式传送到各种可用的再现装置。然而，大多数音频被制作成使得音频源一起混合成一个或多个音频信号，称为基于通道的音频。此外，即使制作了基于对象的音频，在消费者侧进行解码时，离散的音频对象往往会混合成基于通道的格式，之后用户才会访问它们。例如，旧有音频内容可以是基于通道的，而不是基于对象的，诸如包括与特定通道相对应的音频信号(例如，单声道、立体声、环绕声和/或类似音频信号)。另外地，许多这类基于通道或另外不基于对象的音频文件仍在创建中。

2、将不基于对象的音频内容转换成基于对象的形式是费力且昂贵的过程，并且在许多情况下无法进行，诸如在高级音频处理和转换方面没有专家的参与。

技术实现思路

1、具体方面在附加的独立权利要求中进行了阐述。在从属权利要求中阐述了各种任选的实施方案。

2、当前传授的手段的各种示例可提供用于将不基于对象的音频内容转换成基于对象的音频内容和/或以其他方式实现对音频数据内的单独音频源的单独操纵。

3、本文描述的一个实施方案是一种由计算装置执行的方法。计算机实现的方法包括：将来自音频信号的第一音频片段提供到机器学习模型，所述机器学习模型已通过监督学习过程基于标记有特定音频源的音频片段进行训练；响应于第一音频片段，从机器学习模型接收与特定音频源相关联的第一音频片段的子集；通过一个或多个扬声器播放基于第一音频片段的子集的重建的第一音频片段；在播放重建的第一音频片段之后，接收与音频信号的特定音频源相关的改变的配置；将来自音频信号的第二音频片段提供到机器学习模型；响应于第二音频片段，从机器学习模型接收与特定音频源相关联的第二音频片段的子集；以及通过一个或多个扬声器播放基于第二音频片段的子集和改变的配置的重建的第二音频片段，其中特定音频源的可在听觉上感知的参数在重建的第二音频片段中相对于重建的第一音频片段有所改变。

4、本文描述的另一个实施方案是一种计算装置。所述计算装置包括处理器和存储器。存储器存储指令，所述指令在处理器上执行时执行操作。所述操作包括：将来自音频信号的第一音频片段提供到机器学习模型，所述机器学习模型已通过监督学习过程基于标记有特定音频源的音频片段进行训练；响应于第一音频片段，从机器学习模型接收与特定音频源相关联的第一音频片段的子集；通过一个或多个扬声器播放基于第一音频片段的子集的重建的第一音频片段；在播放重建的第一音频片段之后，接收与音频信号的特定音频源相关的改变的配置；将来自音频信号的第二音频片段提供到机器学习模型；响应于第二音频片段，从机器学习模型接收与特定音频源相关联的第二音频片段的子集；以及通过一个或多个扬声器播放基于第二音频片段的子集和改变的配置的重建的第二音频片段，其中特定音频源的可在听觉上感知的参数在重建的第二音频片段中相对于重建的第一音频片段有所改变。

5、本文描述的另一个实施方案是一种计算机可读媒体。所述计算机可读媒体包括计算机可执行代码，所述计算机可执行代码在由一个或多个处理器执行时执行操作。所述操作包括：将来自音频信号的第一音频片段提供到机器学习模型，所述机器学习模型已通过监督学习过程基于标记有特定音频源的音频片段进行训练；响应于第一音频片段，从机器学习模型接收与特定音频源相关联的第一音频片段的子集；通过一个或多个扬声器播放基于第一音频片段的子集的重建的第一音频片段；在播放重建的第一音频片段之后，接收与音频信号的特定音频源相关的改变的配置；将来自音频信号的第二音频片段提供到机器学习模型；响应于第二音频片段，从机器学习模型接收与特定音频源相关联的第二音频片段的子集；以及通过一个或多个扬声器播放基于第二音频片段的子集和改变的配置的重建的第二音频片段，其中特定音频源的可在听觉上感知的参数在重建的第二音频片段中相对于重建的第一音频片段有所改变。

6、以下描述和附图出于例示目的阐述了某些特征。

技术特征：

1.一种由计算装置执行的方法，所述方法包括：

2.根据权利要求1所述的计算机实现的方法，其还包括：

3.根据权利要求2所述的计算机实现的方法，其中所述特定音频源是第一音乐乐器，而所述不同音频源是第二音乐乐器。

4.根据权利要求2所述的计算机实现的方法，其中所述不同音频源在所述第一音频片段的所述子集中是不可在听觉上感知的，并且其中所述特定音频源在所述第一音频片段的所述相应子集中是不可在听觉上感知的。

5.根据权利要求1所述的计算机实现的方法，其中标记有所述特定音频源的所述音频片段中的每一个的长度小于一百毫秒。

6.根据权利要求1所述的计算机实现的方法，其中所述机器学习模型是深度神经网络(dnn)。

7.根据权利要求1所述的计算机实现的方法，其中接收与所述音频信号的所述特定音频源相关的所述改变的配置是基于在所述播放所述重建的第一音频片段之后通过用户界面接收的输入。

8.根据权利要求7所述的计算机实现的方法，其还包括基于所述音频片段的所述子集来向所述用户界面提供指示所述特定音频源的输出。

9.根据权利要求1所述的计算机实现的方法，其中所述重建的第二音频片段由所述一个或多个扬声器基于与所述改变的配置相关的元数据来生成。

10.根据权利要求1所述的计算机实现的方法，其中与所述音频信号的所述特定音频源相关的所述改变的配置包括针对所述音频信号的所述特定音频源的改变的空间配置，并且其中所述特定音频源的可在听觉上感知的位置在所述重建的第二音频片段中相对于所述重建的第一音频片段有所改变。

11.根据权利要求1所述的计算机实现的方法，其中与所述音频信号的所述特定音频源相关的所述改变的配置包括针对所述音频信号的所述特定音频源的改变的音量配置，并且其中所述特定音频源的可在听觉上感知的音量在所述重建的第二音频片段中相对于所述重建的第一音频片段有所改变。

12.一种系统，其包括：

13.根据权利要求12所述的系统，其中所述指令在由所述一个或多个处理器执行时进一步使所述系统：

14.根据权利要求13所述的系统，其中所述特定音频源是第一音乐乐器，而所述不同音频源是第二音乐乐器。

15.根据权利要求13所述的系统，其中所述不同音频源在所述第一音频片段的所述子集中是不可在听觉上感知的，并且其中所述特定音频源在所述第一音频片段的所述相应子集中是不可在听觉上感知的。

16.根据权利要求12所述的系统，其中标记有所述特定音频源的所述音频片段中的每一个的长度小于一百毫秒。

17.根据权利要求12所述的系统，其中所述机器学习模型是深度神经网络(dnn)。

18.根据权利要求12所述的系统，其中接收与所述音频信号的所述特定音频源相关的所述改变的配置是基于在所述播放所述重建的第一音频片段之后通过用户界面接收的输入。

19.根据权利要求18所述的系统，其中所述指令在由所述一个或多个处理器执行时进一步使所述系统基于所述音频片段的所述子集来向所述用户界面提供指示所述特定音频源的输出。

20.一种非暂时性计算机可读媒体，其包括指令，所述指令在由计算系统的一个或多个处理器执行时使所述计算系统：

技术总结
描述了用于动态音频客观化的技术。实施方案包括将来自音频信号的第一音频片段提供到基于标记有音频源的音频片段进行训练的机器学习模型，并且从所述机器学习模型接收与所述音频源相关联的所述第一音频片段的子集。实施方案包括在播放重建的第一音频片段之后，接收与所述音频源相关的改变的配置。实施方案包括将来自所述音频信号的第二音频片段提供到所述机器学习模型，并且从所述机器学习模型接收与所述音频源相关联的所述第二音频片段的子集。实施方案包括播放基于所述第二音频片段的所述子集和所述改变的配置的重建的第二音频片段，其中所述音频源的可在听觉上感知的参数在所述重建的第二音频片段中有所改变。

技术研发人员：尼奥·卡普拉尼斯,奥利弗·舍雷格尔,弗朗西斯·L·萨尔瓦多
受保护的技术使用者：班安欧股份公司
技术研发日：
技术公布日：2025/10/20

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尼奥·卡普拉尼斯,奥利弗·舍雷格尔,弗朗西斯·L·萨尔瓦多
技术所有人：班安欧股份公司
我是此专利的发明人

上一篇：一种冻土公路地基预制桩加固装置和方法与流程
下一篇：多模态生物传感器及其制备方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！