用于训练机器学习模型的装置、方法和计算机程序与流程

文档序号:36964956发布日期:2024-02-07 13:11阅读:51来源:国知局

本公开的示例涉及用于训练机器学习模型的装置、方法和计算机程序。一些示例涉及用于训练在捕获空间音频中使用的机器学习模型的装置、方法和计算机程序。


背景技术:

1、空间音频使能为用户再现声音场景的空间特性,从而用户可以感知该空间特性。为了使能再现空间特性,需要获得声音场景的空间参数并以可用于实现空间音频渲染的格式提供这些空间参数。


技术实现思路

1、根据本公开的各种但并非所有示例,提供了一种装置,其包括用于执行以下操作的部件:

2、获得用于机器学习模型的第一捕获数据,其中,第一捕获数据与多个空间声音分布有关,并且其中,第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关;

3、获得用于该机器学习模型的第二捕获数据,其中,第二捕获数据是使用相同的多个空间声音分布而获得的,并且其中,第二捕获数据包括指示该多个空间声音分布的空间特性的信息,并且第二捕获数据是使用参考捕获方法而获得的;以及

4、训练该机器学习模型,以基于第一捕获数据,估计第二捕获数据。

5、机器学习模型可以被训练以用于处理由目标设备获得的麦克风信号。

6、机器学习模型可以包括神经网络。

7、空间声音分布可以包括声音场景,该声音场景包括多个声音位置和用于多个声音位置的对应的音频信号。

8、用于获得第一捕获数据和第二捕获数据的空间声音分布可以包括虚拟声音分布。

9、空间声音分布可以由两个或更多个扬声器产生。

10、空间声音分布可以包括声音场景的参数化表示。

11、在多个频带中获得指示多个空间声音分布的空间特性的信息。

12、获得第一捕获数据可以包括:

13、获得与目标设备的麦克风阵列有关的信息;以及

14、使用与该麦克风阵列有关的信息,处理多个空间声音分布以获得第一捕获数据。

15、上述部件可以用于将第一捕获数据处理成适合于用作机器学习模型的输入的格式。

16、获得第二捕获数据可以包括使用一个或多个空间声音分布和参考麦克风阵列来确定用于一个或多个声音场景的参考空间元数据。

17、机器学习模型可以被训练以提供空间元数据作为输出。

18、空间元数据可以包括针对一个或多个频率子带,指示以下项的信息:

19、声音方向,以及

20、声音定向性。

21、目标设备可以包括移动电话。

22、根据本公开的各种但并非所有示例,提供了一种装置,其包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置至少执行:

23、获得用于机器学习模型的第一捕获数据,其中,第一捕获数据与多个空间声音分布有关,并且其中,第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关;

24、获得用于该机器学习模型的第二捕获数据,其中,第二捕获数据是使用相同的多个空间声音分布而获得的,并且其中,第二捕获数据包括指示该多个空间声音分布的空间特性的信息,并且第二捕获数据是使用参考捕获方法而获得的;以及

25、训练该机器学习模型,以基于第一捕获数据,估计第二捕获数据。

26、根据本公开的各种但并非所有示例,提供了一种方法,其包括:

27、获得用于机器学习模型的第一捕获数据,其中,第一捕获数据与多个空间声音分布有关,并且其中,第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关;

28、获得用于该机器学习模型的第二捕获数据,其中,第二捕获数据是使用相同的多个空间声音分布而获得的,并且其中,第二捕获数据包括指示该多个空间声音分布的空间特性的信息,并且第二捕获数据是使用参考捕获方法而获得的;以及

29、训练该机器学习模型,以基于第一捕获数据,估计第二捕获数据。

30、根据本公开的各种但并非所有示例,提供了一种计算机程序,其包括计算机程序指令,这些计算机程序指令在由处理电路执行时使得:

31、获得用于机器学习模型的第一捕获数据,其中,第一捕获数据与多个空间声音分布有关,并且其中,第一捕获数据与被配置为获得至少两个麦克风信号的目标设备有关;

32、获得用于该机器学习模型的第二捕获数据,其中,第二捕获数据是使用相同的多个空间声音分布而获得的,并且其中,第二捕获数据包括指示该多个空间声音分布的空间特性的信息,并且第二捕获数据是使用参考捕获方法而获得的;以及

33、训练该机器学习模型,以基于第一捕获数据,估计第二捕获数据。



技术特征:

1.一种装置,包括用于执行以下操作的部件:

2.根据权利要求1所述的装置,其中,训练所述机器学习模型以用于处理由所述目标设备获得的麦克风信号。

3.根据前述权利要求中任一项所述的装置,其中,所述机器学习模型包括神经网络。

4.根据前述权利要求中任一项所述的装置,其中,所述空间声音分布包括声音场景,所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

5.根据权利要求4所述的装置,其中,用于获得所述第一捕获数据和所述第二捕获数据的所述空间声音分布包括虚拟声音分布。

6.根据权利要求4所述的装置,其中,所述空间声音分布由两个或更多个扬声器产生。

7.根据权利要求1至5中任一项所述的装置,其中,所述空间声音分布包括声音场景的参数化表示。

8.根据前述权利要求中任一项所述的装置,其中,指示所述多个空间声音分布的空间特性的所述信息是在多个频带中获得的。

9.根据前述权利要求中任一项所述的装置,其中,获得所述第一捕获数据包括:

10.根据权利要求9所述的装置,其中,所述部件用于将所述第一捕获数据处理成适合于用作所述机器学习模型的输入的格式。

11.根据前述权利要求中任一项所述的装置,其中,获得所述第二捕获数据包括:使用所述一个或多个空间声音分布和参考麦克风阵列来确定用于所述一个或多个声音场景的参考空间元数据。

12.根据前述权利要求中任一项所述的装置,其中,训练所述机器学习模型以提供空间元数据作为输出。

13.根据权利要求12所述的装置,其中,所述空间元数据包括针对一个或多个频率子带,指示以下项的信息:

14.根据前述权利要求中任一项所述的装置,其中,所述目标设备包括移动电话。

15.一种方法,包括:

16.根据权利要求15所述的方法,其中,所述空间声音分布包括声音场景,所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

17.一种计算机程序,包括计算机程序指令,所述计算机程序指令在由处理电路执行时使得:

18.根据权利要求17所述的计算机程序,其中,所述空间声音分布包括声音场景,所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。

19.一种装置,包括至少一个处理器和包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述装置:

20.根据权利要求19所述的装置,其中,所述空间声音分布包括声音场景,所述声音场景包括多个声音位置和用于所述多个声音位置的对应的音频信号。


技术总结
根据本公开的示例,提供了一种装置,其包括用于训练诸如神经网络之类的机器学习模型以估计用于空间声音分布(303)的空间元数据的部件(321)。该装置包括用于获得用于机器学习模型的第一捕获数据(307)的部件(305),其中,第一捕获数据(307)与多个空间声音分布(303)有关,并且其中,第一捕获数据(307)与被配置为获得至少两个麦克风信号的目标设备有关。该装置还包括用于获得用于该机器学习模型的第二捕获数据(315)的部件(313),其中,第二捕获数据(315)是使用相同的多个空间声音分布(303)而获得的,并且其中,第二捕获数据(315)包括指示该多个空间声音分布(303)的空间特性的信息,并且第二捕获数据(315)是使用参考捕获方法(313)而获得的。该装置还包括用于该训练机器学习模型,以基于第一捕获数据(307),估计第二捕获数据(315)的部件(321)。

技术研发人员:J·T·维尔卡莫,M·J·洪卡拉
受保护的技术使用者:诺基亚技术有限公司
技术研发日:
技术公布日:2024/2/6
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!