本说明书一个或多个实施例涉及空间音频,尤其涉及一种基于稀疏测量的个性化头相关传输函数预测方法及装置。
背景技术:
1、头相关传输函数(head related transfer function,简称hrtf)在空间音频技术中具有重要的作用。hrtf表征了声波由声源经过头部、耳廓和躯干等生理结构到达人耳鼓膜的过程。不同个体生理参数的差异性导致其hrtf各不相同,在空间音频重放中使用个性化的hrtf可以有效提升重放效果。然而,个性化hrtf通常需要在消声环境下利用特制设备进行测量,且非常耗时,这导致个性化hrtf难以真正应用。目前,广泛采用生理参数的相似性从已有的hrtf数据库中选择或者利用生理参数合成hrtf幅度谱来得到个性化hrtf,但由于hrtf的生成过程过于复杂,现有基于生理参数的个性化hrtf预测方法难以很好地表征不同方向的声源传播过程中与人体各个生理参数之间物理过程。因此,一些方法尝试利用不同方向上测量的hrtf幅度谱插值或预测出全空间个性化hrtf。
2、然而目前,此类hrtf个性化生成方法需要较多方向上的hrtf测量,导致个性化hrtf生成系统耗时长、占用内存资源大,从而限制其在空间音频重放中的应用。
技术实现思路
1、本发明描述一种基于稀疏测量的个性化头相关传输函数预测方法及装置,可以解决上述技术问题。
2、根据第一方面,提供一种基于稀疏测量的个性化头相关传输函数预测方法。该方法包括:基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数hrtf幅度谱;利用声学特征提取网络处理所述稀疏测量的hrtf幅度谱,获得相应的声学特征;利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量;利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化hrtf幅度谱。
3、在一种实施方式中,基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数hrtf幅度谱,包括:将所述头相关冲激响应经过傅里叶变换和对数域变换,得到所述稀疏测量的hrtf幅度谱。
4、在一种实施方式中,所述利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量,包括:将所述目标方向的方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标;将所述三维坐标输入所述维度增广网络,得到所述增广目标方向向量。
5、在一种实施方式中,所述利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标hrtf幅度谱,包括:将所述声学特征和所述目标方向向量进行拼接后输入所述谱预测网络,输出所述目标个性化hrtf幅度谱。
6、在一种实施方式中,所述方法还包括:给定所述稀疏测量的hrtf幅度谱与所述目标方向的方位角和俯仰角,即可通过所述声学特征提取网络、维度增广网络和谱预测神经网络预测出所述目标个性化hrtf幅度谱。
7、根据第二方面,提供一种基于稀疏测量的个性化头相关传输函数预测装置。该装置包括:
8、幅度谱获取模块,配置为基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数hrtf幅度谱。
9、声学特征获取模块,配置为利用声学特征提取网络处理所述稀疏测量的hrtf幅度谱,获得相应的声学特征。
10、方向向量获取模块,配置为利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量。
11、目标个性化幅度谱获取模块,配置为利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化hrtf幅度谱。
12、在一种实施方式中,幅度谱获取模块具体配置为:
13、将所述头相关冲激响应经过傅里叶变换和对数域变换,得到所述稀疏测量的hrtf幅度谱。
14、在一种实施方式中,所述声学提取网络实现为卷积神经网络。
15、在一种具体的实施方式中,所述卷积神经网络包括:若干卷积层、若干最大值池化层、若干激活层和全连接输出层。
16、在一种实施方式中,所述方向向量获取模块用于将所述目标方向的方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标;将所述三维坐标输入所述维度增广网络,得到所述增广目标方向向量。
17、在一种实施方式中,所述目标幅度谱获取模块具体配置为:将所述声学特征和所述目标方向向量进行拼接后输入所述谱预测网络,输出所述目标个性化hrtf幅度谱。
18、在本说明书实施例提供的上述方法和装置中,利用已有的hrtf数据库中的数据,通过深度学习方法建立稀疏测量的hrtf幅度谱、目标方向和目标个性化hrtf幅度谱之间的映射模型,使得给定新被试的少量hrtf幅度谱与目标方位的方位角和俯仰角,即可通过三个神经网络模块生成目标个性化hrtf幅度谱。
1.一种基于稀疏测量的个性化头相关传输函数预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数hrtf幅度谱,包括:
3.根据权利要求1所述的方法,其特征在于,所述声学提取网络实现为卷积神经网络。
4.根据权利要求3所述的方法,其特征在于,所述卷积神经网络包括:若干卷积层、若干最大值池化层、若干激活层和全连接输出层。
5.根据权利要求1所述的方法,其特征在于,所述利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量,包括:
6.根据权利要求1所述的方法,其特征在于,所述利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化hrtf幅度谱,包括:
7.一种基于稀疏测量的个性化头相关传输函数预测装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述幅度谱获取模块具体配置为:
9.根据权利要求7所述的装置,其特征在于,所述声学提取网络实现为卷积神经网络。
10.根据权利要求7所述的装置,其特征在于,所述方向向量获取模块具体配置为: