基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法

文档序号：35386908发布日期：2023-09-09 12:52阅读：259来源：国知局

本发明涉及音频信号处理，具体涉及一种基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法。

背景技术：

1、声音中包含大量的信息，听觉是我们人类感知和获取自然界环境信息的重要途径，听觉系统可以从声音中分辨出语音的含义及其发出声音的物体，并能提取声源的位置信息，从而辨别声音发出的方位，因此，研究人类对声音空间特性的感知能力一直以来都是声学和听觉心理学领域的研究重点，这项研究具有极其重要的科学价值。

2、头相关传输函数（head-related transfer function，hrtf）是描述自由场中点声源与听众耳道之间声学的传递函数。当获取某个人的全空间hrtf数据库后，将某一空间位置的时域hrir（hrtf的时域形式）与声音信号卷积即可渲染出听者想要听见的该处空间位置的声音，实现沉浸式的听觉体验，但是，hrtf是高度个性化的，因为它与我们的人体生理参数息息相关。因此，研究获取个性化hrtf具有重要意义。

3、目前，主要有通过实验测量、基于生理参数的个性化方法、基于少量测量的个性化方法、深度学习方法求解个性化hrtf。现有的最精确地获取个性化hrtf手段是实验室测量，通常是让受试者在半消或者全消实验室完成hrtf的测量，测量时受试者耳道口或者耳道中某一位置佩戴微型传声器来接收空间不同位置固定扬声器发出的声音。但是实验测量通常比较耗费资金和时间。现有的hrtf数据库有cipic、mit、ircam、ari和hutubs等数据库。也有学者通过生理参数的个性化方法来获得个性化hrtf，生理参数匹配法，分主观和客观匹配两种类型。主观挑选是通过受试者主观实验反馈调节hrtf模型参数来完成近似个性化hrtf的定制。客观挑选是通过匹配受试者生理参数与数据库中已有的生理参数来将生理参数最接近的数据库hrtf作为受试者的个性化hrtf的近似。但不论是主观还是客观挑选法最终得到的hrtf都是个性化hrtf的近似，并非真正意义上的个性化定制。另外，目前不同研究对于同一个生理参数（例如头宽）测量点的定义不完全一致，结果不具有可比性，缺乏一组完备、相互独立、有代表性又数量最少的生理参数组，并且会在人体测量参数测量过程中引入误差，影响建模hrtf的精度，随着近年来计算机算力的提升，很多研究人员尝试利用深度学习的方法建立人体生理参数和hrtf之间的关系，以合成新受试者的hrtf，但目前大多数的hrtf个性化生成方法都只能生成特定方向的hrtf，比如建立预测cipic数据库水平面hrtf的神经网络，需要对水平面上25个方位角分别建立一个网络导致个性化hrtf生成系统过于复杂、占用内存资源大，从而限制其在空间音频重放领域的应用。表1总结了近些年国内外头相关传输函数个性化建模方法的研究发展情况。

4、

5、

技术实现思路

1、本发明要解决的技术问题是提供一种基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法，用于解决如何快速、准确地根据少量测量方位数据即可获得受试者全方位的个性化hrtf的技术问题。

2、为解决上述技术问题，本发明采用如下技术方案：

3、设计一种基于空间方位融合和频率通道融合的头相关传输函数的个性化重构方法，包括以下步骤：

4、（1）对公开数据集cipic数据库中hrtf数据进行预处理；

5、（2）对预处理过后的所有俯仰角下的所有方位的三维幅度谱重新排列，得到空间方位-频率通道的二维幅度谱；

6、（3）保留所述二维幅度谱部分空间方位所有频率的幅度值，其余方位的幅度值置0，得到输入数据集；

7、（4）建立用于个性化hrtf重构的神经网络结构，包括输入层、信息融合mlp层、输出层；

8、（5）将步骤（1）中预处理后的数据输入到步骤（4）中所述神经网络结构中进行训练，形成用于个性化hrtf重构的神经网络模型。

9、优选的，在步骤（1）中，将cipic库中每一俯仰角每一方位角下的hrir数据通过快速傅里叶变换变换到频域，得到频域hrtf，从频率范围0~22 khz选取前129个点的频谱得到俯仰角-方位角-频率的三维幅度谱的hrtf数据。

10、优选的，在步骤（2）中，所述空间方位-频率通道的二维幅度谱的横轴是频率箱数，纵轴是空间方位数，二维幅度谱第0~25行是仰角为-45°对应的25个方位角，第25~50行是仰角为39.375°对应的25个方位角，其中方位角排序为-80°~80°。

11、优选的，在步骤（3）中，所述部分空间方位包括仰角为0°对应的-45°和45°方位角、仰角为180°对应的0°方位角。

12、优选的，在步骤（4）中，所述信息融合mlp层包括多个相同结构的子层，每个子层包括频率通道融合mlp层、空间方位融合mlp层、激活函数层。

13、优选的，在步骤（4）中，所述频率通道融合mlp层允许不同频率之间的信息融合，所述空间方位融合mlp层允许不同空间位置之间的信息融合，所述频率通道融合mlp层与所述空间方位融合mlp层之间有残差连接，相互交错。

14、优选的，在步骤（4）中，所述信息融合mlp层中的计算公式为：

15、

16、

17、其中，x为输入数据，a是所述空间方位融合mlp层可学习的权重矩阵，z是经过所述空间方位融合mlp层的输出结果，b、c是所述频率通道融合mlp层可学习的权重矩阵，y是所述频率通道融合mlp层的输出结果，gelu为激活函数，f计算公式为：

18、

19、其中，x为输入数据，,是可学习的权重向量。

20、优选的，在步骤（5）中，所述模型的评价指标是对数谱失真lsd、均方根误差rmse，公式为：

21、

22、其中，k代表频率箱数，代表空间位置的数量，代表方位角，代表仰角，和分别表示在方位角和仰角方向上，第k个频率箱的真实hrtf和重构hrtf的线性尺度大小；

23、

24、其中，s代表受试者人数，t代表时间，m代表空间方位，n代表hrir总长度，代表真实hrir,代表预测hrir。

25、优选的，在步骤（5）中，训练选用adamw神经网络优化器和均方误差损失函数。

26、优选的，在步骤（5）中，训练的编程语言包括python，使用环境包括pytorch。

27、与现有技术相比，本发明的有益技术效果在于：

28、1. 本发明采用公开cipic数据库，通过具有残差连接的空间方位和频率信息融合mlp网络训练得到个性化hrtf重构的深度神经网络，输入受试者的部分空间方位的hrtf数据，即可得到该受试者全部空间方位的个性化hrtf。本发明使用少量的用户hrtf数据可以得到该用户全方位的个性化hrtf，相比于在半消或者全消实验室完成hrtf的测量，本发明的方法降低了成本，节省了实验获取的时间，相比于生理参数法、利用深度学习的方法获得hrtf等其他方法，本发明提出的模型参数量较少，训练时间短，得到的hrtf的lsd较小。

29、2. 本发明模型复杂度低，所提模型充分考虑hrtf数据不同方位、频率之间的非线性关系，在平均对数频谱失真、均方根误差方面表现出良好性能，且训练时间短。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐华兴苗政辉
技术所有人：郑州大学
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！