一种音频信号隐式表示方法及系统

文档序号：44197625发布日期：2025-12-26 23:44阅读：22来源：国知局

技术简介：
本发明针对传统音频隐式表示方法在高频分量捕捉、超参数敏感性和位置编码依赖性方面的不足，提出基于傅里叶基函数的傅里叶-KAN网络模型。通过倒频金字塔配置和频率自适应初始化，优化网络对多频段音频信号的表征能力，提升鲁棒性和计算效率，实现无需位置编码的连续信号表示。
关键词：音频信号隐式表示，傅里叶-KAN网络

本发明涉及音频信号表示，尤其是涉及一种音频信号隐式表示方法及系统。

背景技术：

1、随着人工智能技术的发展，隐式神经表示(implicit neural representations,inrs)作为一种创新的信号参数化方法，广泛应用于图像、视频、三维形状及辐射场的表示中。隐式神经表示通过将离散信号表示为连续函数，实现了与空间分辨率解耦的连续表示，支持无限分辨率采样。这种方法在神经辐射场(nerf)、三维占用网格、签名距离函数及图像回归等任务中取得了显著成功。然而，在音频信号表示领域，隐式神经表示的应用仍处于探索阶段。

2、音频信号的隐式表示具有重要应用价值，例如音频超分辨率、压缩、合成及生成等任务。相比传统离散表示，隐式表示能够保持信号的连续性和可微性，支持任意分辨率采样，从而实现高效存储和自然处理。然而，音频信号具有高噪声、高频率、非线性和局部周期性的特点，给隐式表示带来了挑战。现有技术主要依赖基于坐标多层感知机(coordinate-mlps)的隐式神经表示方法，但这些方法在音频信号表示中存在以下缺陷：

3、1.激活函数局限性：大多数坐标多层感知机依赖简单的激活函数(如relu、sigmoid)，这些函数难以捕捉音频信号的高频分量和局部周期性。只有少数激活函数(如高斯、正弦)能够部分解决这一问题，但其性能仍受限于超参数敏感性。例如，正弦激活函数(siren)虽然能捕捉周期性，但对初始化方案高度敏感，导致泛化能力不足。

4、2.位置编码依赖性：为捕捉高频信息，坐标多层感知机通常需要位置编码(如nerf的傅里叶特征或随机傅里叶特征)。然而，位置编码引入了复杂的超参数调整问题，如频率尺度的选择不当会导致噪声插值或频谱偏差。此外，环视系统中相邻相机共视区的窄小和严重畸变与音频信号的局部周期性类似，现有位置编码方法难以适应音频信号的独特特性。

5、3.鲁棒性和泛化能力不足：现有方法通常针对特定场景(如图像或辐射场)设计，缺乏对复杂音频信号的鲁棒性和泛化能力。例如，基于特定标志物(如车道线)的环视系统外参数修正方法依赖理想环境，类似地，坐标多层感知机在音频表示中对噪声、频率变化和非平稳信号的适应性较差。

6、4.缺乏标准化评估：学术界和工业界尚未建立针对音频信号隐式表示的标准化基准测试框架，导致不同方法的性能难以比较，阻碍了技术进步。

7、综上，现有基于坐标多层感知机的音频信号隐式表示方法在捕捉高频分量、局部周期性以及鲁棒性方面均存在显著不足，亟需一种新的框架来解决这些问题。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种音频信号隐式表示方法及系统。

2、本发明的目的可以通过以下技术方案来实现：

3、根据本发明的一个方面，提供了一种音频信号隐式表示方法，方法步骤包括：

4、s1、接收待处理音频信号的离散时间坐标和真实波形的离散振幅，并对离散时间坐标进行归一化处理，输出归一化时间坐标；

5、s2、基于傅里叶基函数，构建包含l层网络的傅里叶-kan网络模型，其中l≥4，且l为正整数；

6、s3、将归一化时间坐标输入该网络模型，输出连续音频信号振幅，采用频率自适应学习策略对该网络模型进行倒频金字塔配置和频率初始化处理，得到频率自适应后的网络模型；

7、s4、利用梯度下降法，基于损失函数，拟合所输出的连续音频信号振幅和真实波形的离散振幅，从而优化频率自适应后的网络模型的网络参数；

8、s5、将归一化时间坐标输入优化后的网络模型，此时所输出的连续音频信号振幅即为最优音频信号表示。

9、作为优选的技术方案，s2中l层网络的傅里叶-kan网络模型，具体是由傅里叶基函数连接神经元(l，i)和(l+1，j)构建而成；傅里叶基函数的具体表达式为：

10、bl，j，i(tl，i)＝al,icos(ωtl,i)+bl，isin(ωtl,i)+cl,i，

11、其中，al，i，bl，i为可学习的傅里叶系数；cl，i为偏置项；ω为频率超参数；l为网络层数。

12、作为优选的技术方案，s3中的倒频金字塔配置具体为：为傅里叶-kan网络模型的各层分配不同的频率阈值，且所分配的频率阈值随层数增加而不变或递减，以形成倒频金字塔结构。

13、作为优选的技术方案，s3中的频率初始化处理具体为根据傅里叶基函数的对称性，初始化傅里叶系数，其具体表达式为：

14、

15、其中，ai(l)为第一傅里叶系数；bi(l)为第二傅里叶系数；ωl为l层的频率阈值；din(l)为第l层网络输入特征的维度。

16、作为优选的技术方案，频率自适应后的网络模型包含多频段表示，多频段表示由倒频金字塔配置和频率初始化处理联合构建，其具体表达式为：

17、

18、其中，z(l+1)和z(l)分别表示第l+1和l层的多频段表示；ω为频率超参数；ωl为l层的频率阈值；a(l，ω)和b(l，ω)分别表示第l层的余弦分量和正弦分量的权重，c(l)为偏置项。

19、作为优选的技术方案，s4中优化频率自适应后的网络模型的网络参数具体过程为：使用梯度下降法或其变体对网络参数进行迭代优化，网络参数包括傅里叶系数和偏置，迭代次数设为1000次，学习率初始值设为0.001，从优化后的网络中提取傅里叶系数和偏置，更新网络参数，输出优化后的网络模型。

20、作为优选的技术方案，s4中的损失函数采用均方误差损失函数，其具体表达式为：

21、

22、其中，iia表示在波形测量位置的采样；f(t)为网络输出；a(t)为真实波形。

23、作为优选的技术方案，s5中的连续音频信号振幅具体是基于由傅里叶-kan网络模型中的层间激活值计算得到，第(l+1，j)神经元的层间激活值tl+1，j为所有传入傅里叶基函数输出的总和，且用矩阵进行表示，其具体表达式为：

24、

25、tl+1＝φltl，

26、其中，tl+1，j为第(l+1，j)神经元的层间激活值；φl为第l层的层间激活值转换矩阵。

27、作为优选的技术方案，连续音频信号振幅的具体公式为：

28、

29、其中，f(t)为连续音频信号振幅，φl为第l层的层间激活值转换矩阵。

30、根据本发明的另一个方面，提供了一种音频信号隐式表示系统，系统包括输入模块、模型构建模块、频率自适应模块、优化模块和输出模块；

31、输入模块用于接收待处理音频信号的离散时间坐标和真实波形的离散振幅，并对离散时间坐标进行归一化处理，输出归一化时间坐标；

32、模型构建模块基于傅里叶基函数，构建包含多层网络的傅里叶-kan网络模型；

33、频率自适应模块采用频率自适应学习策略对该网络模型进行倒频金字塔配置和频率初始化处理，得到频率自适应后的网络模型；

34、优化模块用于利用梯度下降法，基于损失函数，拟合所输出的连续音频信号振幅和真实波形的离散振幅，从而优化频率自适应后的网络模型的网络参数；

35、输出模块用于将归一化时间坐标输入优化后的网络模型，此时所输出的连续音频信号振幅即为最优音频信号表示。

36、与现有技术相比，本发明具有以下有益效果：

37、1、本发明中，音频信号表示采用基于傅里叶基函数所构建的傅里叶-kan网络模型，且采用频率自适应学习策略对该网络模型进行倒频金字塔配置和频率初始化处理；通过傅里叶基函数的周期性和强非线性，结合频率自适应学习策略，克服了传统坐标-多层感知机(coordinate-mlp)在音频信号表示中对超参数敏感和高频捕获能力不足的问题，高频分量捕获能力强，适用于复杂音频场景，具有较强的鲁棒性和高效性，能够满足音频处理领域对连续信号表示的需求。

38、2、本发明中，l层网络的傅里叶-kan网络模型，具体是由傅里叶基函数连接神经元(l，i)和(l+1，j)构建而成；其中，傅里叶基函数取代传统激活函数，无需额外的激活函数或位置编码，显著降低了超参数调整的复杂性，提高了音频信号的表示精度。fourier-kan利用傅里叶基函数的局部周期性，能够有效表示音频信号的高频分量，显著提升重建质量，尤其在语音和音乐等复杂信号中。

39、3、本发明中，通过倒频金字塔配置和频率初始化方案，动态适应不同时间尺度的频率分布。增强了网络对高频分量和非平稳信号的捕捉能力，加速了收敛速度，提高了鲁棒性。通过倒频金字塔配置按层分配频率阈值，使网络不同层侧重不同频率信息，增强对音频信号全频段的覆盖与捕捉，加速网络收敛，让模型学习更有层次、高效。依据傅里叶基函数对称性初始化傅里叶系数，能让网络前向传播时输入输出方差更稳定，避免梯度爆炸问题，保障网络训练的稳定性与高效性。通过倒金字塔频率设置(如输入层ω0＝1024，隐藏层ω1＝ω2＝...＝5，输出层ωl＝3)和频率自适应初始化，fals优化了网络对不同频率分量的学习能力，避免了传统mlp在高频和低频之间的权衡问题。

40、4、本发明中，连续音频信号振幅具体是基于由傅里叶-kan网络模型中的层间激活值计算得到，第(l+1，j)神经元的层间激活值为所有传入傅里叶基函数输出的总和，即通过傅里叶基函数直接建模信号的周期性，无需额外的位置编码，消除了对位置编码的依赖，简化了网络设计和训练流程，降低了计算复杂度，适用于多样化的音频信号表示场景。由连续音频信号振幅表示音频信号，将音频信号参数化为连续函数，支持任意分辨率采样，适用于超分辨率、压缩和生成等多种任务，具有较高的灵活性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张林,李林飞,沈莹
技术所有人：同济大学
我是此专利的发明人

上一篇：具有加热功能的鼻腔冲洗器
下一篇：一种全固废轻质砂浆及制备方法与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！