本发明属于隐式神经表示领域,特别涉及一种面向哈希隐式神经表示的正则化装置及其方法。
背景技术:
1、隐式神经表示(inr)当前在解决一系列领域特定的逆问题方面具有巨大的潜力,通过建立坐标和属性之间的连续映射函数,利用神经网络来表征信号。基于多层感知器(mlp)学习连续函数,该感知器将坐标映射到视觉信号,如图像、视频和3d场景。随着在新视角合成中的广泛应用,inr已迅速扩展到视觉和信号处理的各个领域。
2、现有的隐式神经表示(inr)方法可以大致分为两类:基于函数展开的inr和基于哈希的inr。尽管当前基于函数展开的inr越来越受到关注并取得了成功,但现有技术的表达能力往往受到限制。频谱偏置和复杂场景对额外频率基的需求等问题继续构成挑战。
3、为了克服光谱偏差带来的限制并增强inr的表达能力,最近的技术引入了基于哈希的inr(müller t,evans a,schied c,et al.instant neural graphics primitiveswith a multiresolution hash encoding[j].acm transactions on graphics(tog),2022,41(4):1-15.)。这些创新的方法用学习的散列键索引取代频率编码,从而赋予这些模型具有显著增强的场景表示能力,显著减轻了频谱偏置问题,从而提高了各种信号处理任务的性能。
4、通过结合学习的哈希函数来扩展和完善基于哈希的inr的潜力,这在推动神经场景表示的持续进化中发挥着关键作用。然而,由于基于哈希的inr,由于其主要由哈希编码模块以及一个轻量级的神经网络γ组成,使用哈希键值作为网络输入而不是输入坐标,网络学习到的是哈希值和神经网络γ网络输出yi之间的连续函数,而并非输入xi和输出yi之间的连续函数,输入xi和输出yi之间的梯度流被打破。因此对于未采样点的插值其是不连续、不解析的,导致正则化丢失。这种减少正则化的后果是出现破坏性的噪声伪影,特别是在需要插值的任务中。
5、因此,当前基于哈希的inr的方法在处理未采样点的插值结果表现不好,对其进行正则化,保留强大表示能力和高速的同时,增强插值能力,是一个非常关键的问题。
技术实现思路
1、本发明目的在于提出一种面向哈希隐式神经表示的正则化装置及其方法,可实现对各种信号的快速高效表示。
2、为达到上述目的,本发明采用的技术方案为:
3、一种面向哈希隐式神经表示的正则化装置,包括哈希编码表以及一个轻量级的神经网络γ,该装置还包括分析函数模块其中,输入坐标送入所述分析函数模块得到对应特征以及所述输入坐标送入所述哈希编码表查询得到对应位置的哈希键值;所述对应特征和哈希键值拼接起来送入神经网络γ。
4、进一步地,所述分析函数模块采用神经网络mlp或者采用位置编码模块与神经网络mlp;当采用位置编码模块时,所述输入坐标先由位置编码模块进行编码再进入神经网络mlp。
5、进一步地,对于二维输入,哈希编码表的长度为输入像素点的个数,其宽度和输入维度保持一致;对于三维及高维输入,哈希编码表的长度设置为立方体的分辨率,其宽度设置为高于输入维度。
6、进一步地,所述对应特征和哈希键值通过并联方式拼接,神经网络γ的输入维度是对应特征的维度和哈希键值之和。
7、本发明还提供一种面向哈希隐式神经表示的正则化方法,该方法的步骤包括:将输入坐标经过哈希编码得到对应位置的哈希键值,并对输入坐标和神经网络mlp的输出进行函数映射得到对应特征,然后将哈希键值与对应特征拼接一起送入神经网络γ得到输出结果。
8、进一步地,该方法应用于二维图像拟合、3d符号距离函数、5d静态神经辐射场和6d动态神经辐射场的表示中。
9、进一步地,当应用于6d动态神经辐射场表示时,具体实现步骤为:
10、步骤一,将动态空间划分为静态背景和动态前景区域;
11、步骤二,对于静态背景区域进行重建,选取视频序列的第一帧利用第一神经网络进行静态神经辐射场的重建;
12、步骤三,对于动态前景区域进行重建,即对整个视频序列进行动态神经辐射场重建,具体来说,输入坐标xyzt经过位置编码后送入神经网络mlp得到对应特征;输入坐标xyz经过哈希编码查询到对应位置的哈希键值;然后将哈希键值与对应特征拼接一起送入神经网络γ得到输出结果;
13、步骤四,结合步骤二和步骤三得到的静态点和动态点对应的球谐系数,引入观察视角从而得到对应空间点的rgb值,通过体渲染,渲染出对应视角、时间下的二维图像像素值。
14、本发明实现了对各种信号的快速高效表示,解决当前基于哈希的隐式神经表示上的插值结果有噪声的问题,提高了插值性能。本发明的创新点以及优点在于:
15、(1)针对当前基于哈希的inr明显缺乏正则化的现象,本发明装置的网络学习到的是输入xi和输出yi之间的连续函数,解决了插值中出现的噪声伪像问题。
16、(2)本发明为基于哈希的隐式神经表示提出了一个通用的正则化框架,该框架有助于增强正则化和表示性能,同时只会导致计算时间的小幅增加。
17、(3)本发明在2d图像拟合,3d形状表示以及5d静态和6d动态神经渲染等领域的应用均有良好的表现,超越了先前基于函数扩展和基于哈希的隐式神经表示。
1.一种面向哈希隐式神经表示的正则化装置,包括哈希编码表以及一个轻量级的神经网络γ,其特征在于,该装置还包括分析函数模块其中,输入坐标送入所述分析函数模块得到对应特征以及所述输入坐标送入所述哈希编码表查询得到对应位置的哈希键值;所述对应特征和哈希键值拼接起来送入神经网络γ。
2.根据权利要求1所述的一种面向哈希隐式神经表示的正则化装置,其特征在于,所述分析函数模块采用神经网络mlp或者采用位置编码模块与神经网络mlp;当采用位置编码模块时,所述输入坐标先由位置编码模块进行编码再进入神经网络mlp。
3.根据权利要求1所述的一种面向哈希隐式神经表示的正则化装置,其特征在于,对于二维输入,哈希编码表的长度为输入像素点的个数,其宽度和输入维度保持一致;对于三维及高维输入,哈希编码表的长度设置为立方体的分辨率,其宽度设置为高于输入维度。
4.根据权利要求1所述的一种面向哈希隐式神经表示的正则化装置,其特征在于,所述对应特征和哈希键值通过并联方式拼接,神经网络γ的输入维度是对应特征的维度和哈希键值之和。
5.一种面向哈希隐式神经表示的正则化方法,其特征在于,该方法的步骤包括:将输入坐标经过哈希编码得到对应位置的哈希键值,并对输入坐标和神经网络mlp的输出进行函数映射得到对应特征,然后将哈希键值与对应特征拼接一起送入神经网络γ得到输出结果。
6.根据权利要求5所述的一种面向哈希隐式神经表示的正则化方法,其特征在于,该方法应用于二维图像拟合、3d符号距离函数、5d静态神经辐射场和6d动态神经辐射场的表示中。
7.根据权利要求6所述的一种面向哈希隐式神经表示的正则化方法,其特征在于,当应用于6d动态神经辐射场表示时,具体实现步骤为: