基于双线性自编码神经网络的鲁棒主成分分析方法与流程

文档序号:36791927发布日期:2024-01-23 12:11阅读:14来源:国知局
基于双线性自编码神经网络的鲁棒主成分分析方法与流程

本发明涉及机器学习,特别是涉及到一种基于双线性自编码神经网络的鲁棒主成分分析方法。


背景技术:

1、主成分分析(pca,principal component analysis)是分析和处理高维数据的一种常用降维技术,广泛应用于信号分析、图像处理、语音识别、数据压缩、异常检测等工程技术领域。pca假设数据矩阵可以分解为一个低秩矩阵和一个稀疏高斯噪声矩阵,将高维数据投影到低维特征空间,在低维特征空间中对数据进行分离后,再反投影回原数据空间重建低秩矩阵,进而分离出噪声矩阵。但是当实际数据中的噪声不是高斯噪声时,pca的效果并不理想。为了增强pca对稀疏噪声的鲁棒性,有学者提出了鲁棒主成分分析(rpca,robustpca),通过求解核范数优化问题来恢复低秩矩阵和稀疏噪声矩阵,求解方法主要包括迭代阈值法、加速近端梯度法、增广拉格朗日乘子法和交替方向法等。现有rpca算法的投影和重建过程建立在奇异值分解的基础之上,而奇异值分解的计算开销巨大,所以限制了rpca在大规模数据处理上的应用。

2、自编码神经网络也叫做自编码器,是一种无监督的人工神经网络,常见的自编码器有收缩自编码器、正则自编码器、变分自编码器、稀疏自编码器和卷积自编码器等,被应用于降维、特征学习、计算机视觉等领域。它将数据压缩到较低的维数,然后重新构造输入。它通过消除重要特征上的噪声和冗余,找到数据在较低维度的表征。它基于编解码结构,编码器将高维数据编码到低维,解码器接收低维数据并重建高维数据。自编码神经网络在训练过程中是通过链式求导法则和误差回传机制来更新编码器和解码器参数的,若采用线性编码器和解码器,其计算开销远小于奇异值分解。大部分自编码神经网络是以重建数据逼近原始数据为目标,损失函数为重建数据与原始数据之差的l2范数,而rpca的目标是将原始数据分解为低秩矩阵和稀疏矩阵,其损失函数是由低秩矩阵的核范数和稀疏矩阵的l1范数组成的。综上所述,自编码神经网络的编解码结构与rpca投影重建过程具有相似性,但是其损失函数是不同的。

3、在申请号:cn202011106590.8的中国专利申请中,涉及到一种基于深度神经网络的多波地震油气储层预测方法,该方法包括如下步骤:首先,针对从纵横波地震属性集获得的原始数据,采用粒子群优化的聚类分析方法和核主成分分析方法进行地震属性的优选优化,去除冗余信息,突出多波地震油气储层特征,以获得较好的深度神经网络样本数据;然后,通过深度神经网络模型对获得的样本数据进行学习并进行仿真预测,获得油气储层评价图;最后,对油气储层评价图进行图像增强处理,以提高图像的细节信息和边缘辨识度,从而增加图像的清晰度。在油气储层预测中,该发明方法能够提高地震油气储层的刻画精度,为油气藏的识别与预测提供了一种新的途径。

4、在申请号:cn202110524286.3的中国专利申请中,涉及到一种用于地震相分析的鲁棒k-means算法。包括如下步骤:选取原始振幅数据;设置最大相位调整参数和时间窗口提取目的层段地震波形;建立目标函数并对函数中的参数进行迭代更新;通过调整相位参数对目标函数进行不断的训练,当训练至r小于阈值或者训练次数达到最大迭代次数时,参数训练完成,得到最终的分类结果。采用该发明中所提出的算法及其相应的优化方法,可以有效克服层位噪声带来的影响,使得地震相分类结果更为准确。

5、在申请号:cn202111314380.2的中国专利申请中,涉及到一种基于bp神经网络进行地震多属性联合寻优预测分析方法;包括:步骤1,读入多个单一地震属性文件;步骤2,地震属性标准化处理;步骤3,对单一地震属性数据沿层或者按固定时间在一定时窗内提取属性值,形成一个识别数据样本;从提取的属性数据中选择对地质任务敏感的部分单一属性点,形成一个训练数据样本;步骤4,建立bp神经网络训练模型;步骤5,设置学习参数,经过多次迭代训练,得到最优属性值;步骤6,输出最优属性结果及误差,并使用相关软件绘制预测结果。该发明利用bp神经网络方法对满足地质任务需要的地震属性参数进行优选,建立地震多属性联合寻优预测模型,解决单一地震属性的多解性问题。

6、以上现有技术均与本发明有较大区别,未能解决我们想要解决的技术问题,为此我们发明了一种新的基于双线性自编码神经网络的鲁棒主成分分析方法。


技术实现思路

1、本发明的目的是提供一种将rpca与自编码神经网络结合的基于双线性自编码神经网络的鲁棒主成分分析方法。

2、本发明的目的可通过如下技术措施来实现:基于双线性自编码神经网络的鲁棒主成分分析方法,该基于双线性自编码神经网络的鲁棒主成分分析方法包括:

3、步骤1,建立训练集和测试集;

4、步骤2,构建双线性自编码神经网络;

5、步骤3,构建损失函数;

6、步骤4,训练双线性自编码神经网络;

7、步骤5,利用测试集对保存的神经网络进行测试;

8、步骤6,设置优化后的网络模型为预测模式,根据新数据开展主成分分析。

9、本发明的目的还可通过如下技术措施来实现:

10、在步骤1中,按照一定比例将样本集分为训练集和测试集。

11、在步骤1中,若样本集为二维张量集,其形状为[x,y,l],其中x,y为二维张量形状,l为样本数量,对样本集进行转置和形状重塑,建立形状为[l,x*y]的新张量集y。

12、在步骤1中,若样本集为三维张量集,其形状为[x,y,z,l],其中x,y,z为三维张量形状,l为样本数量,对样本集进行转置和形状重塑,建立形状为[l,x*y*z]的新张量集y。

13、在步骤2中,网络结构包括编码层和解码层,为模拟主成分分析pca的投影和重建过程,编码层和解码层均为全连接层,故该网络叫做双线性自编码神经网络。

14、在步骤2中,编码层为一个全连接层,权重矩阵we的形状为[r,x*y]或[r,x*y*z],其中r是一个整数,且r<<x*y或r<<x*y*z,代表低秩矩阵的秩,偏置为0;编码层模拟pca的投影过程,其输出与pca的低维特征空间对应。

15、在步骤2中,解码层也是一个全连接层,输入为编码层的输出,权重矩阵wd的形状为[x*y,r]或[x*y*z,r],偏置为0,为了压缩训练参数的数量,可以令wd=wet;解码层模拟pca的重建过程,输出为原空间的低秩矩阵l,输入数据与低秩矩阵的差即为稀疏矩阵s。

16、在步骤3中,数学模型为:

17、

18、其中,‖‖表示范数,‖‖1表示l1范数,s.t.表示约束;

19、本发明的损失函数去掉了常规rpca损失函数中的核范数项,增加了约束条件l=wdwey,其中wd和we同步骤2中的定义,因为该约束条件强于核范数项||l||*最小的条件,故低秩矩阵的秩rank(l)<=r,其中r同步骤2中的定义。

20、步骤4包括:

21、(4.1)确定超参数r,即rank(l)的上限;

22、(4.2)确定神经网络训练参数,包括学习率、最大训练轮数、训练算法和训练集批次大小;

23、(4.3)设置训练提前结束条件,当前5轮的损失函数的平均值小于本轮损失函数的1.005倍时,训练提前结束;

24、(4.4)训练神经网络,将步骤1构建的训练集,输入到步骤2搭建的网络模型中,采用误差反向传播,并以步骤3中(2)式的损失函数来衡量稀疏矩阵s的稀疏性,在训练迭代过程中更新自编码神经网络的权重矩阵we和wd,以降低损失函数,当训练次数达到最大训练轮数或满足训练提前结束条件时,训练结束并保存网络模型。

25、在步骤5中,利用步骤1构建的测试集对保存的神经网络进行测试,若未达到规定的测试指标,则回到步骤4,调整超参数和网络训练参数,重新训练。

26、本发明中的基于双线性自编码神经网络的鲁棒主成分分析方法,针对常规rpca方法中因为计算开销巨大导致的无法处理大规模数据的问题,提出了一种基于双线性自编码神经网络的鲁棒主成分分析方法,该方法利用双线性自编码神经网络,避免了常规rpca方法中的奇异值分解,降低了计算复杂度,在计算大规模数据时,消耗的时间和内存得以大幅度降低。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1