一种基于强化学习的自适应广域电磁法激电信息提取方法

文档序号:26138101发布日期:2021-08-03 14:21阅读:115来源:国知局
一种基于强化学习的自适应广域电磁法激电信息提取方法
本发明属于地球物理
技术领域
,涉及一种基于强化学习的自适应广域电磁法激电信息提取方法。
背景技术
:广域电磁法(widefieldelectromagneticmethod,wfem)是一种新型的频率域电磁勘探方法。该方法兼有可控源音频大地电磁法(csamt)场源信号稳定可靠以及磁偶源频率测深法(melos)非远区测量的优点。wfem定义的广域视电阻率严格保留了电磁场表达式级数展开式中的高次项,并且能在多种工作方式下通过只测量一个物理量来提取,是一种能有效改善电磁测深曲线非远区畸变效应的全区域适用视电阻率。目前,wfem在油气资源探测、金属矿探测和工程勘测等领域取得了一系列积极的成果。然而,在实际应用中,地下介质的频率域电磁波响应为电磁感应和激电效应的综合反映。开展从频率域电磁法信号中提取激电信息的研究,可以获得更多的物性参数,有助于定量分析极化效应对电磁信号的影响,进而提高频率域电磁法的反演解释精度。但是,由于地下导电性不均匀所引起的异常强度远大于激电效应引起的异常,反演的过程将明显地分为两个部分:(1)电阻率反演部分,由于电阻率参数对适应度函数曲线起主要的影响作用,因此个体在解空间内将快速收敛至正确的电阻率参数附近;(2)极化率反演部分,此时电阻率参数对适应度函数的影响趋于稳定,个体开始在电阻率参数附近进行微调,极化率参数的优化将成为适应度曲线下降的主要原因,但由于极化率参数在数值上远小于电阻率参数,对适应度函数的影响也远小于电阻率参数对适应度函数的影响,算法在此时极易陷入局部极值,得到错误的极化率参数,加大了激电信息提取的难度。因此,如何在电阻率参数的影响下,提取弱小的极化率参数,是一个复杂的工程问题,存在具体巨大的技术挑战。技术实现要素:本发明的目的在于提供一种基于强化学习的自适应广域电磁法激电信息提取方法,该方法通过定义敏感度作为反演参数识别的特征,同时采用强化学习的方法来实现自适应反演参数的识别和正则化设置,提高激电信息提取的精度。为了达到上述目的,本发明提供以下技术方案:本发明提供一种基于强化学习的自适应广域电磁法激电信息提取方法,通过定义敏感度作为反演参数识别的特征,同时采用强化学习的方法来实现自适应反演参数的识别和正则化设置,从而实现智能化的激电信息提取。本发明提供一种基于强化学习的自适应广域电磁法激电信息提取方法,包括以下步骤:s1、设置广域视电阻率的计算方程:式(1)中,r为观测点到偶极源中心的距离,或称收发距;dl为水平电流源的长度,mn为观测点m和n之间的距离;为观测点m和n之间的距离,ρ为电阻率,i为电流强度,k称为电磁波的传播常数或波数,i为虚部,为r与电流源之间的夹角;s2、设置激电模型为:式(2)中,ρ(ω)为考虑极化效应后与频率相关的广域复电阻率;ρa为未考虑极化效应时的广域视电阻率;m为极化率;τ为时间常数;c为频率相关系数,ω为角速度;s3、设置反演的目标函数如下:fit=e(e)+λ1r(ρ)+λ2r(m)(3)式(3)中,r(ρ)和r(m)分别为对电阻率和极化率的最小构造约束函数;λ1、λ2分别为r(ρ)和r(m)对应的正则化因子,采用两个独立正则化因子的原因是极化率的取值空间(m∈[0,1])较电阻率的取值空间有较大差异(一般可认为ρ>>m),如果采用统一的正则化因子将无法约束相对较小的极化率参数;e(e)为目标误差函数,在反演时为数据的拟合误差;r(ρ)和r(m)在此均采用下式进行计算:式(4)中,m为反演得到的模型参数,包括电阻率ρ和极化率m;s4、通过定义敏感度作为反演参数识别的特征,设计不同物性参数的分阶段提取方法,并通过敏感度来区分当前反演所处的阶段;定义电阻率和极化率的敏感度如下:式(5)中,s为敏感度,g为迭代次数,fit为适应度,m为反演得到的模型参数,包括电阻率ρ和极化率m;s5、采用基于确定策略梯度的强化学习来实现反演阶段的判断和正则化系数的设置;强化学习包含了状态、行为和奖励三要素,针对三要素进行系统建模,其中状态是电阻率和极化率的敏感度,行为是正则化系数,奖励是适应度的改进值;系统根据当前的状态判断反演的阶段并输出对应的正则化系数,然后根据反演结果计算奖励来调整强化学习中的策略和值函数;通过反复学习直至策略和值函数稳定,就可以准确地判断反演阶段并设置合适的正则化系数;s6、根据强化学习所生成的正则化系数来控制反演施加的约束,实现自适应反演参数的识别和正则化设置,得到高精度的激电信息(包括电阻率和极化率参数)。进一步,步骤s5中,所述强化学习的步骤包括:步骤一、随机初始化四个网络,分别是当前策略网络μ,目标策略网络μ',当前q网络q,目标q网络q';参数分别为:当前策略网络参数θ,目标策略网络参数θ',当前q网络参数w和目标q网络参数w',当前迭代次数t=0;步骤二、s为初始状态,将状态s输入当前策略网络,得到动作a:a=μ(s|θ)+n其中μ(·)是当前策略网络输出的策略,s是初始状态,θ为当前策略网络的参数,n为噪声;步骤三、状态s执行动作a,得到下一个状态s',奖励r,将s,a,r,s'存入经验回放集合d={st,at,rt,s't};步骤四、状态s更新为s';从经验回放集合d中随机采集n个样本{si,ai,ri,s'i},i=1,2,3,…,n,计算当前q网络q的输出值yi:yi=ri+γq'(s'i,μ'(s'i|θ')|w')其中ri是状态si执行动作ai获得的奖励,γ是奖励衰减因子,q'(·)是目标q网络输出的q值,w'是目标q网络的参数,μ'(·)是目标策略网络输出的策略,θ'是目标策略网络的参数;步骤五、使用均方差损失函数mse(meansquarederror)计算当前q网络的损失l并通过神经网络的梯度反向传播来更新当前q网络的全部参数w;其中n是获取的样本总数,q(·)是当前q网络输出的q值,si是第i个状态,ai是第i个动作,w是当前q网络的参数;步骤六、使用性能指标函数j,通过神经网络的梯度反向传播来更新当前策略网络的全部参数θ,迭代次数t增加1;步骤七、每隔固定周期更新目标q网络参数w'和目标策略网络参数θ';w'=τw+(1-τ)w'θ'=τθ+(1-τ)θ'其中τ是网络参数软更新系数,θ是当前策略网络参数,w是当前q网络参数;步骤八、判断策略和值函数是否稳定收敛,如果达到终止条件则训练结束,未达到终止条件则返回步骤二。进一步,步骤s6中,在反演过程中将施加两类约束:一、利用勘探区域已知的物性特征来施加电阻率和极化率的先验信息约束,减少反演算法的搜索空间;二、当处于某一物性参数(电阻率参数或极化率参数)反演阶段时,则为另一物性参数施加限制约束,即将另一物性参数的搜索限制在一个很小的范围内,来强化主物性参数对适应度函数的影响。因此,通过强化学习所生成的不同正则化系数来控制不同约束的强度,从而实现精准的多参数反演。通过本发明方法,由于反演前期电阻率对观测数据的影响远大于极化率,因此电阻率的敏感度将高于极化率,此时的反演以电阻率为主,对电阻率参数施加先验信息约束,对极化率参数施加强限制约束;而后期电阻率趋于稳定,极化率的敏感度将高于电阻率,此时的反演将以极化率为主,对极化率参数施加先验信息约束,对电阻率参数施加强限制约束。而具体的约束施加也通过强化学习对反演阶段的判断结果进行设定。本发明设计了一种基于强化学习的自适应广域电磁法激电信息提取方法,使得反演算法能够自动快速的识别当前反演的主要参数是极化率还是电阻率,并进行有针对性的反演,从而提高激电信息提取的精度。与现有技术相比,本发明具有以下优点:(1)本发明方法能够根据迭代过程中电阻率和极化率的敏感度来判断当前反演的状态(以极化率反演为主还是电阻率反演为主),并输出正确的正则化系数并施加正确的约束条件,从而实现智能化的激电信息提取。(2)本发明方法能够有效解决多参数反演时的不适定问题。(3)本发明方法能够强化极化率在反演后期的影响,提高激电信息提取的精度。附图说明图1是基于强化学习的自适应广域电磁法激电信息提取方法的流程图。图2是基于强化学习的正则化系数和约束设定策略。具体实施方式下面结合具体实施例和附图对本发明进行进一步说明:实施例1本发明提供一种基于强化学习的自适应广域电磁法激电信息提取方法,如图1所示,包括以下步骤:s1、设置广域视电阻率的计算方程:式(1)中,r为观测点到偶极源中心的距离,或称收发距;dl为水平电流源的长度,mn为观测点m和n之间的距离;为观测点m和n之间的距离,ρ为电阻率,i为电流强度,k称为电磁波的传播常数或波数,i为虚部,为r与电流源之间的夹角;s2、设置激电模型为:式(2)中,ρ(ω)为考虑极化效应后与频率相关的广域复电阻率;ρa为未考虑极化效应时的广域视电阻率;m为极化率;τ为时间常数;c为频率相关系数,ω为角速度;s3、设置反演的目标函数如下:fit=e(e)+λ1r(ρ)+λ2r(m)(3)式(3)中,r(ρ)和r(m)分别为对电阻率和极化率的最小构造约束函数;λ1、λ2分别为r(ρ)和r(m)对应的正则化因子,采用两个独立正则化因子的原因是极化率的取值空间(m∈[0,1])较电阻率的取值空间有较大差异(一般可认为ρ>>m),如果采用统一的正则化因子将无法约束相对较小的极化率参数;e(e)为目标误差函数,在反演时为数据的拟合误差;r(ρ)和r(m)在此均采用下式进行计算:式(4)中,m为反演得到的模型参数,包括电阻率ρ和极化率m;s4、通过定义敏感度作为反演参数识别的特征,设计不同物性参数的分阶段提取方法,并通过敏感度来区分当前反演所处的阶段;定义电阻率和极化率的敏感度如下:式(5)中,s为敏感度,g为迭代次数,fit为适应度,m为反演得到的模型参数,包括电阻率ρ和极化率m;s5、采用基于确定策略梯度的强化学习来实现反演阶段的判断和正则化系数的设置,具体如图2所示;强化学习包含了状态、行为和奖励三要素,针对三要素进行系统建模,其中状态是电阻率和极化率的敏感度,行为是正则化系数,奖励是适应度的改进值;系统根据当前的状态判断反演的阶段并输出对应的正则化系数,然后根据反演结果计算奖励来调整强化学习中的策略和值函数;通过反复学习直至策略和值函数稳定,就可以准确地判断反演阶段并设置合适的正则化系数;强化学习的步骤包括:步骤一、随机初始化四个网络,分别是当前策略网络μ,目标策略网络μ',当前q网络q,目标q网络q';参数分别为:当前策略网络参数θ,目标策略网络参数θ',当前q网络参数w和目标q网络参数w',当前迭代次数t=0;步骤二、s为初始状态,将状态s输入当前策略网络,得到动作a:a=μ(s|θ)+n其中μ(·)是当前策略网络输出的策略,s是初始状态,θ为当前策略网络的参数,n为噪声;步骤三、状态s执行动作a,得到下一个状态s',奖励r,将s,a,r,s'存入经验回放集合d={st,at,rt,s't};步骤四、状态s更新为s';从经验回放集合d中随机采集n个样本{si,ai,ri,s'i},i=1,2,3,…,n,计算当前q网络q的输出值yi:yi=ri+γq'(s'i,μ'(s'i|θ')|w')其中ri是状态si执行动作ai获得的奖励,γ是奖励衰减因子,q'(·)是目标q网络输出的q值,w'是目标q网络的参数,μ'(·)是目标策略网络输出的策略,θ'是目标策略网络的参数;步骤五、使用均方差损失函数mse(meansquarederror)计算当前q网络的损失l并通过神经网络的梯度反向传播来更新当前q网络的全部参数w;其中n是获取的样本总数,q(·)是当前q网络输出的q值,si是第i个状态,ai是第i个动作,w是当前q网络的参数;步骤六、使用性能指标函数j,通过神经网络的梯度反向传播来更新当前策略网络的全部参数θ,迭代次数t增加1;步骤七、每隔固定周期更新目标q网络参数w'和目标策略网络参数θ';w'=τw+(1-τ)w'θ'=τθ+(1-τ)θ'其中τ是网络参数软更新系数,θ是当前策略网络参数,w是当前q网络参数;步骤八、判断策略和值函数是否稳定收敛,如果达到终止条件则训练结束,未达到终止条件则返回步骤二;s6、根据强化学习所生成的正则化系数来控制反演施加的约束,实现自适应反演参数的识别和正则化设置,得到高精度的激电信息(包括电阻率和极化率参数);在反演过程中将施加两类约束:一、利用勘探区域已知的物性特征来施加电阻率和极化率的先验信息约束,减少反演算法的搜索空间;二、当处于某一物性参数(电阻率参数或极化率参数)反演阶段时,则为另一物性参数施加限制约束,即将另一物性参数的搜索限制在一个很小的范围内,来强化主物性参数对适应度函数的影响。因此,通过强化学习所生成的不同正则化系数来控制不同约束的强度,从而实现精准的多参数反演。实施例2在一个三层的模型上测试了该方法,三层模型的电阻率参数ρ,厚度参数h和极化率参数m的设置如表1所示;反演算法采用灰狼优化算法gwo,其中种群大小p和迭代次数tmax的设置如表1所示;强化学习的软更新系数τ和奖励衰减因子γ的设置如表1所示;当不采用强化学习时,最小构造函数的正则化因子λ1和λ2的设置如表1所示。表1将本发明所提出的方法与不采用强化学习,采用actor-critic方法(单网络)比较的反演结果如表2所示;评估指标为均方根误差(rmse)和决定系数r2。表2方法rmser2无强化学习38.330.88actor-critic方法30.240.91本发明方法27.430.93由反演结果可知,基于强化学习的反演方法(actor-critic方法和本发明方法)结果优于不采用强化学习的反演方法,这是因为强化学习能够自动的识别反演所处的物性阶段,输出正确的正则化系数并施加约束。而本发明方法优于actor-critic方法,这是因为本发明方法采用了双网络来分别实现actor和critic模块,这种当前网络和目标网络(双网络)分离的模式与actor-critic方法相比能够进一步提高强化学习的稳定性和泛化能力。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1