多维测井数据异常值智能剔除的方法与系统

文档序号:35829885发布日期:2023-10-25 02:59阅读:38来源:国知局
多维测井数据异常值智能剔除的方法与系统

所属的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。


背景技术:

1、地球物理资料为构建详细的地质模型提供了丰富的地层参数。其中,多维测井曲线数据反映了地层岩性、物性、电性的详细信息,地层分辨率可达0.5m。目前基于人工解释与机器学习算法可详细判别垂向岩性分布。为了实现智能、快速的地层识别与划分,定位目的层段,研究人员所建立的算法模型愈加复杂,受输入的异常数据影响较大。为了确保算法运行中的稳定性,需要建立合适的算法模型对多维测井曲线进行异常值剔除,使得输入训练集数据更有效地指导算法模型更新。因此,本专利将原始多维测井数据作为输入,采用机器学习降维算法确定原始数据点类别作为参考,实现孤立森林算法超参数的准确拾取,从而快速进行大量的多维测井数据异常值剔除。


技术实现思路

1、为了解决现有技术中的上述问题,即现有技术中异常数据较多难以实现钻进过程中的稳定的参数获取的问题,本发明提供了一种多维测井数据异常值智能剔除的方法,所述方法包括:

2、步骤s100,获取多维测井曲线;

3、步骤s200,基于所述多维测井曲线,通过umap将为算法进行降维获得二维测井曲线数据;

4、步骤s300,基于所述二维测井曲线数据,建立多维测井曲线与二维测井曲线的第一数据点索引;

5、步骤s400,基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;

6、步骤s500,基于所述第一数据点索引和有效测井数据,获取第二数据点索引;

7、步骤s600,基于所述第二数据点索引,找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。

8、在一些优选的实施方式中,所述多维测井曲线,包括:放射性gr、自然电位sp、井径cal、密度den、中子cnl、孔隙度por、深测向电阻率rd和浅测向电阻率rs。

9、在一些优选的实施方式中,所述步骤s200,具体包括:

10、构建局部连接:确定超参数:local_connectivity(邻接点数目的下限)将这些最近的邻接点设置权重为100%,表示这些点完全相关。

11、步骤s210,确定umap降维模型的超参数,包括邻接点数目的下限local_connectivity和近邻点数目n_neighbors;近邻点数目为指定每个数据点包含多少近邻点;

12、步骤s220,将邻接点数目的下限中包含的邻接点设置权重为100%;

13、将与当前数据点最接近的n_neighbors个近邻作为模糊区域,将模糊区域中的近邻的权重随距离变化,非邻接点和非近邻点的数据点的权重设置为0;

14、所述将模糊区域中的数据点的权重随距离变化具体为:

15、;

16、表示第 j个样本点与最接近的近邻点之间的距离,表示根据第 i个样本点与第 j个样本点之间的距离预设的参数,第 i个样本点表示任一样本点,表示样本点 j关于样本点 i的权重,表示第 i个样本点的值,表示第 j个样本点的值,表示距离;

17、步骤s230,合并数据点的边缘权重:

18、;

19、表示样本点j关于样本点i的权重,表示样本点i关于样本点j的权重,表示样本点j和i的边缘权重;

20、获得权重邻接图;

21、步骤s240,基于所述权重邻接图,设置交叉熵目标函数,并通过随机梯度下降算法调整模型参数,直至目标函数达到预设的阈值,获得二维测井曲线数据。

22、在一些优选的实施方式中,所述步骤s240,具体包括:

23、步骤s241,基于所述权重邻接图,确定最小距离超参数min_dist,表示低维空间中两个点的最近距离;

24、步骤s242,基于所述最小距离超参数min_dist,构建交叉熵目标函数:

25、;

26、表示交叉熵目标函数的值,表示从所选取epoch样本集中选取的两个样本点i和j,表示所选取epoch样本集,表示样本点i、j的边缘权重;表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离;所述边缘权重包含方向信息;

27、;

28、a和b表示根据最小距离超参数min_dist确定的参数;

29、;

30、其中,表示样本点j在低维空间的坐标,表示样本点i在低维空间的坐标;

31、步骤s243,通过随机梯度下降算法调整模型参数,直至目标函数达到预设的阈值,获得二维测井曲线数据。

32、在一些优选的实施方式中,所述第一数据点索引,具体为在多维测井曲线中的数据点与二维测井曲线的数据点中一一对应的映射。

33、在一些优选的实施方式中,所述步骤s400,具体包括:

34、步骤s410,从二维测井曲线数据中随机抽取个数据点构成待处理数据子集存入根节点;

35、步骤s420,从二维测井曲线数据中随机选定一个维度q,在维度q中随机产生一个切割点p;其中切割点p满足, j表示序号;

36、步骤s430,根据切割点p生成将维度q中数据划分为两个子空间的超平面,指定数值小于p的维度q的数据点放入第一叶子节点,数值大于或等于p的数据点放入第二叶子节点;

37、步骤s440,递归步骤s420至步骤s430所述的方法,直至所有的叶子节点都只有一个数据点或孤立树已经达到预设的高度;

38、步骤s450,重复步骤s420至步骤s440所述的方法,直至生成t个孤立树;其中,t个孤立树表示:孤立树没有叶子节点的外部节点,或有两个叶子节点和一个内部节点test;在t个孤立树的内部节点test由维度q和一个分割点p组成,q<p的点属于,反之属于;

39、步骤s460,所述t个孤立树即为孤立树森林,令每个数据点遍历每一个孤立树,计算数据点在每一个孤立树的高度即数据点从所在孤立树的根节点到叶子节点经过的边的数量;从而计算数据点在孤立树森林中的平均高度,对所有数据点的平均高度做归一化处理,获得归一化的数据点平均高度;

40、步骤s470,基于所述归一化的数据点平均高度,计算异常值分数:

41、;

42、其中,表示个数据点所构建的二叉树路径长度的平均值,e(*)表示期望;

43、;

44、其中,表示调和数,通过估算,0.5772156649为欧拉常数;

45、当所述异常值分数小于预设的异常值阈值s时,将对应的数据点剔除,获得有效测井数据,,表示有效测井数据中的数据点数。

46、在一些优选的实施方式中,所述步骤s500,具体包括:

47、将所述有效测井数据存在的第一数据点索引设置为第二数据点索引。

48、本发明的另一方面,提出了一种多维测井数据异常值智能剔除的系统,所述系统包括:

49、多维曲线获取模块,配置为获取多维测井曲线;

50、曲线降维模块,配置为基于所述多维测井曲线,通过umap将为算法进行降维获得二维测井曲线数据;

51、第一数据点索引建立模块,配置为基于所述二维测井曲线数据,建立多维测井曲线与二维测井曲线的第一数据点索引;

52、异常值剔除模块,配置为基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;

53、第二数据点索引获取模块,配置为基于所述第一数据点索引和有效测井数据,获取第二数据点索引;

54、二次剔除模块,配置为基于所述第二数据点索引,找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。

55、本发明的有益效果:

56、(1)本发明通过基于机器学习的降维算法快速抓取多维测井曲线的主要信息,并且自动实现数据点类内间距最小,类间间距最大的效果。将降维后的数据样本点输入孤立森林算法模型进行快速训练与判别,实现异常值数据点的剔除同时还提高了异常值剔除的计算速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1