基于机器学习的找矿模型预测方法与流程

文档序号:11583824阅读:551来源:国知局

本发明属于地质勘探技术领域,具体为基于机器学习的找矿模型预测方法。



背景技术:

模型或模式在地球科学中应用已越来越广泛,普遍受到广大地质工作者的重视。美国地质学家惠顿指出,模型的引入是地质科学三大成果之一。自从斑岩矿床模式的成功建立以来,许多模式相继问世,如石油生油模式、地球化学分带模型、卡林型金矿模式、粉岩成矿模式等。成矿模式、找矿模型的建立,促进了地质勘查工作的深入开展,丰富了矿床成矿理论。成矿模式在地质认识上的重大突破往往会对找矿工作产生重要影响。美国密西西比铅锌矿、马祖铜钼矿床,我国的水口山铅锌矿,在成矿模式上的新认识,使得找矿工作取得重大突破。随着找矿难度增大,模式找矿就具有特别重要的意义。赵鹏大教授强调用数学地质方法研究矿床的统计性找矿标志,以建立统计找矿模型。王世称教授倡导从综合信息成矿分析出发,建立综合找矿模型。此外,还有一些专家学者孙文柯、胡惠民等对找矿模型进行过论述,对今后建模工作打下了理论基础。已建立起的一些综合找矿模型,如猫岭金矿等,在实际工作中发挥了一定作用。但目前建模的理论方法还处于探索阶段。

2000年以来,不同领域都迎来了数据信息大规模的增长,据idc报告称:2015全球数据总量约7.9zb,2020年的时候,全球的数据总量将达到40zb,全球数据量大约每两年翻一番,而且这个速度在2020年之前还会继续保持下去。麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《bigdata:thenextfrontierforinnovation,competition,andproductivity》中给出的大数据定义是:大数据指的是数据集的大小超出常规的数据库工具获取、存储、管理能力。但它同时强调,同时也强调说大数据并没有一个特定大小,比如一定要超过多少tb的数据集才算是大数据。在地质科学领域,地质科学大数据作为一种时空大数据,其拥有大数据的四个基本特征:即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)、巨大的数据价值(value)。在此背景下,为了应对挑战,需要在地质科学领域引进大数据理论,方法和技术,开展对地质科学大数据的统合和利用。

随着大数据技术在全球发展迅猛,掀起了对大数据巨大的研究热潮。在大数据时代,对信息量极大的数据来说,数据分析过程是数据处理的关键性环节。大数据分析处理主要分为两大类。简单分析主要是使用传统关系型数据库的联机分析处理技术和方法,通过使用sql语句完成各种查询、统计分析;而大数据的深度价值仅通过简单分析是难以发现的,通常需要使用基于机器学习和数据挖掘的智能化复杂分析才能实现。作为人工智能中的重要研究领域,机器学习通过计算机模拟人的学习行为来学习获取知识,不断完善自我知识体系。大数据机器学习不仅是一个单纯的机器学习问题,更是一个大规模的复杂系统问题,是一个同时涉及机器学习和大数据处理两个领域的交叉研究课题。在此背景下,结合地质科学时空大数据,找矿模型预测新方法新技术应实现地质科学、大数据、机器学习等技术的结合,地质大数据找矿模型预测机器学习理念应用而生。

随着找矿难度增大,模式找矿就具有特别重要的意义。赵鹏大教授强调用数学地质方法研究矿床的统计性找矿标志,以建立统计找矿模型。王世称教授倡导从综合信息成矿分析出发,建立综合找矿模型。此外,还有一些专家学者孙文柯、胡惠民等对找矿模型进行过论述,对今后建模工作打下了理论基础。已建立起的一些综合找矿模型,如猫岭金矿等,在实际工作中发挥了一定作用。

还有就是将地质找矿工作与计算机结合所形成的专家系统。专家系统在一定程度上能实现找矿工作的智能化,但现有的专家系统存在所建立的模型不够全面客观,而且已有的专家系统模型有限,所建立的系统无法更新等问题。

总结前人研究成果,目前建模的理论方法还处于探索阶段,现有的找矿模型建立主要是在分析研究区资料的基础上,地质人员根据自己的知识经验来建立的,这样所建立的找矿模型带有一定主观性和认识上的局限性,不同地质人员所建立的找矿模型可能会有所不同。



技术实现要素:

针对上述技术问题,本发明提供一种基于机器学习的找矿模型预测方法,具体的技术方案为:

基于机器学习的找矿模型预测方法,包括以下过程:

1、建立找矿概念模型库

在构建找矿概念预测模型时,需要整理模型名称以及所有控矿要素,建立统一的矿床成矿模式或矿床式的成矿模式;

2、找矿模型的确定

(1)模型的粗筛选

根据研究区的勘探程度和所收集到的资料,提取出所有控矿要素的关键词,然后采用关键词匹配法,将提取出的关键词与构建的找矿概念模型库中的关键词进行匹配,关键词包括模型名称的关键词和控矿要素的关键词;筛选出与研究区相关的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素分别为f1,f2,…,fm;

(2)找矿模型的最终确定

①计算控矿要素的重要性

根据筛选出的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素分别为f1,f2,…,fm;对于第i个模型,在控矿要素数据清洗过程中按控矿地质条件类别的不同分为ci类,将所有控矿要素按照控矿地质条件类别统计,每类所对应的控矿要素个数分别为则在第i个模型的第j类中,每个控矿要素的重要性pij为:

由于一个控矿要素可能出现在多个模型中,所以对于研究区中任意一个控矿要素,将其在每个模型中的重要性pij加起来得到这个控矿要素的最终重要素指标;

②计算控矿要素的使用率

根据筛选出的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素的个数分别为n1,n2,…,nm,共计h个,n1+n2+…+nm=h,则可得某个控矿要素的使用率fi为:

③确定最佳找矿概念模型

最佳找矿概念模型的确定是通过朴素贝叶斯方法以找矿概念模型库中的现有数据作为训练样本,以研究区的控矿要素作为待处理数据,计算对研究区控矿要素的条件概率,判断其属于模型库中每个模型的概率;

假设筛选出m个找矿概念模型y1,y2,…,ym,记为y,每个模型所对应的控矿要素分别为f1,f2,…,fm;研究区内收集到n个控矿要素,将这些属性作为一个向量,记为x,有:

y={y1,y2,…,ym}(3)

x={x1,x2,…,xn}(4)

最佳找矿概念模型的确定是将研究划分到某个找矿概念模型中,即将其归类成概率值最大的那一类,求解x={x1,x2,…,xn}在样本类别集合y={y1,y2,…,ym}中的概率值(p1,p2,…,pm),其中pi为x属于类别yi的概率,找到最大值max(pi)即为最佳的找矿概念模型。

假设第i个找矿概念模型有ki个控矿要素,记为fi:

因此,m个找矿概念模型中共有h个控矿要素:

通过上述公式可知,每个找矿概念模型所对应先验概率p(yi)为:

记研究区中第j(1≤j≤n)个控矿要素在第i(1≤i≤m)个找矿概念模型yi概率为p(xj|yi),由于各个控矿要素是条件独立的,则根据贝叶斯定理可得:

可得到研究区属于m个找矿概念模型的概率p(yi|x);在求解式子(8)时,分母对于所有类别为常数,将分子最大化皆可;各个控矿要素是条件独立的,所以有:

max(p(yi|x))就为最佳的找矿概念模型。

④模型的验证

为了验证系统计算的正确性,通过在找矿概念模型数据库选取一个模型,删除掉其中几个控矿要素,如果模型匹配结果中有删除掉的控矿要素,即所采用的找矿概念模型的确定方法是可靠的,否则计算结果是不可靠的。

在大数据时代的背景下,采用机器学习的方法来建立研究区的找矿模型。矿床模型是找矿勘查的理论基础。矿床模型(包括成矿模型和找矿模型)是矿床形成的地质背景、过程、时空分布规律和找矿标志的高度概括。在找矿模型预测研究方面,大数据机器学习不只是利用海量的地质数据和多样的数据类型,确定出找矿模型,更重要的是对这些现有找矿模型数据进行专业化处理,形成了数据-信息-知识-产业-科研-创新-财富-服务-再数据的完整大数据链。

基于机器学习的找矿模型预测方法就是以矿床成矿理论作为理论依据,在总结和研究矿床模型的基础上综合研究区各类勘查数据资料、文献资料,系统研究控制矿床形成的条件和关键因素,在此基础上开展找矿模型预测工作。总结为,通过搜集国内外各类找矿模型,建立起统一且容易区分的找矿概念模型库,以各研究区的勘查数据资料为基础,通过机器学习将找矿概念模型库中现有国内外找矿模型及控矿要素与研究区数据资料进行分析和归纳,构建找矿预测模型,将找矿预测模型中控矿要素确定后,依据研究区范围提供数据资料整理清单,完善找矿概念模型的数据基础,依据立方体定量预测系统中总结出的算法,推荐控矿要素适合的算法组合,最终在找矿概念预测模型的基础上,实现定量、定位和定概率的预测评价。

与根据地质人员知识经验(或专家系统)来建立找矿模型的方法相比,本发明提供的基于机器学习的找矿模型预测方法,更为全面客观,不断将找矿概念模型加入到模型库中,完善找矿概念模型库的数据基础,使所确定的找矿概念模型越来越准确,所建立的模型更符合实际情况。

本发明提供的基于机器学习的找矿模型预测方法,能快速建立起某研究区的找矿模型,且所建立的找矿模型更为全面客观,更符合实际情况。随着找矿概念模型库的丰富,基于机器学习的找矿模型预测方法还能进一步提高所建立的模型的准确性,为研究区下一步的找矿工作提供依据。

附图说明

图1为本发明的流程图。

具体实施方式

结合实施例说明本发明的具体实施方式。

基于机器学习的找矿模型预测方法就是以矿床成矿理论作为理论依据,在总结和研究矿床模型的基础上综合研究区各类勘查数据资料,文献资料,系统分析控制矿床形成的条件和关键因素,以此开展找矿模型预测工作。其主要流程可总结为,通过搜集国内外各类找矿模型,建立起统一且容易区分的找矿概念模型库;以研究区所收集到的数据资料为基础,计算每个控矿要素的重要性和使用率两个指标,通过朴素贝叶斯方法确定研究区的找矿概念模型,并将确定的找矿概念模型加入到模型库中,完善找矿概念模型库的数据基础,使所确定的找矿概念模型越来越准确。基于机器学习找矿模型预测流程图如图1所示。

1、建立找矿概念模型库

由于资料来源不同及资料的成矿地质条件和勘查程度存在差异,造成了在建立找矿模型时,会出现结果不统一的情况,如同一名称属于不同概念,而不同名称又属于同一内涵。因此,在构建找矿概念预测模型时,需要整理模型名称以及所有控矿要素,建立统一的矿床成矿模式或矿床式的成矿模式。

找矿模型数据的整理主要包括两个方面:模型名称和控矿要素的整理。模型名称一般可分为两类,一类是典型矿床式命名,例如山东焦家金矿;另一种是抽象总结式命名,例如岩浆岩型稀土矿。这两种模型名称在数据整理过程中无法统一,因此,只能做到尽量将其中的关键词及其他非关键字符统一。在控矿要素的整理过程中,必须保证每一个控矿要素的唯一性。表1为构建的基性-超基性岩型铜镍(银铬)矿的找矿概念模型。

表1基性-超基性岩型铜镍(银铬)矿的找矿概念模型

2、找矿模型的确定

(1)模型的粗筛选

根据研究区的勘探程度和所收集到的资料,提取出所有控矿要素的关键词,然后采用关键词匹配法,将提取出的关键词与构建的找矿概念模型库中的关键词(包括模型名称的关键词和控矿要素的关键词)进行匹配,筛选出与研究区相关的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素分别为f1,f2,…,fm。

(2)找矿模型的最终确定

①计算控矿要素的重要性

根据筛选出的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素分别为f1,f2,…,fm。对于第i个模型,在控矿要素数据清洗过程中按控矿地质条件类别的不同分为ci类,将所有控矿要素按照控矿地质条件类别统计,每类所对应的控矿要素个数分别为则在第i个模型的第j类中,每个控矿要素的重要性pij为:

由于一个控矿要素可能出现在多个模型中,所以对于研究区中任意一个控矿要素,将其在每个模型中的重要性pij加起来得到这个控矿要素的最终重要素指标。

②计算控矿要素的使用率

根据筛选出的m个找矿概念模型m1,m2,…,mm,每个模型所对应的控矿要素的个数分别为n1,n2,…,nm,共计h(n1+n2+…+nm=h)个,则可得某个控矿要素的使用率fi为:

③确定最佳找矿概念模型

最佳找矿概念模型的确定是通过朴素贝叶斯方法以找矿概念模型库中的现有数据作为训练样本,以研究区的控矿要素作为待处理数据,计算对研究区控矿要素的条件概率,,判断其属于模型库中每个模型的概率。假设筛选出m个找矿概念模型y1,y2,…,ym,记为y,每个模型所对应的控矿要素分别为f1,f2,…,fm;研究区内收集到n个控矿要素,将这些属性作为一个向量,记为x,所以有:

y={y1,y2,…,ym}(3)

x={x1,x2,…,xn}(4)

最佳找矿概念模型的确定是将研究划分到某个找矿概念模型中,即将其归类成概率值最大的那一类。因此也就是求解x={x1,x2,…,xn}在样本类别集合y={y1,y2,…,ym}中的概率值(p1,p2,…,pm),其中pi为x属于类别yi的概率,只要找到最大值max(pi)就是最佳的找矿概念模型。

假设第i个找矿概念模型有ki个控矿要素,记为fi:

因此,m个找矿概念模型中共有h个控矿要素:

通过上述公式可知,每个找矿概念模型所对应先验概率p(yi)为:

我们记研究区中第j(1≤j≤n)个控矿要素在第i(1≤i≤m)个找矿概念模型yi概率为p(xj|yi),由于各个控矿要素是条件独立的,则根据贝叶斯定理可得:

由此,我们可得到研究区属于m个找矿概念模型的概率p(yi|x)。在求解式子(8)时,因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各个控矿要素是条件独立的,所以有:

因此,我们根据max(p(yi|x))就可最佳的找矿概念模型。

④模型的验证

为了验证系统计算的正确性,通过在找矿概念模型数据库选取一个模型,删除掉其中几个控矿要素,如果模型匹配结果中有删除掉的控矿要素,即我们所采用的找矿概念模型的确定方法是可靠的,否则计算结果是不可靠的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1