基于p‑stable局部敏感哈希检索数据样式的多点地质统计建模方法与流程

文档序号:12364054阅读:245来源:国知局
本发明涉及储层地质建模
技术领域
:,具体地指一种基于p-stable局部敏感哈希检索数据样式的多点地质统计建模方法(LSHSIM,LocalSensitiveHashingSimulation)。
背景技术
::基于多点地质统计学建模算法对油田高效开发具有重要支持作用。Arpat在2003年Stanford油藏预测中心会议上提出基于样式的多点地质统计学算法SIMPAT,算法SIMPAT把图像重建思想引入到储层地质建模里,核心思想是匹配“数据样式”和“数据事件”之间的相似度,具体过程是首先匹配先验地质模式库(即样式数据库)中与模拟工区待估区域(数据事件)的相似性度量最大的储层模式(数据样式);然后把该储层模式(数据样式)覆盖替模拟工区待估区域(数据事件)。随着油田开发的不断深入,地质研究的精度越来越高,从而地质模型的尺度越来越小,例如很多开发中后期的老油田,地质建模的精度达到平面网格划分为10m×10m,纵向0.5m,甚至更小。目前普遍采用随机模拟技术建立地质模型,通常需要建立多个实现(如100个),甚至是四维模型,因此,地质建模的效率逐渐成为关注的热点问题。计算热点是程序代码需要耗费大量时间运行的部分,通常是算性能瓶颈,算法SIMPAT的计算热点主要围绕于匹配数据事件与庞大数量的样式数据库所有样式的相似性计算,计算性能成为普及基于样式建模算法的瓶颈。限制了算法SIMPAT的应用。因此,急需研究一种针对SIMPAT算法的加速计算改进方法,从而能高效地基于样式匹配策略进行多点地质统计建模。技术实现要素:本发明目的在于提供一种能够提高基于样式多点地质统计建模算法计算效率的方法(即基于p-stable局部敏感哈希检索数据样式的多点地质统计建模方法)。相比SIMPAT算法,本算法极大提高多点地质统计学建模算法的效率。本发明LSHSIM算法基于局部敏感哈希技术检索相似数据样式,首先统计样式数据库的全部数据样式的分块网格内变量值之和,将分块网格转换为数据样式的特征向量,进而基于p-stable局部敏感哈希算法计算特征向量的哈希值,把哈希值相同(相似)的数据样式保存在相同的哈希桶中,构成数据样式哈希库。模拟时先基于p-stable局部敏感哈希算法计算数据事件的哈希值,然后从数据样式哈希库中检索相同哈希桶的数据样式,再计算比较数据事件与这些数据样式的相似度,最终找出最相似的数据样式。本发明是基于哈希算法查找最相似数据样式,因此极大提高了模拟的效率。为实现上述目的,本发明提供的一种基于p-stable局部敏感哈希检索数据样式的多点地质统计建模方法,包括以下步骤:1)输入训练图像TI,定义模拟实现R的尺寸、数据样板T的尺寸;2)设置分块网格BlockGrid的尺寸,输入p-stable局部敏感哈希的参数,包括哈希桶宽w,哈希表数量N;3)用数据样板T扫描训练图像TI,建立样式数据库PatDB;4)统计全部数据样式的分块网格块内变量之和,得到数据样式的特征向量,然后进行p-stable局部敏感哈希计算,得到数据样式哈希库PatLSHLib;5)根据模拟实现R创建随机路径;6)如果随机路径里有未模拟节点U,进入下述步骤7)的路径;否则进入下述步骤11)的路径;7)提取节点U处的数据事件DataEvent,统计数据事件的分块网格块内变量之和,得到数据事件的特征向量,进行p-stable局部敏感哈希计算,得到数据事件的哈希值DevLSH;8)从数据样式哈希库PatLSHLib中检索与数据事件哈希值DevLSH哈希桶号相同的数据样式,构成目标数据样式库ANNPatDB;9)从目标数据样式库ANNPatDB查找与数据事件Dev相似度值最大的数据样式Pat;10)用数据样式Pat整体覆盖并冻结模拟实现R里节点U处的部分;返回上述步骤6);11)模拟结束,输入模拟实现R。作为优选方案,所述步骤4)中,根据数据样式即事件的网格尺寸进行分块,建立分块网格,统计每个块内所有节点值之和,公式为其中,ICount、JCount是训练图像网格在水平和垂直两个方向上的网格数量,MCount、NCount是分块网格在水平和垂直两个方向上的网格数量,BlockGridm,n是索引[m,n]的分块内所有节点值之和,TIGridi,j是训练图像网格中索引[i,j]的节点值,sum表示求和计算。作为优选方案,所述步骤4)中,将分块网格数据转换为线性数据结构后就可作为p-stable局部敏感哈希算法的数据输入,分块网格的线性数据结构索引与二维数据结构索引关系为BlockGridi=BlockGridm,n,其中i=m*NCount+n其中i是分块网格的线性索引,m和n是分块网格的二维索引。表1为图2中4个数据样式(事件)的分块网格统计值,属于线性索引数据结构。表1基于BlockGrid计算数据样式(事件)的特征向量作为优选方案,所述步骤4)中,数据样式存在没有变量值的节点,把训练图像的变量最小值作为空变量参与统计计算,公式为其中,TI是训练图像,minTI是训练图像的变量最小值,var是数据事件里节点的变量值,如果数据事件某个节点为空(NULL),则以训练图像的变量最小值替换空值参与计算。本发明的算法核心思想本发明基于分块网格框架计算数据样式(事件)的特征向量,然后使用p-stable局部敏感哈希方法将这些特征向量散列到多个哈希表里。根据局部敏感哈希的定义,在同一个哈希表中,相似的数据样式(事件)处于同一个哈希桶的概率远远大于不相似的数据样式(事件)。建模时,使用相同参数设置提取数据事件的特征向量及p-stable局部敏感哈希计算其在哈希表中的哈希桶号,取出这些哈希桶中所有的数据样式称之为相似最邻近的样式数据库。比较数据与相似最邻近的样式数据库中所有数据样式的曼哈顿距离,选择曼哈顿距离最小的数据样式整体覆盖数据事件,完成该次模拟。局部敏感哈希的定义是如果一个函数族满足以下条件(D为空间距离度量,P表示概率)1)若空间中两点p和q之间的距离D(p,q)<r1,则P{h(p)==h(q)}>p12)若空间中两点p和q之间的距离D(p,q)>r2,则P{h(p)==h(q)}<p2在r1<r2,p1>p2的条件下有意义,则函数族H是局部敏感的。局部敏感哈希方法可以通过映射计算使得距离较近的点映射到同一个位置的概率大,距离较远的点映射到同一个位置的概率小。基于p-stable分布的局部敏感哈希算法利用p-stable的思想对每个特征向量v赋予一个哈希值h。由于该哈希函数是局部敏感的,因此假设两个特征向量v1和v2非常近,它们的哈希值将映射到相同桶中的概率非常大。基于p-stable分布的哈希函数定义为ha,b(v):Rd→N(1)映射一个d维的特征向量v到一个整数集。哈希函数中有两个随机变量a和b,其中a是一个d维的随机向量,欧式距离是定量表征d维空间中两个点之间距离的距离变量,欧式距离里的局部敏感哈希函数定义为其中,a是一个服从p-stable分布的独立随机向量,w是桶宽,b是[0,w]范围内的随机数。图1通过一个示例说明了基于p-stable局部敏感哈希算法的原理:二维平面上有n=5个黄色点。查询与蓝色点最靠近的黄色点,传统查询方法是计算蓝色点与所有黄色点的欧式距离并进行排序,取距离值最小的黄色点,传统查询方法的计算时间复杂度O(n)。基于p-stable的局部敏感哈希算法根据给定的随机向量a对所有黄色点及蓝色点进行投影计算,假定3个不同投影轴X1、X2和X3,每个投影轴根据桶宽w划分为多个哈希桶,所有的点经投影后落在不同桶里,查询与蓝色点桶号相同的黄色点。示例中与蓝色点位于相同哈希桶的黄色点有投影轴X2里的点1、投影轴X3中的点2,计算蓝色点与其相同哈希桶里所有黄色点的欧式距离,取距离值最小的点作为查询结果。对比查询时间,传统查询时间复杂度为O(5),基于p-stable局部敏感哈希的查询时间复杂度O(2),提高了查询效率。本发明根据数据样式(事件)的网格尺寸进行分块(图2),建立分块网格(BlockGrid),统计每个块(Block)内所有节点值之和,公式为其中ICount、JCount是训练图像网格在水平和垂直两个方向上的网格数量,MCount、NCount是分块网格在水平和垂直两个方向上的网格数量,BlockGridm,n是索引[m,n]的分块内所有节点值之和,TIGridi,j是训练图像网格中索引[i,j]的节点值,sum表示求和计算。将分块网格数据转换为线性数据结构后就可作为p-stable局部敏感哈希算法的数据输入,分块网格的线性数据结构索引与二维数据结构索引关系为BlockGridi=BlockGridm,n,其中i=m*NCount+n(4)其中i是分块网格的线性索引,m和n是分块网格的二维索引。表1为图2中4个数据样式(事件)的分块网格统计值,属于线性索引数据结构。图1的数据样式[a]与数据样式[b]的几何形态非常相似,相应表1中对应分块网格的特征向量十分相近。反之数据样式[a]与数据样式[c]的形状和特征向量均具有较大差别。模拟时,需要计算数据事件的特征向量,数据事件可能存在没有变量值的节点。此时,把训练图像的变量最小值作为空变量参与统计计算,公式为本发明的有益效果在于:本发明引进局部敏感哈希检索技术到多点地质统计建模,极大提高了建模时判别查询用于替换数据事件的数据样式的计算效率,增强了多点地质统计建模方法的实用性。附图说明图1为基于p-stable局部敏感哈希算法的检索原理示意图;图2为基于BlockGrid计算数据样式(事件)的特征向量原理;图3为算法LSHSIM的流程图;图4为算法LSHSIM建模实例-沉积相类型变量(分类变量),图中,a为训练图像,b为模拟实现图;图5为算法LSHSIM建模实例-孔隙度类型变量(连续变量),图中,a为训练图像,b为模拟实现。具体实施方式为了更好地解释本发明,以下结合具体实施例进一步阐明本发明的主要内容,但本发明的内容不仅仅局限于以下实施例。说明基于局部敏感哈希的多点地质统计学建模方法LSHSIM之前,首先定义相关术语:1、网格单元(C—Cell):沿着X方向、Y方向和Z方向上具有指定长(ISize)、宽(JSize)、高(KSize)的矩形立方单元,网格单元存储具体数值代表其属性。2、网格体(G—Grid):由很多网格单元C构成的三维结构体,在X方向、Y方向和Z方向的维度是I×J×K,本质是三维矩阵。G(i,j,k)的含义是X方向索引等于i、Y方向索引等于j、Z方向索引等于k的网格单元。3、训练图像(TI—TrainImage):先验地质概念模型,采用网格体GTI作为数据载体,是能够表述实际储层结构、几何形态及其分布模式的数字化模型。4、模拟实现(R—Realization):模拟的模型结果,采用网格体GR作为数据载体,是能够表述实际储层结构、几何形态及其分布模式的数字化模型。5、数据样板(T—Template):围绕中心单元对称的结构体,采用网格体GT作为数据载体,是能够表述实际储层结构、结合形态及其分布模式的局部数字化模型,是基于样式的多点地质统计学建模方法的基本结构单元。6、数据样式(Pat—Pattern):以数据样板为框架扫描训练图像得到的局部空间数据组合体,采用网格体GPat作为数据载体。7、数据事件(Dev—DataEvent):以数据样板为框架扫描模拟实现得到的局部空间数据组合体,采用网格体GDev作为数据载体。6、样式数据库(PatDB—PatternDatabase):使用数据样板扫描训练图像可以获取该训练图像的所有数据样式,称为样式数据库。7、区块网格(BlockGrid—BlockGrid):基于分块框架计算数据样式(事件)的块内所有变量值之和,是数据样式(事件)的特征向量,是p-stable局部敏感哈希计算的输入数据,是LSHSIM建模算法的核心信息库。8、数据样式哈希库(PatLSHLib—PatternLSHLibrary):基于p-stable局部敏感哈希技术计算数据样式特征向量的哈希值,组成的哈希表称为数据样式哈希库。9、相似邻近样式数据库(ANNPatDB—ApproximateNearestNeighborsPatternDatabase):建模过程中,从数据样式哈希库中检索到与数据事件哈希值相同的数据样式组成的样式数据库。实施例1基于p-stable局部敏感哈希检索数据样式的多点地质统计建模方法,即为沉积相类型变量的建模,具体步骤如下:(1)以图4a为训练图像TI,训练图像展示了一个沉积相模型,其中包含两种沉积微相,黑色的为河道微相、白色的是河道间湾微相,定义模拟实现R的尺寸与训练图像尺寸一致,数据样板T尺寸为15×15;(2)设置分块网格BlockGrid尺寸为5×5,则训练图像的特征向量维度等于25,输入p-stable局部敏感哈希参数,其中哈希桶宽w等于0.01,哈希表数量等于特征向量的维度25;(3)用数据样板T扫描训练图像TI,建立样式数据库PatDB;(4)统计样式数据库PatDB里所有数据样式的分块网格内变量之和,取得训练图像的特征向量,作为输入变量参与p-stable局部敏感哈希计算,建立数据样式哈希库PatLSHLib;(5)根据模拟实现R创建随机路径;(6)如果随机路径里有未模拟的节点U,则进入步骤7),否则进入步骤11);(7)提取节点U处的数据事件DataEvent,采用步骤4)相同的参数统计数据事件的特征向量,得到数据事件的哈希值DevLSH;(8)从数据样式哈希库PatLSHLib检索与DevLSH哈希桶号相同的所有数据样式,组成目标样式数据库ANNPatDB;(9)从ANNPatDB里查找与数据事件Dev相似度值最大的数据样式Pat。(10)用数据样式Pat整体覆盖并冻结模拟实现R里节点U处的部分,返回步骤6);(11)模拟结束,输出模拟实现R。图4b是一个随机模拟实现。实施例2本实施例为孔隙度类型变量的建模方法,该方法的操作步骤与实施例1基本相同,不同之处在于:输入的训练图像为图5a,图5b是孔隙度类型变量的一个随机模拟实现。图4和图5分别展示了本发明方法在模拟相模型和物性模型的应用。相模型属于分类变量,图4包含两种相类型,图4a是训练图像——河流相模型,白色和黑色分别代表河道相和河道间湾,图4b是一个随机模拟实现,观察模拟实现,河道的空间分布和连续性得到较好再现。图5是模拟连续类型变量的示例,图5a是图4河流相模型对应的孔隙度模型,图5b是模拟实现,模拟实现的孔隙度分布特征与训练图像非常符合。从模拟时间和内存(表2)占用两个方面综合分析了本发明相对于传统方法的优势之处。图4a为训练图像,其维度为250×250,网格单元尺寸为10m×10m,数据样板的维度设置为15×15,模拟实现的选用200×200和500×500两个维度。参见表2的计算时间,本发明的计算时间远远低于SIMPAT和Filtersim等传统多点地质统计算法,相比后来改进的DisPat和PSCSIM算法也具有较大的优势。在内存占用方面,新方法占用内存36MB,很好地控制哈希表对内存的占用。综合考虑耗时和内存,本发明极大地提高了计算效率。表2LSHSIM与其他多点地质统计算法计算耗时与内存占用其它未详细说明的部分均为现有技术。尽管上述实施例对本发明做出了详尽的描述,但它仅仅是本发明一部分实施例,而不是全部实施例,人们还可以根据本实施例在不经创造性前提下获得其他实施例,这些实施例都属于本发明保护范围。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1