一种并行深度学习初至拾取的方法和系统与流程

文档序号：17540545发布日期：2019-04-29 14:32阅读：425来源：国知局

本领域涉及计算机领域，并且更具体地涉及一种并行深度学习初至拾取的方法和系统。

背景技术：

地震资料初至拾取技术是折射波静校正、层析成像、浅层折射波勘探及vsp等技术的关键。初至拾取目的是确定地震道上纯噪音信号和噪音与地震叠加信号之间的分界时刻，因此初至拾取正确与否在很大程度上影响后续处理的精度。在地表复杂及信噪比较低的情况下，目前仍然无法取得满意的拾取结果。同时人工的初至拾取工作繁重、校对困难，因此探寻可靠的自动拾取技术变得尤为重要。

目前针对初至拾取国内外学者已经提出了多种解决方案，基于传统信号处理技术所提方法主要包括能量比值法、瞬时强度比法、分形法、图像处理法，基于智能算法的初至拾取技术主要包括神经网络法、级联相关算法、改进滑窗法、自适应叠加法。下面从这两个方面分别选取两个代表算法进行叙述。

sta/lta方法是目前应用最广泛的初至拾取方法，其中sta(短时窗平均值)表示微震事件信号振幅或能量的变化趋势，lta(长时窗平均值)表示背景噪声信号振幅或能量的变化趋势，采用该方法首先需要定义特征函数，然后以特征函数为基础在滑动时窗内分别计算sta与lta的取值。利用sta/lta进行初至拾取的准确性和稳定性严重依赖特征函数、移动时窗长度与触发阈值的选取，因此一定程度上无法实现对初至波的拾取工作。

由于bp(反向传播)神经网络结构简单，且算法易于实现，因此很早被应用于初至拾取领域。神经网络初至拾取是通过神经网络对样本学习建立一个分类规则，以此对初至波进行模式识别并拾取，该分类规则是否合适取决于两方面，一是神经网络训练的好坏，二是地震属性选取是否恰当。但该算法收敛慢，容易陷于局部极值，网络结构难以确定等问题，且因bp网络是静态网络，不能学习额外样本集以扩展网络知识，难以满足复杂地形区初至拾取要求，因此难以进行实际应用。

技术实现要素：

有鉴于此，本发明实施例的目的在于提出一种并行深度学习初至拾取的方法和系统，能够解决现有低信噪比情况下人工拾取效率低下、自动拾取效果差的缺陷。

基于上述目的，本发明的实施例的一个方面提供了一种并行深度学习初至拾取的方法，包括以下步骤：

1)获取初至拾取任务对应的地震波数据集，将数据集进行格式转换，得到转换数据集；

2)将转换数据集进行数据预处理，并将预处理后的数据随机划分为训练集、验证集和测试集；

3)构建分布式深度学习模块；

4)设计卷积神经网络模型，利用训练集在分布式深度学习模块中对模型同步训练，并利用验证集调节模型的参数；

5)载入已训练的模型，并用测试集测试模型。

根据本发明的一个实施例，在步骤1)中将数据集进行格式转换包括将seg-y格式数据转换为十进制数据。

根据本发明的一个实施例，数据预处理包括将数据归一化处理。

根据本发明的一个实施例，步骤2)包括：将预处理后的数据按6:2:2的比例随机划分为训练集、验证集和测试集。

根据本发明的一个实施例，训练集用于模型训练，验证集用于模型参数确定和调节，测试集用于评测模型的泛化能力。

根据本发明的一个实施例，卷积神经网络由卷积层、池化层和全连接层组成。

本发明的实施例的另一个方面，还提供了一种并行深度学习初至拾取的系统，包括：

数据转换模块，数据转换模块用于获取初至拾取任务对应的地震波数据集，将数据集进行格式转换，得到转换数据集；

数据预处理模块，数据预处理模块用于将转换数据集进行数据预处理，并将预处理后的数据随机划分为训练集、验证集和测试集；

gpu并行模块，gpu并行模块用于构建分布式深度学习模块；

模型训练模块，模型训练模块用于设计卷积神经网络模型，利用训练集在分布式深度学习模块中对模型同步训练，并利用验证集调节模型的参数；

模型推理模块，模型推力模块用于载入已训练的模型，并用测试集测试模型。

根据本发明的一个实施例，数据转换模块配置用于将数据集由seg-y格式数据转换为十进制数据。

根据本发明的一个实施例，数据预处理模块配置用于将预处理后的数据按6:2:2的比例随机划分为训练集、验证集和测试集。

根据本发明的一个实施例，训练集用于模型训练，验证集用于模型参数确定和调节，测试集用于评测模型的泛化能力。

本发明具有以下有益技术效果：本发明实施例提供的并行深度学习初至拾取的方法和系统，通过获取初至拾取任务对应的地震波数据集，将数据集进行格式转换，得到转换数据集；将转换数据集进行数据预处理，并将预处理后的数据随机划分为训练集、验证集和测试集；构建分布式深度学习模块；设计卷积神经网络，利用训练集在分布式深度学习模块中对模型同步训练，并利用验证集调节所述模型的参数；载入已训练的模型，并用测试集测试模型的技术方案，能够解决现有低信噪比情况下人工拾取效率低下、自动拾取效果差的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的并行深度学习初至拾取的方法的示意性流程图；

图2为根据本发明一个实施例的设计的cnn(卷积神经网络)网络结构的示意性框图；

图3为根据本发明一个实施例的cnn网络的训练流程的示意图；

图4为根据本发明一个实施例的同步训练深度学习训练框架示意图；

图5为根据本发明一个实施例的并行深度学习初至拾取的方法的四层框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种并行深度学习初至拾取的方法一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

1)获取初至拾取任务对应的地震波数据集，将数据集进行格式转换，得到转换数据集；

2)将转换数据集进行数据预处理，并将预处理后的数据随机划分为训练集、验证集和测试集；

3)构建分布式深度学习模块；

4)设计卷积神经网络模型，利用训练集在分布式深度学习模块中对模型同步训练，并利用验证集调节模型的参数；

5)载入已训练的模型，并用测试集测试模型。

通过以上技术方案，能够解决现有低信噪比情况下人工拾取效率低下、自动拾取效果差的缺陷。

在本发明的一个优选实施例中，在步骤1)中将数据集进行格式转换包括将seg-y格式数据转换为十进制数据。

在本发明的一个优选实施例中，数据预处理包括将数据归一化处理。

在本发明的一个优选实施例中，步骤2)包括：将预处理后的数据按6:2:2的比例随机划分为训练集、验证集和测试集。

在本发明的一个优选实施例中，训练集用于模型训练，验证集用于模型参数确定和调节，测试集用于评测模型的泛化能力。

在本发明的一个优选实施例中，卷积神经网络由卷积层、池化层和全连接层组成。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器(read-onlymemory，rom)或随机存取存储器(randomaccessmemory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种并行深度学习初至拾取的系统的一个实施例，该系统包括：

数据转换模块，数据转换模块用于获取初至拾取任务对应的地震波数据集，将数据集进行格式转换，得到转换数据集；

数据预处理模块，数据预处理模块用于将转换数据集进行数据预处理，并将预处理后的数据随机划分为训练集、验证集和测试集；

gpu并行模块，gpu并行模块用于构建分布式深度学习模块；

模型训练模块，模型训练模块用于设计卷积神经网络模型，利用训练集在分布式深度学习模块中对模型同步训练，并利用验证集调节模型的参数；

模型推理模块，模型推力模块用于载入已训练的模型，并用测试集测试模型。

在一些实施例中，数据转换模块配置用于获取与初至拾取任务对应的地震波数据集；将seg-y格式数据集进行格式转换，转换为十进制表示数据；提取单道数据，组成样本集。在一些实施例中，数据预处理模块配置用于对每道数据进行归一化等数据预处理；对初至时间进行放缩处理；将样本随机划分为训练集、验证集、测试集。在一些实施例中，模型训练模块配置用于构建cnn网络，用于训练网络模型；依据训练模型在验证集表现选择模型超参数；将训练模型进行保存，待后续推理工作直接使用。在一些实施例中，gpu并行模块配置用于构建分布式深度学习模型同步训练模型，实现模型训练并行化。在一些实施例中，模型推理模块配置用于载入已训练的模型，用于测试集得到推理结果，并实现拾取结果可视化功能。

在本发明的一个优选实施例中，数据转换模块将数据集由seg-y格式数据转换为十进制数据。

在本发明的一个优选实施例中，数据预处理模块将预处理后的数据按6:2:2的比例随机划分为训练集、验证集和测试集。

在本发明的一个优选实施例中，训练集用于模型训练，验证集用于模型参数确定和调节，测试集用于评测模型的泛化能力。

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例方案的核心思想是：获取深度学习初至拾取方法对应的地震波数据集；将数据集进行格式转换，转换为十进制表示方法；对数据集进行数据预处理；将预处理后的数据随机划分为训练集、验证集、测试集；设计cnn网络，利用训练集进行模型训练，利用验证集进行模型验证；并行化训练深度学习模型，实现效率提升；保存完成训练的模型，实现对测试集的推理工作。上述步骤流程图如图1所示。

地震波源数据格式为seg-y数据格式，它是地震数据的最为普遍的格式之一，其格式基本结构如表1所示。

表1seg-y标准磁盘文件格式

seg-y数据中包含地震波中详尽信息，对于初至拾取场景需从中提取有效信息，本方案从seg-y数据中提取道号、炮号、采样序号及对应振幅，完成数据的初步提取。

将样本数据进行归一化处理，样本对应标签即初至时间进行缩放，加快模型收敛速度。

将样本数据依据6:2:2比例随机分为训练集、验证集、测试集，训练集用于模型训练，验证集用于模型超参确定，测试集用于评测模型的泛化能力。

设计卷积神经网络进行模型的训练，卷积神经网络分别由卷积层、池化层、全连接层组成，如图2所示，输出预测初至拾取时间。

图3展示了深度学习模型的训练过程，在每一轮迭代中，前向传播算法会根据当前参数的取值计算出在一小部分训练数据上的预测值，然后反向传播算法再根据损失函数计算参数的梯度并更新参数。

设计多个gpu并行加速深度学习模型训练，采用同步模式。在同步模式下，所有的设备同时读取参数的取值，并且当反向传播算法完成之后同步更新参数的取值，单个设备不会单独对参数进行更新，而会等待所有设备都完成反向传播之后再统一更新参数。

图4展示了同步模式的训练过程，从图4中可以看出，在每一轮迭代时，不同设备首先统一读取当前参数的取值，并随机获取一小部分数据。然后在不同设备上运行反向传播过程得到在各自训练数据上参数的梯度。虽然所有设备使用的参数是一致的，但是因为训练数据不同，所以得到的梯度就可能不一样。当所有设备完成反向传播的计算之后，需要计算出不同设备上参数梯度的平均值，最后再根据平均值对参数进行更新。

将训练得到的模型进行保存，方便后续使用，第一个文件为model.ckpt.meta，它保存了模型计算图结构；第二个文件为model.ckpt，它保存了每一个变量的取值，第三个文件为checkpoint文件，它保存了一个目录下所有的模型文件列表。

对于测试集，通过载入上述保存的模型文件，能够快速实现推理结果，从而实现模型的持久化。

图5示出了并行深度学习初至拾取的方法的四层框架示意图，包括数据层、运算层、逻辑层和界面层。

需要特别指出的是，上述系统的实施例采用了上述方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到上述方法的其他实施例中。

此外，上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述实施例，特别是任何“优选”实施例是实现的可能示例，并且仅为了清楚地理解本发明的原理而提出。可以在不脱离本文所描述的技术的精神和原理的情况下对上述实施例进行许多变化和修改。所有修改旨在被包括在本公开的范围内并且由所附权利要求保护。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宏刚;李峰;刘红丽
技术所有人：郑州云海信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。