一种环境监测的数据抽取和预测模型建立方法

文档序号:6538861阅读:614来源:国知局
一种环境监测的数据抽取和预测模型建立方法
【专利摘要】本发明公开一种环境监测的数据抽取和预测模型建立方法,包括环境监测数据抽取步骤以及环境预测模型建立步骤。数据抽取逻辑、调度计划可进行客户化定制,方便用户操作。建立了环境数据的标准统一规范,环境数据统一化。抽取过程中具有科学的数据有效性验证,提高了环境数据中心的数据有效性。通过环境监测数据的数据挖掘过程,是数据得到了充分利用。抽取后的数据建立了环境模型可为环保决策提供支持。
【专利说明】一种环境监测的数据抽取和预测模型建立方法
【技术领域】
[0001]本发明涉及多源异构数据抽取和模型建立方法,具体而言,涉及一种应用于环境监测的多源异构数据抽取方法,以及在数据抽取的基础上建立环境预测模型,从而为环保决策提供数据支持的技术。
【背景技术】
[0002]随着计算机信息技术的发展,各行各业的信息化系统的建立,人类社会进入了信息化时代,信息化系统每时每刻都产生大量的数据。特别是随着物联网技术的快速发展大量的实时数据不断产生,海量数据如何得到有效的管理和利用成为当前信息化的重要研究课题。物联网在环境监测方面得到了比较广泛的应用,而基于传感器技术采集的海量环境监测数据不论是在抽取方法、标准统一性、数据有效性、数据挖掘、建立环境模型等方面均存在诸多缺陷和问题,主要体现在以下几个方面:
[0003]1、数据抽取逻辑、调度计划固化,不易于维护,对于非IT专业人员很难理解和操作。2、缺乏环境数据的标准统一信息管理,经常出现数据不统一的情况。3、抽取过程中缺乏科学的数据有效性验证,导致大量数据是无效的,严重影响了数据可信赖性。4、环境监测数据只停留在收集和展示阶段,缺乏数据挖掘过程,导致数据没有得到充分利用。5、对于抽取后的数据缺少建立环境模型的步骤,不能为环保决策提供支持。

【发明内容】

[0004]本发明旨在提供一种环境监测的数据抽取和预测模型建立方法,通过数据抽取解决环境监测数据的标准统一性及有效性;在抽取的数据基础上通过数据挖掘建立科学的环境预测模型,为环保决策提供数据支持。
[0005]本发明的技术方案如下:
[0006]一种环境监测的数据抽取和预测模型建立方法,包括环境监测数据抽取步骤以及环境预测模型建立步骤;
[0007]( I)环境监测数据抽取包括如下步骤:
[0008](1-1)组建数据ETL系统,系统由环境数据中心服务器、ETL服务器、路由器、数据终端及网线组成;ETL服务器作为中间环节通过路由器及网线连接环境数据中心服务器及数据终端;ETL服务器上设置定时器自动判别数据终端数据变更情况,若数据终端数据发生变更且满足用户自定义的调度方案,即调度数据抽取;
[0009](1-2)ETL服务器根据用户配置的验证逻辑进行数据校验,环境监测数据被抽取进入ETL数据筛选单元,系统自动将这些数据与用户自定义的包含数据类型、数据格式、数据限值、数据单位、数据精度的数据规范库进行比对筛选合法数据、屏蔽非法或无效数据;并根据用户自定义的数据库规范进行包括数据类型统一化、数据格式统一化、数据单位统一化、数据精度统一化在内的数据处理以实现数据统一;
[0010](1-3) ETL服务器将经过筛选和转换处理过后的数据加载进环境数据中心服务器;
[0011](1-4)环境数据中心服务器的数据库分为四层,包括数据接口层、数据细节层、数据仓库层以及元数据层;
[0012](1-5)经过步骤(1-2) ETL服务器校验的数据首先进入的是数据接口层,该层数据并未按照环境数据中心服务器的数据规范进行存储,该层数据是与原有环境系统数据吻合的数据,作为临时存储;
[0013](1-6) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据接口层的数据是否已生成,如果生成将启动数据转换过程,将数据接口层的数据按照环境数据中心服务器的数据格式要求进行数据转换加载到数据细节层,数据细节层的数据是满足环境数据中心服务器数据规范的数据;
[0014](1-7) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据细节层的数据是否已生成,如果生成将启动通过统计、机器学习和模式识别方法进行搜索隐藏在海量环境监测数据中的信息的数据挖掘过程,生成数据报表及环境数据模型装载到数据仓库层;
[0015]元数据层是定义数据的数据,用来描述ETL数据系统的所有数据;
[0016](2)环境预测模型建立包括如下步骤:
[0017](2-1)将环境数据中心服务器中准备好的数据生成txt文本表格;表格的列坐标为Xl~Xn,代表各环境监测项;表格的行坐标为Rl~Rn,代表环境监测项在不同时间的数值;行数和列数用户可自定义;
[0018](2-2)确定参考数列及比较数列,选定XO列为参考数列,Xi列为比较数列;
`[0019](2-3)对参考数列和比较数列用min-max标准化方法做无量纲化处理,min-max标准化方法是对原始数据进行线性变换;设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值χ通过min-max标准化映射成在区间[0,I]中的值X’,其公式为:
[0020]新数据=(原数据-极小值)/ (极大值-极小值);
[0021](2-4)求参考数列与比较数列的关联系数ξ (Xi);
[0022]ξ (Xi)可由下列公式算出:其中P为分辨系数,一般在O~I之间,通常取0.5 ;
[0023]最小差,记为Amin;最大差,记为Amax;
[0024]各比较数列Xi曲线上的每一个点与参考数列XO曲线上的每一个点的绝对差值,记为 Aoi(k);
[0025]则关联系数ξ (Xi)可简化如下列公式:

Δ(ιη?η) + /?(η?3χ)
[0026]4= = —77^-w—~^

Δ0?(?τ)+ ^A(Inax)
[0027](2-5)求关联度 ri;
[0028]关联度ri公式如下:
1-v
[0029]I;=—
N w
[0030]ri为比较数列Xi对参考数列XO的关联度,或称为序列关联度、平均关联度、线关联度;[0031]ri值越接近I,说明相关性越好;
[0032](2-6)选择出比较数列中与参考数列关联度最高的几组数列Xj ;
[0033](2-7)以Xj为输入源,XO为输出源。
[0034]在XO与Xj之间建立模型:
[0035]O (Xj) =f ( Σ Xij X qp) -E
[0036]O代表输出值,f代表函数,q代表阀值,P代表权值,E代表误差;
[0037](2-8)经过建立输入源与输出源的关系,通过回馈误差E不断修正阀值q与权值P,最终达到误差最小化确定模型。
[0038]本发明的有益技术效果是:
[0039]一、数据抽取逻辑、调度计划可进行客户化定制,方便用户操作。
[0040]二、建立了环境数据的标准统一规范,环境数据统一化。
[0041]三、抽取过程中具有科学的数据有效性验证,提高了环境数据中心的数据有效性。
[0042]四、通过环境监测数据的数据挖掘过程,是数据得到了充分利用。
[0043]五、抽取后的数据建立了环境模型可为环保决策提供支持。
【专利附图】

【附图说明】
[0044]图1是ETL系统的整体结构图。
[0045]图2是实施例蓝藻预测模型预测出的数值与时间监测的数值的比较图。
【具体实施方式】
[0046]下面结合附图对本发明的【具体实施方式】做进一步说明。
[0047]首先,本发明提供一种基于数据触发自动判别的数据抽取方法,包括如下步骤:
[0048](I)组建数据ETL系统,系统由环境数据中心服务器、ETL服务器、路由器、数据终端及网线组成。ETL服务器作为中间环节通过路由器及网线连接环境数据中心服务器及数据终端;ETL服务器上设置一个定时器自动判别数据终端数据变更情况,若数据终端数据发生变更且满足用户自定义的调度方案(如满足夜晚何时调度),即调度数据抽取;系统支持多源异构数据终端不同数据格式的融合。
[0049](2)ETL服务器根据用户配置的验证逻辑进行数据校验,环境监测数据被抽取进入ETL数据筛选单元,系统自动将这些数据与用户自定义的数据规范库进行比对,这个数据规范库里包含数据类型、数据格式、数据限值、数据单位、数据精度等。通过与这些规范进行比对筛选合法数据、屏蔽非法或无效数据;并根据用户自定义的数据库规范进行数据处理(数据类型统一化、数据格式统一化,数据单位统一化、数据精度统一化)以实现数据统一。
[0050](3) ETL服务器将经过筛选和转换过后的数据加载进环境数据中心服务器。
[0051](4)环境数据中心服务器数据库分为四层,数据接口层(SSA)、数据细节层(S0R)、数据仓库(DW)、元数据(MDR)。
[0052](5)经过步骤(2)ETL服务器校验的数据首先进入的是SSA层,该层数据并未按照环境数据中心服务器的数据规范进行存储,该层数据是与原有环境系统数据较为吻合的数据,一般作为临时存储。
[0053](6) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别SSA层数据是否已生成,如果生成将启动数据转换过程,将SSA层数据按照环境数据中心服务器数据格式要求进行数据转换加载到SOR层,SOR层数据是满足环境数据中心服务器数据规范的数据。
[0054](7) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别SOR层数据是否已生成,如果生成将启动通过统计、机器学习和模式识别方法进行搜索隐藏在海量环境监测数据中的信息的数据挖掘过程,生成数据报表及环境数据模型装载到DW层。
[0055]MDR层是元数据层,该层是定义数据的数据,用来描述ETL数据系统的所有数据。
[0056]ETL系统的整体结构如图1所示。
[0057]接下来,本发明还提供一种基于多维数据关联分析误差逆向回馈(Multidimensional Data Association Analysis Back Propagation—MDAABP)算法的环境预测模型,包括如下步骤:
[0058](I)将环境数据中心服务器中的准备好的数据生成txt文本。格式如下(X代表各环境监测项,R代表这些监测项在不同时间的数值):
[0059]
【权利要求】
1.一种环境监测的数据抽取和预测模型建立方法,包括环境监测数据抽取步骤以及环境预测模型建立步骤,其特征在于: (1)环境监测数据抽取包括如下步骤: (1-1)组建数据ETL系统,系统由环境数据中心服务器、ETL服务器、路由器、数据终端及网线组成;ETL服务器作为中间环节通过路由器及网线连接环境数据中心服务器及数据终端;ETL服务器上设置定时器自动判别数据终端数据变更情况,若数据终端数据发生变更且满足用户自定义的调度方案,即调度数据抽取; (1-2) ETL服务器根据用户配置的验证逻辑进行数据校验,环境监测数据被抽取进入ETL数据筛选单元,系统自动将这些数据与用户自定义的包含数据类型、数据格式、数据限值、数据单位、数据精度的数据规范库进行比对筛选合法数据、屏蔽非法或无效数据;并根据用户自定义的数据库规范进行包括数据类型统一化、数据格式统一化、数据单位统一化、数据精度统一化在内的数据处理以实现数据统一; (1-3) ETL服务器将经过筛选和转换处理过后的数据加载进环境数据中心服务器;(1-4)环境数据中心服务器的数据库分为四层,包括数据接口层、数据细节层、数据仓库层以及元数据层; (1-5)经过步骤(1-2) ETL服务器校验的数据首先进入的是数据接口层,该层数据并未按照环境数据中心服务器的数据规范进行存储,该层数据是与原有环境系统数据吻合的数据,作为临时存储; (1-6) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据接口层的数据是否已生成,如果生成将启动数据转换过程,将数据接口层的数据按照环境数据中心服务器的数据格式要求 进行数据转换加载到数据细节层,数据细节层的数据是满足环境数据中心服务器数据规范的数据; (1-7) ETL服务器调度确认逻辑遍历数据库log日志信息自动判别数据细节层的数据是否已生成,如果生成将启动通过统计、机器学习和模式识别方法进行搜索隐藏在海量环境监测数据中的信息的数据挖掘过程,生成数据报表及环境数据模型装载到数据仓库层;元数据层是定义数据的数据,用来描述ETL数据系统的所有数据; (2)环境预测模型建立包括如下步骤: (2-1)将环境数据中心服务器中准备好的数据生成txt文本表格;表格的列坐标为Xl~Xn,代表各环境监测项;表格的行坐标为Rl~Rn,代表环境监测项在不同时间的数值;行数和列数用户可自定义; (2-2)确定参考数列及比较数列,选定XO列为参考数列,Xi列为比较数列; (2-3)对参考数列和比较数列用min-max标准化方法做无量纲化处理,min-max标准化方法是对原始数据进行线性变换^minA和maxA分别为属性A的最小值和最大值,将A的一个原始值X通过min-max标准化映射成在区间[0,I]中的值X’,其公式为: 新数据=(原数据-极小值)/ (极大值-极小值); (2-4)求参考数列与比较数列的关联系数ξ (Xi); I (Xi)可由下列公式算出:其中P为分辨系数,一般在O~I之间,通常取0.5 ; 最小差,记为Amin;最大差,记为Amax; 各比较数列Xi曲线上的每一个点与参考数列XO曲线上的每一个点的绝对差值,记为Δ oi (k); 则关联系数ξ (Xi)可简化如下列公式:
【文档编号】G06F17/30GK103823869SQ201410066745
【公开日】2014年5月28日 申请日期:2014年2月26日 优先权日:2014年2月26日
【发明者】陆波, 马恩恩 申请人:中科怡海高新技术发展江苏股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1