环境自动监测网络的数据异常值标识方法及系统的制作方法

文档序号:6621847阅读:696来源:国知局
环境自动监测网络的数据异常值标识方法及系统的制作方法
【专利摘要】本发明公开了一种环境自动监测网络的数据异常值标识方法及系统,方法包括:根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。本发明增设了模式跟踪数据和标识演绎标识,并提出了实时数据平台的异常值识别算法,溯源效率高、精确度高、全面、可靠、科学和准确,可广泛应用于环境监测领域。
【专利说明】环境自动监测网络的数据异常值标识方法及系统

【技术领域】
[0001]本发明涉及环境监测领域,尤其是环境自动监测网络的数据异常值标识方法及系统。

【背景技术】
[0002]环境自动监测网络是环境质量科学表征的重要数据来源,其目的是获得高质量的环境监测数据,并由此推断整个环境现有的质量特征。环境自动监测网络除了拥有一般环境监测的要素外,自身还具备基站长期实时不间断监测、基站与实时数据平台数据同步对接、实时数据平台对海量数据自动分析统计等特点。针对环境自动监测网络独有的技术特点,研发异常值标识技术,将提升环境自动监测网络数据审核工作的科学性和逻辑性,极大提高了环境自动监测网络的数据质量,保证数据审核质量和效率。
[0003]目前,监测网络数据的异常值标识技术存在以下问题:
(一)数据标识的不完善
目前对网络数据的异常值采取在其后嵌入数据标识的技术方法。这种方法可有效地避免异常值纳入数据统计,但因其对质控工作溯源时没有对异常值的原因(如仪器质控和外界环境因素等)进行垂直的追踪,平台数据管理人员无法追踪判断数据质量的真实情况。为解决此问题,数据管理人员需查询基站的工作日志和询问基站维护人员,质控工作的溯源工作效率低下且导致容易因询问导致出错。
[0004](二)识别来源的缺失或不统一
环境自动监测网络的数据异常值的来源包括基站系统自动识别、基站人工审核和实时数据平台的专家识别和平台人工审核等,这四种来源在网络的数据审核体系里是互相联系、互相制约和不可割裂的,应作为一个系统整体的有机结合。
[0005]但目前仍没有相关的技术把四类数据标识归纳统一,导致不同阶层的数据审核者往往只能考虑一个来源的数据标识,不够全面和可靠。
[0006](三)环境自动监测实时数据平台统计算法的缺失
实时数据平台识别异常值的技术源自统计学、软件工程和计算机科学。统计学对统计数据异常值的识别虽有很多研究成果,但大多是从数学的角度并针对一些特殊分布例如多维正态分布、r分布等来实现的。然而,环境自动监测数据大多不符合这些分布,难以直接采用这些研究成果来进行检验和识别。因此环境自动监测实时数据平台缺乏能检查和审核统计数据可靠性和准确性的统计算法。
[0007]此外,目前的异常值识别技术将监测数据的异常值直接删除,很难容纳统计学理论识别异常值的方法。因为统计学理论能推算监测数据里的异常值,但不代表该异常值在真实环境是绝对错误的,如果直接删除被推算为异常的数据则不尊重客观现实,不够科学和准确。


【发明内容】

[0008]为了解决上述技术问题,本发明的目的是:提供一种溯源效率高、精确度高、全面、可靠、科学和准确的环境自动监测网络的数据异常值标识方法及系统。
[0009]本发明解决其技术问题所采用的技术方案是:
环境自动监测网络的数据异常值标识方法,包括:
A、根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;
B、根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。
[0010]进一步,所述来源类型标识根据数据的来源进行定义,包括网络命令标识、基站系统标识、基站仪器自动执行命令标识、基站人工审核标识、实时数据平台标识;所述模式标识用于对基站自动监测网络各种形式的信息进行表征、描述和分类,由信息名称的英文或汉语拼音的第一个字母的缩写组成,包括监测数据状态标识、质控质保任务标识和基站监测系统及仪器故障标识;所述删除标识,用于表示不能参与统计的监测数据,具体数据格式为:删除标识/来源类型标识。
[0011 ] 进一步,所述模式跟踪数据标识包括结果导向标识和过程导向标识,
所述结果导向标识的数据结构为:模式标识(特征标识1,特征标识2,……,特征标识η) /来源类型标识;所述结果导向标识的生成过程为:选择结果导向标识的数据结构,然后把代表结果的模式标识、以及与该模式标识相关联的特征标识I到特征标识η导入到选择的数据结构中;其中,特征标识是指基站监测系统开发者定义的关于系统、仪器的状况标识或基站采集系统的环境状况标识,特征标识1,特征标识2,……,特征标识η是指与代表结果的模式标识相关联的特征标识;
所述过程导向标识的数据结构为:模式标识(数值基准标识I,数值过程标识1,……,数值基准标识I,数值过程标识m) /来源类型标识;所述过程导向标识的生成过程为:选择过程导向标识的数据结构;然后把代表过程的模式标识、以及与该模式标识产生过程相关联的基准标识I,数值过程标识I……数值基准标识1,数值过程标识m导入到选择的数据结构中;
其中,基准标识是指执行质控任务时所采用标准样品的浓度值,数值过程标识是执行质控任务时监测仪器测标准样品所得的结果浓度值,数值过程标识1,数值过程标识2,……,数值过程标识m是指与代表过程的模式标识相关联的数值过程标识,且数值过程标识m按数据标识产生过程的时间先后顺序排列。
[0012]进一步,所述演绎标识是指容纳统计学理论识别异常值的标识,具体数据格式为:演绎标识/来源类型标识;所述演绎标识并不参与数据统计,只用于反映和记录计算机智能诊断出来的异常值,若人工诊断确认该异常值为真实的异常值,演绎标识会自动转为删除标识。
[0013]进一步,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层异常值进行识别这一步骤,其包括:
Biu对基站层数据进行监测,从而获得异常数据信号; B12、将异常数据信号转换成计算机可识别的数据信号;
B13、将转换后的异常数据信号与数据标识知识库的数据进行匹配,判断数据标识知识库是否存在与异常数据信号相匹配的数据,若是,则执行步骤B14,反之,则结束基站层异常值识别流程;
B14、判断异常数据信号所属的数据标识类型,并根据判断结果执行相应的数据标识赋予流程;
B15、将新赋予的数据标识记录存入基站数据库和同步数据库。
[0014]进一步,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对平台层异常值进行识别这一步骤,其包括:
B21、从平台数据库中提取监测数据,判断提取的数据是否包含不合理的值,若是,则为提取的数据赋予删除标识,反之,则执行步骤B22,所述不合理的值是指负值、超出仪器量程范围的值、连续不变的值或基于箱线图统计方法判别为离群值的数据;
B22、判断提取的数据是否包含连续4次以上的不变值,若是,则为提取的数据赋予演绎标识,反之,则执行步骤B23 ;
B23、自当前时刻开始往前追溯,从监测数据中获取连续的X个监测值,其中,X为预设的数值,且满足7 < X ( 3y,y为维修人员在基站仪器发生故障时赶到现场进行维护的最长允许时间;
B24、对获取的X个监测值进行计算,从而得到这X个监测值的下四分位数Q1、中位数Q2、上四分位数Q3和四分位距IQR,所述X个监测倌的四分位距IQR的计算公式为:IQR=Q3 — Ql ;
B25、根据计算的结果自动对X个监测值的异常值进行识别,并为识别出的异常值赋予相应的演绎标识;
B26、对含有演绎标识的监测数据进行人工审核,若确认监测数据为真实异常值,则将监测数据的演绎标识取消,并重新为监测数据赋予删除标识。
[0015]进一步,所述步骤B中采用改进的数据标识同步算法实现基站层和平台层异常值的同步这一步骤,其包括:
51、基站与平台建立socket连接;
52、判断是否需要同步数据标识数据库,若是,则执行步骤S3,反之,则执行步骤S4;
53、基站向平台发送修改数据标识数据库的请求,并在平台同意修改和同步标识匹配检查完成后向平台发送数据标识记录数据包,从而使平台进行应答修改;
54、平台向基站发送修改数据标识知识库的请求,并在基站同意修改后向基站发送数据标识知识库修改数据包,从而使基站进行应答修改。
[0016]进一步,所述步骤S3,其包括:
531、基站向平台发送修改数据标识数据库的请求;
532、平台发出同意修改请求的响应;
533、基站接收到同意响应后向平台发送同步标识为last的数据标识数据包M;
534、平台检查数据包M是否与平台同步数据库中的同步标识为last的数据匹配,若是则执行步骤S35,反之,则顺序执行步骤S36?S38 ;
535、基站向平台传输同步标识为next的数据包及其后的数据,然后结束同步过程; 536、服务器向基站发送平台同步标识为last的数据包L;
537、基站在基站同步数据库中搜索与数据包L匹配的数据记录,并把搜索到的匹配数据的同步标识修改为last,同时基站把下一时刻数据记录的同步标识修改为next ;
538、基站向平台传输同步标识为next的数据标识记录数据包R及其后的数据,然后结束同步过程。
[0017]进一步,所述步骤S4,其包括:
541、平台向基站发送修改数据标识知识库的请求;
542、基站发出同意修改的响应;
543、平台在接收到同意的响应后向基站发送数据标识知识库修改数据包;
544、平台通知基站数据包发送完毕,基站应答;
545、基站根据修改数据包修改基站的数据标识知识库。
[0018]本发明解决其技术问题所采用的另一技术方案是:
环境自动监测网络的数据异常值标识系统,包括:
统一定义模块,用于对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;
识别和同步模块,用于根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层和平台层异常值的同步;
所述统一定义模块的输出端与识别和同步模块的输入端连接。
[0019]本发明的有益效果是:采用了一种全新结构的数据标识类型一模式跟踪数据标识,能有效地记录监测网络质控的历史过程,为质控工作的溯源提供技术依据,提高了溯源的工作效率,降低了出错率;根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,使不同级别的数据审核者在进行审核时能整体考虑四个来源的数据标识,更加全面和可靠;增设了演绎标识,不直接删除监测数据的异常值,而是为监测数据的异常值赋予演绎标识,以辅助数据实时平台数据管理人员准确识别监测数据的异常值是否为真实的异常值,能容纳统计学理论识别异常值的方法,更加科学和准确;采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步,能保证平台层和基站层的数据标识能同步更新以及对基站层的数据标识知识库进行修改。进一步,采用经改进带有同步标识的同步算法实现基站层异常值和平台层异常值的同步,能防止平台服务器因停电等因素而导致的数据丢失故障,而且可以对基站人工修改的数据标识进行更新,更加安全和方便。进一步,提出了环境自动监测实时数据异常值数据识别的完整算法,能很好地对负值、超出仪器量程范围的值、连续不变的值、基于箱线图统计方法判别为离群值的数据进行识别,同时能很好地容纳统计学理论在平台异常值自动识别中的运用,更加可靠和科学。

【专利附图】

【附图说明】
[0020]下面结合附图和实施例对本发明作进一步说明。
[0021]图1为本发明一种环境自动监测网络的数据异常值标识方法的整体流程图;
图2为本发明步骤B中对基站层异常值进行识别这一步骤的流程图; 图3为本发明步骤B中对平台层异常值进行识别这一步骤的流程图;
图4为本发明步骤B中采用改进的数据标识同步算法实现基站层和平台层异常值的同步这一步骤的流程图;
图5为本发明步骤S3的流程图;
图6为本发明步骤S4的流程图;
图7为本发明一种环境自动监测网络的数据异常值标识系统的结构框图;
图8为本发明实施例二环境自动监测网络数据标识体系的结构框图。

【具体实施方式】
[0022]参照图1,环境自动监测网络的数据异常值标识方法,包括:
A、根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;
B、根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。
[0023]进一步作为优选的实施方式,所述来源类型标识根据数据的来源进行定义,包括网络命令标识、基站系统标识、基站仪器自动执行命令标识、基站人工审核标识、实时数据平台标识;所述模式标识用于对基站自动监测网络各种形式的信息进行表征、描述和分类,由信息名称的英文或汉语拼音的第一个字母的缩写组成,包括监测数据状态标识、质控质保任务标识和基站监测系统及仪器故障标识;所述删除标识,用于表示不能参与统计的监测数据,具体数据格式为:删除标识/来源类型标识。
[0024]进一步作为优选的实施方式,所述模式跟踪数据标识包括结果导向标识和过程导向标识,
所述结果导向标识的数据结构为:模式标识(特征标识1,特征标识2,……,特征标识η)/来源类型标识;所述结果导向标识的生成过程为:选择结果导向标识的数据结构,然后把代表结果的模式标识、以及与该模式标识相关联的特征标识I到特征标识η导入到选择的数据结构中;其中,特征标识是指基站监测系统开发者定义的关于系统、仪器的状况标识或基站采集系统的环境状况标识,特征标识1,特征标识2,……,特征标识η是指与代表结果的模式标识相关联的特征标识;
所述过程导向标识的数据结构为:模式标识(数值基准标识1,数值过程标识1,……,数值基准标识I,数值过程标识m)/来源类型标识;所述过程导向标识的生成过程为:选择过程导向标识的数据结构;然后把代表过程的模式标识、以及与该模式标识产生过程相关联的基准标识I,数值过程标识I……数值基准标识1,数值过程标识m导入到选择的数据结构中;
其中,基准标识是指执行质控任务时所采用标准样品的浓度值,数值过程标识是执行质控任务时监测仪器测标准样品所得的结果浓度值,数值过程标识1,数值过程标识2,……,数值过程标识m是指与代表过程的模式标识相关联的数值过程标识,且数值过程标识m按数据标识产生过程的时间先后顺序排列。
[0025]进一步作为优选的实施方式,所述演绎标识是指容纳统计学理论识别异常值的标识,具体数据格式为:演绎标识/来源类型标识;所述演绎标识并不参与数据统计,只用于提示数据审核人员计算机智能诊断出来的异常值,若人工诊断确认为该异常值为真实的异常值,则该演绎标识会自动转为删除标识。
[0026]其中,演绎标识能容纳计算机通过统计学理论、人工智能算法等方法自动识别的异常值。
[0027]参照图2,进一步作为优选的实施方式,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层异常值进行识别这一步骤,其包括:
B11、对基站层数据进行监测,从而获得异常数据信号;
B12、将异常数据信号转换成计算机可识别的数据信号;
B13、将转换后的异常数据信号与数据标识知识库的数据进行匹配,判断数据标识知识库是否存在与异常数据信号相匹配的数据,若是,则执行步骤B14,反之,则结束基站层异常值识别流程;
B14、判断异常数据信号所属的数据标识类型,并根据判断结果执行相应的数据标识赋予流程;
B15、将新赋予的数据标识记录存入基站数据库和同步数据库。
[0028]参照图3,进一步作为优选的实施方式,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对平台层异常值进行识别这一步骤,其包括:
B21、从平台数据库中提取监测数据,判断提取的数据是否包含不合理的值,若是,则为提取的数据赋予删除标识,反之,则执行步骤B22,所述不合理的值是指负值、超出仪器量程范围的值、连续不变的值或基于箱线图统计方法判别为离群值的数据;
B22、判断提取的数据是否包含连续4次以上的不变值,若是,则为提取的数据赋予演绎标识,反之,则执行步骤B23 ;
B23、自当前时刻开始往前追溯,从监测数据中获取连续的X个监测值,其中,X为预设的数值,且满足7 < X ( 3y,y为维修人员在基站仪器发生故障时赶到现场进行维护的最长允许时间;
B24、对获取的X个监测值进行计算,从而得到这X个监测值的下四分位数Q1、中位数Q2、上四分位数Q3和四分位距IQR,所述X个监测倌的四分位距IQR的计算公式为:IQR=Q3 — Ql ;
B25、根据计算的结果自动对X个监测值的异常值进行识别,并为识别出的异常值赋予相应的演绎标识;
B26、对含有演绎标识的监测数据进行人工审核,若确认监测数据为异常值,则将监测数据的演绎标识取消,并重新为监测数据赋予删除标识。
[0029]其中,所述步骤B25,其具体为:设这X个监测值中任一值为Tx,若(Q3 + 3IQR)>Tx>(Q3 + 1.51QR)或(Ql — 3IQR) <Tx〈(Q1-1.51QR)时,则认定Tx为温和的异常值,此时赋予 Tx 演绎标识 mild outliers (温和演绎标识);若 Tx> (Q3 + 3IQR)或 Tx< (Q3 — 31QR),则认定Tx为极端的异常值,此时赋予Tx演绎标识extreme outliers (极端演绎标识)。
[0030]对含有演绎标识的监测数据进行人工审核时,若确认监测数据实际上并不是异常值,则结束对基站层异常值进行识别的流程。
[0031]参照图4,进一步作为优选的实施方式,所述步骤B中采用改进的数据标识同步算法实现基站层和平台层异常值的同步这一步骤,其包括:
51、基站与平台建立socket连接;
52、判断是否需要同步数据标识数据库,若是,则执行步骤S3,反之,则执行步骤S4;
53、基站向平台发送修改数据标识数据库的请求,并在平台同意修改和同步标识匹配检查完成后向平台发送数据标识记录数据包,从而使平台进行应答修改;
54、平台向基站发送修改数据标识知识库的请求,并在基站同意修改后向基站发送数据标识知识库修改数据包,从而使基站进行应答修改。
[0032]参照图5,进一步作为优选的实施方式,所述步骤S3,其包括:
531、基站向平台发送修改数据标识数据库的请求;
532、平台发出同意修改请求的响应;
533、基站接收到同意响应后向平台发送同步标识为last的数据标识数据包M;
534、平台检查数据包M是否与平台同步数据库中的同步标识为last的数据匹配,若是则执行步骤S35,反之,则顺序执行步骤S36?S38 ;
535、基站向平台传输同步标识为next的数据包及其后的数据,然后结束同步过程;
536、服务器向基站发送平台同步标识为last的数据包L;
537、基站在基站同步数据库中搜索与数据包L匹配的数据记录,并把搜索到的匹配数据的同步标识修改为last,同时基站把下一时刻数据记录的同步标识修改为next ;
538、基站向平台传输同步标识为next的数据标识记录数据包R及其后的数据,然后结束同步过程。
[0033]其中,服务器设置在平台上。
[0034]参照图6,进一步作为优选的实施方式,所述步骤S4,其包括:
541、平台向基站发送修改数据标识知识库的请求;
542、基站发出同意修改的响应;
543、平台在接收到同意的响应后向基站发送数据标识知识库修改数据包;
544、平台通知基站数据包发送完毕,基站应答;
545、基站根据修改数据包修改基站的数据标识知识库。
[0035]参照图7,环境自动监测网络的数据异常值标识系统,包括:
统一定义模块,用于对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;
识别和同步模块,用于根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层和平台层异常值的同步;
所述统一定义模块的输出端与识别和同步模块的输入端连接。
[0036]下面结合说明书附图和具体实施例对本发明作进一步详细说明。
[0037]实施例一
本实施例对本发明数据标识的数据结构进行介绍。
[0038]出于对环境监测网络的数据审核工作整体性和相对性的考量,本发明通过基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个来源重新统一定义环境监测网络的数据标识体系,以提高数据审核效率和降低出错率。
[0039]本发明的数据标识包括:
(一)来源类型标识
为了克服传统数据标识体系没有对数据标识的来源进行区分的缺陷,本发明定义了来源类型标识,能很好地区分每种数据标识的来源,方便数据审核工作溯源,并能根据数据来源来对审核工作进行评估。
[0040]来源类型标识表示环境自动监测网络数据标识的来源和产生方式,具体格式及定义如下表I所示:
表I来源类型标识的格式与定义
序号标识名称具体格式定义—

网络命令标识表示数据标识的来源是实时
网络np Y标
1^nt 数据平台远程发送到基站监铡系统自动执
* 行的命令

基站系统标识表不数据标识的来源是基站
基站杀或标
2^bs 监测系统自动运行的过程参数及由传感器识 探测到的站房环境参数。
基站仪器自基站系统自动执行命令标识表示数据标识
3动执行命令 ad 的来源是基站监铡系统与仪器通讯而获得
标识的,仪器自动完成的操作。
基站人工数基站人工数据审核标识表示数据标识的来
4mo
据审核标识源是基站的现场人工数据审核工作。
实时数据平实时数据平台标识表示数据标识的来源是
5dp
____实时数据平台层的数据管理工作。
(二)模式标识
模式标识是指对基站自动监测网络各种形式的信息进行表征、描述和分类的数据标识,由信息名称的英文或汉语拼音的第一个字母的缩写组成。模式标识可分为:
(I)监测数据状态标识监测数据状态标识的具体格式为:
污染物监测浓度数据超仪器上限一+ ;浓度数据超下限--;
有效统计数据不足——H ;数据前向标识一一Q (2)质控质保任务标识质控质保任务标识反映了技术人员对基站监测系统进行质控质保任务时对监测数据的影响,实际应用时需根据具体的监测对象作相应的调整,下面以地表水自动监测为例,其质控质保任务标识的格式为:
标样值-SV ;空白试验-bt ;空白试验不及格-btf ;
标样核查——sc ;标样核查不及格——scf ;加标回收——ra ;
加标回收不及格-raf ;校零-cz ;校标-Cs ;
线性检查——Ii ;线性检查不及格——Iif0
[0041](3)基站监测系统及仪器故障标识
基站监测系统及仪器故障标识反映了基站监测系统运行过程中系统本身及周围环境的故障问题,应根据具体的监测对象作相应的调整,下面以地表水自动监测为例,其基站监测系统及仪器故障标识的格式为:电源故障——p(国标);维护——M(国标);仪器故障——D(国标);通讯故障(或数据采集失败)——C ;仪器离线——S;
缺试剂-1r (lack reagent);缺纯水-1p (字母I);
缺水样一Iw (字母I);缺标样一Is (字母I);取水点无水样一Z
(三)模式跟踪数据标识
模式跟踪数据标识是一种全新的数据标识结构,仅在基站自动监测系统产生。它不仅记录了基站自动监测系统的监测数据所面临的监测环境情况或所进行的质控质保的具体任务,还对监测环境情况的特征或质控质保任务的数值进行深层挖掘。
[0042]本发明根据数据的管理理念和核心思想将模式跟踪数据标识分为结果导向和过程导向这两种。对于基站系统自动运行和一些不可预测的环境因素留下的数据标识记录,应以结果为导向(结果一原因)进行管理,分析其产生的根本原因;而对于基站由人工组织执行的质控质保工作,有一套标准具体化的工作流程,对该类操作产生的数据标识,应以流程为导向(过程一结果)进行管理。故本发明提出了模式跟踪数据标识两种数据结构及相应的产生流程。
[0043]1、结果导向标识
(I)数据结构
结果导向标识的格式为:模式标识(特征标识I,特征标识2……特征标识η) /来源类型标识。
[0044]其中,特征标识1,特征标识2……特征标识η等的默认值为空。
[0045]特征标识是基站监测系统开发者定义的关于系统、仪器的状况标识(故障等)或基站采集系统的环境状况(天气因素、水文等),不同基站监测系统开发者可有不同的定义。
[0046](2)结果导向模式跟踪数据标识的具体产生过程结果导向模式跟踪数据标识的具体产生过程为:
a.选择结果导向标识的数据结构。
[0047]b.把代表结果(或结论)的模式标识、以及与该模式标识关联的特征标识I至特征标识η导入到选择的数据结构中。
[0048]2、过程导向标识
(I)数据结构
过程导向标识的数据结构为:模式标识(数值基准标识1,数值过程标识I……数值基准标识1,数值过程标识m)/来源类型标识。
[0049]其中,数值基准标识I,数值过程标识I……数值基准标识I,数值过程标识m等的默认值为空。
[0050]数值基准标识是执行质控任务时所采用标准样品的浓度值,空白试验时为O。
[0051]数值过程标识是执行质控任务时监测仪器测标准样品时所得的结果浓度值。
[0052](2)过程导向模式跟踪数据标识的具体产生过程过程导向模式跟踪数据标识的具体产生过程为:
a.选择过程导向标识的数据结构。
[0053]b.把代表过程的模式标识、以及该模式标识产生过程的基准标识1,数值过程标识I……数值基准标识1,数值过程标识m导入到这个数据结构中。
[0054]c.将数值过程标识m按数据标识产生过程的时间先后顺序排列。
[0055](四)演绎标识
演绎标识,顾名思义,它不是由具体监测的环境变量结果或由设定的监测阀值一步推断得到的结果,而是通过统计学、数据挖掘等理论,对海量监测数据中的异常值进行识别而得到的,其数据格式为:演绎标识/来源类型标识。
[0056](五)删除标识——del
删除标识表示监测数据不能参与统计。可用于以下情况:
拥有删除权限的数据管理人员经各种途径判定该数据无效,或数据实时平台对超出设定监测阀值的异常值直接删除。
[0057]删除标识的具体数据格式为:删除标识/来源类型标识。
[0058]实施例二
参照图8,本发明的第二实施例:
本发明环境自动监测网络数据标识系统按数据标识产生的流程分为基站层、基站一平台数据标识同步传输层、平台层。
[0059]基站层包括基站数据标识知识库、基站数据库、数据标识更新模块、基站同步数据库。基站数据库保存了基站监测系统所有原始数据和数据标识的记录。基站数据标识知识库提供了环境自动监测网络数据标识的知识存储、提取、检索及应用服务;数据标识更新模块可调用数据标识知识库的知识,诊断基站监测系统的数据并赋予数据标识,同时把更新后的数据标识存入基站数据库和基站同步数据库。基站同步数据库保存了尚未上传到平台,需要同步的环境自动监测网络数据标识。
[0060]基站一平台数据标识同步传输层包括基站同步传输模块和平台同步传输模块。基站同步传输模块和平台同步传输模块遵循约定的数据包格式及同步方法,保证基站的数据标识的变化能同步更新到平台的数据库中。
[0061]平台层包括平台同步数据库、平台异常值识别模块、平台数据标识知识库和平台数据库。平台同步数据库保存最近从基站获取的更新数据标识,并存入到平台数据库中。平台数据标识知识库保存环境监测网络的数据标识方案最新修改的版本,并及时对基站数据标识知识库进行更新。平台异常值识别模块包括服务器软件自动识别和人工审核两部分,负责对网络内的监测数据进行最终的审核。
[0062]实施例三
本实施例对基站层异常值标识技术进行说明。
[0063]基站环境监测系统是监测网络所有数据的发源地,也是数据审核的第一道防线,整合基站层异常值标识技术内容,包括基站系统异常值自动识别和基站人工识别,是数据审核最重要的环节,本发明基站层异常值标识的实现过程为:
1、基站监测系统识别到异常数据信号,该信号可来自系统自动感知或基站值守人员的人工输入。
[0064]2、基站监测系统把监测数据转换成计算机可识别的数据信号。
[0065]3、数据标识更新模块提取数据标识知识库的数据,看是否和异常信号相匹配,如不匹配结束流程。
[0066]4、数据标识更新模块判断属于哪类型的数据标识,并执行相应的数据标识赋予流程。
[0067]5、把新赋予的数据标识记录存入基站数据库和同步数据库。
[0068]实施例四
本实施例对本发明的数据标识同步方法实现过程进行介绍。
[0069]本发明对现有的数据标识同步算法进行了改进,提出了数据标识通讯包、同步标识、冲突策略及同步方法等技术,来保证平台层能同步更新和对基站层数据标识的修改。
[0070](一)通讯模式
基站自动监测系统与实时数据平台通信基于TCP/IP协议以及Socket进程通信机制。Socket通信的主要模式是客户端/服务器端(Client / Server),这里基站自动监测系统相当于客户端,实时数据平台的服务器进程属于服务器端。实时数据平台的服务器进程初始化Socket,然后与端口绑定(bind),监听端口(listen),调用accept阻塞,等待基站自动监测系统连接。基站自动监测系统如需通信,发起一个Socket,然后连接到服务器(connect),如果连接成功,基站自动监测系统与实时数据平台通信的连接可成功建立。基站自动监测系统与实时数据平台建立连接后,就可以发送和接收数据了。
[0071]客户端向服务器传达发送数据请求,服务器接收请求并确认准备接收,并在处理该请求的响应数据后将其发送到客户端,客户端读取数据,最后关闭连接即可完成一次交互。
[0072](二)数据通讯包结构
本发明的数据通讯包包括数据标识记录数据包和数据标识知识库修改数据包。其具体格式为:
1、数据标识记录数据包格式为:
包头标识数据时间基站编号污染物类别环境自动监测网络数据标识污染物监测值数据包长度校验码域包尾标识
2、数据标识知识库修改数据包格式为:
包头标识旧环境自动监测网络数据标识格式新环境自动监测网络数据标识格式数据包长度校验码域包尾标识
其中,包头标识和包尾标识是为了方便封包、拆包和后期对数据包进行解析处理。在设计包头和包尾标识时需避免和真实数据重合,本发明设计的包头标识为###,包尾标识为
&&&G
[0073]而数据时间需具体到秒,如2014年06月08日01时00分00秒,表示为20140608010000。
[0074]校验码目的是为了验证接收到的数据与发送方发出的数据是否相同,这里采用循环冗余校验(CRC)算法。
[0075](三)冲突处理策略
在服务器和客户端的数据库中修改相同的数据项,可能会产生冲突。为避免数据源和目的数据同步时发生数据冲突,本发明制定了如下冲突处理策略:
若数据标识知识库以服务器端为主,当发生同步数据冲突时,则根据服务器端数据来更新基站数据库数据。
[0076]若数据标识数据库以客户端为主,当发生同步数据冲突时,则根据基站数据来更新服务器端数据库数据。
[0077](四)同步标识
基站和平台的实时数据库有两种同步标志Last和Next,总是在同步发起时被传送。Last同步标志从发送设备的角度描述了上一个数据库同步中的数据记录,Next同步标志从发送设备的角度描述了当前的同步事件。正常情况下,基站和平台同步数据库里同步标识为last的数据记录是一致的。
[0078](五)基站一平台实现数据标识一致性的同步算法本发明基站一平台实现数据标识一致性的同步算法包括:
1、基站一平台两端数据标识数据库同步算法
基站一平台两端数据标识数据库同步算法包括:
(O基站同步传输模块与平台同步传输模块建立socket连接,两端准备传输和接收数据。
[0079](2)基站向平台发送修改数据标识数据库的请求。
[0080](3)平台发出同意修改的响应。
[0081](2)基站向平台发送同步标识为last的数据标识数据包A。
[0082](3)平台检查数据包A是否与平台同步数据库的同步标识为last的数据匹配。
[0083](4)如果基站和平台同步标识为last的数据记录匹配,则平台应答允许传输,此时基站向平台传输同步标识为next的数据包及其后的数据。
[0084](5)如果基站和平台同步标识为last的数据记录不匹配,则服务器向基站发送平台同步标识为last的数据包B。
[0085](6)基站在基站同步数据库搜索与数据包B匹配的数据记录,并把其同步标识改为last,同时把下一时刻的数据记录的同步标识改为next。
[0086](7)基站向平台传输同步标识为next的数据包C及其后的数据。
[0087]2、基站一平台两端数据标识知识库同步算法
基站一平台两端数据标识知识库同步算法的实现过程为:
(O平台同步传输模块与基站同步传输模块建立socket连接,两端准备传输和接收数据。
[0088](2)平台向基站发送修改数据标识知识库的请求。
[0089](3)基站发出同意修改的响应。
[0090](4)平台向基站发送数据标识知识库修改数据包。
[0091](5)平台通知基站数据包发送完毕,基站应答。
[0092](6)基站根据修改数据包修改基站的数据标识知识库。
[0093]实施例五本实施例对平台层异常值数据标识技术的实现过程进行说明。
[0094]本发明提出了平台异常值数据识别的完整算法,能很好地对负值、超出仪器量程范围的值、连续不变的值、基于箱线图统计方法判别为离群值的数据进行识别,同时能很好地容纳统计学理论在平台异常值自动识别的运用。
[0095]当所有基站的数据上传到数据平台后,为确保网络内监测数据的真实性,避免基站层数据审核工作失误带来的影响,应对平台层汇总的监测数据作最后的数据审核,对其中的异常数据进行识别和剔除,以提高数据质量。
[0096]本发明的平台异常值数据标识技术主要针对的异常值包括:负值、超出仪器量程范围的值、连续不变的值、基于箱线图统计方法判别为离群值的数据。
[0097]本发明的平台层异常值数据标识流程为:
1、平台自动扫描监测数据中包含的不合理值,并赋予删除标识。
[0098]2、平台自动扫描监测数据中包含的连续4次以上不变的数据,并赋予演绎标识outlier。
[0099]3、平台自动从当前时间往前追溯,取监测连续的X个监测值(根据当地质控工作要求规范,以当基站仪器出现故障时,维修人员I小时内必须赶到现场维护的条例为依据,y〈X〈3y,例如X取24的倍数)。
[0100]4、平台自动算出这X个监测值的下四分位数Q1,中位数Q2,上四分位数。
[0101]5、平台自动计算四分位距IQR=Q3 — Ql。
[0102]6、平台自动判断:设在这X个监测值中任一值为Tx,若(Q3 + 3IQR)>Tx>( Q3 +1.5IQR)或(Ql — 3IQR)<Tx<(Ql-1.5IQR)时,则认定为温和的异常值,赋予Tx演绎标识mild outliers ;当Tx> (Q3 + 3IQR)或Tx〈(Q3 — 3IQR)时,则认定为极端的异常值,赋予Tx 演择标识 extreme outliers。
[0103]7、平台数据管理人员对含有演绎标识的数据进行人工审核,如确认为真实的异常值,则为该数据赋予删除标识,同时取消该数据的演绎标识。
[0104]实施例六
本发明环境自动监测网络的数据标识法则为:
(一)为保障环境自动监测网络数据的真实性,避免人为篡改、伪造监测数据,基站监测系统和实时数据平台均只允许数据管理人员进行添加数据标识和删除数据等两种数据审核操作,不允许手工修改数据。
[0105](二)演绎标识仅代表了理论推导结果,以辅助数据实时平台数据管理人员识别异常数据,被赋予演绎标识的数据,如在平台人工审核的过程中没有予以确认是真实的异常值,仍能参与平台的数据统计及其它数据应用。。
[0106](三)删除标识仅表示监测数据被数据实时平台宣告数据无效,不参与数据统计,但监测数据实质没有被删除,仍存在基站自动监测系统和数据实时平台的数据库里。
[0107](四)数据标识全部采用英文字母和数字。
[0108]以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
【权利要求】
1.环境自动监测网络的数据异常值标识方法,其特征在于:包括: A、根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构; B、根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。
2.根据权利要求1所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述来源类型标识根据数据的来源进行定义,包括网络命令标识、基站系统标识、基站仪器自动执行命令标识、基站人工审核标识、实时数据平台标识;所述模式标识用于对基站自动监测网络各种形式的信息进行表征、描述和分类,由信息名称的英文或汉语拼音的第一个字母的缩写组成,包括监测数据状态标识、质控质保任务标识和基站监测系统及仪器故障标识;所述删除标识,用于表示不能参与统计的监测数据,具体数据格式为:删除标识/来源类型标识。
3.根据权利要求2所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述模式跟踪数据标识包括结果导向标识和过程导向标识, 所述结果导向标识的数据结构为:模式标识(特征标识1,特征标识2,……,特征标识η) /来源类型标识;所述结果导向标识的生成过程为:选择结果导向标识的数据结构,然后把代表结果的模式标识、以及与该模式标识相关联的特征标识I到特征标识η导入到选择的数据结构中;其中,特征标识是指基站监测系统开发者定义的关于系统、仪器的状况标识或基站采集系统的环境状况标识,特征标识1,特征标识2,……,特征标识η是指与代表结果的模式标识相关联的特征标识; 所述过程导向标识的数据结构为:模式标识(数值基准标识I,数值过程标识1,……,数值基准标识I,数值过程标识m)/来源类型标识;所述过程导向标识的生成过程为:选择过程导向标识的数据结构;然后把代表过程的模式标识、以及与该模式标识产生过程相关联的基准标识I,数值过程标识I……数值基准标识1,数值过程标识m导入到选择的数据结构中; 其中,基准标识是指执行质控任务时所采用标准样品的浓度值,数值过程标识是执行质控任务时监测仪器测标准样品所得的结果浓度值,数值过程标识1,数值过程标识2,……,数值过程标识m是指与代表过程的模式标识相关联的数值过程标识,且数值过程标识m按数据标识产生过程的时间先后顺序排列。
4.根据权利要求2所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述演绎标识是指容纳统计学理论异常值识别方法的标识,具体数据格式为:演绎标识/来源类型标识;所述演绎标识并不参与数据统计,只用于反映和记录计算机智能诊断出来的异常值,若人工诊断确认该异常值为真实的异常值,演绎标识会自动转为删除标识。
5.根据权利要求1所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层异常值进行识别这一步骤,其包括: B11、对基站层数据进行监测,从而获得异常数据信号; B12、将异常数据信号转换成计算机可识别的数据信号; B13、将转换后的异常数据信号与数据标识知识库的数据进行匹配,判断数据标识知识库是否存在与异常数据信号相匹配的数据,若是,则执行步骤B14,反之,则结束基站层异常值识别流程; B14、判断异常数据信号所属的数据标识类型,并根据判断结果执行相应的数据标识赋予流程; B15、将新赋予的数据标识记录存入基站数据库和同步数据库。
6.根据权利要求5所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对平台层异常值进行识别这一步骤,其包括: B21、从平台数据库中提取监测数据,判断提取的数据是否包含不合理的值,若是,则为提取的数据赋予删除标识,反之,则执行步骤B22,所述不合理的值是指负值、超出仪器量程范围的值、连续不变的值或基于箱线图统计方法判别为离群值的数据; B22、判断提取的数据是否包含连续4次以上的不变值,若是,则为提取的数据赋予演绎标识,反之,则执行步骤B23 ; B23、自当前时刻开始往前追溯,从监测数据中获取连续的X个监测值,其中,X为预设的数值,且满足y < X < 3y,y为维修人员在基站仪器发生故障时赶到现场进行维护的最长允许时间; B24、对获取的X个监测值进行计算,从而得到这X个监测值的下四分位数Q1、中位数Q2、上四分位数Q3和四分位距IQR,所述X个监测值的四分位距IQR的计算公式为:IQR=Q3 — Ql ; B25、根据计算的结果自动对X个监测值的异常值进行识别,并为识别出的异常值赋予相应的演绎标识; B26、对含有演绎标识的监测数据进行人工审核,若确认监测数据为异常值,则将监测数据的演绎标识取消,并重新为监测数据赋予删除标识。
7.根据权利要求5所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述步骤B中采用改进的数据标识同步算法实现基站层和平台层异常值的同步这一步骤,其包括: 51、基站与平台建立socket连接; 52、判断是否需要同步数据标识数据库,若是,则执行步骤S3,反之,则执行步骤S4; 53、基站向平台发送修改数据标识数据库的请求,并在平台同意修改和同步标识匹配检查完成后向平台发送数据标识记录数据包,从而使平台进行应答修改; 54、平台向基站发送修改数据标识知识库的请求,并在基站同意修改后向基站发送数据标识知识库修改数据包,从而使基站进行应答修改。
8.根据权利要求7所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述步骤S3,其包括: 531、基站向平台发送修改数据标识数据库的请求; 532、平台发出同意修改请求的响应; 533、基站接收到同意响应后向平台发送同步标识为last的数据标识数据包Μ; 534、平台检查数据包M是否与平台同步数据库中的同步标识为last的数据匹配,若是则执行步骤S35,反之,则顺序执行步骤S36?S38 ; 535、基站向平台传输同步标识为next的数据包及其后的数据,然后结束同步过程; 536、服务器向基站发送平台同步标识为last的数据包L; 537、基站在基站同步数据库中搜索与数据包L匹配的数据记录,并把搜索到的匹配数据的同步标识修改为last,同时基站把下一时刻数据记录的同步标识修改为next ; 538、基站向平台传输同步标识为next的数据标识记录数据包R及其后的数据,然后结束同步过程。
9.根据权利要求7所述的环境自动监测网络的数据异常值标识方法,其特征在于:所述步骤S4,其包括: 541、平台向基站发送修改数据标识知识库的请求; 542、基站发出同意修改的响应; 543、平台在接收到同意的响应后向基站发送数据标识知识库修改数据包; 544、平台通知基站数据包发送完毕,基站应答; 545、基站根据修改数据包修改基站的数据标识知识库。
10.环境自动监测网络的数据异常值标识系统,其特征在于:包括: 统一定义模块,用于对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构; 识别和同步模块,用于根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层和平台层异常值的同步; 所述统一定义模块的输出端与识别和同步模块的输入端连接。
【文档编号】G06F17/30GK104135521SQ201410367544
【公开日】2014年11月5日 申请日期:2014年7月29日 优先权日:2014年7月29日
【发明者】黎如昊, 肖文, 向运荣, 张苒 申请人:广东省环境监测中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1