环保数据质量修正方法与流程

文档序号:29694542发布日期:2022-04-16 12:39阅读:159来源:国知局

1.本发明涉及环境数据处理技术领域,具体涉及一种环保数据质量修正方法。


背景技术:

2.随着环保部门对企业环境监管力度在逐渐加大,尤其是对典型污染源企业的监管,但是由于环境监管机制不成熟,环境管理信息化水平不高,导致企业在上报环保数据和公开环境信息时存在诸多问题,这些问题是监管部门和环保行业关注的课题,采用大数据分析技术对生态环境监测数据进行质量监控,修正和分析成为污染物监测数据质量控制的有效手段。
3.环境在线监测设备在非正常情况下的出现的数据异常没有良好的反馈和处理机制,导致企业上报数据的过程存在很大的可操作空间,且没有合适的系统进行有效的数据质量监管。


技术实现要素:

4.本发明的目的在于为克服现有技术的不足而提供一种环保数据质量修正方法。
5.环保数据质量修正方法,其采用一编码规则作为数据发生设备的因子编码或唯一编号进行应用;所述编码规则包括设置有至少四层编码层,其中:第一层编码,其包括根据污染排放类型而设置的第一字母编号;第二层编码,其包括根据处理工艺类型而设置的第二字母编号;第三层编码,其包括根据受监测的数据发生设备而设置的第一数字编号;第四层编码,包括处于相同工况环境中多个数据发生设备区分而设置的第三数字编号。
6.进一步地,获取有初步的数据监测结果,根据所述因子编码应用,以该数据监测结果所涉及的数据发生设备进行回溯分析,并以此对所述数据监测结果进行修正更改。
7.进一步地,令用于数据接收的网关接收端与所述数据发生设备形成有交互的通讯连接,通过所述网关接收端,对数据发生设备作出有用于数据质量修正的反馈控制处理。
8.进一步地,所述反馈控制处理包括数据补足处理、固件升级处理、设备重启处理或时间校正处理中一个或多个的修正指令。
9.进一步地,预设有标准协议规范,将数据与对应的标准协议规范进行参照对比,根据所述标准协议规范情况,对数据进行有标签标识处理。
10.进一步地,基于因子编码的应用,所述第三层编码包括于所述第一数字编号后根据监测因子设置的第二数字编号;所述第二数字编号包括针对数据发生设备的状态、实时电流、累计用电量、实时电压或实时功率情况而设置的1位的第二数字值,该第二数字值包括数字0-9。
11.进一步地,针对所述唯一编号的应用设置,其基于分布式流处理的数据处理方式进行设置,其包括以下步骤:s1、设置有数据发生设备,对从所述数据发生设备接收的数据进行划分处理;s2、对划分后的数据进行清洗处理;s3、对清洗处理后的数据进行合并;s4、对数据进行直接输出处理或归纳计算处理;于步骤s1中,各所述监测设备通过编码规则均
设置有设备的唯一编号,使数据流中的数据能根据该唯一编号进行数据划分。
12.进一步地,于步骤s4中,包括以下步骤:对数据进行分流处理,分流处理所得的数据包括:按时间划分标准而划分的实时数据报文及阶段数据报文,该实时数据报文的数据量大于该阶段数据报文的数据量;所得实时数据报文直接输出处理,而作直接展示;所得阶段数据报文进行归纳计算处理,归纳计算处理后以数据图表的形式进行展示。
13.进一步地,于步骤s1中,还包括以下步骤:令用于数据接收的网关接收端打上有tcp连接唯一标识;对接收的数据流进行keyby算子操作,使数据流中的数据能根据该唯一编号或唯一标识进行数据划分;于步骤s2中,对keyby后的数据流进行清洗处理,该清洗处理包括确认相应数据中是否包含有上述的设备唯一编号;当数据不通过校验时,相应的数据报文被标记为脏数据,并发送至脏报文消息队列;于步骤s3中,其合并方式包括对清洗处理后进行window算子操作,算子操作时间为30秒。
14.进一步地,于所述第一层编码中,所述第一字母编号包括针对气体污染排放而设定的字母“g”;于所述第二层编码中,所述第二字母编号包括针对产污环节而设定的字母“a”、针对收集环节而设定的字母“b”及针对治理环节而设定的字母“c”;于所述第三层编码中,所述第一数字编号包括针对上述产污环节、收集环节或治理环节中涉及的不同监测设备类别而设置的1位的第一数字值,该第一数字值包括数字0-9;于所述第四层编码中,所述第三数字编号包括2位的第三数字值,该第三数字值包括数字组合00-99。
15.本发明的有益效果在于:
16.1、通过该针对污染排放类型、处理工艺类型、受监测的数据发生设备及处于相同工况环境中多个数据发生设备区分而设置的四层编码应用情况,可令数据发生设备进行因子编码或唯一编号设置,令应用其的数据传输管控平台,具有获取数据质量可靠且易于运维的特点。
17.2、基于以编码规则设置的因子编码应用,能领用户便捷判断上传监测数据的真实性和合理性,有效防止数据造假和提高数据质量。
18.3、基于以编码规则设置的唯一编号应用,相应的数据划分处理程序可凭设备的唯一编号对上报的监测数据进行的解耦,提高了数据处理的吞吐量和程序架构的内聚性,有效降低了数据划分处理过程中的复杂度和硬件成本。
19.4、通过对基础数据量较大的实时数据报文及基础数据量较小进行明确的划分应用,能确保有效的数据展示效果同时,避免数据库的报表计算过程的运算量过大,能减少数据库负担并能有效减少硬件的设置成本。
具体实施方式
20.为了使本发明的技术方案、目的及其优点更清楚明白,以下实施例,对本发明进行进一步的解释说明。
21.本发明的一种数据传输管控平台基于前后端分离的传统web开发架构设置。该数据传输管控平台中设置有网关接收端、数据处理端及数据终端;基于现有技术的通信传输方式,该网关接收端能有效地对污染源发生设备或污染源处理设备的相关污染源数据进行数据收集。该数据处理端对相应网关收集端的数据进行获取并清洗处理后,将处理所得干净数据作分析统计并于数据终端中进行展示。
22.实施例1:
23.所述数据处理端中:分布式流处理应用会将消息队列作为数据源,实时拉取经由网关接收端简单处理过的合格报文,按照预定义的数据质量和权限检查规则(例如报文的时间标识、多因子的量程范围,传感器的接入项目信息,归属企业信息和地理位置信息等),实时过滤和处理污染源上传监测数据原始报文,对问题数据进行多维度,多因子,多层次的清洗,过滤及校正,将原始问题数据分别打上标签并送入异常数据队列(自动剔除无效数据),将清洗后的数据送入干净数据队列。
24.该数据处理端的具体处理步骤为:
25.1、使数据发生设备设置有唯一编号,并令用于数据接收的网关接收端打上有tcp连接唯一标识,对接受的数据流进行keyby算子操作,使数据流中的数据能根据该唯一编号或唯一标识进行数据的拆包划分。上述唯一编号的设置,包括根据将设备所属排污企业厂商的识别代码进行设置,或基于所属业务(大气、地表水、污水等)的识别代码进行设置,或对应产线(生产设施、收集设施、治理设施、回用设施等)的识别代码进行设置,并以此整合作为该设备的唯一编号。
26.2、对keyby后的数据流进行清洗处理。例如:确认接收的数据段是否包含该唯一编号或唯一标识,拆分包及应答标记,总包数,包号,请求编码(报文发送时间),系统编码,访问密码和命令编码(该命令编码可用于进行后续的实时数据、分钟数据或小时数据等区分);数据的发送时间不能超出设定的范围;数据区的因子是否包含在设定的配置字典中。如数据不通过校验,则将相应的数据报文标记为脏数据,并发送至脏报文消息队列进行统计。
27.3、对清洗处理后的数据进行合并。例如对清洗后的数据流进行30秒window算子操作,目标是校验窗口触发后30秒内接收到的所有报文情况,并对符合国标协议中合包规则的报文进行合并。
28.4、对清洗处理后的数据报文进行分流处理。根据报文命令编码,所得数据报文包括有以1至30秒为周期进行收集所得的实时数据报文、以1至30分钟为周期进行收集所得的分钟数据报文、以1至24小时为周期进行收集所得的小时数据报文数量(常规选择而言,实时数据报文选择以30秒为周期所得的数据,分钟数据报文选择以30分钟为周期所得的收集数据,小时数据报文选择以24小时为周期所得的收集数据)和设备状态数据报文(包括确认设备是否在线的设备在线状态数据)。
29.本方案中,基于步骤1至3的设置,通过对接收的数据先进行划分拆包,并以此进行清洗,可令其清洗过程具有针对性,从而提高清洗处理速度,减少后续etl的压力,同时简化其他应用的开发难度。
30.基于步骤4的设置,目的是便于后续业务进行程序架构上的解耦。从数据量而言,实时数据报文的数量远大于分钟数据报文数量、小时数据报文数量及设备状态数据报文数量,如果将实时数据报文直接加入数据库的报表中进行统计计算,对数据库而言是一个巨大的负担,同时也将承担高昂的硬件成本。所以对于后续业务来说,本处理过程会将实时数据报文进行划分设置,直接计算出实时数据报文中每一条实时数据的信息摘要,并以哈希表缓存的方式提供给前端作直接的展示使用。而分钟、小时乃至以日为收集周期所得的日数据报文,则会参与具体不同业务的报表进行归纳计算处理,待生成有进一步的数据图表
后再用于展示。通过对基础数据量较大的实时数据报文及基础数据量较小进行明确的划分应用,能确保有效的数据展示效果同时,避免数据库的报表计算过程的运算量过大,能减少数据库负担并能有效减少硬件的设置成本。
31.实施例2:
32.另一方面,数据发生设备在实际应用中涉及有多项监测因子的应用情况,则对应该数据发生设备中的各项监测因子的数据,在收集应用中可作成组处理。则我们对该数据发生设备设置有因子编码,以对该数据发生设备后续产生的数据进行可回溯的分析判断应用。
33.以排污产线的上游至下游单向应用情况为例,其上游至下游因应不同的工序而涉及有产污环节、收集环节及治理环节,对应各不同的处理环节,该排污产线应用有不同的处理设备,各独立的处理设备作为相应的数据发生设备而受实时监测,并将产生的相应数据对网关接收端进行发送。
34.相关的处理设备其因子编码中记录有对应处理环节的编码号。
35.例如,当用户于数据终端中获取有清洗处理后相关展示的数据情况,若确认到展示的报文显示为该产污环节的设备运行状态为异常状态(初步的数据监测结果),用户可根据报文中所涉及设备的因子编码进行处理环节的回溯,分析得出该产污环节及往后的收集环节、治理环节中的监测数据或可认为是不可信的;则用户可对设计设备的相应环节及往后环节所获取数据进行无效标注处理,以完成对所述数据监测结果的修正更改。
36.相关的处理设备其因子编码中记录有对应数据发生设备的监控因子的编码号。
37.针对某些特定污染物的监测设备,相应程序会针对其的因子编码设定情况,预设有其监测因子的设定情况上下限值,则若相应设备的上传数据中相关因子数据超出其设定的上下限,则该报文会被直接标注为脏数据。避免数据造假或者数据偏差过大而影响数据质量的情况。
38.实施例3:
39.基于数据的质量管理需求,本发明的进一步设置如下:
40.根据国标hj212协议的标准,设置有对应的标准协议规范情况,于上述步骤4中,对清洗处理后所得数据(包括相应的直接输出处理或归纳计算处理的数据)与对应的标准协议规范进行参照对比,根据所述标准协议规范情况,当所得数据不符合该国标hj212协议标准时,对数据以进行标签标识处理(包括并不限于标签的高亮展示),方便数据质量保障人员对污染源的监控情况作有效的排查、运维和管理。
41.本实施例中的标签标识应用,可作上述实施例2的应用补充;使标签标识至展示的报文显示为异常状态情况,帮助用户对设备异常的监控进行指示。
42.通过标签标示的应用,实现对污染源企业频次高、密度大,因子多的上报数据,按照行业经验和运维痛点对数据进行实时展示和告警,使平台使用方和数据质量保障人员可以及时了解污染源企业的排污状况,数据上报情况和设备运行状态并做出决策和处理,实现污染源设备管理,设备操作的信息化和自动化,实现对污染源监测设备的“云化”。
43.实施例4:
44.基于上述实施例的设备运维应用需求,本发明的进一步设置如下:
45.令用于数据接收的网关接收端与所述数据发生设备形成有交互的通讯连接,通过
所述网关接收端,针对于步骤s4取得的数据直接输出处理或归纳计算处理结果,上述数据质量保障人员可对进行有标签标识处理数据所归属的数据发生设备作出有用于数据质量修正的反馈控制处理。具体地,所述反馈控制处理包括数据补足处理、固件升级处理、设备重启处理或时间校正处理中一个或多个的修正指令。通过相应的修正指令,使对应设备作出有修正动作,令后续所得数据的质量得到有效的保障。
46.实施例5:
47.上述实施例应用中,其涉及有相应的数据发生设备唯一编号或因子编码的应用,则作为优选的实施方式,本实施例中优选地设置有一种编码规则,使所述唯一编号或因子编码基于该编码规则设置,以有效地促使该数据传输管控平台应用。
48.该编码规则包括:设置有至少四层编码层,其中:第一层编码,其包括根据污染排放类型而设置的第一字母编号;第二层编码,其包括根据处理工艺类型而设置的第二字母编号;第三层编码,其包括根据受监测的数据发生设备而设置的第一数字编号,和/或基于因子编码设置应用时根据对应数据发生设备的监测因子而设置的第二数字编号,该第二数字编码与设备的唯一编号应用中可取消设置;第四层编码,包括处于相同工况环境中位于不同位置的多个设备区分而设置的第三数字编号。
49.以vocs工况监测过程为例:
50.于所述第一层编码中,所述第一字母编号包括针对气体污染排放而设定的字母“g”。
51.于所述第二层编码中,所述第二字母编号包括针对产污环节而设定的字母“a”、针对收集环节而设定的字母“b”及针对治理环节而设定的字母“c”。
52.于所述第三层编码中,所述第一数字编号包括针对上述产污环节、收集环节或治理环节中涉及的不同的受监测的数据发生设备类别而设置的1位的第一数字值,该第一数字值包括数字0-9;所述第二数字编号包括针对数据发生设备的状态、实时电流、累计用电量、实时电压或实时功率情况等监测因子而设置的1位的第二数字值,该第二数字值包括数字0-9。
53.于所述第四层编码中,所述第三数字编号包括2位的第三数字值,该第三数字值包括数字组合00-99。例如,1号uv净化设备电流、2号uv净化设备电流在第四层分别用01、02进行区分。
54.基于该编码规则的设置,则对应于上述实施例1中的基础设置应用情况下,于清洗处理过程能更有效地针对所需的数据种类情况实现拆包划分的应用,可令其清洗过程更具有针对性,从而更有效提高清洗处理速度。
55.基于该编码规则的设置,则对应于上述实施例2中的基础设置应用情况下,基于其因子编码中具有记录有对应处理环节的第一字母编号应用,则对于获取有相应设备状态编码为异常的情况时,则该设备的应用环节及往后环节所收集的监测数据均直接标注为无效,令最终所得数据质量得到保障。
56.另外,或针对某些特定污染物的监测设备,相应程序会针对其的因子编码设定情况预设有其监测因子的设定情况上下限值(如相应的第三层编码的第二数字编号应用中,涉及有实时电流情况,程序对应设置该实时电流的上限值为20a),则若相应设备的上传数据超出其设定的上下限,则该报文会被直接标注为脏数据。避免数据造假或者数据偏差过
大而影响数据质量的情况。
57.以上所述仅为本发明的优选实施方式,对于本技术领域的技术人员,在不脱离本发明的实施原理前提下,依然可以对所述实施例进行修改,而相应修改方案也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1