一种鉴别污水监测数据真伪的方法与流程

文档序号：12064090阅读：296来源：国知局

本发明涉及鉴别污水监测数据真伪技术领域，尤其是一种联合运用数理统计原理鉴别污水监测数据真伪的方法。

背景技术：

当前一些排放污水的企业在经济利益驱使下，采用各种手段对在线监测数据进行造假，例如在监测点稀释污水，私接暗管，篡改监测仪器重要参数等。这些不法行为导致污水监测数据失真，给监测部门的工作带来很大的麻烦。许多监测人员本身业务素质较低，缺少将数据进行科学有效的分析和处理的能力，导致数据的可信度不高，失去评价意义。由于环境监测种类多样，数据数量庞大，大部分审核人员对数据的合理性、报告的规范性等缺乏研究，审核往往流于形式，数据经审核后，常常存在不同程度的问题或错误，致使监测工作陷入被动，甚至造成监测站不应有的损失。

技术实现要素：

为了解决上述问题，本发明提出一种鉴别污水监测数据真伪的方法，联合运用数理统计的方法，例如格拉布斯法、箱线图法、t检验法，从数据自身的角度入手，实现监测数据的纵横比较，对监测数值真实度的检测层层深入，为监测数据的合理性和相关性研究提供了技术支持。

为实现上述目的，本发明采取的技术方案为：一种鉴别污水监测数据真伪的方法，综合运用数理统计方法的鉴别流程如下：

(1)获取污水处理厂污水排放指标时在线监测数据，建立数据表；

(2)对时在线监测数据进行升序排序；

(3)运用格拉布斯法对排序后时在线监测数据进行异常值的判断和观测值的修正，判断出的异常值即为异常数据，找出异常值对应的时刻，确定异常值出现的位置，并进行剔除，保留修正数据；

(4)在修正的时监测数据基础上计算日均值；

(5)根据《城市污水处理厂污染物排放标准》(GB18918-2002)要求的级别标准对日均值进行达标筛选，不满足排放标准的数据剔除；

(6)取监测月份和前11个月的年度观测值作为样本基数，通过月均值检验和月均值波动性检验，实现数据的纵向比较；

(7)匹配年数据离散程度相近的样本，来匹配出具有对比价值的企业，并通过差值波动性分析，实现数据的横向比较；

(8)由最终检测结果鉴别数据真伪。

所述数据的纵向比较是与企业历史数据作比较；所述数据的横向比较是同行业同时间段的监测数据作比较。

所述月均值检验是指采用t检验法来验证抽检数据样本均值是否在整体样本均值的接收域；所述月均值检验是指采用χ²检验法判断样本相对于整体的波动性是否有显著变化，实质是观察每个月数据的离散程度是否符合整体样本的离散程度。

所述匹配年数据离散程度相近的样本是指采用F检验法确定对照样本的方差范围，并通过减小显著水平α，配合使用箱线图法来缩小范围；所述差值波动性分析是指采用χ²检验法对待测样本和匹配样本的观察值做差，对差值的波动性进行分析。

所述格拉布斯法是以正态分布为前提，从多次等精度独立测量过程中剔除粗大误差的方法。对于从总体中抽取一个样本X₁,X₂…X_i…X_n,对其进行从小到大排列，使X₁≤X₂…≤X_i…≤X_n，假设X_n是需要检验判别的异常数据，S是样本标准差，对应的概率密度为：所以，

其中，α(0<α<1)为显著性水平，可根据实际情况取值。通过格拉布斯表可得λ(α，n)值，根据异常数据X_n与平均值的残差是否大于λ(α，n)倍样本标准差σ来判断异常数据是否应当剔除。

所述箱线图法是利用数据中的五个统计量：最小值、第一四分位数(下四分位数)Q₁、第二四分位数(中位数)Q₂、第三四分位数(上四分位数)Q₃与最大值来鉴别数据中的异常值，包括离群值和极端值,鉴别原理如下：假设从总体中抽取一个样本X₁,X₂…X_i…X_n,对其进行从小到大排列，使X₁≤X₂…≤X_i…≤X_n，设Q_k为第k四分位数，则有：

计算四分位距IQR(即Q₃-Q₁)，内限值区间(Q₁-1.5IQR和Q₃+1.5IQR)，在区间外的值即视为异常值。在顺序排列样本后，使用箱型图法判断异常值X_e，X_e必然首先出现在最大值或最小值的位置，即X_e∈{X₁,X_n}。确定了异常值的位置根据样本观测值即可定位出虚假样本。剔除异常值后，进行迭代运算，即可修正样本数据。

所述t检验法是用T分布理论来推断差异发生的概率，从而判定两个平均数的差异是否显著。对于X₁,X₂,X₃,…X_n,是由服从正态分布N的总体中随机抽取的样本，则统计量为服从自由度为(n-1)的t分布。提出原假设H₀:μ₀＝μ₁和备择假设H₀:μ₀≠μ₁。根据实际情况对显著水平α取值，对于统计量T，有分位数使：当T的观测值满足不等式：

时，就拒绝原假设H₀，接收备择假设H₁。

所述χ²检验法是检验服从正态分布总体N的某个样本的波动性是否显著的一种假设检验方法。对于X₁,X₂,X₃,…X_n,是由N(μ，σ²)的总体中随机抽取的样本，和S²的观测值分别为s²。提出原假设H₀:和备择假设H₀:对于给定的显著水平α，可查χ²分布表确定分位数和若满足

则接受H₀，否则拒绝H₀。

所述F检验是检验两个正态随机变量的总体方差是否相等的一种假设检验方法。设X₁,X₂,X₃,…X_n,是由的总体中随机抽取的样本，Y₁,Y₂,Y₃,…Y_n，是由的总体中随机抽取的样本，且样本相互独立，样本方差提出原假设H₀:和备择假设H₀:如满足不等式

则接受H₀，否则拒绝H₀。

具体实施方式

为了进一步揭示本发明，下面结合具体实施例对本发明作详细的说明。

实施例

1.格拉布斯法修正时观测值

实地走访某污水处理厂后取其某天的COD在线监测数据(表2-1)。

表2-1某污水处理厂某日COD在线监测数据

因为时监测数据是本鉴别流程的基础数据，为保证其可信度，进行观测值修正是首要任务。经验可知，COD的时在线监测数据大体呈正态分布。在此基础上，可通过格拉布斯法进行异常值的判断和观测值的修正。

假定企业发现COD浓度有超出行业规定标准趋势，在14:00通过稀释监测点污水的方法降低COD的浓度，使观测值变为25.72mg/L，现采用格拉布斯法进行异常值判断并修正数据。

先对观测值有大到小进行顺序排列，得到最大值x_max＝39.87,最小值x_min＝25.72，可以肯定异常值x_e∈{x_max,x_min}。

①计算出平均值和标准差s＝3.31。

②计算偏离值显然最小值的异常概率最大，故假定x_min为可疑值。

③由公式1-1可知，如果异常数据和平均值的残差与标准差的比值(其中i为可疑值排列序号)大于格拉布斯表的临界值G_1-α(n)，可判断异常值及其位置。

④临界值G_1-α(n)可根据样本观测值个数n和显著水平α查格拉布斯表得到。这里取α＝0.05，查得G_0.95(12)＝2.285，G₁＝3.399>G_0.95(12)，由此可确定14:00的观测值为异常值。

⑤剔除异常值，重复上述流程修正观测值，直到满足检出水平为止。

2.筛选达标日观测值并修正

根据该污水处理厂排入地表水域环境功能和保护目标，以及污水处理厂的处理工艺，出水水质需符合《城市污水处理厂污染物排放标准》(GB18918-2002)要求的一级B标准，即COD≤60mg/L。对修正后的时数据进行达标筛选，不满足排放标准的数据剔除，那么每天的时监测值均为达标数据。经格拉布斯法筛选后的观测值必然近似呈正态分布，这里取其样本平均值作为日数据观测值。同样采用格拉布斯法对该企业某月日观测值进行修正，即可获得具有较高真实度的日监测数据。

基于上述两步筛选和鉴定，企业指定月份内的监测数据已经具有很高的可信度。但由于月数据样本基数小，偶然性大，如果企业采用的非法手段(如私接暗道排污)运作时间较长，仅对月数据修正鉴别是不能断定数据真伪的。如果有充足的样本基数(如一年的样本观测值)，有参照价值的对比样本，运用合理的检测原理和方法即可达到满意效果。

3.数据纵向对比

(1)月均值检验

企业一年内的COD监测数据X近似服从正态分布，X_n,X_n-1,X_n-2,…X_n-11,是随机抽取的12个样本，其中X_n代表鉴别样本，对走访企业2015年度日修正数据取其算术平均值作为月观测值，得到表2-2。

表2-2某污水处理厂2015年COD在线监测数据月均值

由于企业月度均值离散程度σ²是未知量，假定12月份为鉴别样本，采用t检验法来验证抽检数据样本均值是否在整体样本均值的接收域，可提出原假设H₀：μ＝39.72和备择假设H₁：μ≠39.72。

①计算出前11个月算术平均值和标准差s＝5.85。

②由公式1-3可知，如果统计量的观测值t满足可接收原假设H₀，即认为12月的月均值在整体样本的接受域内。

③分位数可根据显著水平α查t分布表得到。这里取α＝0.05，查得t_0.025(10)＝2.228，|t|＝2.211<t_0.025(10)，由此可确定12月的月均值在整体样本的接受域内。

(2)月均值波动性检验

在获取到走访企业的年度数据后运用数学工具软件Matlab算的总体长期以来服从的方差σ²＝5742和12月份的方差观测值s²＝7389。

现采用χ²检验法来判断样本相对于整体的波动性是否有显著变化，可提出原假设H₀：σ²＝5742和备择假设H₁：σ²≠5742。

因为12月份的日观测值有31个，故样本观测个数n＝31。显著水平α仍然取0.05。查χ²分布表得到，χ_0.025²(30)＝46.979，χ_0.975²(30)＝16.791。

由公式1-4，代入s²＝7398,σ²＝5742，算得故判断样本相对于整体的波动性没有显著变化。

实际上，取一年的日监测值作为整体样本作此判断计算量过大，可根据实际情况简化，以上仅提供一个鉴定计算方法。

4.数据横向对比

(1)对照样本方差范围确定

假定企业12月份监测数据为待测样本，年度服从方差σ₀²＝5742。近似服从正态分布样本Y为匹配样本，年度服从方差σ²。匹配出具有对比价值的企业，可看作对两个独立正态总体方差近似度的检验。采用F检验法，在给定的显著水平下，确定F的接受域，从而确定离散程度相近的样本。

本例仍在显著水平α＝0.05的条件下进行说明。因为样本基数趋于无穷大，F(n₁,n₂)近似等于1，由公式1-5可知检测失去意义，故根据实际情况考虑，这里取前两个月的样本离散程度进行研究。

查找F分布表，n₁＝n₂＝61，α＝0.05，可得到由公式(1-7)：σ₀²＝5742，σ²∈(3445.2，9589.14)。那么，在监测部门的数据库中，长期服从方差满足该范围的企业，即可视为具有对比意义的参考对象。

(2)精确匹配对照样本

为了精确匹配对象Y，就需要缩减F的可接收域。此时可通过减小显著水平α，配合使用箱线图法来缩小范围，直到匹配出一个或几个对比对象为止。如下主要介绍箱线图法的使用。

现对X有匹配对象Y₁，Y₂…Y₁₀对应一组10个方差观测值如下表2-3。

表2-3匹配企业方差观测值

由公式1-2可求得Q₁＝5131.5，Q₂＝5713.5，Q₃＝5952，IQR＝820.5，内限Q₁-IQR＝3900.75，Q₂-IQR＝7182.75，所以正常值范围为(3900.75，7182.75)。经比较可剔除Y₁、Y₇。逐步减小显著水平α，进行上述迭代运算，逐渐确定出最终匹配样本。

(3)差值波动性分析

确定匹配对象Y后，Y企业监测数据的变化与待测企业的变化近似相同，对X、Y样本的观察值做差Z＝X-Y，对Z的波动性进行分析，如果待测月份的差值波动性较之前显著，则认为检测月份数据有造假的嫌疑。此检测方法可采用χ²检验法，以上已有说明不再累述。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹涛;万玉山;李大伟;沈梦;温馨;陈艳秋
技术所有人：常州大学
我是此专利的发明人

上一篇：含小阻抗支路电网的补偿法极坐标牛顿法潮流计算方法与流程
上一篇：一种白酒实际体积浓度的计算方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。