排污监测数据处理方法、装置、电子设备及存储介质
【技术领域】
1.本发明涉及数据处理技术领域,尤其涉及一种排污监测数据处理方法、装置、电子设备及存储介质。
背景技术:2.排污企业监管与环境保护工作一直是密切相关,但是企业众多、人员有限,排放的监测异常识别存在专业性强,时效性强等要求,使得目前的监管存在一定的困难。
3.现有技术中,在企业的污水排出处设置了监测设备,实时监测企业排出的污水中各污染源的含量,当某个时刻采集的污染源含量超标时进行报警,从污水处理工艺出现问题到污染源超标之间有一段时间间隔,如果能够在此时间间隔内发现污水处理工艺出现问题,针对出现的问题及时处置,就能避免超标排放的发生,现有技术对企业排放行为特征挖掘不充分,无法根据实时监测数据对污水处理工艺异常进行提醒预警。
技术实现要素:4.本发明的目的在于提供一种排污监测数据处理方法、装置、电子设备及存储介质,以解决现有技术中无法根据实时监测数据对污水处理工艺异常进行提醒预警的技术问题。
5.本发明的技术方案如下:提供一种排污监测数据处理方法,包括:
6.获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
7.获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
8.获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;
9.获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
10.将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
11.可选地,所述根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
12.根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;
13.将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合。
14.可选地,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,包括:
15.获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;
16.从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;
17.根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引。
18.可选地,所述将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,包括:
19.分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
20.计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
21.当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
22.可选地,所述将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,包括:
23.根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;
24.针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;
25.根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;
26.针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;
27.根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;
28.当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段。
29.可选地,所述获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
30.获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;
31.利用所述采样均值对所述排污监测历史数据的空值进行填充;
32.根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
33.可选地,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引之后,还包括:
34.获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据。
35.本发明的另一技术方案如下:提供一种排污监测数据处理装置,包括:
36.历史数据采集模块,用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
37.矩阵画像模块,用于获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
38.距离模式模块,用于获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;
39.待测数据采集模块,用于获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
40.匹配模块,用于将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
41.本发明的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的排污监测数据处理方法。
42.本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的排污监测数据处理方法。
43.本发明的排污监测数据处理方法、装置、电子设备及存储介质,基于矩阵画像算法从排污监测历史数据中挖掘不同距离模式长度的相似性极高的多个子序列,将相似度极高的子序列按照距离模式长度进行聚类形成对应的距离模式,用于表征企业排污行为特征;将实时采集的待测排污监测数据按照预先构建的不同的距离模式长度进行连续截取,形成了多个待测子片段集合,将每个待测子片段与对应的距离模式进行匹配,根据匹配结果判断待测子片段是否为异常子片段;通过上述方式,通过目标企业的长期的排污监测历史数据挖掘用于表征企业排放行为特征的多个距离模式,在出现超标排放事件之前,能够及时分析获取与企业的各距离模式不匹配的待测子片段,对污水处理工艺异常进行提前预警,降低出现超标排放的概率。
【附图说明】
44.图1为本发明第一实施例的排污监测数据处理方法的流程图;
45.图2为本发明第一实施例的排污监测数据处理方法中s101的子步骤流程图;
46.图3为本发明第一实施例的排污监测数据处理方法中s102的子步骤流程图;
47.图4为本发明第一实施例的排污监测数据处理方法中s105的子步骤流程图;
48.图5为本发明第一实施例的排污监测数据处理方法中s105的另一实施方式的子步骤流程图;
49.图6为本发明第一实施例的排污监测数据处理方法中s101的另一实施方式的子步骤流程图;
50.图7为本发明第一实施例的排污监测数据处理方法另一实施方式的流程图;
51.图8为本发明第二实施例的排污监测数据处理装置的结构示意图;
52.图9为本发明第三实施例的电子设备的结构示意图;
53.图10为本发明第四实施例的存储介质的结构示意图。
【具体实施方式】
54.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后......)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
56.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
57.企业生产过程中产生的原始污水需要经过污水处理,达到排放标准后才能排出,为了解企业各污染源排放状况,环保监管部门在企业的污水排出处设置了监测设备,实时监测企业排出的污水中各污染源的含量。
58.图1为本发明第一实施例的排污监测数据处理方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该排污监测数据处理方法包括步骤:
59.s101,获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度。
60.其中,排污监测历史数据是时间序列数据,是历史时间段内不同时刻的采样点的采样值按照时间顺序排列形成的,采样值为实数值,历史时间段的长度可以为一年(例如,2020年1月1日0时至2020年12月31日0时),也可以为三个月,也可以为一个月。排污监测历史数据是企业排放的污水中某个污染源的监测数据,例如,为有害物质a的监测数据,每个采样点的采样值可以为有害物质a的质量浓度或摩尔浓度。
61.其中,子序列表示在排污监测历史数据中截取的一定长度的一段序列,设排污监测历史数据为t,当距离模式长度为m1时,对应的子序列集合中的子序列t
i,m1
,表示从中第i个位置开始的长度为m1的连续片段,在形式上,t
i,m1
=t
i
,t
i+1
,
…
,t
i+m1
‑1,其中1≤i≤n
‑
m1+1;当距离模式长度为m2时,对应的子序列集合中的子序列t
i,m2
,表示从中第i个位置开始的长度为m2的连续片段,在形式上,t
i,m2
=t
i
,t
i+1
,
…
,t
i+m2
‑1,其中1≤i≤n
‑
m2+1。距离模式长度可以为1天、12小时、6小时、3小时、2小时、30分钟等,在本实施例中,根据排污监测历史数据构建多个不同距离模式的子序列集合。
62.在一个可选的实施方式中,可以利用滑动窗口截取子序列,步骤s101中根据所述排污监测历史数据获取不同距离模式长度的子序列集合,请参阅图2所示,具体包括如下步骤:
63.s201,根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;
64.s202,将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合;
65.其中,为了避免相邻的两个子序列中片段重叠太多,预设滑动步长可以大于m/2;为了保证子序列对排污监测历史数据中的覆盖范围,预设滑动步长小于或等于m,m为滑动窗口的长度,也是对应距离模式长度。
66.s102,获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述子序列与所述最相似子序列之间的距离为所述最小距离值。
67.其中,矩阵画像中每个元素为每个子序列与其余所有子序列中距离的最小距离值,矩阵画像为每个子序列与其最相似子序列之间的距离组成的向量。
68.在一个可选的实施方式中,步骤s102中获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,请参阅图3所示,具体包括如下步骤:
69.s301,获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;
70.其中,当距离模式长度为m时,子序列集合中子序列的数量为n,对应的子序列集合中的子序列t
i,m
,子序列t
i,m
的距离矩阵d
i,m
=[d
i,1
,d
i,2
,
…
,d
i,n
‑1],其中,d
i,j
是子序列t
i,m
与
其余子序列t
j,m
之间的距离,其中,1≤j≤n
‑
1。
[0071]
其中,距离d
i,j
为子序列t
i,m
与其余子序列t
j,m
之间的欧式距离,计算公式如下:
[0072][0073]
其中,m表示子序列的长度,μ
i
表示子序列t
i,m
的均值,δ
i
表示子序列t
i,m
的标准差,μ
j
表示其余子序列t
j,m
的均值,δ
j
表示其余子序列t
j,m
的标准差,qt
i,j
表示子序列t
i,m
与其余子序列t
j,m
之间的点积。具体地,子序列t
i,m
=[a1,a2,
…
,a
m
],其余子序列t
j,m
=[b1,b2,
…
,b
m
],
[0074]
其中,两个子序列之间的欧式距离越小,该两个子序列之间的相似度越高,子序列集合中每个子序列与其余子序列之间的距离,该子序列的距离矩阵表征该子序列与其余每个子序列的相似度。
[0075]
s302,从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;
[0076]
其中,子序列t
i,m
的距离矩阵d
i,m
=[d
i,1
,d
i,2
,
…
,d
i,n
‑1],最小距离值mp
i,m
为d
i,1
,d
i,2
,
…
,d
i,n
‑1中的最小值,即为min(d
i,1
,d
i,2
,
…
,d
i,n
‑1),该mp
i,m
是子序列t
i,m
与其余子序列t
k,m
之间的距离,其余子序列t
k,m
为子序列集合中与子序列t
i,m
最相似的序列,获取用于计算出该距离最小值的子序列t
i,m
和其余子序列t
k,m
,将t
k,m
作为t
i,m
的最相似子序列,在所述排污监测历史数据中获取t
k,m
的位置信息i
k,m
,例如,所述位置信息i
k,m
包括最相似子序列t
k,m
起始位置和终止位置。
[0077]
s303,根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引;
[0078]
其中,距离模式长度m的子序列集合的矩阵画像[mp
1,m
,mp
2,m
,
…
,mp
n,m
],画像索引[i
1,m
,i
2,m
,
…
,i
n,m
],n为子序列集合中子序列的数量。
[0079]
s103,获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式。
[0080]
其中,每个距离模式相当于多个高度相似的子序列的集合,每个距离模式包括对应的子序列集合中相似度极高的多个子序列,每个距离模式用于表征对应距离模式长度下目标企业的污染物排放行为特征。
[0081]
在本步骤中,针对每个距离模式长度的矩阵画像,先从矩阵画像[mp
1,m
,mp
2,m
,
…
,mp
n,m
]中获取mp的最小值,将mp的最小值与预设浮动值相加得到所述调整值,其中,预设浮动值为0.1~0.3;然后,从矩阵画像[mp
1,m
,mp
2,m
,
…
,mp
n,m
]中选择小于或等于调整值的mp值,所选的mp值为极小值;然后,根据所选的mp值在矩阵画像中确定与该mp值对应的子序列,根据画像索引获取每个所选的mp值的对应的子序列的最相似子序列,将获取的所有子序列及其最相似子序列进行聚类形成所述距离模式长度对应的距离模式。
[0082]
具体地,排污监测历史数据为一年的历史数据,历史时间段的长度为一年,设距离
模式长度为一天,将滑动窗口的长度设置为一天,预设滑动步长为一天,利用滑动窗口在排污监测历史数据上以预设滑动步长滑动以截取子序列构建距离模式长度为一天的子序列集合,子序列集合中共包括365个子序列,依次对应排污监测历史数据中一年每天的时序数据,分别计算每个子序列与其余354个子序列的距离,每个子序列对应364个距离,选择364个距离中最小值作为当前子序列的最小距离值mp,利用365个最小距离值mp构建排污监测历史数据的对应距离模式长度的矩阵画像,选择矩阵画像中的最小值mp
min
,例如最小值mp
min
为7,预设浮动值为0.3,于是调整值为7.3,选择矩阵画像中小于或等于7.3的元素,每个被选择的元素均为两个子序列的距离,每个被选择的元素对应两个子序列,将被选择的元素对应的子序列进行聚类形成一个子序列的聚类集合,该聚类集合即为距离模式,其距离模式长度为一天。
[0083]
s104,获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度。
[0084]
在本步骤中,待测排污监测数据是时间序列数据,是待测时间段内不同时刻的采样点的采样值按照时间顺序排列形成的,待测时间段一般较短,例如,为1天,12小时,或6小时,于是,待测排污监测数据与排污监测历史数据相比,长度较短。
[0085]
在本步骤中,将待测排污监测数据按照不同的距离模式长度进行连续截取,形成了多个待测子片段集合,每个距离模式长度对应一种距离模式,将相同距离模式长度的待测子片段集合与距离模式进行匹配,从而可以实现将同一个待测排污监测数据分别与多个距离模式进行匹配(详见步骤s105)。其中,截取待测子片段的方法与步骤s101中截取子序列的方法相同,根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;将每个所述滑动窗口在所述待测排污监测数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为待测子片段,根据多个所述待测子片段构建对应距离模式的所述待测子片段集合。
[0086]
s105,将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
[0087]
在本步骤中,将待测子片段集合中每个待测子片段分别与距离模式长度相同的距离模式进行匹配,匹配方式可以为计算所述待测子片段与所述距离模式的距离或相似度,下面分别以距离和相识度为例进行详细说明。
[0088]
在一个可选的实施方式中,请参阅图4所示,步骤s105具体包括如下步骤:
[0089]
s401,分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
[0090]
其中,待测子片段与子序列的距离的计算方式参见步骤s102中两个子序列的距离过程,在此不进行一一赘述。
[0091]
s402,计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
[0092]
其中,距离模式包括多个相似度较高且长度相同的子序列,每个待测子片段与对应距离模式匹配时,会获取到多个距离,距离平均值可以是待测子片段与每个子序列的距离的算术平均值。
[0093]
s403,当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段;
[0094]
其中,匹配距离值越小,待测子片段与对应距离模式越相似,当匹配距离值过大时,待测子片段与对应距离模式差异较大,待测子片段不符合该距离模式,可能是污水处理工艺异常或污水处理设备出现故障,例如,可以针对该待测子片段对应的时间段中污水处理工艺数据进行排查,分析污水处理工艺的异常参数,并针对异常参数进行工艺调整,避免出现超标排放。
[0095]
在另一个可选的实施方式中,请参阅图5所示,步骤s105具体包括如下步骤:
[0096]
s501,根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;
[0097]
s502,针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;
[0098]
s503,根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;
[0099]
s504,针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;
[0100]
s505,根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;
[0101]
s506,当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段;
[0102]
其中,在步骤s504中,待测子曲线与模式子曲线的相似度按照如下公式计算:
[0103][0104]
其中,p表征两个曲线的相似度、xi表征从所述模式子曲线中提取的第i个所述参考时间数据、n分别表征从所述模式子曲线中提取的各个所述参考时间数据的总量以及从所述待测子曲线中提取的各个所述待测时间数据的总量、yi表征从所述待测子曲线中提取的第i个所述待测时间数据。
[0105]
进一步地,排污监测历史数据可能由于数据缺失导致存在空值,在生成各子序列集合之前,先对排污监测历史数据进行预处理,填补其中的空值,请参阅图6所示,步骤s101具体包括如下步骤:
[0106]
s601,获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;
[0107]
s602,利用所述采样均值对所述排污监测历史数据的空值进行填充;
[0108]
s603,根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
[0109]
本实施方式中,选择用采样均值对缺失数据进行填充,还可以采用拉格朗日插值法进行填充。
[0110]
进一步地,请参阅图7所示,步骤s102之后还包括如下步骤:
[0111]
s701,获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据;
[0112]
其中,由于矩阵画像中记录的为每个子序列与其余子序列之间距离的最小距离值,也就是说,最大值对应的子序列与子序列集合中其余每个子序列之间的相似度均不高,为异常数据。
[0113]
进一步地,请继续参阅图2所示,在步骤s105之后还包括如下步骤:
[0114]
s702,将所述距离模式上传至区块链中,以使得所述区块链对所述距离模式进行加密存储。
[0115]
在步骤s702中,基于所述距离模式分别得到对应的摘要信息,具体来说,摘要信息由所述距离模式进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证所述距离模式是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0116]
图8为本发明第二实施例的排污监测数据处理装置的结构示意图。如图8所示,该排污监测数据处理装置20包括:历史数据采集模块21、矩阵画像模块22、距离模式模块23、待测数据采集模块24以及匹配模块25,其中,历史数据采集模块21,用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;矩阵画像模块22,用于获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;距离模式模块23,用于获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;待测数据采集模块24,用于获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;匹配模块25,用于将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
[0117]
进一步地,该历史数据采集模块21还用于根据不同的距离模式长度构建对应的滑
动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合。
[0118]
进一步地,该矩阵画像模块22还用于获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引。
[0119]
进一步地,该匹配模块25还用于分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
[0120]
进一步地,该匹配模块25还用于根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段。
[0121]
进一步地,该历史数据采集模块21还用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;利用所述采样均值对所述排污监测历史数据的空值进行填充;根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
[0122]
进一步地,该距离模式模块23还用于获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据。
[0123]
图9是本发明第三实施例的电子设备的结构示意图。如图9所示,该电子设备30包括处理器31及和处理器31耦接的存储器32。
[0124]
存储器32存储有用于实现上述任一实施例的排污监测数据处理方法的程序指令。
[0125]
处理器31用于执行存储器32存储的程序指令以进行排污监测数据处理。
[0126]
其中,处理器31还可以称为cpu(central processing unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0127]
参阅图10,图10为本发明第四实施例的存储介质的结构示意图。本发明第四实施例的存储介质40存储有能够实现上述所有方法的程序指令41,其中,该程序指令41可以以
软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read
‑
0nly memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
[0128]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0129]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
[0130]
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。