一种基于光谱技术和线性支持向量算法的水质检测方法与流程

文档序号:28429155发布日期:2022-01-12 00:51阅读:121来源:国知局
一种基于光谱技术和线性支持向量算法的水质检测方法与流程
一种基于光谱技术和线性支持向量算法的水质检测方法
1.本发明涉及水质指标模型和水质等级快速判断方法领域,具体为一种基 于光谱技术和线性支持向量算法的水质检测方法。


背景技术:

2.随着城市化进程的日益加快,城市及周边地表水的污染源不断增加,水 质不断恶化,对生态系统和人类健康构成威胁。城市及周边地表水中的有机 污染物主要来自陆地生活源、地表径流、工业、服务业、养殖业和水生生物 源污染,以蛋白质、氨基酸、腐殖酸、脂肪等有机污染物为主。环境监测技 术通过化学需氧量(cod
cr
)、高锰酸盐指数(cod
mn
)、氨氮(nh
3-n)、 总磷(tp)、总氮(tn)和五日生化需氧量(bod5)等指标表征水体有机 污染,其中cod
cr
、cod
mn
、bod5通常用于表示水体中有机污染物总量; nh
3-n、tn、tp的含量升高会导致水体富营养化,破坏生物多样性并产生 臭味。
3.城市及周边地表水一直以来都是环境监测工作的重点,但传统监测手段 存在监测周期长、采样缺乏代表性、水样前处理复杂、分析难度高等困难, 往往造成监测数据时空分布不足,监测数据滞后等问题,因此开发连续、高 效、低耗的水质原位监测技术具有重要意义。近年来,水体荧光光谱技术常 被用来快速反演水体中tp、tn、nh
3-n、bod5、cod等指标,避免了化 学试剂的使用和复杂的水样前处理过程。三维荧光光谱技术可以在较宽的激 发和发射波长范围内获取水体有机物丰富的光谱信息,具有快速、可靠、实 用的优点,近年来被广泛应用于化学分析和环境监测领域。yang等[]使用 激发发射矩阵三维荧光平行因子法(eem-parafac)对污水处理厂水样进 行分析,得到类蛋白等有机污染物的荧光特征峰位置,利用多元线性回归算 法针对cod等有机污染指标建立预测模型,实现对水处理效果的快速评 价。使用平行因子算法(parafac)分析苯酚等有机污染因子的三维荧光 光谱,提出针对清洁水和污水的二分类支持向量机(svm)模型。但是, 现有研究大多针对模拟配制水样或单一类型的少量水质样本,依赖已有的光 谱特征经验选择算法,从三维荧光光谱中提取若干点状光谱信息用于水质评 价,由于地表水中有机污染物种类繁多,各种物质的荧光峰位置和波段范围 不同,且存在荧光峰重叠现象,因此这种仅选择少数光谱点的计算方法局限 性强、泛化性能较差。
[0004]
支持向量回归算法是一种被广泛应用于机器学习和数据挖掘领域的算法 模型,常规的svr算法通过不同的核函数来构造非线性模型用以解决复杂 的分类和回归问题,但是当样本量较大或特征维度较高时,svm算法存在 消耗资源多、训练时间长等问题,liblinear是一个针对线性分类场景而 设计的工具包,支持线性svm和线性逻辑回归等模型,可以对高维度大样 本数据进行快速建模。该工具包采用热启动(warm-start)技术实现高效的 参数寻优过程,并结合交叉验证方法得到最优惩罚参数c和不敏感度∈,具 有建模速度快、计算精度高等特点。


技术实现要素:

[0005]
为实现上述目的,本发明提供如下技术方案:一种基于光谱技术和线性 支持向量
算法的水质检测方法,其特征在于,包括以下步骤:
[0006]
s1、样品采集:使用直立采样器采集水面下深处的水体,静置30min 后取上层清液,按照水质采样规范平行分装在棕色玻璃瓶中,并且在4℃下 保存玻璃瓶,采样现场同时测量水体的温度(t)、溶解氧(do)含量和 ph值;
[0007]
s2、化学分析:将样品摇匀并静置30min后取上层清液进行检测,检 测方法参照相关国标和行业标准;
[0008]
s3、三维荧光光谱测量:采用日立f4600型荧光分光光度计测量水样 三维荧光光谱,该仪器在保留原有光路设计的基础上添加安捷伦aas自动 进样和反射光栅清洗装置,在底部kwv3装避震装置;
[0009]
s4、模型建立:
[0010]

、数据预处理:根据所述步骤s3中数据,使用delaunay三角形 内插值法对原始光谱中包含的瑞利散射和拉曼散射进行修正;
[0011]

、线性支持向量回归模型:将每个激发-发射波长对应的荧光强 度作为水质指标的潜在预测因子,将所述

中预处理后的三维荧光光谱去除 激发波长大于发射波长的光谱区域,结合t、do和ph值形成7601维向 量,将该向量作为算法的输入,以各水质指标的化学分析结果作为算法目标 值,使用liblinear工具包建立l2正则l2误差支持向量回归模型,通过 调整权重向量,使l2正则项与l2误差项之和最小,所述公式1为,
[0012][0013]
式1中,yi为各水质指标的化学分析结果,n为样本数量,c为惩 罚因子,ε为不敏感度。
[0014]
根据所述公式1运用网格点搜索法和交叉验证法相结合对c和ε因 子进行自动寻优,即建立双层循环交叉验证,外层进行循环,针对每一个ε建立内层循环对c∈(c
min
,2c
min
,4c
min
,...,c
max
)进行交叉 验证,c和ε的选择范围由算法根据训练集自动设定,以每组交叉验证集的 均方根误差(cvmse)的最小值为寻优指标,选择对应的c和ε用以建立 模型对测试集进行预测
[0015]

、建立模型评价标准:使用决定系数r2和均方根误差rmse作 为本发明模型效果的评价指标;
[0016]

、建立水质分类标准:采用gb3838-2002中的标准限值制定的 水质分类标准;
[0017]
s5、最后结合算法、各类标准数据进行水质指标模型建立,从而进行实 时检测、监测地表水质污染状况。
[0018]
进一步、所述步骤s3、三维荧光光谱测量中:每次对空白样品进行扫 描后再进行水样测量,三维荧光光谱测量前,先将水样摇匀后静置至室温。 若水样的荧光强度超出仪器测量范围,须用超纯水稀释,样品光谱平行测试 的相对精度偏差应小于2%,同批次水样的光谱分析与化学分析时间间隔不 超过24h,其中所述光谱测量参数设置为:激发波长e
x
为220~400nm,采 样间隔5nm;发射波长em为260~520nm,采样间隔1nm;狭缝宽度为 10nm,扫描速度为12000nm
·
min-1

[0019]
所述步骤s4、模型建立中:
[0020]

、数据预处理:从步骤s3数据当中测量样品光谱中扣除空白样 品光谱,并用空白样品在e
x
=348nm和em=397nm处的拉曼峰强度值对去散 射处理后的样品光谱强度值进行拉曼归一化处理;
[0021]

、建立模型评价标准:所述训练集和测试集决定系数r2按照式2 计算,训练集和测试集均方根误差rmse按式3计算,
[0022]
所述式2为:
[0023]
所述式3为:
[0024]
式2、3中,为算法预测值,yi为各水质指标的化学分析结果, 为各水质指标真实值的均值,n为样本数量。
[0025]
进一步、所述步骤s1、样品采集中:所述使用直立采样器采集水面下 50cm-60cm深处的水体。
[0026]
进一步、所述步骤s2、化学分析中:所述所有样品在采样1周内完成 分析测试。
[0027]
与现有技术比,本发明达到的有益效果在于:
[0028]
1、本发明说明了三维荧光光谱技术用于监测水质污染状况的可行性, 可为城市及周边地表水的快速、原位、高效监测提供解决方案。
[0029]
2、本发明可以快速判断水质等级,并同步显示超标污染物及其浓度 值,实现对地表水水质的高效监测和精准评价。
附图说明
[0030]
图1是本发明的水质预测模型权重分布图;
[0031]
图2是本发明的模型预测值与化学分析值的相关性;
[0032]
图3是本发明的水质分类结果。
具体实施方式
[0033]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不 是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出 创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0034]
结合图1至3所示,本发明提供如下技术方案:
[0035]
s1、样品采集:
[0036]
对122个地表水监测断面进行水样采集,使用直立采样器采集水面下 50cm深处的水体5l,静置30min后取上层清液,按照水质采样规范平行分 装在棕色玻璃瓶中,并于4℃保存,采样现场同时测量水体的温度(t)、溶 解氧(do)含量和ph值。
[0037]
水质监测断面共122个,根据环境监测数据,监测断面水质等级包含
ⅱꢀ
类~劣

类,此外还存在少量轻度和重度黑臭断面,样本的采集时间涵盖了 多个季节和枯丰水期,
涉及水温、水位、水流和周边生态系统等多种环境因 素变化对水质的影响,由此形成一个覆盖区域广、时间跨度长、水质变化多 的样本集合。
[0038]
s2、化学分析:
[0039]
为保证化学分析与光谱分析的样品一致,将样品摇匀并静置30min后取 上层清液进行检测,检测方法参照相关国标和行业标准,使用仪器和具体分 析方法见表1,其中ph值、do和t在采样时现场测定,所有样品在采样1 周内完成分析测试,测试结果见表2,每项指标的测试结果中,最大值与最 小值差异大,样本包括不同污染程度的多种水体,此外,本实验涉及的样本 数量大、水质指标多,为建立水质指标预测模型提供有利条件。
[0040]
表1仪器及分析方法
[0041][0042]
表2化学分析结果
[0043][0044]
s3、三维荧光光谱测量
[0045]
采用日立f4600型荧光分光光度计测量水样三维荧光光谱,该仪器在 保留原有光路设计的基础上添加安捷伦aas自动进样和反射光栅清洗装 置,在底部kwv3装避震装置,可实现在水质自动站或监测车中的连续快速 原位监测。
[0046]
每次对空白样品进行扫描后再进行水样测量,三维荧光光谱测量前,先 将水样摇匀后静置至室温,若水样的荧光强度超出仪器测量范围,须用超纯 水稀释,样品光谱平行测试的相对精度偏差应小于2%,同批水样的光谱分 析与化学分析时间间隔不超过24h,光谱测量参数设置如下:激发波长e
x
为220nm~400nm,采样间隔5nm;发射波长em为260nm~520nm,采样间 隔1nm;狭缝宽度为10nm,扫描速度为12000nm
·
min-1

[0047]
s4、模型建立:
[0048]
本发明采用matlab2019软件构建水质指标预测模型,训练集与测试 集样本的划分采用随机抽样法,抽取20%的样本作为测试集,用于评价模 型的泛化能力和预测效果,剩余样本作为训练集用于建立预测模型。
[0049]

、数据预处理
[0050]
从步骤s3数据,使用delaunay三角形内插值法对原始光谱中包含的瑞 利散射和拉曼散射进行修正,为消除实验环境变化和光谱仪光源波动的影 响,从样品光谱中扣除空
白样品光谱,并用空白样品在e
x
=348nm和 em=397nm处的拉曼峰强度值对去散射处理后的样品光谱强度值进行拉曼归 一化处理。
[0051]

、线性支持向量回归模型(liblinear)
[0052]
本发明将每个激发-发射波长对应的荧光强度作为水质指标的潜在预测 因子,为降低数据冗余度、提高模型收敛度,将步骤

预处理后的三维荧光 光谱去除激发波长大于发射波长的光谱区域,结合t、do和ph值形成 7601维向量,将该向量作为算法的输入,以各水质指标的化学分析结果作 为算法目标值,使用liblinear工具包建立l2正则l2误差支持向量回归 模型,通过调整权重向量ω,使l2正则项与l2误差项之和最小。
[0053][0054]
式1中,yi为各水质指标的化学分析结果,n为样本数量,c为惩罚因子, ε为不敏感度。
[0055]
运用网格点搜索法和交叉验证法相结合对c和ε因子进行自动寻优,即 建立双层循环交叉验证,外层对进行循环,针对每 一个ε建立内层循环对c∈(c
min
,2c
min
,4c
min
,...,c
max
)进行交叉验证,c和ε的选 择范围由算法根据训练集自动设定,以每组交叉验证集的均方根误差 (cvmse)的最小值为寻优指标,选择对应的c和ε用以建立模型对测试 集进行预测。
[0056]

、模型评价标准
[0057]
使用决定系数r2和均方根误差rmse作为本发明模型效果的评价指 标。训练集决定系数r
c2
和测试集决定系数r
p2
越接近1,说明模型相关性越 高、预测效果越好;训练集均方根误差rmsec和测试集均方根误差 rmsep的数值越小说明模型精度越高,泛化能力越强,训练集和测试集决 定系数按照式2计算,训练集和测试集均方根误差按式3计算。
[0058][0059][0060]
式2、3中,为算法预测值,yi为各水质指标的化学分析结果,为各水 质指标真实值的均值,n为样本数量。
[0061]

、水质分类标准及方法
[0062]
表3是根据gb3838-2002《地表水环境质量标准》和《城市黑臭水体整 治工作指南》中的标准限值制定的水质分类标准,基于该标准使用模型预测 结果对有机污染指标相关的水质等级进行判断,针对不同的水质判断需求, 本发明设计了如表4所示的4种水质分级方法,方法的分级数量越多,对水 质状况的区分越细致,其中“劣

类”在本发明中定义为超过

类标准限值但 尚未达到轻度黑臭的水体。
[0063]
表3水质分类标准限值
[0064][0065]
表4 4种水质分级方法
[0066][0067]
s5、最后结合算法、各类标准数据进行水质指标模型建立,从而进行 实时检测、监测地表水质污染状况。
[0068]
图1为水质预测模型中三维荧光光谱权重的分布图,如图1所示,各模 型权重较大的三维荧光光谱位置主要分布在7个荧光区域,荧光区域的范围 和对应组分信息如表5所示,可知a~f均为水体中常见溶解性有机污染物 的特征荧光区域,其中a与水体中的分子量较大的类腐殖酸相关;b区域 内的荧光峰常出现在城市废水光谱中,被认为是与微生物相关的类腐殖质物 质;c对应类富里酸的荧光特征峰,其来源为陆源前驱染物;d为游离态类 色氨酸的荧光峰,其光谱值与水体中微生物细胞数量紧密相关,可以表征水 生态系统的微生物活性;e和f为酪氨酸等芳香族蛋白质的特征光谱范围, 主要来自生活源有机污染;g被定义为类色氨酸的特征光谱区域,其光谱强 度同采样断面与污染源排口之间的距离和水体中污染物的新鲜程度有关。
[0069]
由图2可知,6项水质指标预测模型中正权重均主要分布于6个荧光区 域内(a~
f),而负权重主要集中在g区域中,说明6项水质指标预测值均 与色氨酸、酪氨酸、类腐殖酸、类富里酸和类蛋白等有机污染物的荧光强度 成正比,与g区域的荧光值成反比。此外,各预测模型的权重分布略有不 同,其中cod
cr
模型正权重的覆盖范围大于cod
mn
,说明有更多的有机物 荧光信号会对cod
cr
的预测结果产生正影响;d、e和f所代表的蛋白质和 氨基酸荧光区域在nh
3-n和tn模型中具有较大的正权重,并且tn模型具 有更大的正权重范围;tp的正权重分布较为集中在类腐植酸特征范围内; bod5的正权重集中在d区域内,说明bod5的预测值与色氨酸光谱强度具 有较高相关性,由此可知,基于全波段的预测模型与以往的固定点式光谱模 型相比,该模型能够针对不同的水质指标对每一个光谱位置设置相应的权 重,并且模型权重分布符合水质指标与有机污染物的逻辑关系,可以更加充 分地利用水体三维荧光光谱信息建立光谱与有机污染物之间的定量关系。
[0070]
表5荧光区域范围及组分
[0071][0072]
基于全波段光谱模型的水质指标预测结果如表6所示,各水质指标预测 模型的训练集决定系数r
c2
均大于0.8,且r
p2
接近于r
c2
,说明liblinear 算法的预测值与各水质指标的化学分析值拟合度均较高,此外,各水质指标 预测模型的rmscp与rmsec的差距较小,说明训练得到的模型精度高、 预测能力强、泛化能力好。
[0073]
表6模型预测结果
[0074][0075]
图2为使用matlab2019软件进行的模型预测值与化学分析值的相关性 分析。从图2可知,cod
cr
、cod
mn
、nh
3-n、tn、bod5和tp六项水质 指标的预测值和实际测量值之间的相关系数r分别为0.95、0.92、0.92、 0.91、0.94和0.90,并且通过了p=0.05的显著性水平检验,说明linearsvm模型预测的各水质指标结果与国标及行业标准分析结果具有较高的拟 合度,证明了三维荧光光谱技术用于监测水质污染状况的可行性,本方法可 为城市及周边地表水的快速、原位、高效监测提供解决方案。
[0076]
为了验证水质分类的预测效果,使用liblinear模型对100个未知水 样进行水质指标预测,并用预测结果按照表3中的标准判断其水质类别。分 类预测效果通过准确率a和f1分数两个指标评价。其中a代表正确判断的 样本数和总样本数的比值;f1分数是查准率p和查全率re的调和平均数, 可以综合评价分类效果。计算公式如下:
[0077]
a=(tp+tn)/(tp+tn+fp+fn),
[0078]
p=tp/(tp+fp),
[0079]
re=tp/(tp+fn),
[0080]
f1=2
×
p
×
re/(p+re)。
[0081]
其中tp为真正例样本数,tn为真反例样本数,fp为假正例样本数,fn为 假反例样本数。
[0082]
图3为表4中4种分级方法的水质分类结果,如图3所示,方法1、 2、3、4的水质分类准确率分别为86%、74%、67%、60%,f1分数分别 0.93、0.88、0.84、0.77,随着分级的细化,水质分类准确率和f1分数有所 下降,说明水质指标预测结果对清洁水体的细化分类稍有不足,但对较重污 染水体的水质分级具有较高的正确率和识别精度。总之,本方法可以快速判 断水质等级,并同步显示超标污染物及其浓度值,实现对地表水水质的高效 监测和精准评价。
[0083]
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、物品或者设备所固有的要素。
[0084]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,可以
理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行 多种变化、修改、替换和变型,本发明范围由所附权利要求及其等同物限。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1