基于迁移学习的连续大规模水质缺失数据填补方法

文档序号：24984887发布日期：2021-05-07 23:02阅读：372来源：国知局

本发明涉及一种水质缺失数据填补方法，尤其涉及一种基于迁移学习的大规模连续水质缺失数据填补方法。

背景技术：

随着工业化和城市化的快速发展，水资源保护和水污染治理已然成为全球最热门也是最令人担忧的热点话题。为了控制水污染并减弱其对水生态系统和人类社会的不利影响，大量研究者进行了许多工作(包括水质的时空预测，水质污染物影响因子评估和数据驱动的水质模型等)以提高小流域中水质监测水平。

在进行这些研究时，有效和高质量的水质数据集是产生合理且可靠研究结果的重要前提条件。但是，大多数水质数据如氨氮、ph、溶解氧等都是由不同水质监测站点的前端生物重金属传感器自动采样所得。由于设备故障、定期维护、样本采样不足、传感器参数设置的人为更改等不可抗力因素导致原始水质数据包含大量的缺失值。这些水质缺失数据将严重增加后续水质研究发现的局限性和难度。因此，随着越来越多的水质研究转向基于数据的分析，缺少的数据已成为该领域亟待解决的问题。

尽管大多数现有的研究已经探索了一些经典的统计方法(均值法、中位数法等)或新兴的机器/深度学习方法(最大期望，模糊聚类、支持向量回归和极限学习机等)来填充丢失的数据。但是很难解决大规模连续丢失数据的问题(传统方法只能应用在丢失率30％以下的情况，他们没有考虑50％-90％的丢失率情况)，这是因为随着丢失率的增加，无法在丢失数据周围提供相关的先验统计信息或足够的训练样本以获得填补数据的准确性。因此，就大规模连续丢失数据问题而言，这些方法并不适用。

随着大数据时代的到来，数据中所蕴含的知识关系到国家和社会的方方面面，数据处理和分析技术的提高需要完整且精确的数据集，而由于周期性缺乏采样和分析或输入错误，现存的数据大都存在噪声或者缺失的情况。因此如何有效的解决数据问题成为至关重要的任务。本发明重点关注了水质领域内数据大规模连续缺失情况下填补方法，不同于传统的填补缺失数据的方法，本发明提出了一种基于迁移学习和深度学习相融合的算法也就是tradaboost-lstm，用于填补缺失数据。

技术实现要素：

本发明针对现有的技术无法填补大规模连续水质缺失数据，提供了一种基于迁移学习的大规模连续水质缺失数据填补方法。

本发明包括以下步骤：

数据预处理：

将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据；

利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据；

使用滑动窗口算法构造出训练和测试样本；

数据填补：

设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域，而具有完整训练样本的水质监测站点为源域；

将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集；

初始化源域和目标域的训练样本的权重分布、弱学习器权重系数：最大迭代次数以及定义混合训练样本的权重分布；

开始进行迭代运算：

每次迭代中，分别构造一个新的填补数据的弱学习器；

在新混合的训练样本上计算平均预测填补误差；

分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数；

根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重；完成一次弱学习器训练，重新开始迭代过程，直至达到最大的迭代次数时跳至输出；

输出：将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。

本发明的有益效果：在本发明所设计的tradaboost-lstm算法中，lstm具有处理时序数据的良好特性以及可以实现数据信息的长期依赖，而迁移学习的思想本质便是以万物互联为基础并实现相似数据域的迁移；本发明选择任意一个含有大规模连续缺失数据的水质监测站点为目标域的样本，通过时序序列相似性查询算法：动态时间弯曲(dtw)来选取另一个监测站点完整的数据作为源域样本。实验结果显示对比传统的统计填补、机器学习填补和深度学习填补方法，通过rmse/mae/mape/r-square等指标，本发明的填补方法不仅在处理大规模连续缺失数据问题中有近15％-25％填补准确率的提升，还为其他同类型领域的研究提供的潜在参考思路。

附图说明

图1是大规模连续缺失数据填补框架；

图2是滑动窗口算法；

图3是现场水质监测站点的填补结果。

具体实施方式

由图1所示，本发明专利所提出的缺失数据填补方法框架可以分为两个部分：数据预处理和填补算法执行。

在数据预处理过程中，首先，将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据。其次，利用时间序列相似查询的方法(在发明中，使用动态时间弯曲算法(dtw))找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据。最后，使用滑动窗口算法(slidingwindow)构造出训练和测试样本。

在填补算法执行过程中，本发明提出了基于实例的迁移学习算法：tradaboost和先进深度学习算法：长短期记忆神经网络(lstm)相融合的一种新型填补算法tradaboost-lstm。

特此说明：在本发明所提填补框架中所涉及的时间序列相似查询方法(如动态规划弯曲(dtw))、基于实例的迁移学习算法：tradaboost、基于深度学习的lstm算法以及后续的相关分析指标均方根误差(rmse)、平均绝对误差(mae)、平均绝对比例误差(mape)和模型误差(r-square)计算公式默认为本领域专业技术人员应当理解并熟知的内容，在此不做展开。

本发明所提出的填补框架中所涉及的关键或具有创新的技术要点如下所述；

1、如图2所示，滑动窗口算法(slidingwindow)是应用在时序序列分析中的一种常见方法，其主要思想是关注当前时刻t之前的连续数据即并将其和当前时刻t建立联系。此时称为滑动窗口尺寸。时间序列滑动窗口数学表达式为

其中s＝[s1,s2,s3…sn]为一条完整的时序序列，称为此时序序列s的一个输入，{st}称为其特征所对应的输出。

2、在本发明中，定义含有少量训练样本且数据大规模连续缺失(缺失数据比例>50％)的水质监测站点为目标域，而具有完整训练样本的水质监测站点为源域。所涉及tradaboost-lstm缺失数据填补算法的步骤如下：

输入：源域的训练样本：

目标域的训练样本：

其中和为训练模型的输入，和为训练模型的输出；m为源域训练样本的个数，n为目标域训练样本的个数。

步骤1：将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集：{f^k,l^k}(k＝1,2,3…,m+n)。

步骤2：源域和目标域的训练样本的初始权重分布和初始化弱学习器：lstm中混合训练样本的权重迭代更新系数：初始最大迭代次数iter以及定义混合训练样本的权重分布：ω为

步骤3：对于在每次迭代中，分别构造一个新的填补数据的弱学习器：lstm；同时，定义此弱学习器的输入是{f^k}(k＝1,2,3…,m+n)，输出是{l^k}(k＝1,2,3…,m+n)。

步骤4：在新混合的训练样本上计算平均预测填补误差。训练集的预测填补值为y^k(k＝1,2,3…,m+n)。其中填补误差如公式(2)所示：

步骤5：分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数βt，如公式(3)所示：

步骤6：根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重分别为：完成一次弱学习器训练，重新返回步骤3，直至达到最大的迭代次数时跳至输出；

输出：将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值，其计算公式(4)如下：

本发明使用四个参数作为评估算法填充数据性能的重要指标：均方根误差(rmse)、平均绝对误差(mae)、平均绝对比例误差(mape)和r-square，同时结合浙江省杭州市钱塘江流域现场水质监测站点缺失的溶解氧浓度作为实验案例，将所提出的方法与其余5种传统的填补算法(均值法(mean)，自回归混合平均(arima),支持向量回归(svr)，极限学习机(elm)和长短期记忆网络(lstm))进行对比，其结果如表1所示。从表1可以看出在与其余5种算法的对比中，本发明所提出的算法不管在低丢失率还是在高丢失率的情况下，rmse、mae、mape都是最低并且r-square最高，这也在一定程度上说明本发明具备优越的缺失数据填补效果，现场的含氧量浓度的缺失填补结果如图3所示。

表1是在不同丢失率情况下，不同填补算法之间性能的对比表

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋鹏;陈锃;许欢;刘俊;林广
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：含钙镁浸取液制取硫酸钙、氢氧化镁和硝酸钾镁的方法与流程
上一篇：板式热交换器以及热泵装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。