一种基于复杂网络社区发现的工业数据样本筛选方法

文档序号：8258857阅读：1129来源：国知局

一种基于复杂网络社区发现的工业数据样本筛选方法
【技术领域】
[0001] 本发明属于信息技术领域，涉及到数据的复杂网络构建、社区发现、分层聚类、社区融合等理论，是一种基于复杂网络社区发现的工业数据样本筛选方法。本发明利用工业现场已有的大量历史数据，首先将待筛选的目标数据构造初始样本作为复杂网络节点，计算复杂网络节点间距离，与截断阈值进行比较得到表示节点连接关系的邻接矩阵，然后以模块度最大化为优化目标，在邻接矩阵所表示的复杂网络中进行社区发现，获得对应问题不同情况下的样本社区划分，最后提出网络节点"结合度"的评价指标，对社区内节点按照结合度值降序排序，从每个社区中按照结合度大小平均选取样本重新构造样本集，从而实现对数据样本集的约减。采用筛选后的样本数据进行预测建模、软测量、案例推理等，可进一步提吴型精度。
【背景技术】
[0002] 工业大数据时代到来，越来越多的数据被收集存储到数据库中，数据逐步成为了解决很多工业问题的关键。基于数据的软测量、预测建模、优化调度等方法被广泛应用与各个领域。基于数据的建模方法中样本选取的好坏对模型精度影响很大，样本数据的选取应该具有代表性，数据选取的范围应该覆盖各典型生产工况，若选取一段时间连续数据构造样本库，则难以覆盖各个种类的实际情况，所建模型的泛化能力普遍较差。若为覆盖各个种类的实际情况而选取海量数据作为训练样本集，其计算过程的时间复杂度和空间复杂度将大大提高。此外，在生产现场通讯故障、检测异常等事故时有发生，造成采集到的工业数据中可能存在异常点数据，若将此类异常数据点加入到所建模型的样本库中，则会降低模型的精度。因此，工业现场急需一种对样本数据进行合理筛选的方法。
[0003] 常见的样本筛选法包括K均值聚类法和Renyi熵评价法。K均值聚类法主要是针对训练样本进行聚类，从各类中选择典型样本，将典型样本构成的样本集作为新的训练样本，但K均值聚类需要确定原始的聚类个数和聚类中心，不同的初始值对聚类结果影响较大(A. V. Perevoznikov, A. M. Shestov, E. A. Permyakov, M. I. Kumskov, A way to increase the prediction quality for the large set of molecular graphs by using the k_NN classifier, Pattern Recognition and Image Analysis 21(3)(2011)545-548)〇Renyi熵评价法筛选样本主要是保证样本集的稀疏性和典型性，如对电力负荷预测样本数据的筛选 (M. Espinoza, A. K. Suykens, B. D. Moor, A large scale application in electrical load forecasting, Computational Management Science 3(2) (2006) 113-129)，但该方法的分布密度函数定义复杂，求解难度大。

【发明内容】

[0004] 本发明要解决的技术问题是工业数据样本筛选问题。为解决上述这一问题，对某工业现场提供的数据进行分析，首先对待筛选的目标数据构造初始样本作为复杂网络节点，计算样本间距离，与截断阈值进行比较得到表示节点连接关系的邻接矩阵，然后通过以模块度最大化为优化目标，在邻接矩阵所表示的复杂网络中进行社区发现，获得对应问题不同情况下的样本社区划分，最后提出网络节点"结合度"的评价指标，对社区内节点按照结合度值降序排序列，从每个社区中选取结合度较大的样本重新构造样本集。利用该发明可以对不同的工业建模数据进行有效筛选，可在保留原有样本集中有用信息的情况下，实现对数据样本集的约减，采用筛选后的数据样本进行软测量、预测、案例推理可进一步提高所建模型的精度，为实施工业过程基于数据的优化调度提供保障。
[0005] 本发明技术方案的整体实现流程如附图1所示，具体步骤如下：
[0006] 1.复杂网络构建：从现场实时数据库中读取工业数据，构造初始样本，作为复杂网络中的节点；
[0007] 2.计算欧式距离矩阵：利用欧式距离公式计算任意两样本间的欧式距离，得到距离矩阵；
[0008] 3.生成邻接矩阵：选取阈值，将欧式距离矩阵与阈值比较，得到表示节点连接关系的邻接矩阵
[0009] 4.社区发现：计算网络模块度，对邻接矩阵所表示的复杂网络进行社区发现；
[0010] 5.舍弃小社区：选取异常样本点节点数量判断阈值，将社区发现结果中的小社区进行舍弃；
[0011] 6.进行样本数据筛选：计算样本节点的结合度，对社区内节点按照结合度值降序排列，从每个社区中选取结合度较大的样本重新构造样本集。
[0012] 本发明的效果和益处是：
[0013] 在工业现场需要建立软测量、因素预测、案例推理等模型时，本发明可对海量样本数据进行筛选，为模型提供更有效的训练样本。通过筛选的样本更具代表性，整个样本集的冗余度低、典型性强，同时可去掉异常点数据，从而使后续建立的相关模型预测精度更高。
[0014] 本发明能够根据给定工业数据的特点，提出一套关于工业数据样本筛选方法，及时有效的对海量工业数据样本集进行约减，从而为现场基于数据相关的预测、调度和优化提供有效的支持。
【附图说明】
[0015] 图1为本发明的实施流程图，图2为1#高炉煤气受入流量图，图3为焦炉使用高炉煤气流量图。
【具体实施方式】
[0016] 为了更好地理解本发明的技术方案，本发明以冶金企业高炉煤气柜预测模型样本集筛选为例，结合附图对本发明的实施方式作详细描述。选取某钢铁企业能源中心高炉煤气系统的实际生产数据进行实验，数据采集频率为1分钟，为使样本携带信息能够覆盖高炉煤气系统生产的各种生产工况，从上述原始数据中选取连续7000个煤气产消流量及高炉煤气柜位数据构造样本，所建立的煤气柜位预测模型样本集可表示为：
[0017] S=Kx, | z =0,1,???./! ⑴
[0018] 其中与)V,为输入样本，表不上一时刻各用户煤气流量，八-1表不上一时刻的煤气柜位；八为输出样本，表示预测的当前柜位。按照图1所示的方法流程，本发明具体实施步骤如下：
[0019] 步骤1 :复杂网络的构建
[0020] 从工业现场实时数据库中读取能源数据，将每一个训练样本作为一个节点，来构建复杂网络；
[0021] 步骤2:计算欧式距离矩阵
[0022] 考虑到在钢厂高炉煤气系统中，各发生和消耗煤气用户的用量波动很大，以某钢厂高炉煤气系统为例：高炉煤气受入量为400?600km 3/h(见附图2)，焦炉使用高炉煤气流量大约110?150km3/h(见附图3)。选用欧式距离来计算衡量各个节点之间的距离，因为欧式距离可以体现各用户流量变化对距离结果的影响，流量变化越大则距离越大，说明两样本相似性越低，即其产生于不同的生产工况的可能性就越大。欧式距离公式如下：
[0023]
【主权项】
1. 一种基于复杂网络社区发现的工业数据样本筛选方法，其特征在于步骤如下： (1) 从工业现场的实时数据库读取样本数据集，以每一个样本作为一个节点，构建复杂网络； (2) 计算样本数据集数据间的欧式距离矩阵根据欧式距离公式
，计算各数据样本节点间的欧式距离矩阵：
其中，由于两数据样本节点间的连线无方向性，11^=m#，对角元111"= 0 ; (3) 计算样本数据集的邻接矩阵计算得到每两样本间的欧式距离之后，利用距离截断阈值R，与每两样本间的欧式距离进行比较，若样本间的距离小于R则样本间有边相连，否则无边相连；原始距离矩阵根据阈值R处理后，得到表示样本节点连接的矩阵：
由此得到的样本节点与表示节点间连接状态的邻接矩阵； (4) 计算复杂网络模块度，对其进行社区发现对所建复杂网络计算模块度，其计算公式为
其中，~表示社区i内所连边数占整个网络边数的比例，ai=I：jeij表示与社区i中节点相连边数所占比例；利用凝聚分层聚类，初始将每个节点看作一个社区，循环进行社区融合，每次融合成对进行；每次进行循环社区融合时，选择使Q值增长最大的社区融合进行；两社区融合后对Q值的影响可表示为：AQ=6。+6』厂23巧=2(e ij-apj);随着融合的深入，当AQ值开始变成小于0时，则Q值不再增加而达到了最大值，此时的社区划分对应最优的社区结构； (5) 舍弃小社区在社区发现得到的社区中，通常节点数据较少的社区代表了异常点数据样本，设定阈值T作为判断条件，将社区节点数目小于T的社区认为是异常种类进行剔除； (6) 样本筛选计算各社区内节点间的结合度值，其计算公式为
其中ki_in为节点i所连边在社区内的个数为节点i的度；将社区内节点结合度按照由大到小降序排列，从各社区中优先选择结合度大的样本节点重新构造数据样本集，实现样本筛选。
【专利摘要】一种基于复杂网络社区发现的工业数据样本筛选方法，首先将待筛选的目标数据构造初始样本作为复杂网络节点，计算节点间的距离，与截断阈值进行比较得到表示节点连接关系的邻接矩阵，然后通过以模块度最大化为优化目标，在邻接矩阵表示的复杂网络中进行社区发现，获得对应问题不同情况下的样本社区划分，最后提出网络节点“结合度”的评价指标，对社区内节点按照结合度值降序排序，从每个社区中按照结合度大小平均选取样本重新构造样本集，从而实现在保留原有样本集中有用信息的情况下，实现对数据样本集的约减。采用筛选后的数据样本进行软测量、预测、案例推理可进一步提高所建模型的精度，为实施工业过程基于数据的优化调度提供保障。
【IPC分类】G06F17-30
【公开号】CN104572985
【申请号】CN201510001770
【发明人】刘颖, 赵珺, 吕政 , 盛春阳, 王霖青, 王伟
【申请人】大连理工大学
【公开日】2015年4月29日
【申请日】2015年1月4日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘颖;赵珺;吕政;盛春阳;王霖青;王伟;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：信息搜索方法和装置的制造方法
上一篇：一种j2ee项目文件远程同步变更方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。