一种基于复杂网络社区发现的工业数据样本筛选方法

文档序号:8258857阅读:1129来源:国知局
一种基于复杂网络社区发现的工业数据样本筛选方法
【技术领域】
[0001] 本发明属于信息技术领域,涉及到数据的复杂网络构建、社区发现、分层聚类、社 区融合等理论,是一种基于复杂网络社区发现的工业数据样本筛选方法。本发明利用工业 现场已有的大量历史数据,首先将待筛选的目标数据构造初始样本作为复杂网络节点,计 算复杂网络节点间距离,与截断阈值进行比较得到表示节点连接关系的邻接矩阵,然后以 模块度最大化为优化目标,在邻接矩阵所表示的复杂网络中进行社区发现,获得对应问题 不同情况下的样本社区划分,最后提出网络节点"结合度"的评价指标,对社区内节点按照 结合度值降序排序,从每个社区中按照结合度大小平均选取样本重新构造样本集,从而实 现对数据样本集的约减。采用筛选后的样本数据进行预测建模、软测量、案例推理等,可进 一步提吴型精度。
【背景技术】
[0002] 工业大数据时代到来,越来越多的数据被收集存储到数据库中,数据逐步成为了 解决很多工业问题的关键。基于数据的软测量、预测建模、优化调度等方法被广泛应用与各 个领域。基于数据的建模方法中样本选取的好坏对模型精度影响很大,样本数据的选取应 该具有代表性,数据选取的范围应该覆盖各典型生产工况,若选取一段时间连续数据构造 样本库,则难以覆盖各个种类的实际情况,所建模型的泛化能力普遍较差。若为覆盖各个种 类的实际情况而选取海量数据作为训练样本集,其计算过程的时间复杂度和空间复杂度将 大大提高。此外,在生产现场通讯故障、检测异常等事故时有发生,造成采集到的工业数据 中可能存在异常点数据,若将此类异常数据点加入到所建模型的样本库中,则会降低模型 的精度。因此,工业现场急需一种对样本数据进行合理筛选的方法。
[0003] 常见的样本筛选法包括K均值聚类法和Renyi熵评价法。K均值聚类法主要是针 对训练样本进行聚类,从各类中选择典型样本,将典型样本构成的样本集作为新的训练样 本,但K均值聚类需要确定原始的聚类个数和聚类中心,不同的初始值对聚类结果影响较 大(A. V. Perevoznikov, A. M. Shestov, E. A. Permyakov, M. I. Kumskov, A way to increase the prediction quality for the large set of molecular graphs by using the k_NN classifier, Pattern Recognition and Image Analysis 21(3)(2011)545-548)〇Renyi熵 评价法筛选样本主要是保证样本集的稀疏性和典型性,如对电力负荷预测样本数据的筛选 (M. Espinoza, A. K. Suykens, B. D. Moor, A large scale application in electrical load forecasting, Computational Management Science 3(2) (2006) 113-129),但该方法的分 布密度函数定义复杂,求解难度大。

【发明内容】

[0004] 本发明要解决的技术问题是工业数据样本筛选问题。为解决上述这一问题,对某 工业现场提供的数据进行分析,首先对待筛选的目标数据构造初始样本作为复杂网络节 点,计算样本间距离,与截断阈值进行比较得到表示节点连接关系的邻接矩阵,然后通过以 模块度最大化为优化目标,在邻接矩阵所表示的复杂网络中进行社区发现,获得对应问题 不同情况下的样本社区划分,最后提出网络节点"结合度"的评价指标,对社区内节点按照 结合度值降序排序列,从每个社区中选取结合度较大的样本重新构造样本集。利用该发明 可以对不同的工业建模数据进行有效筛选,可在保留原有样本集中有用信息的情况下,实 现对数据样本集的约减,采用筛选后的数据样本进行软测量、预测、案例推理可进一步提高 所建模型的精度,为实施工业过程基于数据的优化调度提供保障。
[0005] 本发明技术方案的整体实现流程如附图1所示,具体步骤如下:
[0006] 1.复杂网络构建:从现场实时数据库中读取工业数据,构造初始样本,作为复杂 网络中的节点;
[0007] 2.计算欧式距离矩阵:利用欧式距离公式计算任意两样本间的欧式距离,得到距 离矩阵;
[0008] 3.生成邻接矩阵:选取阈值,将欧式距离矩阵与阈值比较,得到表示节点连接关 系的邻接矩阵
[0009] 4.社区发现:计算网络模块度,对邻接矩阵所表示的复杂网络进行社区发现;
[0010] 5.舍弃小社区:选取异常样本点节点数量判断阈值,将社区发现结果中的小社区 进行舍弃;
[0011] 6.进行样本数据筛选:计算样本节点的结合度,对社区内节点按照结合度值降序 排列,从每个社区中选取结合度较大的样本重新构造样本集。
[0012] 本发明的效果和益处是:
[0013] 在工业现场需要建立软测量、因素预测、案例推理等模型时,本发明可对海量样本 数据进行筛选,为模型提供更有效的训练样本。通过筛选的样本更具代表性,整个样本集的 冗余度低、典型性强,同时可去掉异常点数据,从而使后续建立的相关模型预测精度更高。
[0014] 本发明能够根据给定工业数据的特点,提出一套关于工业数据样本筛选方法,及 时有效的对海量工业数据样本集进行约减,从而为现场基于数据相关的预测、调度和优化 提供有效的支持。
【附图说明】
[0015] 图1为本发明的实施流程图,图2为1#高炉煤气受入流量图,图3为焦炉使用高 炉煤气流量图。
【具体实施方式】
[0016] 为了更好地理解本发明的技术方案,本发明以冶金企业高炉煤气柜预测模型样本 集筛选为例,结合附图对本发明的实施方式作详细描述。选取某钢铁企业能源中心高炉煤 气系统的实际生产数据进行实验,数据采集频率为1分钟,为使样本携带信息能够覆盖高 炉煤气系统生产的各种生产工况,从上述原始数据中选取连续7000个煤气产消流量及高 炉煤气柜位数据构造样本,所建立的煤气柜位预测模型样本集可表示为:
[0017] S=Kx, | z =0,1,???./! ⑴
[0018] 其中与)V,为输入样本,表不上一时刻各用户煤气流量,八-1表不上一时刻 的煤气柜位;八为输出样本,表示预测的当前柜位。按照图1所示的方法流程,本发明具体 实施步骤如下:
[0019] 步骤1 :复杂网络的构建
[0020] 从工业现场实时数据库中读取能源数据,将每一个训练样本作为一个节点,来构 建复杂网络;
[0021] 步骤2:计算欧式距离矩阵
[0022] 考虑到在钢厂高炉煤气系统中,各发生和消耗煤气用户的用量波动很大,以某钢 厂高炉煤气系统为例:高炉煤气受入量为400?600km 3/h(见附图2),焦炉使用高炉煤气流 量大约110?150km3/h(见附图3)。选用欧式距离来计算衡量各个节点之间的距离,因为 欧式距离可以体现各用户流量变化对距离结果的影响,流量变化越大则距离越大,说明两 样本相似性越低,即其产生于不同的生产工况的可能性就越大。欧式距离公式如下:
[0023]
【主权项】
1. 一种基于复杂网络社区发现的工业数据样本筛选方法,其特征在于步骤如下: (1) 从工业现场的实时数据库读取样本数据集,以每一个样本作为一个节点,构建复杂 网络; (2) 计算样本数据集数据间的欧式距离矩阵 根据欧式距离公式
,计算各数据样本节点间的欧式距离矩阵:
其中,由于两数据样本节点间的连线无方向性,11^=m#,对角元111"= 0 ; (3) 计算样本数据集的邻接矩阵 计算得到每两样本间的欧式距离之后,利用距离截断阈值R,与每两样本间的欧式距离 进行比较,若样本间的距离小于R则样本间有边相连,否则无边相连;原始距离矩阵根据阈 值R处理后,得到表示样本节点连接的矩阵:
由此得到的样本节点与表示节点间连接状态的邻接矩阵; (4) 计算复杂网络模块度,对其进行社区发现 对所建复杂网络计算模块度,其计算公式为
其中,~表示社区i内所 连边数占整个网络边数的比例,ai=I:jeij表示与社区i中节点相连边数所占比例;利用凝 聚分层聚类,初始将每个节点看作一个社区,循环进行社区融合,每次融合成对进行;每次 进行循环社区融合时,选择使Q值增长最大的社区融合进行;两社区融合后对Q值的影响可 表示为:AQ=6。+6』厂23巧=2(e ij-apj);随着融合的深入,当AQ值开始变成小于0时, 则Q值不再增加而达到了最大值,此时的社区划分对应最优的社区结构; (5) 舍弃小社区 在社区发现得到的社区中,通常节点数据较少的社区代表了异常点数据样本,设定阈 值T作为判断条件,将社区节点数目小于T的社区认为是异常种类进行剔除; (6) 样本筛选 计算各社区内节点间的结合度值,其计算公式为
其中ki_in为节点i所连边在 社区内的个数为节点i的度;将社区内节点结合度按照由大到小降序排列,从各社区中 优先选择结合度大的样本节点重新构造数据样本集,实现样本筛选。
【专利摘要】一种基于复杂网络社区发现的工业数据样本筛选方法,首先将待筛选的目标数据构造初始样本作为复杂网络节点,计算节点间的距离,与截断阈值进行比较得到表示节点连接关系的邻接矩阵,然后通过以模块度最大化为优化目标,在邻接矩阵表示的复杂网络中进行社区发现,获得对应问题不同情况下的样本社区划分,最后提出网络节点“结合度”的评价指标,对社区内节点按照结合度值降序排序,从每个社区中按照结合度大小平均选取样本重新构造样本集,从而实现在保留原有样本集中有用信息的情况下,实现对数据样本集的约减。采用筛选后的数据样本进行软测量、预测、案例推理可进一步提高所建模型的精度,为实施工业过程基于数据的优化调度提供保障。
【IPC分类】G06F17-30
【公开号】CN104572985
【申请号】CN201510001770
【发明人】刘颖, 赵珺, 吕政 , 盛春阳, 王霖青, 王伟
【申请人】大连理工大学
【公开日】2015年4月29日
【申请日】2015年1月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1