一种多类别集工业过程数据相似度多维度分析方法与流程

文档序号:15445898发布日期:2018-09-14 23:21阅读:527来源:国知局

本发明涉及一种数据相似度分析技术领域,特别是一种多类别集工业过程的数据相似度多维度分析方法。



背景技术:

目前,数据挖掘在工业数据中的应用相当流行,相似度分析方法是数据挖掘分析中的一种重要的手段。面对海量的工业过程数据,如何从中挖取对工业系统的分析有价值的数据,一直是对工业过程数据分析的重要目的。在工业过程数据的挖掘中,一般的方法都是从数据整体来进行研究,通过对海量数据进行聚类分类等处理,从得到的数据类别来分析系统可能的运行状态、检测异常。一般的研究重点都放在了具有高度相似的同类别数据集中,而不同类别之间的相似度难以计算与分析。



技术实现要素:

本发明的目的就是提供一种多类别集工业过程数据相似度多维度分析方法,通过对不同类别集的数据在不同的维度下,进行相似度分析,来找出各类别集之间存在的隐含联系。

本发明的目的是通过这样的技术方案实现的,具体步骤如下:

1)根据已有样本数据,设定类别集;

2)采集实际数据,并对实际数据进行预处理;

3)对步骤2)处理后的实际数据,根据步骤1)设定的类别集进行分类,形成若干数据集;

4)从步骤3)中的数据集抽取数据,标记数据来源,作为该类别集的代表数据;

5)针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表;

6)从步骤3)中的数据集重新抽取数据,标记数据来源,作为该类别集的新的代表数据,对该类别集中的新代表数据进行不同维度的相似度分析,形成新的相似度数值表。

进一步,步骤1)中所述设定类别集的具体方法为:

1-1)根据工业过程数据的属性和特点,设定数据的特征xm;

1-2)利用监督学习算法,对样本数据按照数据特征进行训练分类得到n个类别集。

进一步,步骤2)中所述对实际数据进行预处理的具体方法为:剔除掉野点数据,并进行归一化处理。

进一步,步骤3)中所述形成若干数据集的具体方法为:将实际数据与n个类别集进行匹配,经过多次迭代后,形成n个数据集。

进一步,步骤4)中所述抽取数据的具体方法为:利用随机抽样的方法,从每个数据集中随机抽取一组数据,标记数据所属数据集,作为该数据集的代表数据。

进一步,步骤5)中所述针对类别集中每个实际数据的特征,对该类别集中的代表数据进行不同维度的相似度分析,形成相似度数值表的具体方法为:

5-1)把n个代表数据集进行两两组合,将相似度阈值设为t;

5-2)对于每一个组合,针对其每一个数据特征进行相似度分析,计算其相似度,对满足相似度阈值的数据按其特征进行组合,进行高一维度分析,直到所有结果都不满足相似度阈值;

5-3)用百分制的方法对每个数据特征的相似程度进行计分,形成相似度数值表。

进一步,步骤5-2)所述的相似度分析的具体方法为:

5-2-1)一维相似度分析:每次选取一个数据特征进行相似度分析,计算其欧氏距离,并统计得分,判断是否所有结果都大于阈值t,若不是则转入步骤5-2-2),若是则转入步骤5-2-5);

5-2-2)二维相似度分析:从一维相似度分析的结果中选取小于阈值t的数据特征,每次选取两个数据特征进行相似度分析,计算其欧氏距离,并统计得分,判断是否所有结果都大于阈值t,若不是则转入步骤5-2-3),若是则转入步骤5-2-5);

5-2-3)高一维相似度分析:从上一维度相似度分析的结果中选取小于阈值t的数据特征,每次选取两个数据特征进行相似度分析,计算其欧氏距离;

5-2-4)判断是否所有结果都大于阈值t,若不是则转入步骤5-2-3),若是则转入步骤5-2-5);

5-2-5)计算欧几里得距离来衡量相似度,计算公式为其中,d为采取特征的维度;当l<t时,判定为相似,当l>t时,判定为不相似,得分记为

由于采用了上述技术方案,本发明具有如下的优点:

本发明通过对不同类别集的数据在不同的维度下,进行相似度分析,来找出各类别集之间存在的隐含联系,研究系统中产生不同运行状态的原因,以便于数据的挖掘、检索与分析,分析工况产生的原因。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1为本发明的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

s1:根据已有样本数据的特征x1、x2、...、xm,设定n个类别集;

s2:采集数据,去除野值点,并对数据进行归一化处理;

s3:利用knn的分类原理,计算实际数据点到各类别集之间的距离,把实际数据划分到距离最近的类别集中,经过多次分类后,形成n个数据集;

s4:由于n个数据集中的每个数据都可反映本数据集的实际状态,因此,从每个数据集中抽取一组数据,作为该数据集的代表数据;

s5:将n个代表数据进行两两组合,以其中一个组合为例,设共有10个数据特征,两组数据分别为

a1=(0.22,0.56,0.52,0.15,0.75,0.14,0.88,0.44,0.77,0.92)

a2=(0.75,0.51,0.58,0.49,0.61,0.21,0.75,0.02,0.29,0.81)

这两组数据是从两个数据集中抽取的代表数据,是经过了预处理的数据。同时设置相似度阈值为t=0.15。

首先进行一维相似度分析:利用欧式距离计算,得到

l=(0.53,0.05,0.06,0.34,0.14,0.07,0.13,0.42,0.48,0.11)

其中,满足相似度阈值t=0.15对应的特征为x2、x3、x6、x7、x10。并计算对应的相似度数值分别为:p一维=(p2,p3,p5,p6,p7,p10)=(66,60,6,53,13,26)。

其次,进行二维相似度分析:对上述满足条件的特征进行两两组合,有种,为x2x3,x2x5,x2x6,x2x7,x2x10,x3x5,x3x6,x3x7,x3x10,x5x6,x5x7,x5x10,x6x7,x6x10,x7x10)利用欧式距离计算,得到

l=(0.08,0.15,0.09,0.14,0.12,0.15,0.09,0.14,0.13,0.16,0.19,0.18,0.15,0.13,0.17)

其中,满足相似度阈值t=0.15对应的特征为x2、x3、x6、x7、x10。并计算对应的相似度数值分别为:p二维=(p23,p26,p27,p210,p36,p37,p310,p610)=(46,40,6,20,40,6,13,13)。

然后,进行三维相似度分析:在二维相似度分析的基础上,对满足相似度阈值的组合增加一个维度,为

(x2x3x6,x2x3x7,x2x3x10,x2x6x7,x2x6x10,x2x7x10,x3x6x7,x3x6x10,x3x7x10)

利用欧式距离计算,得到l=(0.1,0.15,0.13,0.16,0.14,0.18,0.16,0.14,0.18)。

其中,满足相似度阈值t=0.15对应的特征为x2、x3、x6、x10。并计算对应的相似度数值分别为:p三维=(p236,p2310,p2610,p3610)=(33,13,6,6)。

然后,进行四维相似度分析:在三维相似度分析的基础上,对满足相似度阈值的组合增加一个维度,为(x2x3x6x10)。利用欧式距离计算,得到l=(0.15)。判断是否满足预设的相似度阈值。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1