数据关联方法、系统及计算机可读存储介质与流程

文档序号:14249482阅读:275来源:国知局
数据关联方法、系统及计算机可读存储介质与流程

本发明涉及数据关联方法、系统及计算机可读存储介质。



背景技术:

大数据时代,数据呈现多样性和关联性,数据关联是数据融合的核心内容,维基百科上的定义是在计算机领域,关联数据描述了一种发布数据的方法,使得数据能够相互连接起来,便于更好的使用。董欣、戴夫士·斯里瓦斯塔瓦在《大数据集成》这本书第四章中,对传统数据融合和在大数据环境下的数据融合进行比较,以及对数据源的准确度、值为真的概率、数据源之间的复制关系的详细概述,发现数据源之间的关联关系,从而更有效地解决问题。孙探探、申德荣等在“面向关联数据的联合式实体识别方法”一文中,采用多个原始的子对象图将不断地融合在一起,逐渐聚合成大型的对象图,但这种关联方法只是针对实体识别方面进行的。王宁,李杰在文章“大数据环境下用于实体解析的两层相关性聚类方法”中,利用无向完全图表示邻居关系程度,并采用上下两层算法降低了计算代价、提高了解析质量。一般在数据关联中采用余弦距离方法进行相似度的计算,而朱命冬等在“面向关联关系数据的分布式相似性查询方法”中利用决策树计算相似度。huangd等在“discoveringeventevolutiongraphsbasedonnewsarticlesrelationships”中描述了一个应用新闻的核心特征概率的事件关联模型,并与多种方法在准确率、召回率和f值,但其描述的模型主要是在新闻类的文章中,并没有在其他方面的说明。

目前数据关联技术许多都是在web领域中,它与在工业制造业中有相似也有不同,现如今信息技术和工业自动化不断完善,大数据不断渗透制造业各个环节,工业中的数据包含的数据类型多样、结构复杂、来源广泛,如何开发和利用成为企业面临的巨大挑战。同时,数据不断堆积使得处理周期延长,结构复杂使得处理难度和计算量加大。但是这些数据是离散的,无法发现他们之间的关联关系,导致无法获取隐藏的信息以及寻找背后潜在的故障或威肋,为故障诊断、价值发现等提供有效的决策支撑。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供数据关联方法、系统及计算机可读存储介质,其效果是实用性强。本发明针对工业中由传感器以及监控系统检测获得的数据,提出一种数据关联方法,在构造数据关系模型的时候,加入了关联强度与时间接近度tp的计算,最后通过实验表明,该关联方法的有效性和准确性。

数据关联方法,包括如下步骤:

步骤(1):计算数据的余弦相似度、数据的关联强度和数据的时间接近度;

步骤(2):根据计算得到的数据的余弦相似度、数据的关联强度和数据的时间接近度构建数据关系模型;

步骤(3):利用已构建的数据关系模型来对数据进行关联。

所述步骤(1)中的计算数据的关联强度的步骤:

步骤(101):获取数据的属性权重;

步骤(102):根据数据的属性权重,确定数据属性的关联强度;

步骤(103):根据数据属性的关联强度,确定数据的关联强度。

所述步骤(101)中获取数据的属性权重的步骤为:采用tf-idf算法计算数据的属性权重。

所述步骤(102)中确定数据属性的关联强度的步骤为:

假设待关联的两个数据是第一数据和第二数据,则从第一数据中选择第一属性,从第二数据中选择第二属性,根据第一属性在第一数据中所占的权重、第二属性在第二数据中所占的权重、第一属性和第二属性在数据集合中共同出现的数据的个数、第一属性在数据集合中单独出现的数据的个数和第二属性在数据集合中单独出现的数据的个数,确定数据属性的关联强度。

所述步骤(103)中确定数据的关联强度的步骤为:

计算第一数据的所有数据属性与第二数据的所有数据属性之间的关联强度,将待关联的两个数据的所有数据属性的关联强度进行求和运算,再取平均值,得到数据的关联强度。

所述步骤(1)中的计算数据的余弦相似度的步骤:

计算第一数据的特征项的权值与第二数据的特征项的权值的余弦值,即为数据的余弦相似度。

所述步骤(1)中的计算数据的时间接近度的步骤:

根据待关联两个数据的时间间隔距离、促进数据关联关系的时间特征和总的时间间距,计算时间的接近度。

所述待关联两个数据的时间间隔距离:

根据开始时收集到数据的时间与结束时收集到的数据的时间之间的差值得到。

所述步骤(3)的步骤为:

step1:将输入的数据按照时间先后进行排序,形成一个新的数据序列组成的集合;

step2:构建数据关联矩阵,对数据关联矩阵进行初始化,所述初始化是指将对角线上的元素全部设为1,其余元素设成0;

step3:对数据集中的数据di的先序关联数据个数和后序关联数据个数进行统计,形成数据关系类型;所述数据关系类型,包括一对一、一对多或多对一类型;

step4:根据step3的数据关系类型,把数据与其相关的数据进行分组关联;

step5:输出数据关联矩阵,从而完成数据关联。

所述step3中:

如果d1的先序关联数据为d0,d0的后序关联数据是d1,则d0和d1是一对一型关系;

如果d1的先序关联数据为d0,d0的后序关联数据除了d1还存在d2、d3等,那么它们则为一对多类型;

如果d1的后序关联事件为d2,d2的前序关联有多个d0、d1等,则他们之间是多对一型的关系。

所述step4的步骤为:

若为一对一型,在数据关联矩阵中把与di是先序关联关系数据设置为1;

若为一对多型,在数据关联矩阵中把数据关系模型取值大于设定阈值的后序数据设置为1;

若为多对一型,在数据关联矩阵中将数据关系模型取值大于设定阈值的前序数据替换为1。

根据关联情况,将关联类型分为先序关联和后序关联。

先序关联,是后序数据d1和前序数据d0的相似度大于设定的阈值,则称d0为d1的先序关联,记为pre(di);

后序关联,是前序数据d0和后序数据d1的相似度大于设定的阈值,则称d1为d0的后序关联,记为post(di)。

数据关联系统,包括:存储器、处理器和存储在存储器上并在处理器上运行的计算机指令,所述计算机指令在处理器上执行时完成以下步骤:

步骤(1):计算数据的余弦相似度、数据的关联强度和数据的时间接近度;

步骤(2):根据计算得到的数据的余弦相似度、数据的关联强度和数据的时间接近度构建数据关系模型;

步骤(3):利用已构建的数据关系模型来对数据进行关联。

一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时完成以下步骤:

步骤(1):计算数据的余弦相似度、数据的关联强度和数据的时间接近度;

步骤(2):根据计算得到的数据的余弦相似度、数据的关联强度和数据的时间接近度构建数据关系模型;

步骤(3):利用数据关系模型来对数据进行关联。

属性权重的计算,设d={di|i=1,2,3,...,n}表示为一个数据集合,属性权重w(aj,di)表示第i个数据di中的第j个属性aj的权重,数据d共有m个属性用a表示,则数据d的m个属性以及权重表示为d={aj,w(aj,di)|j∈(1,m)};一个数据对整体的重要性越高,数据的tf-idf值就越大;

利用tf-idf计算属性权重w(aj,d):

其中,tf(aj,d)表示属性aj在数据d中出现的频率,dfj表示具有属性aj的数据数量。当tf(aj,d)越大,属性aj的权重就越大;如果包含属性aj的数据越少,idf即越大,则说明属性aj具有越好的类别区分能力。

余弦相似度(cosinesimilarity),是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小;

余弦相似度sim(d1,d2):

其中,ωf(d1)表示数据d1的第f个特征项的权值,ωf(d2)表示数据d2的第f个特征项的权值;

关联强度利用模糊数学的原理来计算,在此,需要通过对数据本身的属性特征进行关联程度上的计算来辨别。

数据属性的关联强度:

其中,ra(d1:aa,d2:ab)表示数据d1中的属性aa与数据d2中的属性ab的关联强度;co(aa,ab)表示属性aa与属性ab共同出现的数据个数;w(aa,d1)代表属性aa在d1中的权重;,w(ab,d2)代表属性ab在d2中的权重;soc(aa)表示属性aa单独出现的数据的个数,soc(ab)表示属性ab单独出现的数据的个数。

数据的关联强度rd(d1,d2)为把数据属性的关联强度进行求和运算,再取平均值:

为了描述时间特征,有助于估计数据之间的关联关系的可能性,例如时间顺序和时间距离,时间的接近度英文全称是temporalproximity,定义时间的接近度tp(d1,d2):

其中,常数k为促进数据关联关系的时间特征,t为总的时间间距。两个数据发生的时间距离越远,它们的数据关联关系发生的可能性越小,但短时间内它们不会有数据关联关系,所以数据d1、d2时间间隔距离d(t(d1),t(d2)):

t(d1)=[be1,en1];

t(d2)=[be2,en2];

其中,be1为在t(d1)中开始收集到数据的时间,en1为在t(d1)中结束时收集到数据的时间;be2表示在t(d2)中开始收集到数据的时间,en2为在t(d2)中结束时收集到数据的时间;t(d1)为数据d1从开始收集到结束收集所经历的时间段;t(d2)为数据d2从开始收集到结束收集所经历的时间段;

通过对数据的属性权重、相似度、关联强度的计算,再结合数据发生的时间关系,构建新的数据关系模型dg-m(d1,d2):

本发明的有益效果:

本发明提出的数据关系图模型,加入了关联强度与时间距离的计算,能够明显提升系统性能。图的节点为数据集合,边为数据之间的关联关系,数据关系图的构建方法通过与其他方法的相比,证明该关联方法的有效性和准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明技术特征的附图;

图2为本发明的存储邻接表构建;

图3为关联关系图;

图4为dg-m与pre-m模型准确率对比;

图5为dg-m与pre-m模型召回率对比;

图6为dg-m与nee-m的比较;

图7为本发明方法产生的数据关联图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。

tf-idf(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(termfrequency),idf意思是逆向文件频率(inversedocumentfrequency)。

构建数据关系模型,如图1和图2所示,数据可能是由多个触发合并为一个数据,也可能由一个转化为多个。所以,数据间的关系可以划分为3种基本类型,分别为一对一型、一对多型、多对一型。需要对数据的属性权重、相似度、数据属性的关联强度、数据的关联强度等多个方面的计算。

属性权重的计算,设d={di|i=1,2,3,...,n}表示为一个数据集合,属性权重w(aj,di)表示第i个数据中的第j个属性的权重,此类数据的共有m个属性用a(attribute)表示,则数据d的m个属性以及它的权重表示为d={aj,w(aj,di)|j∈(1,m)};某个数据对整体的重要性越高,它的tf-idf值就越大。利用tf-idf计算属性权重公式如下:

其中,tf(aj,d)表示属性特征aj在数据d中出现的频率,dfj表示具有属性j的数据数量。当tf(aj,d)越大,属性权重就越大;如果包含属性特征j的数据越少,idf:越大,则说明j具有很好的类别区分能力。

向量空间余弦相似度(cosinesimilarity),是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。公式如下:

关联强度利用模糊数学的原理来计算,在此,需要通过对数据本身的属性特征进行关联程度上的计算来辨别。本发明应用文献“面向市场情报分析的web实体事件融合问题研究”中所提供的方法及原理计算数据的关联强度。数据属性的关联强度(relationalstrengthofattribute)计算公式为:

其中,ra(aa,ab)表示数据d1中的属性aa与数据d2中的属性ab的关联强度(relationalstrength);co(aa,ab)表示数据d1、d2中的属性aa与ab共同出现的数据个数;w(aa)和w(ab)分别代表属性aa和属性ab在d1、d2中的权重;soc(aa)表示属性aa单独出现的数据的个数,soc(ab)表示属性ab单独出现的数据的个数。

数据的关联强度为把上式进行求和运算,再取平均值:

为了描述时间特征,有助于估计数据之间的关联关系的可能性,例如时间顺序和时间距离,在此定义时间的接近度(temporalproximity):

其中,常数k为促进数据关联关系的时间特征,t为总的时间间距。t(d1)表示t(d1)=[be1,en1],be1为最早收集到数据的时间,en1为结束时收集到数据的时间;be2表示在t(d2)中最早收集到数据的时间,t(d2)表示t(d2)=[be2,en2]。两个数据发生的时间距离越远,它们的数据关联关系发生的可能性越小,但短时间内它们不会有数据关联关系,所以这两个数据d1、d2时间间隔距离d(t(d1),t(d2)):

通过上述对数据的属性权重、相似度、关联强度的计算,再结合数据发生的时间关系,构建新的数据关系模型:

本发明具有以下优点:

本发明提出的数据关系图模型,加入了关联强度与时间距离的计算,能够明显提升系统性能。图的节点为数据集合,边为数据之间的关联关系,数据关系图的构建方法通过与其他方法的相比,证明该关联方法的有效性和准确性。

实施例:

1、数据集和性能评价指标

本发明实验主要为获得机器故障真实的传播路径,舍弃虚假的传播路径,防止因其虚假路径产生大范围的不良影响和后果。实验数据是仿真某工厂的一机组运行时,监控系统监控机组的5个部分所得到的数据,共3801条,选择其中与平时正常值有所偏离的1200条,根据数据传来的时间,进行排序,具体如表1:

表1各机器获取的数据

根据工业知识、经验、领域专家构建数据关联图,图3中有9个数据关联关系,来验证本发明所提出的数据关联关系图是否准确、完整。

在判断检索结果好坏时,准确率(precisionratio)与召回率(recallratio)是两个最常用的指标。本发明实验同样采用这两个性能评价指标对实验结果进行评判。

准确率p反映实验结果的准确性,召回率r衡量实验结果的全面性。

2、实验结果分析

(1)将本发明提出的数据关联模型dg-m与未加入关联强度与时间距离之前的模型pre-m进行对比,实验中相似度阈值设置为0~0.6,实验使用python进行实现。

从图4、图5可以明显的看出准确率与召回率的变化趋势,一般阈值越大,准确率越高,召回率越低,证明了本发明所提出的模型有较好的优势。

(2)将本发明提出的数据关联模型dg-m与文献“newseventevolutionmodelbasedonthereadingwillingnessandmodifiedtf-idfformula”中的模型nee-m进行对比,阈值设置为0.45。

如图6所示,本发明的模型dg-m比nee-m有明显的优势,说明在进行关联性分析的时候,本发明的模型对整个系统的性能有较好的优势。

当设置阈值等于0.5时,图3对应变化如图7所示,有5条正确的机器故障真实的传播路径,3条虚假的以及1条缺失。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1