基于模糊优先级的二阶段实例层数据集成方法

文档序号:6591614阅读:170来源:国知局
专利名称:基于模糊优先级的二阶段实例层数据集成方法
技术领域
本发明涉及一种基于模糊优先级的二阶段实例层数据集成方法,关于数据存储节点模糊优先级指标的定义、实例层冲突判断及冲突解决的二阶段数据集成方法,属于数据集成的技术领域。
背景技术
随着各领域信息化的进程,数据的采集、存储、处理和传播的数量也与日俱增。实现数据共享,可以使更多的行业部门充分使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。
数据集成的核心任务是要将分布式异构数据源集成到一起,使用户能够以透明和统一的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享率。透明的方式是指用户无需关心如何实现对异构数据源数据的访问,以及如何组织系统中的数据。数据集成可以将数据内容、格式、质量进行统一,便于共享。因此,它是解决数据共享的关键。
为了支持正确决策,就要求集成系统管理的数据可靠、一致、没有错误、能准确地描述实际情况。指代同一现实世界对象的多条记录,如果它们的属性值存在不一致现象,这就称为实例层数据不一致。实例层数据不一致的消除可以使数据内容统一,是保障数据集成质量的关键步骤。
目前处理实例层不一致性问题的主要方法包括三类:基于冲突产生原因的处理策略、基于SQL方法及自定义函数的处理策略、基于集成质量评估的处理策略。第一类方法使用了相似度计算来检测或排除实例层的不一致,在数据源无偏向性的情况下,这类方法针对字符形式的数据处理十分有效。但是这类方法没有考虑数据源的偏向性,某些情况无法做出正确判断,且对非字符形式的实例层不一致无法有效解决;第二类方法给出了集成异构数据源的操作,处理实例层不一致问题的策略简单易行,效率高。但是它们对数据不一致处理操作可控性不足,无法预知集成结果,缺乏质量评估,无法满足高质量数据集成的要求;第三类方法考虑了数据源的质量评估,有效提高了数据集成的质量,在对集成数据质量要求高的环境下,这类方法较为合适。但是这类方法只考虑了数据源的质量,而没有考虑到分布式环境下其它要素的评估。同时,这一类方法对数据不一致性处理方式单一,集成效率不高,不适合海量数据集成。
在实际数据集成工作中,由于数据量呈现海量趋势,传统方法只靠单一处理方式显得不足。如果采用复杂的方法,数据集成结果精度提高了,但是效率很低;如果采用简单方法,效率提高了,但是缺乏准确度。因此,我们希望提出一种二阶段数据集成方法,先对集成情况进行判断,区分出实例层的强弱冲突。然后根据判断情况,分别使用强冲突处理方法和弱冲突处理方法来实现集成。并且为了提高强冲突时集成的准确度,我们对存储节点采用模糊优先级评估,消除主观误差。所以,我们的方法在提高集成效率的同时,尽量提高结果准确度。发明内容
发明目的:本发明针对现有数据集成方法中集成效率与结果准确度无法同时平衡的不足,本发明提供一种基于模糊优先级的二阶段实例层数据集成方法。先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明保证了海量数据集成中的集成效率并提高了集成结果精度。
技术方案:一种基于模糊优先级的二阶段实例层数据集成方法,一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决;
实现步骤如下:
步骤1,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值;
步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突;
若冲突为弱冲突,则转向步骤3 ;否则,转向步骤4 ;
步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5 ;
步骤4,对于强冲突情况,根据记录所来源的分布式存储节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算与正理想解和负理想解的距离、综合评估步骤,执行完毕后转向步骤5 ;
步骤5,若存在记录未集成,则重复步骤2 ;否则,集成完毕。
所述基于模糊优先级的二阶段实例层数据集成方法中,步骤4的具体实施步骤如下:
步骤4-1,将η条来自不同分布式节点的待集成记录,按照它们所属节点的三个优先级指标建立融合矩阵;
步骤4-2,根据步骤4-1所得到的融合矩阵中三角模糊数的值情况,按照公式2或者公式3进行成本型指标或收益型指标的规格化;
步骤4-3,将步骤I所获得的优先级指标权值与步骤4-2获得的规格化融合矩阵按公式4构建融合决策矩阵;
步骤4-4,对步骤4-3获得的融合决策矩阵去模糊化处理;
步骤4-5,对步骤4-4获得的去模糊化后的融合决策矩阵,计算每条记录与正理想解和负理想解的距离;
步骤4-6,按照步骤4-5的处理结果,计算每条记录与正理想解的隶属度,并按照隶属度排序,隶属度最大的记录所存储的属性即为集成后的结果,结束步骤4。
所述分布式存储节点优先级包括置信度、可用性、出错性三个指标。置信度指标描述了分布式存储节点所提供数据的准确度及权威性;可用性指标描述了节点上的数据在某一时段的可用程度;出错性指标描述了节点运行的稳定性及发生故障的可能性;
所述优先级指标从其影响关系上可以分为两类:成本型指标和收益型指标。成本型指标值越大,表明其成本越低,优先级越高,例如出错性指标;反之,收益型的指标值越大,表明其收益越高,优先级越高,例如置信度指标及可用性指标;
所述优先级指标在优先级模型中存在权重关系,描述了各个指标在优先级中的作用程度,用权重向量W=W1, W2, W3)表示。其中Wj表示分布式存储节点的第j个优先级指标权值,且
权利要求
1.一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决; 实现步骤如下: 步骤I,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值; 步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突; 若冲突为弱冲突,则转向步骤3 ;否则,转向步骤4 ; 步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5 ; 步骤4,对于强冲突情况,根据记录所来源的分布式存储节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算与正理想解和负理想解的距离、综合评估步骤,执行完毕后转向步骤5 ; 步骤5,若存在记录未集成,则重复步骤2 ;否则,集成完毕。
2.根据权利要求1所述的基于模糊优先级的二阶段实例层数据集成方法,其特征在于,所述步骤4的具体实施步骤如下: 步骤4-1,将η条来自不同分布式存储节点的待集成记录,按照它们所属节点的优先级指标建立融合矩阵; 步骤4-2,根据步骤4-1所得到的融合矩阵中三角模糊数的值情况,进行成本型指标或收益型指标的规格化; 步骤4-3,通过步骤I所获得的优先级指标权值与步骤4-2获得的规格化融合矩阵构建融合决策矩阵; 步骤4-4,对步骤4-3获得的融合决策矩阵去模糊化处理; 步骤4-5,对步骤4-4获得的去模糊化后的融合决策矩阵,计算每条记录与正理想解和负理想解的距离; 步骤4-6,按照步骤4-5的处理结果,计算每条记录与正理想解的隶属度,并按照隶属度排序,隶属度最大的记录所存储的属性即为集成后的结果,结束步骤4。
3.根据权利要求2所述的基于模糊优先级的二阶段实例层数据集成方法,其特征在于,所述分布式存储节点优先级包括置信度、可用性、出错性三个指标;置信度指标描述了分布式存储节点所提供数据的准确度及权威性;可用性指标描述了分布式存储节点上的数据在某一时段的可用程度;出错性指标描述了分布式存储节点运行的稳定性及发生故障的可能性; 所述优先级指标从其影响关系上可以分为两类:成本型指标和收益型指标;成本型指标值越大,表明其成本越低,优先级越高;反之,收益型的指标值越大,表明其收益越高,优先级越高; 所述优先级指标在优先级模型中存在权重关系,描述了各个指标在优先级中的作用程度,用权重向量W= (W1, W2, W3)表示;其中Wj表示分布式存储节点的第j个优先级指标权值,且
4.根据权利要求3所述的基于模糊优先级的二阶段实例层数据集成方法,其特征在于,所述优先级指标的模糊化指的是对分布式存储节点的优先级指标采用三角模糊数进行描述;三角模糊数用来表示,其中Hl1表示M所支撑的上界,IIV表示M所支撑的下界,m表示M的中值;去模糊化的计算公式如下:
5.根据权利要求4所述的基于模糊优先级的二阶段实例层数据集成方法,其特征在于,所述二阶段实例层数据集成指的是用投票机制将实例层冲突区分为强冲突与弱冲突;对于弱冲突采用简化的集成方式进行处理;对于强冲突采用依据分布式节点优先级的关系进行处理;即对于任何实例层数据的集成均分为冲突判断与冲突解决两个阶段进行; 所述投票机制分为三分之二投票制与半数投票制两种;三分之二投票制指的是在现有的记录里满足:有不低于三分之二的记录对于发生冲突的属性它们的属性值是一致的;半数投票制指的是在现有记录里满足:指代现实世界同一对象的记录超过2条,且发生了属性值的冲突,同时,它们中有不低于一半的记录属性值是一致的; 所述弱冲突指数据集成过程中,实例层的冲突现象满足三分之二投票制或半数投票制的情况; 所述强冲突指数据集成过程中,实例层的冲突现象不满足三分之二投票制与半数投票制的情况; 所述弱冲突解决方法为:在三分之二投票制中,有不低于三分之二的记录,对于发生冲突的属性它们的属性值是一致的,则此时将以这些一致的属性值作为集成后的数据对外显示;在半数投票制中,有不低于一半的记录,对于发生冲突的属性它们的属性值是一致的,则将以这些一致的属性值作为集成后的数据对外显示。
6.根据权利要求5所述的基于模糊优先级的二阶段实例层数据集成方法,其特征在于,所述融合矩阵为Fnx3= (fu)nX3,其中η表示有η条来自不同分布式节点的记录待集成;.3表示每个分布式存储节点的3个优先级指标表示第i条记录所属的分布式节点的第j个优先级指标; 所述规格化是为了便于数据的评估和比较,将分布式存储节点优先级指标规格化至一个统一的量纲。对于fu=(au,bu,cu),成本型指标的值规格方式如下:
7.根据权利要求6所述的基于模糊优先级的ニ阶段实例层数据集成方法,其特 征在于,所述构建融合决策矩阵是指将优先级指标权值加入融合矩阵;若权重向量 W= (w1; w2, w3),规格化后的rij= {aip b^-, cj ,则融合决策矩阵如下dij = (aj,bij',Cij') = Wj (a^-, b^-, cj,(1 彡 i 彡 n, 1 彡 j 彡 3) 公式 4 其中,du表示融合决策矩阵中的每ー个元素。
8.根据权利要求7所述的基于模糊优先级的ニ阶段实例层数据集成方法,其特 征在于,所述计算与正理想解和负理想解的距离中,正理想解向量由M+表示,定义为 M* =(M;M;),且M; = max作,(丨51Sit, 1S/ S3);负理想解向量由M_表示,定义为
全文摘要
本发明公开了一种基于模糊优先级的二阶段实例层数据集成方法,属于数据集成技术领域。所述二阶段实例层数据集成方法首先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,并采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明解决了在海量数据集成中集成效率低或集成结果精度低等问题。
文档编号G06F17/30GK103164531SQ201310116388
公开日2013年6月19日 申请日期2013年4月3日 优先权日2013年4月3日
发明者冯钧, 盛震宇, 唐志贤, 李士进, 朱跃龙, 万定生, 徐黎明, 冯读庆, 许潇, 姜康, 陈焕霖, 刘子源, 朱康康, 史涯晴 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1