基于隐含分类信息的模式匹配方法

文档序号:6630515阅读:306来源:国知局
专利名称:基于隐含分类信息的模式匹配方法
技术领域
本发明属于数据库领域,具体涉及数据库中关系模式之间的映射及匹配技术。特别涉及一种发现隐含分类信息提高模式匹配质量的方法。
背景技术
随着计算机技术不断深入各个领域,数据已呈现出分布、自制、异构等特点。数据 集成、数据交换是解决多种数据源间共享问题的一个有效手段。数据集成、交换的应用领域 及其广泛,例如本体合并、数据空间、数据仓库、电子商务、生命科学、Deep Web等等。作为 数据集成、交换的准备阶段_模式匹配其主要任务是发现模式元素之间的语义相似性。如 果两个模式元素具有相似的语义则他们很可能表示相同的事物或者具有相似的意义。现 有的模式匹配技术主要分为两类。第一类技术负责发现元素间的语义相似性,主要包括 Schema-Based方法和Instances-Based方法。第二类技术负责提高模式匹配质量,即通过 约束等手段限定匹配的应用范围来提高匹配的质量。Context-Based是这一类中的代表技 术。Schema-Based方法考虑模式本身的信息,即描述模式的元数据。可用的信息包 括模式的名字、描述、结构、约束以及模式元素的数据类型等等。例如某个模式包含名字为 “products-price”的属性,而另一个模式包含名字为“p-price”属性,则他们很可能具有相 同的语义“产品价格”。Instances-Based方法主要利用依托于模式而存在的实例信息进行 模式匹配。该类技术通过对实例的数据特性进行统计,利用统计结果作为不同模式元素间 的对比依据。例如针对“student”信息表中的“age”属性,统计该属性的平均值作为该属 性与其他模式属性对比的依据,如果另一个模式的某个属性的算术平均值与“age”属性的 平均值之差在一个给定的范围内,则有理由认为他们都表示人的年龄,即这两个属性的语 义相似。此种技术可以利用数据的各方面数据特性进行匹配,例如均值、方差、分布等等。Context-Based的技术对已经发现的模式匹配进行约束。该方法利用源数据实例 中的显示分类属性(Context)约束属性匹配。这些分类属性使得匹配只对需要转换的部 分实例生效,而不影响不需要转换的数据实例。该技术分为两个阶段。第一阶段的主要任 务是发现源模式中的分类属性,其采用机器学习技术学习源数据实例和目标数据实例的特 性,然后预测显示分类属性,例如“student”信息表中的“gender”属性。第二阶段的主要 任务是根据发现的显示分类属性发现生成约束条件并将其与属性匹配进行关联。该方法的 优点在于其有效地将显示分类属性与属性匹配进行结合,并利用其作为属性匹配的约束条 件,从而使得不同模式之间的实例转换具有选择性,提高数据交换的质量。Context-Based 技术虽然能够利用数据实例本身的信息生成约束条件,但其同样存在一些缺点,这些缺点 表现在两方面(1)在利用机器学习方法寻找显示分类属性时,如果源模式同时存在一些低势 (属性的值域很小)属性,则会降低显示分类属性查找的准确率。如果存在大量的低势属 性,则很可能导致算法不能找到显示分类属性。低势属性与显示分类属性之间的混淆使得算法不能对其进行区分,导致查找准确率降低。
(2)第二,该技术第一步的返回结果往往是一些候选的显示分类属性,通过这些属 性构建候选约束条件,进一步形成候选属性匹配,之后选择具有最高置信度的属性匹配,这 使得目标模式具有的属性匹配来自多个源模式,而这一现象往往不符合实际情况。同时候 选空间往往很大,导致具有最高置信度的匹配搜索非常耗费时间和资源。同时该方法对显 示分类属性的依赖性非常强,如果源模式中不具有显示分类属性,Context-Based技术则失 效。

发明内容
为解决现有技术的不足之处,本发明提出一种基于隐含分类信息的模式匹配方 法,限定了属性匹配的应用范围,提高数据交换的质量。相比于传统的Context-Based技 术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分 类属性。不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约 束信息,限制属性匹配,提高数据转换质量。本发明采用的技术方案是首先,利用传统的聚类技术发现隐藏在源数据实例中 的可能的分类。将每个属性的数据实例看成数据对象,通过考虑属性层次上的聚类而不是 元组层次上的聚类提高聚类的准确性;其次,通过信息熵寻找分类属性。将源模式中的元 组看成待聚类的文档,模式的每个属性看成不同的聚类技术,使用信息熵技术评测每个文 档在不同聚类技术下出现在不同聚类结果中的分布情况。与大部分属性的聚类结果都不相 同的属性的熵越大,相反与大多数属性的聚类结果都基本相同的属性的熵越小。通过该特 性可以删除干扰属性,最后得到具有分类信息的分类属性;最后,根据分类属性生成过滤条 件。引入一个新的概念“聚类匹配”来描述过滤条件同属性匹配之间的关系。过滤条件生 成后,枚举所有的聚类匹配,通过一个自适应打分函数选择最优的聚类匹配。最优聚类匹配 中的每一个属性匹配都附带一个过滤条件,该过滤条件能够限制属性匹配的作用范围,即 根据需要来转换源数据,提高属性匹配和数据交换的质量。本发明的步骤如下步骤1发现源数据实例的可能分类属性的数据实例中隐藏了一些分类信息,通过最小生成树聚类技术发现属性实例 的可能分类。最简单的方法是将每个元组看成空间的一个数据点,每个属性为该空间的一 维。对元组进行聚类,同一个聚类结果中的元组为一个可能的分类。但源数据实例的分类 信息只体现在一些属性中,而不是所有的属性,所以从元组层次上进行聚类,聚类的准确度 会很低。将每个属性的实例看成数据对象,通过最小生成树聚类算法,对每个属性的数据 对象进行聚类,出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分 类。计算出每个属性中的聚类结果,以待进一步找出具有真正分类信息的属性。令a为源关系R的一个属性,V (R. a)表示属性a的数据对象集合并且|V(R.a) | = η。令ο,ο’为R.a的两个数据对象。令|ο_ο,|表示对象0和0’间的距离,如果属性a为 数字类型,则o-o' I表示他们间的欧氏距离,如果为字符串类型则表示Q-grams距离。令
Oi-Oj表示属性a中任意两个对象Oi和Oj之间的距离,其中i和j为下标,并且1 < i, j彡n,令maxO表示取最大值函数。用下式对距离|o-o,|进行归一化。
权利要求
1.一种基于隐含分类信息的模式匹配方法,其特征在于包括以下步骤步骤1发现源数据实例的可能分类通过最小生成树聚类算法,计算每个属性的数据对象聚类,出现在同一个聚类中数据 对象所对应的元组则表示源数据的一个可能的分类;步骤2寻找分类属性利用步骤1的结果,使用信息熵测量每个元组在不同属性的聚类结果中的分布情况, 最理想的情况,一个元组在不同属性的聚类结果中出现在同一个聚类中,此时该元组的熵 为零,最坏的情况是,该元组在每个属性的聚类结果中都出现在不同的聚类中;寻找干扰 属性,所谓干扰属性就是,根据该属性对元组的聚类结果与大部分属性都不相同,干扰属性 的熵要大于分类属性,所以不断地将其去除,直到所处理的关系的熵为零,最后得到分类属 性;步骤3为属性匹配关联相应的过滤条件为每个属性匹配关联合适的过滤条件。
2.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法,其特征在于所述的 步骤1中的发现源数据实例的可能分类,过程如下步骤1-1计算对象之间的相似性计算对象间的相似性,给定源模式S,R为S的一个数据表,A为R的某个属性,定义集 合C用于存储属性A中的数据对象,计算集合C中任意两个对象间的距离,如果A为数字类 型,则计算他们之间的欧式距离,如果为字符串类型,则计算3-grams距离;步骤1-2发现可能分类根据对象之间的相似性,将对象进行聚类,遍历集合C中全部对象间的距离,找到最小 距离并记录其对应的数据对象a和b,如果最小距离小于用户给定的阈值r,则将对象a和 对象b放入同一个聚类结果中,对属性A中的所有数据对象进行聚类,每一个结果聚类表示 一个可能的分类。
3.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法,其特征在于所述的 步骤2中的寻找分类属性,按以下步骤进行步骤2-1计算关系信息熵为找到分类属性,需要计算关系R的信息熵,用以求出属性的信息增益,给定属性A及 其聚类结果,首先计算属性A的熵值,该熵值表示A所在关系的元组在不同属性聚类结果中 的分布状态,熵值越大,说明元组的分布越混乱,熵值越小,说明元组分布越有序;步骤2-2计算属性的信息增益根据步骤2-1得到的关系R的熵值,计算R中每个属性的信息增益,对于某个属性A,如 果其信息增益是所有属性中最大的,则说明该属性对R中元组的分布影响最大,将其去除, 同理去除其他属性;步骤2-3判定结束在每次将具有最大信息增益的属性去掉后,判断关系R的熵值是否为零以及关系R中 的所有属性的信息增益是否相同,如果算法满足其中一个条件,则终止;关系R的熵值为零 时说明R中的元组在余下的属性聚类结果中具有相同分布,即余下的属性为分类属性,所 以算法终止,关系R中的所有属性的信息增益相同说明所有属性对元组分布的影响相同,所以算法终止,余下属性也同样被看作分类属性。
4.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法,其特征在于所述的 步骤3中为属性匹配关联相应的过滤条件,按以下步骤进行 步骤3-1构建聚类匹配给定一个分类属性,每一个该属性的对象聚类为一个过滤条件,该属性可能和目标的 多个属性之间存在匹配关系,为确定每一个过滤条件所要约束的属性匹配,需要构建聚类 匹配,所谓聚类匹配是指两个具有匹配关系的属性的对象聚类之间的对应关系;针对每一 个分类属性,找到其所有的同其他目标属性的聚类匹配; 步骤3-2查找最优给定一个分类属性以及与其存在匹配关系的目标属性集合,枚举所有的da^i/w, 每一个c-m聊ing表示一个聚类匹配的集合,对每一个c-m聊ing进行评估,找到最优的 c-mapping ;步骤3-3关联过滤条件利用上步找到的最优c-mapping构建复合过滤条件,给定一个分类属性A,如果其最优 c-mapping中存在两个或者多个聚类匹配,且这些聚类匹配的目标聚类来自同一个目标属 性B,则使用逻辑“或”对这些聚类匹配的源聚类进行链接,形成一个复合过滤条件c,并将 条件c同属性匹配(A,B)进行关联,形成带有约束的属性匹配(A,B, C)。
全文摘要
一种基于隐含分类信息的模式匹配方法,属于数据库技术领域,包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围,提高数据交换的质量,相比于传统的Context-Based技术,本方法从数据实例中寻找真正的分类信息,来进行约束条件的构建,而不依赖于显示分类属性;不论源模式中是否存在显示分类属性,本发明中的方法都能从实例数据中提取约束信息,限制属性匹配,提高数据转换质量。
文档编号G06F17/30GK102063489SQ20101061304
公开日2011年5月18日 申请日期2010年12月29日 优先权日2010年12月29日
发明者丁国辉, 王国仁, 赵宇海 申请人:东北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1