基于隐含分类信息的模式匹配方法

文档序号：6630515阅读：306来源：国知局

专利名称：基于隐含分类信息的模式匹配方法
技术领域：
本发明属于数据库领域，具体涉及数据库中关系模式之间的映射及匹配技术。特别涉及一种发现隐含分类信息提高模式匹配质量的方法。
背景技术：
随着计算机技术不断深入各个领域，数据已呈现出分布、自制、异构等特点。数据集成、数据交换是解决多种数据源间共享问题的一个有效手段。数据集成、交换的应用领域及其广泛，例如本体合并、数据空间、数据仓库、电子商务、生命科学、Deep Web等等。作为数据集成、交换的准备阶段_模式匹配其主要任务是发现模式元素之间的语义相似性。如果两个模式元素具有相似的语义则他们很可能表示相同的事物或者具有相似的意义。现有的模式匹配技术主要分为两类。第一类技术负责发现元素间的语义相似性，主要包括 Schema-Based方法和Instances-Based方法。第二类技术负责提高模式匹配质量，即通过约束等手段限定匹配的应用范围来提高匹配的质量。Context-Based是这一类中的代表技术。Schema-Based方法考虑模式本身的信息，即描述模式的元数据。可用的信息包括模式的名字、描述、结构、约束以及模式元素的数据类型等等。例如某个模式包含名字为 “products-price”的属性，而另一个模式包含名字为“p-price”属性，则他们很可能具有相同的语义“产品价格”。Instances-Based方法主要利用依托于模式而存在的实例信息进行模式匹配。该类技术通过对实例的数据特性进行统计，利用统计结果作为不同模式元素间的对比依据。例如针对“student”信息表中的“age”属性，统计该属性的平均值作为该属性与其他模式属性对比的依据，如果另一个模式的某个属性的算术平均值与“age”属性的平均值之差在一个给定的范围内，则有理由认为他们都表示人的年龄，即这两个属性的语义相似。此种技术可以利用数据的各方面数据特性进行匹配，例如均值、方差、分布等等。Context-Based的技术对已经发现的模式匹配进行约束。该方法利用源数据实例中的显示分类属性(Context)约束属性匹配。这些分类属性使得匹配只对需要转换的部分实例生效，而不影响不需要转换的数据实例。该技术分为两个阶段。第一阶段的主要任务是发现源模式中的分类属性，其采用机器学习技术学习源数据实例和目标数据实例的特性，然后预测显示分类属性，例如“student”信息表中的“gender”属性。第二阶段的主要任务是根据发现的显示分类属性发现生成约束条件并将其与属性匹配进行关联。该方法的优点在于其有效地将显示分类属性与属性匹配进行结合，并利用其作为属性匹配的约束条件，从而使得不同模式之间的实例转换具有选择性，提高数据交换的质量。Context-Based 技术虽然能够利用数据实例本身的信息生成约束条件，但其同样存在一些缺点，这些缺点表现在两方面(1)在利用机器学习方法寻找显示分类属性时，如果源模式同时存在一些低势 (属性的值域很小)属性，则会降低显示分类属性查找的准确率。如果存在大量的低势属性，则很可能导致算法不能找到显示分类属性。低势属性与显示分类属性之间的混淆使得算法不能对其进行区分，导致查找准确率降低。
(2)第二，该技术第一步的返回结果往往是一些候选的显示分类属性，通过这些属性构建候选约束条件，进一步形成候选属性匹配，之后选择具有最高置信度的属性匹配，这使得目标模式具有的属性匹配来自多个源模式，而这一现象往往不符合实际情况。同时候选空间往往很大，导致具有最高置信度的匹配搜索非常耗费时间和资源。同时该方法对显示分类属性的依赖性非常强，如果源模式中不具有显示分类属性，Context-Based技术则失效。

发明内容
为解决现有技术的不足之处，本发明提出一种基于隐含分类信息的模式匹配方法，限定了属性匹配的应用范围，提高数据交换的质量。相比于传统的Context-Based技术，本方法从数据实例中寻找真正的分类信息，来进行约束条件的构建，而不依赖于显示分类属性。不论源模式中是否存在显示分类属性，本发明中的方法都能从实例数据中提取约束信息，限制属性匹配，提高数据转换质量。本发明采用的技术方案是首先，利用传统的聚类技术发现隐藏在源数据实例中的可能的分类。将每个属性的数据实例看成数据对象，通过考虑属性层次上的聚类而不是元组层次上的聚类提高聚类的准确性；其次，通过信息熵寻找分类属性。将源模式中的元组看成待聚类的文档，模式的每个属性看成不同的聚类技术，使用信息熵技术评测每个文档在不同聚类技术下出现在不同聚类结果中的分布情况。与大部分属性的聚类结果都不相同的属性的熵越大，相反与大多数属性的聚类结果都基本相同的属性的熵越小。通过该特性可以删除干扰属性，最后得到具有分类信息的分类属性；最后，根据分类属性生成过滤条件。引入一个新的概念“聚类匹配”来描述过滤条件同属性匹配之间的关系。过滤条件生成后，枚举所有的聚类匹配，通过一个自适应打分函数选择最优的聚类匹配。最优聚类匹配中的每一个属性匹配都附带一个过滤条件，该过滤条件能够限制属性匹配的作用范围，即根据需要来转换源数据，提高属性匹配和数据交换的质量。本发明的步骤如下步骤1发现源数据实例的可能分类属性的数据实例中隐藏了一些分类信息，通过最小生成树聚类技术发现属性实例的可能分类。最简单的方法是将每个元组看成空间的一个数据点，每个属性为该空间的一维。对元组进行聚类，同一个聚类结果中的元组为一个可能的分类。但源数据实例的分类信息只体现在一些属性中，而不是所有的属性，所以从元组层次上进行聚类，聚类的准确度会很低。将每个属性的实例看成数据对象，通过最小生成树聚类算法，对每个属性的数据对象进行聚类，出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分类。计算出每个属性中的聚类结果，以待进一步找出具有真正分类信息的属性。令a为源关系R的一个属性，V (R. a)表示属性a的数据对象集合并且|V(R.a) | = η。令ο，ο’为R.a的两个数据对象。令|ο_ο，|表示对象0和0’间的距离，如果属性a为数字类型，则o-o' I表示他们间的欧氏距离，如果为字符串类型则表示Q-grams距离。令
Oi-Oj表示属性a中任意两个对象Oi和Oj之间的距离，其中i和j为下标，并且1 < i， j彡n，令maxO表示取最大值函数。用下式对距离|o-o，|进行归一化。
权利要求
1.一种基于隐含分类信息的模式匹配方法，其特征在于包括以下步骤步骤1发现源数据实例的可能分类通过最小生成树聚类算法，计算每个属性的数据对象聚类，出现在同一个聚类中数据对象所对应的元组则表示源数据的一个可能的分类；步骤2寻找分类属性利用步骤1的结果，使用信息熵测量每个元组在不同属性的聚类结果中的分布情况，最理想的情况，一个元组在不同属性的聚类结果中出现在同一个聚类中，此时该元组的熵为零，最坏的情况是，该元组在每个属性的聚类结果中都出现在不同的聚类中；寻找干扰属性，所谓干扰属性就是，根据该属性对元组的聚类结果与大部分属性都不相同，干扰属性的熵要大于分类属性，所以不断地将其去除，直到所处理的关系的熵为零，最后得到分类属性；步骤3为属性匹配关联相应的过滤条件为每个属性匹配关联合适的过滤条件。
2.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法，其特征在于所述的步骤1中的发现源数据实例的可能分类，过程如下步骤1-1计算对象之间的相似性计算对象间的相似性，给定源模式S，R为S的一个数据表，A为R的某个属性，定义集合C用于存储属性A中的数据对象，计算集合C中任意两个对象间的距离，如果A为数字类型，则计算他们之间的欧式距离，如果为字符串类型，则计算3-grams距离；步骤1-2发现可能分类根据对象之间的相似性，将对象进行聚类，遍历集合C中全部对象间的距离，找到最小距离并记录其对应的数据对象a和b，如果最小距离小于用户给定的阈值r，则将对象a和对象b放入同一个聚类结果中，对属性A中的所有数据对象进行聚类，每一个结果聚类表示一个可能的分类。
3.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法，其特征在于所述的步骤2中的寻找分类属性，按以下步骤进行步骤2-1计算关系信息熵为找到分类属性，需要计算关系R的信息熵，用以求出属性的信息增益，给定属性A及其聚类结果，首先计算属性A的熵值，该熵值表示A所在关系的元组在不同属性聚类结果中的分布状态，熵值越大，说明元组的分布越混乱，熵值越小，说明元组分布越有序；步骤2-2计算属性的信息增益根据步骤2-1得到的关系R的熵值，计算R中每个属性的信息增益，对于某个属性A，如果其信息增益是所有属性中最大的，则说明该属性对R中元组的分布影响最大，将其去除，同理去除其他属性；步骤2-3判定结束在每次将具有最大信息增益的属性去掉后，判断关系R的熵值是否为零以及关系R中的所有属性的信息增益是否相同，如果算法满足其中一个条件，则终止；关系R的熵值为零时说明R中的元组在余下的属性聚类结果中具有相同分布，即余下的属性为分类属性，所以算法终止，关系R中的所有属性的信息增益相同说明所有属性对元组分布的影响相同，所以算法终止，余下属性也同样被看作分类属性。
4.按照权利要求1所述的一种基于隐含分类信息的模式匹配方法，其特征在于所述的步骤3中为属性匹配关联相应的过滤条件，按以下步骤进行步骤3-1构建聚类匹配给定一个分类属性，每一个该属性的对象聚类为一个过滤条件，该属性可能和目标的多个属性之间存在匹配关系，为确定每一个过滤条件所要约束的属性匹配，需要构建聚类匹配，所谓聚类匹配是指两个具有匹配关系的属性的对象聚类之间的对应关系；针对每一个分类属性，找到其所有的同其他目标属性的聚类匹配；步骤3-2查找最优给定一个分类属性以及与其存在匹配关系的目标属性集合，枚举所有的da^i/w，每一个c-m聊ing表示一个聚类匹配的集合，对每一个c-m聊ing进行评估，找到最优的 c-mapping ；步骤3-3关联过滤条件利用上步找到的最优c-mapping构建复合过滤条件，给定一个分类属性A，如果其最优 c-mapping中存在两个或者多个聚类匹配，且这些聚类匹配的目标聚类来自同一个目标属性B，则使用逻辑“或”对这些聚类匹配的源聚类进行链接，形成一个复合过滤条件c，并将条件c同属性匹配(A，B)进行关联，形成带有约束的属性匹配(A，B, C)。
全文摘要
一种基于隐含分类信息的模式匹配方法，属于数据库技术领域，包括发现源数据实例的可能分类、寻找分类属性和为属性匹配关联相应的过滤条件三个步骤。本发明限定了属性匹配的应用范围，提高数据交换的质量，相比于传统的Context-Based技术，本方法从数据实例中寻找真正的分类信息，来进行约束条件的构建，而不依赖于显示分类属性；不论源模式中是否存在显示分类属性，本发明中的方法都能从实例数据中提取约束信息，限制属性匹配，提高数据转换质量。
文档编号G06F17/30GK102063489SQ20101061304
公开日2011年5月18日申请日期2010年12月29日优先权日2010年12月29日
发明者丁国辉, 王国仁, 赵宇海申请人:东北大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王国仁;赵宇海;丁国辉
技术所有人：东北大学
我是此专利的发明人

上一篇：一种复杂网络社团的发现方法
上一篇：基于文本集合的隐性情绪词典建立方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。