模式匹配系统、模式映射系统及方法

文档序号:6354696阅读:409来源:国知局

专利名称::模式匹配系统、模式映射系统及方法
技术领域
:本发明总的来说涉及与信息处理和信息整合技术,且更具体地,涉及基于混合属性-值匹配的模式匹配系统和模式映射系统及其方法。
背景技术
:在信息处理和信息整合技术中,有时需要构建对象数据库,同时匹配不同对象副本中的对应项并整合异构的副本,这里,对象的副本通常被称为模式。在互联网上存在着大量含有对象属性-值信息的网页,比如产品的规范说明页面。这些属性-值的表格可以通过信息抽取获取,作为自动建立对象数据库的第一歩工作。但是异构的数据源网页对产品信息的展示方式也不尽相同,涉及不同的措辞,不同的表格结构,针对特定用户的不完全信息。因此,需要从ー个现实世界中的产品对象的多个模式副本识别出其中的对应项,并整合这些异构的副本为ー个一致的模式。以上所涉及的具体任务可以被划分为模式匹配和模式整合。对于调和不同数据来源的模式,在Reconcilingschemaofdisparatedatasourcesamachinelearningapproach,DoanAH,2001.InProcACMSIGMODConf,PP.509-520中公开了ー种机器学习方法。这种机器学习方法应用于数据集成系统,采用了基于元数据的学习方法。但是,当如上述情况,处理目标是网页中的表格而并非逻辑数据库中的表格或者XML文件吋,由于所处理的数据缺少元数据和数据格式的约束,因此这种监瞀学习方法可能导致过度拟合且无法适应跨领域的数据。在S-Match:analgorithmandanimplementationofsemanticmatching中公开了ー种语义匹配的算法及实现,即,S-Match,其是ー种面向结构的模式匹配方法,通过使用WordNet计算词之间的距离,并使用SAT求解器推理映射。但是,WordNet虽然可用于挖掘语义相关性,但是在产品信息的面向实例的模式匹配中,并不适用。这是因为对于例如上述产品规范说明页面中的值表达式和解释性段落来说,很难定义其语义相似度。在US2008/0021912Al,Toolsandmethodsforsemi-automaticschemamatching中,公开了ー种半自动化模式匹配的工具和方法,这篇专利采用了多种外部词典,但是这种外部词典无法适应跨领域数据,并且其处理对象为富含元信息的XML数据。在网络数据库中模式匹配的方法和系统(US7249135B2,Methodandsystemforschemamatchingofwebdatabase.,MICROSOFTC0RP)中,提供了一种方法实施在网络数据库中识别模式之间的匹配,这里的模式是网络数据库中表的模式;并且已知ー个全局的模式,匹配主要依赖于模式与全局模式之间的匹配实现。但是,这里公开的方法和系统主要应用于网络数据库中的模式匹配,网络数据库为关系数据库,即输入的数据都是有完整元信息的数据库表格。但是对于数据源网页的表格,并没有元信息的约束,因此虽然实现了属性-属性匹配计算和值-值匹配计算,但是处理的数据主要为字符串类型,没有为数值数据提供特别的方法,因而在对于数值数据的匹配方面仍存在不足。此外,在上述方法和系统中使用了全局模式,因此需要先验性的领域或本体知识。在ー种从多网页中抽取和规范化产品属性的非监瞀方法(AnUnsupervisedFrameworkforExtractingandNormalizingProductAttributesfromMuitipleWebSites)中,提供ー种方法从多网页中同时抽取和规范化产品属性,这里属性的规范化即是指发现其中的语义相似性,将产品属性通过某种距离度量聚类,聚类结果为一条属性的可能词表。但是,在上述方法中,产品属性没有区分属性和值,即将例如上述数据源网页的表格中涉及的产品的属性和值看作是一条属性,因此,在进行匹配时必然导致匹配精度降低。此外,上述方法中所采用的距离度量是使用监瞀的机器学习方法训练所得,即在ー个特定领域内,要进行一次距离计算,而在另ー个领域内,距离要重新计算,这显然提高了系统应用的成本并造成了用户的不便。因此,可以看到在以上提到的多篇现有技术文件中,大多数仅关注于特定领域,造成领域信息很难收集,需要大量的人力。并且,现有技术中的系统和方法大多数是处理关系数据库中的表格以及结构化的XML数据,这些数据富含元信息,如数据类型,取值范围和约束等。而对于非结构化的数据,比如无结构的XML数据或者网页中抽取出的表格,则不包含上述元信息。例如,网页中抽取出的表格只有表格结构和文本内容两类信息,因此并不适合于采取上述现有技术中的系统和方法来进行处理。因此,需要一种领域无关的模式匹配和模式映射系统及方法,能够对于对象的非结构化的模式副本进行处理,得到可以接受的结果精度,同时不需要先验性的领域或本体知识。
发明内容因此,本发明的目的是解决上述现有技术中的一个或多个问题和缺点。本发明的目的是提供模式匹配系统、模式映射系统、模式匹配方法和模式映射方法,其能够将对象的模式的无结构的纯文本形式的值规范化为有结构的形式,从而为所述值添加元信息以使其更加可比较。为实现上述目的,根据本发明的一方面,提供了一种基于混合属性-值匹配的模式匹配系统,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配系统包括模式规范化模块,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信ο根据本发明的另一方面,提供了一种基于混合属性-值匹配的模式映射系统,包括模式匹配装置,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配装置对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为其添加元信息;模式整合装置,与模式匹配装置相连接,用于根据所述模式匹配装置生成的所述匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。在上述模式映射系统中,所述模式匹配装置包括模式规范化模块,接收对象的源模式和目标模式作为输入,对源模式和目标模式的属性和值进行规范化处理,以使得所述属性和值更加可比较;模式匹配模块,与所述模式规范化模块相连接,接收已由所述模式规范化模块进行了规范化的属性和值,并计算源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度;匹配映射计算模块,与所述模式匹配模块相连接,接收由所述模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度,从而计算所述源模式和目标模式的对应项之间的综合相似度并生成所述匹配结果映射。在上述模式映射系统中,所述模式整合装置包括结构推理模块,与所述匹配映射计算模块相连接,接收所述匹配映射计算模块所生成的匹配结构映射,井根据所述匹配结果映射推理实际映射情況;结构变形模块,与所述结构推理模块相连接,根据所述接收推理模块输出的所述实际映射情况对所述源模式或所述目标模式进行变形,以生成所述整合的模式。在上述模式映射系统中,所述值的规范化处理包括值为复合的简单短语时,分离处于并列关系的简短短语以成为简短短语集合的形式;值为值表达式时,借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位的形式;值为复合的值表达式时,分离处于并列关系的值表达式,并借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位集合的形式;值为表格和列表吋,分解表格和列表的项,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式;值为解释性段落吋,从解释性段落中抽取关键词语,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式。在上述模式映射系统中,所述值-值匹配相似度计算包括在源模式和目标模式的值均为简短短语或简短短语集合时,对于源模式和目标模式的两个简短短语集合中的每一个简短短语,使用字符串相似度度量来计算相似度,并取平均值作为值-值匹配相似度;在源模式和目标模式的值均为数值+度量単位或数值+度量単位集合吋,对于源模式和目标模式的两个数值+度量単位集合中的每ー个数值+度量単位,借助于领域无关的度量单位字典来计算相似度,并取平均值作为值-值匹配相似度;在源模式和目标模式的值为简短短语集合和数值+度量単位集合的结合时,对于源模式和目标模式的简短短语集合中的每ー简短短语和数值+度量単位集合中的每ー数值+度量単位,使用字符串相似度度量来计算相似度,并取平均值作为值-值匹配相似度。在上述模式映射系统中,所述源模式和目标模式的对应项之间的综合相似度为Score=α·Scoreattr+β*Scoreval+(I-α-β)·Scorecross其中,Scoreattr为所述属性-属性匹配相似度,Scoreval为所述值-值匹配相似度,SCOrec;MSS为所述属性-值交叉匹配相似度;α和β为权重,并满足如下关系0彡β彡1,O彡α彡1,0彡α+β彡I。在上述模式映射系统中,所述匹配映射结果的生成包括生成源模式到目标模式的匹配映射对源模式中的每个元素i,取Score[i]中分数最高的Score[i][j],目标模式中的元素j即为元素i的对应项,将<i,j>添加到匹配映射中;生成目标模式到源模式的匹配映射对目标模式中的每个元素P,取ScoreT[p]中分数最高的ScoreT[p][q],其中Score1[][]为Score[][]的转置矩阵,源模式中的元素q即为元素P的对应项,将<p,q>添加到匹配映射中。在上述模式映射系统中,所述属性的规范化处理包括平滑层次关系抽取从根到当前元素的绝对路径信息;和平滑模式中各元素的位置先后关系。在上述模式映射系统中,所述属性-属性匹配相似度的计算采用任意技术的字符串相似度度量。在上述模式映射系统中,所述属性-值交叉匹配相似度的计算包括使用字符串相似度度量,计算源模式中属性和目标模式中值的匹配相似度;和使用字符串相似度度量,计算源模式中值和目标模式中属性的匹配相似度。在上述模式映射系统中,所述模式整合装置根据源模式到目标模式的匹配映射和目标模式到源模式的匹配映射来推理实际映射情況,并根据所述实际映射情况整合对应项和非对应项以对源模式或目标模式进行变形。在上述模式映射系统中,所述实际映射情况的推理包括推理一对一映射对源模式中的元素i,在目标模式中有元素j使得<i,j>和<j,i>成为匹配映射,并且在源模式中没有另ー个元素k使得<i,k>或<k,j>成为匹配映射;推理ー对多映射对源模式中的元素i,在目标模式中有多于ー个的元素U,k}使得<j,i>和<k,i>成为匹配映射,并且<i,j>和<i,k>中至少有ー个为匹配映射;推理多对ー映射对源模式中的多于ー个的元素U,j},在目标模式中有元素k使得<i,k>和<j,k>成为匹配映射,并且<k,i>和<k,j>中至少有ー个为匹配映射;和推理无映射对源模式中的元素i,在目标模式中没有元素j使得<i,j>或<j,i>成为匹配映射。在上述模式映射系统中,所述源模式的变形包括一対一映射不变形;一对多映射将目标模式中的多个节点附加为源模式节点的子节点;多对一映射将目标模式中的节点插入到源模式的多个节点和它们的父节点之间;和无映射将目标模式中的节点附加为源模式根节点的子节点。在上述模式映射系统中,所述目标模式的变形包括一対一映射不变形;ー对多映射将源模式中的多个节点附加为目标模式节点的子节点;多对一映射将源模式中的节点插入到目标模式的多个节点和它们的父节点之间;和无映射将源模式中的节点附加为目标模式根节点的子节点。根据本发明的又一方面,提供了一种基于混合属性-值匹配的模式匹配方法,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配方法包括对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。根据本发明的再一方面,提供了一种基于混合属性-值匹配的模式映射方法,包括模式匹配步骤,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配步骤对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息;模式整合步骤,用于根据所述模式匹配步骤生成的匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。在上述模式匹配系统、模式映射系统及方法中,通过将对象的模式的无结构的纯文本形式的值规范化为有结构的形式,即为其添加元信息,可以使得源模式和目标模式的对应项的值更加可比较,同时也减小了相似度计算的粒度,从而提高了模式匹配的精度。并且,在上述模式匹配系统、模式映射系统及方法中,通过对对象的模式的属性和值进行交叉匹配计算,能够发现更多的匹配对应项,从而提高了模式匹配的精度。此外,在上述模式匹配系统、模式映射系统及方法中,通过借助于领域无关的字典将对象的模式的值规范化为简短短语或简短短语集合以及数值+度量単位或数值+度量单位集合,无需引入领域相关的表単、词典以及本体知识,可以降低系统的成本,并便利用户的使用。通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及エ业重要性。图I是示出本发明实施例中的对象的示意图;图2是示出如图I所示的对象的模式的树结构表示的图;图3是示出如图2所示的模式以xml”格式存储在硬盘中的示意图;图4是示出本发明实施例的模式匹配和模式映射系统的源模式和目标模式的匹配结果映射的示意图;图5是示出源模式和目标模式的整合结果的示意图;图6是示出了本发明实施例的模式映射系统的框图;图7是示出本发明实施例的模式中的层次关系和位置顺序的示意图;图8是示出了本发明实施例的模式规范化模块的值规范化的流程图;图9是示出了本发明实施例的属性-属性匹配的流程图;图10是示出了本发明实施例的值-值匹配的流程图;图11是示出了本发明实施例的属性-值交叉匹配的流程图;图12是示出了本发明实施例的ー对多映射情况下源模式的结构变形的示意图;图13是示出了本发明实施例的多对一映射情况下源模式的结构变形的示意图;图14是示出了本发明实施例的模式映射方法的流程图。图15是示出了以计算机实现本发明实施例的模式映射系统和模式映射方法的系统的硬件框图。具体实施例方式下面将结合附图来详细描述本发明的具体实施例。根据本发明的实施例,提供了一种基于混合属性-值匹配的模式匹配系统,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配系统包括模式规范化模块,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。根据本发明的实施例,提供了一种基于混合属性-值匹配的模式映射系统,包括模式匹配装置,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配装置对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息;模式整合装置,与模式匹配装置相连接,用于根据所述模式匹配装置生成的所述匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。首先,将描述本发明实施例的模式匹配和模式映射系统的原理。在本发明实施例的模式匹配和模式映射系统中,处理的对象通常是指现实世界中的ー个产品,比如数码相机,并且模式是指这种现实产品的ー个副本。由于应用等方面的差异,对于単一现实产品来说,可能存在多个异构的模式。因此,本发明实施例的模式匹配和模式映射系统意在识别出异构模式中的对应项并进行匹配,从而映射同一对象的不同模式,并整合这些异构的模式。例如,在对象为互联网上异构的数据源网页的情况下,各个不同模式中所包括的对象信息可以是通过信息抽取技术从网页中识别出来。图I是示出本发明实施例中的对象的示意图。例如,图I示出了网页中的表格,其是本发明实施例的模式匹配系统和模式映射系统中的模式的数据来源。这里,图I所示的对象是现实产品,具体地说,型号为“CanonEOS7D”的数码相机。对于因特网上网页表格的抽取,通常包含表格识别和层次结构表格抽取两个步骤,本领域技术人员可以了解上述步骤的具体实现方式,因此在这里就不再赘述。这里,对象的内部表示即被称为模式,其通常由属性和值组成,也被称为模式的元素。模式的一个实例就是ー个带有绝对路径信息的属性-值对,且属性可以有层次关系。图2是示出如图I所示的对象的模式的树结构表示的图。这里,图2示出的模式I和模式2即是本发明实施例的模式匹配和模式映射系统所要进行处理的源模式和目标模式的示例,即,本发明实施例的模式匹配和模式映射系统处理的是含有对象属性-值对信息的模式。以模式I为例,这个模式很好地代表了网页表格,很好地描述了对象“CanonEOS7D”。可以看到,对象包含属性“General”和“ProductType”等,以及值“Digitalcamera-SLR”和“5.8in”等。属性的层次信息以树结构的表示是很清楚的根元素为“top”,非叶子节点为属性,如“General”和“ProductType”等;叶子节点为值,如“Digitalcamera-SLR”和“5.8in”等。在硬盘存储中,模式被保存为“*·xml”格式,如图3所示。在进行模式匹配和模式映射时,如果已知两个模式(源模式和目标模式)描述同ー个对象,则首先要找出对应的元素。图4所示为本发明实施例的模式匹配和模式映射系统的源模式和目标模式的匹配结果映射的示意图。这里,匹配结果映射以TreeMap的数据结构存储在RAM中ο比如,属性-值对<“top->General->ProductType”,“Digitalcamera-SLR,,>和〈“Specification->Type->Type,,,“Digital,AF/AEsingle-lensreflexcamera”>是语义上匹配的对应项。为记录对应项,定义了两个匹配结果映射以减少冲突,即源模式到目标模式的映射和目标模式到源模式的映射。在源模式到目标模式的映射中,<i,j>表示源模式中的元素i和目标模式中的元素j为对应项。根据生成的匹配结果映射,通过源模式或目标模式的变形,将源模式和目标模式整合为ー个结果模式。整合后的模式包含所有源模式和目标模式中的信息,并且没有冗余。图5所示为源模式和目标模式的整合結果。在本发明实施例的模式映射系统中,模式匹配装置包括模式规范化模块,接收对象的源模式和目标模式作为输入,对源模式和目标模式的属性和值进行规范化处理,以使得所述属性和值更加可比较;模式匹配模块,与所述模式规范化模块相连接,接收已由所述模式规范化模块进行了规范化的属性和值,并计算源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度;匹配映射计算模块,与所述模式匹配模块相连接,接收由所述模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度,从而计算所述源模式和目标模式的对应项之间的综合相似度并生成所述匹配结果映射。在本发明实施例的模式映射系统中,模式整合装置包括结构推理模块,与所述匹配映射计算模块相连接,接收所述匹配映射计算模块所生成的匹配结构映射,井根据所述匹配结果映射推理实际映射情況;结构变形模块,与所述结构推理模块相连接,根据所述接收推理模块输出的所述实际映射情况对所述源模式或所述目标模式进行变形,以生成所述整合的模式。下面,将參考图6来详细描述本发明实施例的模式映射系统,图6是示出了本发明实施例的模式映射系统的框图。如图6所示,本发明实施例的模式映射系统10包括模式规范化模块20,模式匹配模块21,匹配映射计算模块22,结构推理模块23和结构变形模块24。其中,模式规范化模块20接收例如如图4所示的源模式和目标模式作为输入,从而对源模式和目标模式的属性和值进行规范化,以使得所述属性和值更加可比较。模式匹配模块21与模式规范化模块20相连接,接收已由模式规范化模块20进行了规范化的属性和值,并计算属性-属性匹配相似度,值-值匹配相似度和属性-值交叉匹配相似度。匹配映射计算模块22与模式匹配模块21相连接,接收由模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度,值-值匹配相似度和属性-值交叉匹配相似度,从而计算源模式和目标模式的对应项之间的综合相似度并生成匹配结果映射。结构推理模块23与匹配映射计算模块22相连接,从匹配映射计算模块22接收匹配结果映射,并根据匹配结果映射推理实际映射情況。结构变形模块24与结构推理模块23相连接,根据接收推理模块23输出的实际映射情况对源模式或目标模式进行变形,以生成整合的模式,例如如图5所示整合后的模式。本系统的输入是两个模式源模式和目标模式,例如如图2所示的。系统的输出是ー个整合的模式,例如如图5所示的。并且,中间结果为记录对应项的匹配结果映射,例如如图4所示的。下面,将对上述模式映射系统10的每个模块进行具体说明。首先说明模式规范化模块20。在实际引用中,虽然网页中的表格在视觉上是结构化的,但是实际上并没有设计为关系表格,并且描述风格和措词也是多祥的。以数码相机产品为例,销售网站多倾向于列举用户感兴趣并易于理解的通用特征作为产品说明;而产品的官方网站往往给出详尽的偏向技术细节却不易理解的属性作为产品描述。由于无法给出确切地定义某一对象的哪ー个属性是重要的,相似的模式结构并不说明内容也是相似的,也就是说模式中的结构信息对于匹配是无用的。因此,在本发明实施例的模式规范化模块20中,首先规范化模式中的属性,平滑掉对匹配无用的信息。在本发明实施例的模式映射系统中,属性的规范化包括平滑层次关系抽取从根到当前元素的绝对路径信息;和平滑模式中各元素的位置先后关系。图7示出了本发明实施例中的模式的层次关系和位置顺序信息。层次关系即是树中的父子关系,比如路径“Specification->Type->RecordingMedia”中的层次关系为'Specification”为“Type”的上层(父节点);同时“Type”是“RecordingMedia”的上层(父节点)。位置顺序关系是节点在树中出现的顺序,比如各个属性的位置顺序为:“Type”,“RecordingMedia”,“ImageSensorSize”,“LensMount”,“Type”,“Pixels,,,“TotalPixels”等。在本发明实施例的模式规范化模块中,规范化模式的属性的方法可以包括I)使用从根到当前元素的绝对路径作为属性,(路径;当前元素的属性),比如(Specification,Type;Type)(Specification,Type!RecordingMedia)(Specification,Type;ImageSensorSize)(Specification,Type;LensMount)(Specification,ImageSensor;Type)(Specification,ImageSensor;Pixels)(Specification,ImageSensor;TotalPixels)2)忽略路径信息,只考虑当前元素的属性,(当前元素的属性)。通过上述两种属性的规范化方法,属性都不再保有层次信息和位置顺序信息。当然,本领域技术人员可以理解,这里属性的规范化方法也可以采用现有技术当中的其它方法,本发明的实施例并不意在对此进行限制。上面对于模式规范化模块20的对于模式的属性的规范化进行了说明,下面将说明值规范化。在本发明实施例的模式映射系统中,值的规范化包括值为复合的简单短语时,分离处于并列关系的简短短语以成为简短短语集合的形式;值为值表达式时,借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位的形式;值为复合的值表达式时,分离处于并列关系的值表达式,并借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位集合的形式;值为表格和列表吋,分解表格和列表的项,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式;值为解释性段落吋,从解释性段落中抽取关键词语,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式。相比于关系数据库中的表格和结构化的XML文档,网页中的表格没有元信息其中的值只以无结构的字符串纯文本形式存在,没有任何类型,表约束,取值范围,命名空间等元信息;而元信息可以帮助建立结构化数据之间的联系。因此,本发明实施例的模式规范化模块20在进行值的规范化处理时,是将这些无结构的纯文本形式的值转化为结构化形式,即为所述值创建部分元信息,使得它们更加可比较。表I中列举了网页表格中值的各种形式的ー个示例,而表2中列举了对应的规范化后的值的相应示例。表I:网页表格中值的形式、值的形式属性-值示例筒短短语ProducttypeDigitalcamera-SLR复合的筒短短SpecialeffectsNeutral,Faithful,Portrait,Landscape,语Monochrome值表泛式Resolution18megapixels复合的值表达DimensionsApprox.5.8*4.4*2.9in.式_(W*H*D)__表格或列表VideoOutVideooutterminal:NTSC/PALselectableTerminalMmi-HDMIoutterminal解释性段落AF-assistBeamWhenanexternalEOS-dedicatedSpeedliteisattachedtothecamera,theAF-assistbeamfromtheSpeedlitewillbeemittedwhennecessary表2:规范化的结果值的形式—规范化示例筒短短语Digitalcamera-SLRくDigitalcamera-SLR>复合的筒短Neutral,Faithful,Portrait,くNeutral〉くFaithful〉くPortrait〉短语Landscape,MonochromeくLandscape〉くMonochrome〉值表泛式18megapixels<18(value)+megapixels(unit)>复合的值表Approx.5.8*4.4*2.9in.<5.8+in><4.4+in><2.9+权利要求1.一种基于混合属性-值匹配的模式匹配系统,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配系统包括模式规范化模块,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。2.一种基于混合属性-值匹配的模式映射系统,包括模式匹配装置,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配装置对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化处理是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息;模式整合装置,与模式匹配装置相连接,用于根据所述模式匹配装置生成的所述匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。3.根据权利要求2所述的模式映射系统,其中,所述模式匹配装置包括模式规范化模块,接收对象的源模式和目标模式作为输入,对源模式和目标模式的属性和值进行规范化处理,以使得所述属性和值更加可比较;模式匹配模块,与所述模式规范化模块相连接,接收已由所述模式规范化模块进行了规范化的属性和值,并计算源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度;匹配映射计算模块,与所述模式匹配模块相连接,接收由所述模式匹配模块计算出的源模式和目标模式之间的属性-属性匹配相似度、值-值匹配相似度和属性-值交叉匹配相似度,从而计算所述源模式和目标模式的对应项之间的综合相似度并生成所述匹配结果映射。4.根据权利要求3所述的模式映射系统,其中,所述模式整合装置包括结构推理模块,与所述匹配映射计算模块相连接,接收所述匹配映射计算模块所生成的匹配结构映射,井根据所述匹配结果映射推理实际映射情况;结构变形模块,与所述结构推理模块相连接,根据所述接收推理模块输出的所述实际映射情况对所述源模式或所述目标模式进行变形,以生成所述整合的模式。5.根据权利要求3所述的模式映射系统,其中,所述值的规范化处理包括值为复合的简单短语时,分离处于并列关系的简短短语以成为简短短语集合的形式;值为值表达式时,借助于领域无关的度量単位字典来分离值表达式中的数值和度量单位以成为数值+度量単位的形式;值为复合的值表达式时,分离处于并列关系的值表达式,并借助于领域无关的度量单位字典来分离值表达式中的数值和度量单位以成为数值+度量単位集合的形式;值为表格和列表时,分解表格和列表的项,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式;值为解释性段落吋,从解释性段落中抽取关键词语,以成为简短短语或简短短语集合,以及数值+度量単位或数值+度量単位集合的形式。6.根据权利要求5所述的模式映射系统,其中,所述值-值匹配相似度计算包括在所述源模式和目标模式的值均为简短短语或简短短语集合时,对于源模式和目标模式的两个简短短语集合中的每ー个简短短语,使用字符串相似度度量来计算相似度,并取平均值作为值-值匹配相似度;在所述源模式和目标模式的值均为数值+度量単位或数值+度量単位集合时,对于源模式和目标模式的两个数值+度量単位集合中的每ー个数值+度量単位,借助于领域无关的度量単位字典来计算相似度,并取平均值作为值-值匹配相似度;在所述源模式和目标模式的值为简短短语集合和数值+度量単位集合的结合时,对于源模式和目标模式的简短短语集合中的每ー简短短语和数值+度量単位集合中的每ー数值+度量単位,使用字符串相似度度量来计算相似度,并取平均值作为值-值匹配相似度。7.根据权利要求3所述的模式映射系统,其中,所述源模式和目标模式的对应项之间的综合相似度为Score=α·Scoreattr+β*Scoreval+(I-α-β)·Scorecross其中,Scoreato为所述属性-属性匹配相似度,Scoreval为所述值-值匹配相似度,SCOrec;MSS为所述属性-值交叉匹配相似度;α和β为权重,并满足如下关系0彡β彡1,O彡α彡1,0彡α+β彡I。8.根据权利要求3所述的模式映射系统,其中,所述匹配映射结果的生成包括生成所述源模式到所述目标模式的匹配映射对源模式中的每个元素i,取Scoreti]中分数最高的Score[i][j],目标模式中的元素j即为元素i的对应项,将<i,j>添加到匹配映射中;生成所述目标模式到所述源模式的匹配映射对目标模式中的每个元素P,取Score1[p]中分数最高的Score1[p][q],其中Score1口□为Score口[]的转置矩阵,源模式中的元素q即为元素P的对应项,将〈P,q>添加到匹配映射中。9.一种基于混合属性-值匹配的模式匹配方法,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成,所述模式匹配方法包括对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。10.一种基于混合属性-值匹配的模式映射方法,包括模式匹配步骤,用于匹配对象的源模式和目标模式中的对应项以生成匹配结果映射,模式代表对象的副本,并由具有层次结构的属性-值对组成,其中所述模式匹配步骤对源模式和目标模式中的值进行规范化处理,以匹配源模式和目标模式中的对应项,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加兀彳曰息;模式整合步骤,用于根据所述模式匹配步骤生成的匹配结果映射来整合所述源模式和目标模式,以生成整合的模式。全文摘要公开了基于混合属性-值匹配的模式匹配系统、模式映射系统、模式匹配方法和模式映射方法,用于匹配对象的源模式和目标模式中的对应项,模式代表对象的副本,并由具有层次结构的属性-值对组成。其中,对源模式和目标模式中的值进行规范化,以用于源模式和目标模式中的对应项的匹配,所述规范化是指将源模式和目标模式中的值的无结构的纯文本形式转化为结构化形式,即为所述值添加元信息。通过上述模式匹配和模式映射系统及方法,可以使得源模式和目标模式的对应项的值更加可比较,减小了相似度计算的粒度,从而提高了模式匹配的精度。并且,由于无需引入领域相关的表单、词典以及本体知识,可以降低系统的成本,并便利用户的使用。文档编号G06F17/30GK102646099SQ20111004175公开日2012年8月22日申请日期2011年2月21日优先权日2011年2月21日发明者姜珊珊,孙军,谢宣松,赵利军,郑继川申请人:株式会社理光
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1