用于自动建立网络上信息对象之间层次结构的方法和系统的制作方法

文档序号:6614801阅读:174来源:国知局

专利名称::用于自动建立网络上信息对象之间层次结构的方法和系统的制作方法
技术领域
:本发明涉及信息层次结构(hierarchy)的自动建立以及Web上的领域(domain)知识收集以及层次结构建立/生成,更具体而言,本发明涉及用于自动建立网络上针对特定领域中的信息对象之间的层次结构的方法和系
背景技术
:计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。虽然计算机在进行诸如计算、存储或搜索之类的信息处理时速度很快,但其无法理解信息,这成为智能信息处理的主要障碍。为了解决这个问题,最近用于智能信息处理的语义相关研究变得非常流行。例如,在T.Berners-Lee、J.Hendler禾口0.Lassila的题为"TheSemanticWeb"(ScientificAmerican,2001年5月,第28-37页)、NigelShabolt、TimBemers-Lee和WendyHall的题为"TheSemanticWebRevisited"(IEEEIntelligentSystems21(3),第96-101页,2006年5月、6月)以及E.Hyvonen(编者)的题为"SemanticWebKick-OffinFinland—Vision,Technologies,Research,andApplications"(HIITPublications,2002-001,HelsinkiInstituteforInformationTechnology(HIIT),Helsinki,Finland,第304页)中所描述的技术,这些文档通过引用被整体上结合于此以用于所有目的。它们的主要用途是帮助计算机理解信息的格式和技术。基于某些算术逻辑,例如描述逻辑和框架逻辑,根据人工智能(AI)传统规律的知识表示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类的标准制订组织正在积极制订XML(可扩展标记语言)、RDF(资源描述框架)和OWL(Web本体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实际应用来使得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力和语义相关标准向Web用户提供不同的智能信息利用服务,领域知识在其中扮演非常关键的角色。因此,领域知识的建立成为一个急需解决的重要问题。当前,主要存在两种领域信息,即本体(ontology)和层次结构。本体是一种文档或文件,其对特定领域中的知识进行抽象,以描述其中的概念和概念之间的关系。用于Web的最典型本体具有分类系统(taxonomy)和一组推理规则(inferencerule)。其中分类系统定义了对象类以及它们之间的关系。层次结构包含节点和连接节点的边,有时在节点处附接有实例(instance)。与本体相比,层次结构是一种更简单的形式。本体中的很多元素(例如类、属性、定义和关系)在层次机构中可被忽略。但是,这些元素也可以通过某些方式从层次结构中推导出来。因此,层次结构可被视为一种伪本体,其具有明确但不正式的规范。在现有技术中的本体建立(OB)方法主要分为两类。即基于原始素材(rawmaterial)的本体建立和基于某些已有本体的本体建立。在基于原始素材的本体建立方法中,例如可以根据词的共同发生关系(co-occurrence)、语言学规律、字典等来建立本体。在基于某些己有本体的本体建立方法中,通过对比概念的文本、上下文等,将若干已有本体集成在一起以得到一种最终本体。虽然本体对于语义Web和相关服务是非常重要的,但是要想自动建立正式本体会遇到很多困难,这是因为本体通常包含很多内容,例如类、类定义、类关系、属性等等,而即使通过人为干预,也难以填满所有这些内容。因此,显而易见,本体的复杂格式阻碍了其在Web服务,特别是某些实时服务中的大规模应用。此外,本体集成通常是通过人为交互来进行的,它不像层次结构的集成那样易于自动实现。鉴于此,本发明将主要针对特定领域中对象(产品)之间的层次结构的建立方法进行描述。在现有技术中,存在多种层次结构建立(HierarchyBuilding,HB)的方法。例如,在日本专利JP5-233416[9]中描述了一种用于帮助人们设计层次结构的HB方法(下称第一HB方法)。具体而言,当用户需要向层次结构添加新部件时,该HB方法检查层次结构上的现有部件并通知用户该新部件是否会与某些现有部件产生冲突。此外,在日本专利JP2001-306377[10]中也公开了一种用于HB的方法和系统(下称第二HB方法),其允许多个用户一起编辑同一层次结构并最终将他们各自的结果集成。再有,在日本专利JP2001-34635[11]中公开了另一种基于Web的HB方法(下称第三HB方法)。具体而言,该方法从每个网页提取出一个节点,然后基于网页之间的链接建立层次结构关系。但是该方法没有建立所有网页之间的关系,而是仅仅对同种网页进行操作。例如,两个产品网页之间的链接会被保存,但是一个产品网页和一个广告网页之间的链接将被忽略。这里,以上专利通常引用被整体上结合于此以用于所有目的。但是,现有技术中的HB方法具有缺陷。例如,第一HB方法只涉及层次结构的编辑,而没有关注层次结构的取得、提取和集成,并且该方法需要依赖于人为干预来解决冲突而无法实现自动操作。对于第二HB方法,它是基于数据库而非Web站点来进行层次结构的编辑。但是,数据库通常无法获得,它不像Web站点那样具有一般性。对于第三HB方法,它只能考虑到一个或两个层次结构,而无法处理更多层次结构。
发明内容鉴于上述现有技术的HB方法所具有的缺陷,作出了本发明,其用于有效地建立特定领域的对象(产品)之间的层次结构。根据本发明的一个方面,提供了一种用于自动建立对象类别之间的层次结构的方法,其包括获取与预定领域相关的一组URL;检索得到与所述URL组中的各个URL相对应的网站的集合;针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个对象类别;以及集成所述网站集合中的所有网站的层次结构以生成集成层次结构。根据本发明另一方面,提供了一种用于自动集成层次结构的方法,包括获取与预定领域相关的第一URL和第二URL;检索得到与所述第一URL和所述第二URL相对应的第一网站和第二网站;提取出分别对应于所述第一网站和第二网站的第一层次结构和第二层次结构,所述第一和第二层次结构中的任意一个上的每个节点代表相应网站中涉及的所述预定领域的一个对象类别;以及通过执行操作来集成所述第一和第二层次结构以生成集成层次结构。其中所述集成第一和第二层次结构的操作包括以下步骤计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;存储计算出的所有所述关系;根据存储的各个所述关系来确定应该对相应节点执行的操作;以及对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。根据本发明的另一方面,提供了一种用于自动建立对象类别之间的层次结构的系统,其包括URL获取装置,用于获取与预定领域相关的一组URL;URL存储库,用于存储所述URL获取装置获取的URL组;网站检索装置,用于检索所述URL存储库中存储的各个URL相对应的网站的集合;层次结构提取装置,用于针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个对象类别;以及层次结构集成装置,用于集成所述网站集合中的所有网站的层次结构以生成集成层次结构。根据本发明的又一方面,提供了一种用于自动集成层次结构的系统,包括URL获取装置,用于获取与预定领域相关的第一URL和第二URL;URL存储库,用于存储URL;网站检索装置,用于检索得到与所述第一URL和所述第二URL相对应的第一网站和第二网站;层次结构提取装置,用于提取出分别对应于所述第一网站和第二网站的第一层次结构和第二层次结构,所述第一和第二层次结构中的任意一个上的每个节点代表相应网站中涉及的所述预定领域的一个对象类别;以及层次结构集成装置,用于集成所述第一和第二层次结构以生成集成层次结构。其中所述层次结构集成装置包括读取单元,用于读取所述第一层次结构和所述第二层次结构;关系计算单元,用于计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;关系存储器,用于存储计算出的所有所述关系;操作确定单元,用于根据存储的各个所述关系来确定应该对相应节点执行的操作;以及操作执行单元,用于对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。在本发明的某些实施例中,对象之间的层次结构是基于网页并通过某种递增的方式来建立的。具体而言,首先一组URL被输入到系统。然后系统下载与URL组对应的网站并从网站中提取层次结构(以及实例)。然后,所有提取出的层次结构被逐个集成以生成针对特定领域对象的集成层次结构。当获得新的URL时,系统重复以上过程并将新的层次结构与现有的当前层次结构集成。此外,在提取出层次结构之后,系统也可以通过搜索因特网来寻找具有类似层次结构的新网站(URL)。根据本发明,可以重复利用Web站点中的现有知识并且能够尽可能多地反映出对世界/领域的公共理解。此外,显而易见,这种递增的HB体系结构使得易于连续更新领域知识,即层次结构。当新的层次结构被提取出时,它可以被容易地集成到现有的层次结构中。并且这种层次结构的集成可以自动实现,而无需像本体集成那样需要人为交互。此外,利用本发明,不仅能够提取出对象之间的层次结构,还可以提取出对象实例以及它们之间的关系,这可以确保尽可能完备的知识收集。此外,本发明所提供的实例映射方法可以用来处理不带有分类信息的对象。具体而言,当一个对象没有与层次结构相关联时,该对象的内容被自动分析,并且通过将该对象的实例映射到已经生成的层次结构来得到其与层次结构之间的关系。通过这种实例映射,即使一个对象没有与层次结构中的分类信息相关联,也可以将其放置到层次结构上的正确位置上。此外,本发明所公开方法和系统还包含冲突解决机制。在集成过程中,不同层次结构上的冲突部分可以被自动检测并解决。从下面结合附图的详细描述中,可以看出本发明的其他特征和优点。注意,本发明并不限于图中所示的示例或者任何具体的实施例。结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似的参考标记指示类似的部分,其中图1是示出根据本发明第一实施例的层次结构建立系统的一个示例100的结构框图2是示出图1所示层次结构建立系统100的操作过程200的流程图3是示出根据本发明第一实施例的层次结构建立系统的另一示例100a的结构框图4是示出根据本发明的层次结构集成装置的内部结构的详细框图5是示出图4所示层次结构集成装置的操作过程500的流程图6是示出根据本发明的层次结构集成装置的第一简化示例的结构框图7是示出图6所示层次结构集成装置的操作过程的流程图8A和8B是用于说明图7所示层次结构集成过程的示例性示意图,其中分别对应于网站1和网站2的层次结构Ll和L2被集成为集成层次结构L;图9是根据本发明的层次结构集成装置的第二示例中的层次结构Ll和L2的节点关系计算过程的总体流程图9A示出图9所示节点关系计算过程中的子过程Al的流程图,其图示出两个节点A和B都不是组合节点的情况;图9B示出图9所示节点关系计算过程中的子过程A2的流程图,其图示出两个节点A和B之一是组合节点的情况;图9C示出图9所示节点关系计算过程中的子过程A3的流程图,其图示出两个节点A和B都是组合节点的情况;图10是根据本发明的层次结构集成装置的第二示例中的层次结构集成过程的总体流程图IOA示出图10所示层次结构集成过程中的子过程B1的流程图,其图示出节点A和B为l:l映射时的操作;图IOB示出图10所示层次结构集成过程中的子过程B2的流程图,其图示出节点关系表中存在l:n映射时的操作;图IOC示出图IOB所示l:n映射操作中的子过程B3的流程图,其图示出对应属性值节点操作;图10D示出图10B所示l:n映射操作中的子过程B4的流程图,其图示出RHnclude(包括关系)情况下的操作;图IOE示出图IOB所示l:n映射操作中的子过程B5的流程图,其图示出8132,...811是层次节点情况下的操作;图IOF示出图IOB所示l:n映射操作中的子过程B6的流程图,其图示出81^2,...811是兄弟节点情况下的操作;图11是根据本发明第二实施例的层次结构建立系统1100的结构框图12是示出图ll所示实例映射装置的内部结构的详细框图;图13是示出用于本发明第二实施例的实例映射过程的分层字典和集成的集成层次结构之间的结构关系的示意图;以及图14是示出实例映射过程的一个示例的示意图。具体实施例方式下面参考附图描述根据本发明的示例性实施例。应当意识到,所描述的实施例仅是用于举例说明的目的,本发明并不限于所描述的具体实施图1是示出根据本发明第一实施例的层次结构建立系统的一个示例100的结构框图。如图所示,该系统100包括URL用户输入接口101、网站检索装置102、层次结构提取装置103和层次结构集成装置104,并且还包括URL存储库105、层次结构存储库106和实例存储库107。图2是示出图1所示层次结构建立系统100的操作过程200的流程图。如图所示,在步骤201中,通过URL用户输入接口101,系统100获取与预定领域相关的一组URL作为输入。所述领域可以由用户预先确定,例如是"服装"领域、"防毒软件"领域等等。这里假设用户确切地知道感兴趣领域中的所有URL,并通过URL用户输入接口IOI将它们直接输入并存储在URL存储库105中。如果用户对某些URL不确定,则可以仅仅输入某些关于领域的相关信息(例如关键字、实例、样本网站、层次结构或本体等等),并通过使用URL生成器来产生与领域相关的URL。并且,用户还可以在层次结构集成的过程中搜索新的URL并对生成的层次结构逐步进行更新。所述这些内容随后将更详细描述。在该实施例中,假设用户预先知道相关领域的所有URL并通过URL用户输入接口101直接存储到URL存储库105中以供系统100使用。接下来,在步骤202中,网站检索装置102检索出与URL存储库105中存储的URL相对应的网站并将它们发送到层次结构提取装置103。然后在步骤203中,层次结构提取装置103针对从网站检索装置102输入的每个网站提取出一个层次结构,其中所述层次结构上的每个节点代表预定领域中的一个对象类别。例如,如随后将描述的图6A所示,分别针对网站1和网站2提取出层次结构Ll和L2。在该示例中,所涉及的对象领域例如是"服装",而层次结构上的节点所对应的不同对象类别分别对应"男装"、"女装"、"童装"、"内衣"等等。本领域技术人员将会意识到,步骤203中提取不同网站层次结构的方法是多种多样的,本领域公知的任何层次结构提取方法都可被用于本发明,因此这里不再对此进行赘述。由层次结构提取装置103提取出的层次结构被存储在层次结构存储库106中。另外,在其他实施例中,层次结构提取装置103还可被配置为提取出对应于各个对象的实例,并将它们存储在实例存储库107中。然后,在步骤204中,层次结构集成装置104读取存储在层次结构存储库106中的层次结构,并且可选地读取来自实例存储库107的实例信息,并且基于这些信息将对应于各个网站的层次结构集成为针对所述预定领域的一个集成层次结构。该集成层次结构随后被存储回层次结构存储库106。在本发明的某些实施例中,多个层次结构的集成可以采取不同方式,例如可以采取层次结构两两集成的方式或多个层次结构同时集成的方式。在两两集成方式被采用的情况下,可以依据以下集成过程HI+H2^H[l+2]H[l+2]+H3》H[1+2+3]H[1+2+3]+H4+H[1+2+3+4]H[l+2+3+…+(N-l)]+HN》H[l+2+3+4+…+N]由此可见,在采取两两集成方式的情况下,第一层次结构Hl先与第二层次结构H2集成以生成集成层次结构H[l+2]。然后,生成的集成层次结构H[l+2]再与第三层次结构H3集成以生成新的集成层次结构H[1+2+3]。以此类推,直到相关领域内所有提取出的层次结构都被集成,从而生成最终的集成层次结构H[l+2+3+4+…+N]为止,其中N表示层次结构提取装置103提取出的层次结构的数目。对于该种集成方式,不仅可用来集成来自于网页上的层次结构,也同样可以对存储在数据库中或者以其他形式存在的层次结构进行集成。另外,在多个层次结构同时集成的方式被采用的情况下,可以依据以下集成过程来进行集成Hl+H2+H3+…+丽》H[1+2+3+..,+N]在此情况下,由层次结构提取装置103提取出的所有层次结构被同时集成,以得到最终的集成层次结构H[l+2+3+4+...+N]。当然,多个层次结构之间的集成方式并不局限于这里所述的示例,本领域技术人员可以设想其他合适的方式来进行层次结构的集成。另外,层次结构之间的集成可以采取各种标准。在某些实施例中,例如,可以根据各个层次结构之间的节点关系进行集成。关于层次结构的集成过程将在下文中将更详细描述。随后,在集成生成集成层次结构之后,过程200结束。如前文所述,在用户不确切地知道相关领域的所有URL的情况下,用户可以通过输入领域相关信息并利用URL生成器来得到所需URL。图3是示出根据本发明第一实施例的层次结构建立系统的另一示例100a的结构框图。在该示例中,图1中用于输入URL的URL用户输入接口101被信息输入单元108和URL生成单元109所取代,以实现所需URL的自动生成。类似于图1,由URL生成单元生成的URL随后也被存储在URL存储库105中。此外,相对于图1,图3所示系统100a还包括URL搜索装置110,其在分析存储在层次结构存储库106中的集成后的层次结构上的节点之后,搜索与该领域相关的新的URL,并将新的URL存储到URL存储库105中。对于URL存储库105中存储的新的URL,网站检索装置102、层次结构提取装置103和层次结构集成装置104重复上述过程200以不断更新所述领域的集成层次结构。例如,在一个实施例中,可以将已经生成的集成层次结构上的全部或部分节点作为检索词发送到搜索引擎(未示出)。然后,所述搜索引擎基于输入的检索词周期性地执行搜索以获取一组URL。与获取的这组URL相对应的网站集合中的每个网站随后被检查,以提取出每个网站对应的层次结构。然后,这些新得到的层次结构被与已经生成的集成层次结构相比较。如果一个网站所对应的层次结构与集成层次结构之间重合节点的数目达到预定阈值,则将对应于该网站的URL视为一个新的URL并将其存储到URL存储库105中。然后,如上所述,对于URL存储库105中存储的每个新的URL,网站检索装置102、层次结构提取装置103和层次结构集成装置104重复操作以实现所述领域的集成层次结构的不断更新。除此之外,图3所示系统100a中的其他组件与图1所示系统100类似,因此这里不再对它们进行赘述。下面,将对层次结构集成过程进行详细描述。图4是示出图1和3所示的层次结构集成装置104的内部结构的详细框图。如图所示,在该实施例中,层次结构集成装置104包括读取单元401、关系计算单元402、关系存储器403、操作确定单元405和操作执行单元406。此外,该层次结构集成装置104还包括可选的(虚线框示出)关系判决单元404和节点预处理单元407,它们根据实际应用的需求被并入到系统中。关于这两个可选单元的功能性描述随后将参考附图更详细地给出。首先,由读取单元401从层次结构存储库106中读出对应于各个网站的层次结构,然后在所有组件的协作下最终集成生成针对该领域的集成层次结构,并将其存储回层次结构存储库106。图5是示出图4所示层次结构集成装置的操作过程500的流程图。下面将结合图5对层次结构集成过程作详细描述。这里应该注意,图4和5所示层次结构集成装置的结构和工作过程仅仅作为示例。本发明并不局限于这里所述结构和工作过程。本领域技术人员容易想到,根据实际应用的需求,可以采用其他结构和操作规则来实现层次结构的集成。如图5所示,该层次结构集成过程500开始于步骤501,其中读取单元401从层次结构存储库106读取任意两个层次结构Ll和L2。然后,在可选步骤507处,节点预处理单元407可以根据应用需求对读取的层次结构Ll和L2上的节点进行预处理,以辅助之后节点关系计算过程以及层次结构集成过程的执行。这里,所述预处理过程主要用于检测对应属性值节点和组合节点。如果两个或更多个兄弟节点对应于同一属性的不同值,则将它们称为对应属性值节点,或彼此对应的属性值节点。例如,男装I女装、电动模型I遥控模型I合金模型(玩具领域)均可被视为对应属性值节点,其中"AIB"表示节点A和B是兄弟节点。关于对应属性值节点的判断方法如下如果两个兄弟节点A和B分别具有子节点C禾nD,并且满足1)C禾口D具有相同文本(节点名称);并且2)A和B的名称中具有反义或相同字,则认为节点A和B是对应属性值节点。例如,(男装—衬衫)I(女装^衬衫),A.text二男装,B.text二女装,其中表示父子关系,因此子节点0=0=衬衫。由于"男"和"女"是反义词(或者A和B具有相同字"装"),因此A和B是对应属性值节点。如果一个节点的文本中具有符号"/"、","、"、"以及"和",并且这些符号将节点文本分隔成具有类似长度的部分,则将这种节点称为组合节点。例如,"礼服/婚纱"、"帽子、眼镜和手套"这样的节点被称为组合节点。其中所述符号被称为"分隔符号"。然后在步骤502处,层次结构Ll和L2上的任意两个节点A和B之间的关系在关系计算单元402处被计算。节点之间的关系反映出节点对应的对象类别之间的关系,例如两个节点的对象类别可以相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖或者无关系。该关系可以由用户根据实际需求具体限定。节点之间关系的计算可以采用本领域公知的任何方法,例如可以采取基于文本的方法、基于上下文的方法或者基于实例的方法。在一个实施例中,当基于文本的计算方法被使用时,首先,利用词义排歧(WSD)确定文本的含义。然后使用某种本领域公知的相似性计算工具来计算文本之间的相似性。然后,通过引入阈值来将相似性度量转换为关系。具体地讲,例如,当两个节点A和B的文本为A.text=男装,B.text:男装时,节点A和B之间具有相同关系。当A.text:管理软件,B.text=管理工具时,节点A和B之间具有相似关系。当A.text=美白/防晒,B.text=防晒/保湿时,节点A和B之间具有交叉关系。当A.text=美白/防晒,B.text=防晒时,节点A和B之间具有交叉-覆盖关系。当A.text=防晒,B.text=美白/防晒时,节点A和B之间具有交叉-被覆盖关系。当A.text=魅力彩妆,B.text=彩妆时,节点A和B之间具有包括关系。当A.text=彩妆,B.text=魅力彩妆时,节点A和B之间具有被包括关系。以上给出的种种节点关系的定义仅仅作为本发明的示例。在不脱离本发明的精神和范围的情况下,根据实际应用,本领域技术人员容易想到其他标准或规则用来定义不同的节点关系。例如,在随后将描述的图6和7中示出了一种基于文本的节点关系计算以及层次结构集成的简化示例,其中出现在网页上的对象名称的相似性(重合程度)被比较以确定相应节点之间的关系。在该示例中,节点之间的关系被简单限定为两种,即"有关系"和"无关系"。当计算出的反映对象名称之间的重合程度的值大于阈值时,确定节点之间"有关系",否则,确定节点之间"无关系"。当然,本发明所公开的节点关系计算方法并不局限于该简单示例,用户可以采用更多阈值或者更深入的分析方法来判断节点之间更复杂的关系,例如相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖等关系。例如,在随后将描述的图9、图9A-9C、图10以及图10A-10F中给出了更复杂的节点关系计算方法以及相应的层次结构集成。此外,在执行更复杂的关系分析时,类别(taxonomy)字典可以提供帮助。例如,在WordNet(http:〃wordnet.princeton.edu)中定义对象"人类"被对象"动物"所覆盖。此外,当某些层次结构是按照不同语言来描述的时,可以引入多语言字典来计算文本之间的相似性。另一方面,在基于上下文的计算分析中,不同层次结构上两个节点的子节点和兄弟节点被分析以确定这两个节点之间的关系。例如,如果两个节点具有很多"相同"子节点,则可以确定这两个节点也是"相同"的。在基于实例的计算分析中,则通过分析节点的共享实例来分析节点之间的关系。例如如果两个节点具有很多"相同的"实例,则确定这两个节点也是"相同的"。但是,用于计算节点之间关系的方法并不局限于这里所述示例。然后,在计算得到层次结构Ll和L2上的任意节点之间的关系之后,在步骤503处,所有关系被存储到关系存储器403。由于关系可能是从多个不同方面计算得到的,因此一对相同节点可能导出多种关系类型。因此,在步骤504处,可选的关系判决单元404对计算出的关系执行判决以确定任意两个节点之间的最终关系。然后在步骤505处,操作确定单元405读取关系并确定针对不同节点应该执行的操作。操作是可被选择的,例如合并操作(例如将节点A与节点B合并)、父子操作(例如将节点A作为节点B的父亲)、兄弟操作(例如将节点A作为节点B的兄弟)等等。这里,在操作确定单元405处执行的操作确定的规则可以是根据应用预先设立的,并在实际应用中根据节点之间的关系类型被调用。例如,下面给出一种示例性的规则1.如果节点A和B具有"相同"关系,则应该选择"合并"操作;2.如果节点A和B具有"覆盖"关系,则应该选择"合并"操作;并且3.如果节点A与一组节点(Bi,B2,BJ具有"覆盖"关系,则应该选择"父"操作,即将节点A作为节点BhB2,.,.,Bn的父节点。当然,本发明中执行操作确定所依据的规则并不局限于以上示例。本领域技术人员容易理解,在针对不同应用的情况下,可以根据应用具体需求设立不同的操作确定规则。然后在步骤506处,操作执行单元406针对不同节点执行在操作确定单元405处确定的操作,以将层次结构Ll和L2集成为集成层次结构L。然后,过程500结束。在完成层次结构Ll和L2的集成之后,针对层次结构存储库106中存储的其他层次结构重复以上过程500,以最终生成针对该领域的对象类别的集成层次结构。以上,已经参考图4和5对层次结构集成装置104及其层次结构集成过程进行了详细描述。下面,出与简化描述的目的并且为了便于理解,将参考图6、7、8A以及8B来描述层次结构集成的一种简化示例(以下称之为第一示例)。在该第一示例中,对象名称之间的重合程度(相似性)度量被用于表征节点之间的关系,节点之间的关系被简化成"有关系"和"无关系"两种,并且根据节点之间的关系所执行的操作包括合并操作和父子操作。其中,图6示出层次结构集成装置的第一示例的结构框图。图7是示出图6所示层次结构集成装置的操作过程700的流程图。图8A和8B是用于说明图7所示层次结构集成过程的示例性示意图,其中分别对应于网站1和网站2的层次结构Ll和L2被集成为集成层次结构L。首先,参考图6,该层次结构集成装置600包括读取单元601、重合度量计算单元602、阈值比较单元603,关系存储器604、操作确定单元605和操作执行单元606,其中重合度量计算单元602和阈值比较单元603一起构成关系计算单元610。在该示例中,读取单元601、关系计算单元610关系存储器604、操作确定单元605和操作执行单元606分别与图4所示读取单元401、关系计算单元402、关系存储器403、操作确定单元405和操作执行单元406相对应。在该示例中没有包括图4中的关系判决单元404,因为在该示例中,节点之间的关系仅仅被简化为"有关系"和"无关系"两种。下面将参考图7来描述层次结构集成装置600的工作过程。参考图7,在步骤701中,图6所示读取单元601首先从层次结构存储库106读取任意两个不同的层次结构,例如图8A所示的层次结构Ll和L2。然后在步骤702中,重合度量计算单元602计算两个层次结构上的任意两个节点(例如节点A和节点B)之间的重合度量M,该重合度量M用于表征节点A和B之间的重合程度。关于节点之间重合度量的计算,可以采用任意本领域公知的方法。例如,基于文本的计算方法、基于上下文的计算方法或者基于实例的计算方法均可被使用。在采用基于实例的重合度量计算方法的情况下,重合度量计算单元602将通过参考存储在实例存储库107中的对应于各个对象类别的实例来生成重合度量。然后,在步骤703中,阈值比较单元603将在步骤702中生成的任意两个节点A和B之间的重合度量M与预定阈值相比较以判断节点A和B之间是否具有关系。例如,如果M大于阈值,则表明节点A和B有关系(步骤704)。如果M不大于阈值,则表明节点A和B之间无关系(步骤705)。然后在步骤706中,两个层次结构(例如层次结构Ll和L2)中被判定为有关系的所有节点被记录到关系存储器604中。对于被判定为无关系的节点,则被忽略。例如,在图8A所示示例中,所有被判定为有关系的节点之间用虚线箭头相连。例如,层次结构Ll中的"男装"节点与层次结构L2中的"男式服装"节点被判定为有关系,并通过虚线箭头Hl相连。层次结构Ll中的"女装"节点与层次结构L2中的"女装/童装/内衣"节点被判定为有关系,并通过虚线箭头H3相连。类似地,在图8A中,层次结构Ll和L2之间有关系的节点分别通过虚线箭头Hl、H2、H3、H4、H5和H6相连。然后在步骤707中,针对所有在步骤706中记录下来的有关系的节点,操作确定单元605判断其是具有一对一(1:1)还是多对一(N:l)的关系。例如,在图8A所示示例中,关系Hl、H2、H4和H6分别为一对一(1:1)关系,而H3和H5构成多对一(在本示例中为2:1)关系。在该示例中,如果在步骤707处确定层次结构Ll和L2上的节点之间具有一对一的关系,则在步骤708处,操作确定单元605选择"合并操作"。相反,如果在步骤707处确定层次结构Ll和L2上的节点之间具有多对一关系,则在步骤509处选择"父子操作"。然后,在步骤710中,操作执行单元606执行所选操作。具体而言,参考图8B,层次结构Ll和L2之间具有一对一关系的节点(例如关系Hl、H2、H4和H6)被合并,而层次结构Ll和L2之间具有多对一关系的节点(例如关系H3和H5)被执行父子操作,从而得到如图8B所示的集成层次结构。在集成生成集成层次结构之后,过程700结束。如上所述,应该注意,图7所示层次结构集成过程仅仅作为一个示例,本发明并不局限于此,而是可以根据应用需求设计不同的集成规则。下面,将参考图9、图9A-9C、图IO以及图10A-10F描述一种更复杂的节点关系计算以及相应的层次结构集成的示例(以下称之为第二示例)。其中,图9是根据第二示例的层次结构L1和L2的节点关系计算过程的总体流程图。图9A-9C示出图9所示节点关系计算过程中的子过程Al-A3的流程图。图10是根据第二示例的层次结构集成过程的总体流程图。图10A-10F示出图IO所示层次结构集成过程中的子过程Bl-B6的流程图。首先,参考图9,其示出对于来自不同层次结构Ll和L2的任意两个节点A和B的关系计算。该过程被描述为节点关系计算进程A。在该示例中,首先定义每个节点关系伴随有两个参数,即prob和degree,其中"prob"表示关系判决的概率,而"degree"表示两个节点文本的重叠程度。因此节点A和B的计算结果被表示为一个3元组《relation,prob,degree}(或(R,P,D})。这里,出于简化说明的目的而定义了关系格式。本领域技术人员容易意识到,节点关系可以以任意其他适当的方式或格式被记录。对于任意节点A,如果该节点为组合节点,则A.Joint=true,否则,A.Joint=false。当计算节点A和B之间的关系时,首先,A和B的文本被比较。如果它们是相同的,则关系被认定为"相同",同时prob和degree被设置为1。如果它们不相同,则随后的进程被划分为三个子进程Al、A2和A3,它们分别对应于三种不同的情况。如果A和B都不是组合节点,则子进程Al被调用;如果A或B是组合节点,则子进程A2被调用;如果A和B都是组合节点,则子进程A3被调用。参考图9A,考虑节点A和B都不是组合节点的情况。在子进程Al中,A.text和B.text的重叠部分首先被计算。如果重叠部分是A.text,则说明B.text包括整个A.text,例如A.text="彩妆",B.text="魅力彩妆",则节点A和B的关系被设置为"被包括"。如果反之,则关系被设置为"包括"。否则,节点A和B的关系由A.text和B.text的重叠程度来判定。如果重叠程度不小于预定阈值Tl,例如0.8,则关系被设置为"相同"。例如A.text二"纯色指甲油",B.text="单色指甲油"。否则,如果重叠程度小于Tl但不小于阈值T2,例如0.5,关系则被设置为"相似"。例如A.text:"时间插件",B.text="颜色插件"。否则(重叠程度小于T2),关系被设置为"无关系"。例如A.text二"彩妆",B.text="颜色插件"。在以上情况下,如果关系不是"无关系",则参数degree(简记作D)被计算为D=same—len*2/(len(A.text)+len(B.text)),其中len(text)是计算文本长度的函数。对于参数prob(简记作P),如果在重叠部分中存在相同字(term),贝Uprob被设置为l,否则被设置为0.5。参考图9B,考虑节点A或B是组合节点的情况。在子进程A2中,组合节点的文本根据分隔符号被分隔成多个部分。然后每个部分根据子进程Al与另一节点的文本进行计算以得到关系。如果关系是"相同"、"包括"或"被包括",则该部分与另一节点被判定为有关系。如果所有这些部分都与另一节点有关系,则组合节点和另一节点的关系被设置为1)"相同",如果另一节点的整个文本也与组合节点的各个部分匹配;或者2)"交叉-被覆盖",如果只有另一节点的部分文本与组合节点的各个部分匹配。另一方面,如果不是组合节点的所有部分都与另一节点有关系,则组合节点与另一节点的关系被设置为1)"交叉-覆盖",如果另一节点的整个文本与组合节点的各个部分匹配;或者2)"交叉",如果只有另一节点的部分文本与组合节点的各个部分匹配。参考图9C,考虑节点A和B都是组合节点的情况。在子进程A3中,A.text和B.text都根据分隔符号被分隔成多个部分。然后,利用子进程Al,每个部分互相比较。如果没有匹配的部分,则两个节点"无关系"。如果两个节点的所有部分都匹配,则关系为"相同"。如果两个节点有匹配的部分,也都具有不匹配的部分,则关系为"交叉"。如果一个节点的所有部分都被包括在另一节点内,则关系为"交叉4皮覆盖"(反之为"交叉-覆盖")。下面,将参考图10和图10A-10F来描述基于节点关系的层次结构集成过程。给定两个层次结构Ll和L2,对于来自这两个不同层次结构的任意两个节点,首先利用图9、9A-9C的进程A计算出所有节点关系。如果返回的关系不是"无关系",则将计算结果以如下表的形式存储在关系存储器403(参考图4)中,其中每一行被称为一条记录节点关系表i<table>tableseeoriginaldocumentpage29</column></row><table>层次结构Ll和L2的集成过程如图10所示的层次结构集成进程B所示。这是一个逐步集成的过程。越可靠的记录被越早考虑。例如,P=l的记录比P<1的记录更可靠。类似地,D=l的记录比D<1的记录更可靠,并且其他关系都比相似关系更可靠。为了实现逐步集成,引入以下五个过滤条件(FC):Cl:P=1,D=1并且R;4目似;C2:P=l并且R;4目似;C3:R;4目似;C4:P4并且R二相似;以及C5:11=相似(实际上,如果R-相似,贝ljD;4。因此,Cl可以简化为"P=l并且D=l"。)在图IO所示进程B中,"根据FC过滤节点关系表"的意思是从节点关系表中选择满足FC的记录。例如,在表1中,如果FC被设置为Cl,则记录(Al,Bl,相同,1,1)被选择;如果FC被设置为C2,则记录(A1,Bl,...)、(A1,B2,…)和(A2,B4,…)被选择。"更新过滤条件Ci+Ci+1"的意思是将FC从Ci改变到Ci+l,i=l到4。如果FC被设置为C5,FC则无法继续更新。在图9的进程B中进入如下两个定义定义l:记录R^(Ai,Bj,...)是1:1映射。构建集合S={(Am,Bn,…)I(Am,Bn,…)e节点关系表—FC,m=i或n=j}。如果S^R山则&是1:1映射。定义2:记录集合Si={(At,Bh…),(A2,B2,…),...(Ak,Bk,...)}是l:n映射。构建集合S2={(Am,Bn,...)I(Am,Bn,...)e节点关系表—FC,m=l,2,…或k或『1,2,…或k》。如果八产八2=...=八1^或者81=82=.,.=81(,|S,|〉1并且S产S2,则Si是l:n映射(n=k)。在图IO所示的层次结构集成进程B中,对于1:1映射,子进程Bl被调用。对于l:n映射,子进程B2被调用。首先参考图10A来描述子进程B1,其对应于1:1映射操作的情况。对于1:1映射,无论两个节点之间的关系如何都将它们合并成一个节点。但是,这里要考虑两个更具体问题。一是集成顺序(IO),即哪个节点合并到哪个节点。二是文本完整,即确保合并节点的文本覆盖两个原始节点的文本。为了判断IO,需要一个集成顺序策略(IOS)变量。如果IOS被设置为"强制",则子进程Bl应该将B合并到A(即10=B今A)。这里"将B合并到A"意思是删除B并将B的所有后代节点由A继承。如果B被合并到A,则B被称为被合并节点,A被称为合并节点。默认的IOS是"强制"。其他选择还包括"深度优先"和"L1优先"。如果选择"深度优先",则子进程Bl应该将较浅的节点合并到较深的节点。否则,如果选择"L1优先",则子进程Bl应该将来自L2的节点合并到来自L1的节点。对于文本完整,如果关系是"交叉-被覆盖"或"交叉-覆盖",则合并节点的文本可能改变。例如,A.text="防晒/美白",B.text="美白",R="交叉-覆盖",IO=A^B,贝UB.text应该被改变为"防晒/美白"。该操作也被称为"完整化名称",例如在子进程B1、子进程B5和子进程B6中都被使用。另外,在执行操作之后,任意存储有A(或B)与其他节点的关系的其他记录都被删除,这表明Ll的节点将不与L2的多于一个节点合并。参考图10B来描述子进程B2,其对应于l:n映射操作的情况。对于l:n映射,这两组节点被分别称为l-节点和n-节点。映射只在n-节点是对应属性值节点、兄弟节点或层级节点时才被执行。在其他情况下,系统返回而不执行任意操作。这里首先给出层级节点的定义定义3:B,,B2,...Bn被称为层级节点,如果存在一个节点Bi,其中i=l,2,...或n,同时B!是任意Bj的祖先,其中j=l,2,…n并且j;^。称B,为集合(B,,B2,...BJ的祖先节点。参考图IOC,如果n-节点是对应属性值节点,则子进程B3被调用。在两种情况下可以执行两种操作1)n-节点被合并到l-节点。在此情况下,1-节点将n-节点作为子节点。然后将n-节点的文本修改为它们的父节点的文本;2)将1-节点合并到n-节点。在此情况下,把1-节点的实例分配到对应的n-节点上,然后删除l-节点。不同情况由IOS决定。如果n-节点是兄弟节点或层级节点,则首先,如果在n-节点中存在一个节点,其文本与1-节点的文本相同,则这两个节点被合并成一个。其次,如果所有关系都是"包括"并且存在一个节点具有最大映射程度(Drmax(D,,...,DJ),则该节点将1-节点作为子节点。在操作之后,存储在节点关系表中的某些关系被删除,以确保随后的操作将不会将1-节点移出其当前父节点之外。如果在以上进程中没有执行操作,并且n-节点是层级节点,则子进程B5(参见图10E)被调用。否则,如果n-节点是兄弟节点,子进程B6(参见图10F)被调用。在子进程B5中,如果1-节点和n-节点的祖先节点具有"相同"、"被包括"、"交叉"或"交叉-覆盖"关系,则将这两个节点合并为一个。否则,如果关系是"包括"或"交叉-被覆盖",并且n-节点中的另一个节点也具有"包括"或"交叉-被覆盖"关系,则将1-节点合并到那个节点。如果n-节点中有多于一个节点具有这些关系,则将1个节点与n-节点的祖先节点合并。在子进程B6中,1-节点将n-节点中除了具有"包括"或"交叉-被覆盖"关系的节点之外的所有其它节点作为子节点。在操作之后,存储在节点关系表中的某些关系被删除,以确保随后的操作将不会将这些n-节点移出到l-节点之外。以上已经参考图4至图10A-10F对根据本发明的层次结构集成过程进行了详细描述。下面将参考图11-14来描述根据本发明第二实施例的实例映射过程。如上所述,利用本发明,不仅能够提取出对象之间的层次结构,还可以提取出对象实例以及它们之间的关系,这可以确保尽可能完备的知识收集。首先参考图11,其示出根据本发明第二实施例的层次结构建立系统1100的结构框图。相对于图l所公开的第一实施例,除了与第一实施例一样具有的URL用户输入接口101、网站检索装置102、层次结构提取装置103、层次结构集成装置104、URL存储库105、层次结构存储库106和实例存储库107之外,第二实施例所公开的层次结构建立系统1100还包括实例映射装置1101和本体信息库1102。如图1所示,层次结构提取装置103除了能够提取出对应于各个网站的层次结构之外,还可以提取出与相关领域中的对象类别相对应的实例,并将所有实例存储在实例存储库107中。提取出的实例在层次结构集成过程中可被用来计算不同层次结构上的节点之间的关系。不同于第一实施例,图ll所示层次结构建立系统1100中的实例映射装置1101可被用于将不带有类别信息的对象实例映射到层次结构上的正确位置。本体信息库1102存储了与感兴趣的相关领域中的所有对象(产品)类别相对应的代表性描述(profile)。所述代表性描述是被预先存储的,并且获取代表性描述的方法可以采用本领域技术人员已知的所有技术。图12示出了图11所示实例映射装置1101的内部结构的详细框图。如图所示,该实例映射装置1101包括分层字典生成单元1201、相似性计算单元1202和映射单元1203。在该实施例中,对象实例是通过以分层字典作为中介计算对象实例与分层字典上的相应节点处的代表性描述之间的相似性而被映射到层次结构上的相应节点的。因此,首先在分层字典生成单元1201处,从层次结构存储库106获取已经集成生成的集成层次结构,并通过参考本体信息库1102来生成分层字典。上面已经描述,本体信息库1102中存储有相关领域中所有对象(产品)类别相对应的代表性描述。分层字典生成单元1201通过读取相应对象类别的代表性描述而生成与集成层次结构在结构上相一致的分层字典。在实际应用中,该分层字典可以利用本领域已知的技术人工或自动获得。图13示出分层字典的一个示例。如图所示,该分层字典1302与集成层次结构1301在结构上相一致。对于分层字典的每一个节点,可能存在多个子字典或多个代表性描述,它们中的每一个可以是依赖于语言并且依赖于类别的。例如,对于分层字典上的每个节点,针对每种语言可能存在一个代表性描述,其包括用于描述相应对象类别中的对象的这种特定语言的所有相关关键字。然后,在生成分层字典之后,相似性计算单元1202从实例存储库107获取各个实例,并将获取的实例与分层字典的各个节点处的代表性描述相比较以确定该实例与集成层次结构上的各个节点之间的相似性度量。这里用于获取相似性度量的方法可以采取任何本领域公知的技术,例如传统的基于向量空间模型(VSM)或基于属性值的方法。所产生的相似性度量可被用于确定实例应该属于层次结构上相应节点处的对象类别的可能性。然后,映射单元1203根据相似性计算单元1202确定的每个实例与层次结构上相应节点之间的相似性度量将其映射到层次结构上的一个或多个节点。由此可见,根据实际实现方式的不同,一个实例可能属于所产生的层次结构上的一个对象类别,也可能属于多个对象类别。图14示出实例映射过程的一个示例的示意图。如图可见,对象实例集合1402中的对象实例1-6分别根据相似性计算结果被映射到分层字典1401上的相应节点,从而被映射到与分层字典1401在结构上相对应的层次结构上的相应对象类别。以上分别描述了本发明的第一实施例和第二实施例,其中涉及特定领域中对象之间的层次结构的集成以及对象实例到层次结构的映射。根据以上描述可以看出,本发明具有如下效果。在本发明的某些实施例中,对象之间的层次结构是基于网页来提取的,并且通过某种递增的方式来逐步集成建立针对特定领域的集成层次结构。具体而言,首先一组URL被输入到系统。然后系统下载与URL组对应的网站并从网站中提取层次结构(以及实例)。然后,所有提取出的层次结构被逐个集成以生成针对特定领域对象的集成层次结构。当获得新的URL时,系统重复以上过程并将新的层次结构与现有的当前层次结构集成。此外,在提取出层次结构之后,系统也可以通过搜索因特网来寻找具有类似层次结构的新网站(URL)。根据本发明,可以重复利用Web站点中的现有知识并且能够尽可能多地反映出对世界/领域的公共理解。此外,显而易见,这种递增的HB体系结构使得易于连续更新领域知识,即层次结构。当新的层次结构被提取出时,它可以被容易地集成到现有的层次结构中。并且这种层次结构的集成可以自动实现,而无需像本体集成那样需要人为交互。此外,根据本发明第二实施例,除了能够提取出对象之间的层次结构之外,本发明还可以提取出对象实例以及它们之间的关系,这可以确保尽可能完备的知识收集。此外,本发明所提供的实例映射方法可以用来处理不带有分类信息的对象。具体而言,当一个对象没有与层次结构相关联时,该对象的内容被自动分析,并且通过将该对象的实例映射到已经生成的层次结构来得到其与层次结构之间的关系。通过这种实例映射,即使一个对象没有与层次结构中的分类信息相关联,也可以将其放置到层次结构上的正确位置上。此外,本发明所公开方法和系统还包含冲突解决机制。在集成过程中,不同层次结构上的冲突部分可以被自动检测并解决。上面已经参考附图描述了根据本发明的具体实施例。但是,本发明并不限于图中示出的特定配置和处理。例如,在层次结构集成的过程中,可以按照实际需要制订不同的集成规则。并且分层字典的建立以及节点之间关系的计算可以采用本领域公知的任何现有技术。这里,为了简明起见,省略对己知方法技术的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。"机器可读介质"可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。权利要求1.一种用于自动建立网络上信息对象之间的层次结构的方法,包括获取与预定领域相关的一组URL;检索得到与所述URL组中的各个URL相对应的网站的集合;针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个信息对象类别;以及集成提取出的所有所述层次结构以生成对应于所述预定领域的集成层次结构。2.如权利要求1所述的方法,其中在所述集成步骤中,所述层次结构以两两集成方式或多个同时集成方式被集成,其中在所述两两集成方式中,提取出的针对各个网站的层次结构被两两逐个集成,即在将两个层次结构集成生成一个中间层次结构之后,再将下一层次结构与已经生成的所述中间层次结构集成,以此类推以得到最终的所述集成层次结构,其中在所述多个同时集成方式中,提取出的针对各个网站的所有层次结构被同时集成,以得到最终的所述集成层次结构。3.如权利要求2所述的方法,其中在所述两两集成方式中,以如下方式集成第一和第二层次结构以生成中间层次结构计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;存储计算出的所有所述关系;根据存储的各个所述关系来确定应该对相应节点执行的操作;以及对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。4.如权利要求3所述的方法,其中所述第一层次结构上的第一节点与所述第二层次结构上的第二节点之间具有多个关系,并且所述集成步骤还包括执行判决以确定所述第一和第二节点之间的唯一关系;并且根据所述确定的唯一关系来确定应该对所述第一和第二节点执行的操作。5.如权利要求3所述的方法,其中计算所述关系包括基于所述两个节点的文本的计算、基于所述两个节点之间的上下文的计算和基于所述两个节点的实例的计算。6.如权利要求3所述的方法,还包括对所述第一和第二层次结构上的节点执行预处理,以检测对应属性值节点和组合节点。7.如权利要求3所述的方法,其中所述计算出的所有所述关系以表格形式存储,所述表格中的每一行代表一条记录,其存储了所述第一和第二层次结构上的一对节点之间的关系。8.如权利要求7所述的方法,其中根据所述表格中存储的记录的可靠程度来逐步集成所述第一和第二层次结构上的各对节点,即记录的可靠性越高,相应节点对被越早集成。9.如权利要求3所述的方法,其中所述关系包括相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖和无关系。10.如权利要求3所述的方法,其中所述计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系的步骤包括计算用于表征所述两个节点之间的重合程度的度量;将所述计算出的重合程度度量与预定阈值相比较;以及如果所述重合程度度量大于所述阈值,则确定所述两个节点之间有关系,否则,确定所述两个节点之间无关系;并且所述确定应该执行的操作的步骤包括如果所述第一层次结构上的一个节点与所述第二层次结构上的一个节点有关系,则选择合并操作;或者如果所述第一层次结构上的一个节点与所述第二层次结构上的多个节点有关系,则选择父子操作。11.如权利要求1所述的方法,还包括提取出与每个所述信息对象类别相对应的实例;以及将提取出的实例映射到所述集成层次结构上的节点。12.如权利要求1所述的方法,还包括基于所述集成层次结构周期性地执行搜索以获取新的URL;并且针对每个所述新URL重复所述检索、提取和集成步骤以更新所述集成层次结构。13.如权利要求12所述的方法,其中搜索所述新的URL的步骤包括将所述集成层次结构上的全部或部分节点作为检索词发送到搜索引所述搜索引擎基于所述检索词周期性地执行搜索以获取一组URL;检索得到获取的所述URL组中的每一个URL对应的网站;提取出每个所述网站对应的层次结构;并且如果一个网站对应的层次结构与所述集成层次结构之间重合节点的数目达到预定阈值,则将对应于该网站的URL视为所述新的URL。14.如权利要求1所述的方法,其中所述获取一组URL的步骤包括由用户预先输入所述一组URL。15.如权利要求1所述的方法,其中所述获取一组URL的步骤包括输入关于所述预定领域的相关信息;以及基于所述相关信息,利用URL生成器产生所述一组URL。16.如权利要求11所述的方法,其中将所述实例映射到所述集成层次结构上的节点包括参考本体信息生成分层字典,所述本体信息包括与所述预定领域相关的各个信息对象类别的代表性描述,所述分层字典在结构上与所述集成层次结构相对应,并且所述分层字典的每个节点包括与所述集成层次结构上的相应节点处的信息对象类别相关联的一个或多个所述代表性描述;将所述实例与所述分层字典的各个节点处的所述代表性描述相比较以计算所述实例与所述集成层次结构上的各个节点之间的相似性度量;以及根据所述确定的相似性度量将所述实例映射到所述集成层次结构上的节点。17.如权利要求16所述的方法,其中所述代表性描述是依赖于语言和信息对象类别的。18.—种用于自动集成信息对象的层次结构的方法,包括读取第一层次结构和第二层次结构,其中所述第一和第二层次结构中的任意一个上的每个节点代表一个信息对象类别;并且通过执行以下操作来集成所述第一和第二层次结构以生成集成层次结构计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;存储计算出的所有所述关系;根据存储的各个所述关系来确定应该对相应节点执行的操作;以及对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。19.如权利要求18所述的方法,其中所述第一层次结构上的第一节点与所述第二层次结构上的第二节点之间具有多个关系,并且所述集成步骤还包括执行判决以确定所述第一和第二节点之间的唯一关系;并且根据所述确定的唯一关系来确定应该对所述第一和第二节点执行的操作。20.如权利要求18所述的方法,其中计算所述关系包括基于所述两个节点的文本的计算、基于所述两个节点之间的上下文的计算和基于所述两个节点的实例的计算。21.如权利要求18所述的方法,还包括对所述第一和第二层次结构上的节点执行预处理,以检测对应属性值节点和组合节点。22.如权利要求18所述的方法,其中所述计算出的所有所述关系以表格形式存储,所述表格中的每一行代表一条记录,其存储了所述第一和第二层次结构上的一对节点之间的关系。23.如权利要求22所述的方法,其中根据所述表格中存储的记录的可靠程度来逐步集成所述第一和第二层次结构上的各对节点,即记录的可靠性越高,相应节点对被越早集成。24.如权利要求18所述的方法,其中所述关系包括相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖和无关系。25.如权利要求18所述的方法,其中所述计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系的步骤包括计算用于表征所述两个节点之间的重合程度的度量;将所述计算出的重合程度度量与预定阈值相比较;以及如果所述重合程度度量大于所述阈值,则确定所述两个节点之间有关系,否则,确定所述两个节点之间无关系;并且所述确定应该执行的操作的步骤包括如果所述第一层次结构上的一个节点与所述第二层次结构上的一个节点有关系,则选择合并操作;或者如果所述第一层次结构上的一个节点与所述第二层次结构上的多个节点有关系,则选择父子操作。26.—种用于自动建立网络上信息对象类别之间的层次结构的系统,包括URL获取装置,用于获取与预定领域相关的一组URL;URL存储库,用于存储URL;网站检索装置,用于检索所述URL存储库中存储的各个URL相对应的网站的集合;层次结构提取装置,用于针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个信息对象类别;以及层次结构集成装置,用于集成提取出的所有所述层次结构以生成对应于所述预定领域的集成层次结构。27.如权利要求26所述的系统,其中所述层次结构集成装置被配置为采取层次结构两两集成的方式或多个同时集成方式中的一种来生成所述集成层次结构,其中在所述两两集成方式中,提取出的针对各个网站的层次结构被两两逐个集成,即在将两个层次结构集成生成一个中间层次结构之后,再将下一层次结构与已经生成的所述中间层次结构集成,以此类推以得到最终的所述集成层次结构,其中在所述多个同时集成方式中,提取出的针对各个网站的所有层次结构被同时集成,以得到最终的所述集成层次结构。28.如权利要求27所述的系统,其中在所述两两集成方式中,所述层次结构集成装置被配置为以如下方式集成第一和第二层次结构以生成中间层次结构计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;存储计算出的所有所述关系;根据存储的各个所述关系来确定应该对相应节点执行的操作;以及对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。29.如权利要求28所述的系统,其中所述第一层次结构上的第一节点与所述第二层次结构上的第二节点之间具有多个关系,并且所述层次结构集成装置还包括关系判决单元,用于执行判决以确定所述第一和第二节点之间的唯一关系,并且所述操作确定单元被配置为根据所述确定的唯一关系来确定应该对所述第一和第二节点执行的操作。30.如权利要求28所述的系统,其中所述关系计算单元基于所述两个节点的文本、所述两个节点之间的上下文或者所述两个节点的实例来执行所述计算。31.如权利要求28所述的系统,其中所述层次结构集成装置还包括节点预处理单元,其被耦合在所述读取单元和所述关系计算单元之间,用于对所述读取单元读取的第一和第二层次结构上的节点执行预处理,以检测对应属性值节点和组合节点。32.如权利要求28所述的系统,其中在所述关系存储器中,所述计算出的所有所述关系以表格形式存储,所述表格中的每一行代表一条记录,其存储了所述第一和第二层次结构上的一对节点之间的关系。33.如权利要求32所述的系统,其中根据所述表格中存储的记录的可靠程度来逐步集成所述第一和第二层次结构上的各对节点,即记录的可靠性越高,相应节点对被越早集成。34.如权利要求28所述的系统,其中所述关系包括相同、相似、包括、被包括、交叉、交叉-覆盖、交叉4皮覆盖和无关系。35.如权利要求28所述的系统,其中所述关系计算单元包括重合度量计算单元,用于计算用于表征所述两个节点之间的重合程度的度量;和阈值比较单元,用于将所述计算出的重合程度度量与预定阈值相比较,如果所述重合程度度量大于所述阈值,则确定所述两个节点之间有关系,否则,确定所述两个节点之间无关系;并且所述操作确定单元被配置用于如果所述第一层次结构上的一个节点与所述第二层次结构上的一个节点有关系,则选择合并操作;或者如果所述第一层次结构上的一个节点与所述第二层次结构上的多个节点有关系,则选择父子操作。36.如权利要求26所述的系统,其中所述层次结构提取装置还被配置为提取出与每个所述信息对象类别相对应的实例,并且所述系统还包括实例映射装置,用于将提取出的实例映射到所述集成层次结构上的节点。37.如权利要求26所述的系统,还包括URL搜索装置,用于基于所述集成层次结构周期性地执行搜索以获取新URL,并将所述新URL存储到所述URL存储库中,并且其中针对所述URL存储库中存储的每个新URL,所述网站检索装置、所述层次结构提取装置和所述层次结构集成装置重复操作以更新所述集成层次结构。38.如权利要求37所述的系统,其中所述URL搜索装置被配置为执行以下操作将所述集成层次结构上的全部或部分节点作为检索词发送到搜索引擎;所述搜索引擎基于所述检索词周期性地执行搜索以获取一组URL;检索得到获取的所述URL组中的每一个URL对应的网站;提取出每个所述网站对应的层次结构;并且如果一个网站对应的层次结构与所述集成层次结构之间重合节点的数目达到预定阈值,则将对应于该网站的URL视为所述新的URL。39.如权利要求26所述的系统,其中所述URL获取装置包括URL用户输入接口,用于由用户预先输入所述一组URL。40.如权利要求26所述的系统,其中所述URL获取装置包括信息输入单元,用于输入关于所述预定领域的相关信息;以及URL生成单元,用于基于所述相关信息自动生成所述一组URL。41.如权利要求36所述的系统,还包括本体信息库,其用于存储本体信息,所述本体信息包括与所述预定领域相关的各个信息对象类别的代表性描述,并且其中所述实例映射装置包括分层字典生成单元,用于基于来自所述本体信息库的本体信息生成分层字典,所述分层字典在结构上与所述集成层次结构相对应,并且所述分层字典的每个节点包括与所述集成层次结构上的相应节点处的信息对象类别相关联的一个或多个所述代表性描述;相似性计算单元,用于将所述实例与所述分层字典的各个节点处的代表性描述相比较以计算所述实例与所述集成层次结构上的各个节点之间的相似性度量;以及映射单元,用于根据所述确定的相似性度量将所述实例映射到所述集成层次结构上的节点。42.如权利要求41所述的系统,其中所述代表性描述是依赖于语言和信息对象类别的。43.—种用于自动集成信息对象的层次结构的系统,包括层次结构读取装置,用于读取第一层次结构和第二层次结构,其中所述第一和第二层次结构中的任意一个上的每个节点代表一个信息对象类别;以及层次结构集成装置,用于集成所述第一和第二层次结构以生成集成层次结构,所述层次结构集成装置包括读取单元,用于读取所述第一层次结构和所述第二层次结构;关系计算单元,用于计算所述第一层次结构上的节点与所述第二层次结构上的节点之间的关系;关系存储器,用于存储计算出的所有所述关系;操作确定单元,用于根据存储的各个所述关系来确定应该对相应节点执行的操作;以及操作执行单元,用于对所述第一和第二层次结构上的所有节点执行确定的所述操作以实现所述第一和第二层次结构的集成。44.如权利要求43所述的系统,其中所述第一层次结构上的第一节点与所述第二层次结构上的第二节点之间具有多个关系,并且所述层次结构集成装置还包括关系判决单元,用于执行判决以确定所述第一和第二节点之间的唯一关系,并且所述操作确定单元被配置为根据所述确定的唯一关系来确定应该对所述第一和第二节点执行的操作。45.如权利要求43所述的系统,其中所述关系计算单元基于所述两个节点的文本、所述两个节点之间的上下文或者所述两个节点的实例来执行所述计算。46.如权利要求43所述的系统,其中所述层次结构集成装置还包括节点预处理单元,其被耦合在所述读取单元和所述关系计算单元之间,用于对所述读取单元读取的第一和第二层次结构上的节点执行预处理,以检测对应属性值节点和组合节点。47.如权利要求43所述的系统,其中在所述关系存储器中,所述计算出的所有所述关系以表格形式存储,所述表格中的每一行代表一条记录,其存储了所述第一和第二层次结构上的一对节点之间的关系。48.如权利要求47所述的系统,其中根据所述表格中存储的记录的可靠程度来逐步集成所述第一和第二层次结构上的各对节点,即记录的可靠性越高,相应节点对被越早集成。49.如权利要求43所述的系统,其中所述关系包括相同、相似、包括、被包括、交叉、交叉-覆盖、交叉-被覆盖和无关系。50.如权利要求43所述的系统,其中所述关系计算单元包括重合度量计算单元,用于计算用于表征所述两个节点之间的重合程度的度量;和阈值比较单元,用于将所述计算出的重合程度度量与预定阈值相比较,如果所述重合程度度量大于所述阈值,则确定所述两个节点之间有关系,否则,确定所述两个节点之间无关系;并且所述操作确定单元被配置用于如果所述第一层次结构上的一个节点与所述第二层次结构上的一个节点有关系,则选择合并操作;或者如果所述第一层次结构上的一个节点与所述第二层次结构上的多个节点有关系,则选择父子操作。全文摘要本发明提供了用于自动建立特定领域中的对象类别之间的层次结构的系统和方法。所述方法包括获取与预定领域相关的一组URL;检索得到与所述URL组中的各个URL相对应的网站的集合;针对所述网站集合中的每个网站提取出一个层次结构,所述层次结构上的每个节点代表所述网站中涉及的所述预定领域的一个对象类别;以及集成提取出的所有所述层次结构以生成集成层次结构。在一个实施例中,本发明还包括提取出对象实例,以及将不带有类别信息的实例映射到集成层次结构上的相应节点的方法。根据本发明的系统和方法可以更有效地建立对象类别之间的层次结构。文档编号G06F17/30GK101452462SQ20071019652公开日2009年6月10日申请日期2007年11月28日优先权日2007年11月28日发明者李建强,福岛俊一,凯赵,彧赵申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1