从多语言网站构建多语言的对象层次结构的方法和系统的制作方法

文档序号:6576961阅读:308来源:国知局
专利名称:从多语言网站构建多语言的对象层次结构的方法和系统的制作方法
技术领域
本发明一般地涉及信息抽取,更具体而言,涉及Web挖掘以及从多语言网站构建 多语言的对象层次结构的方法和系统。
背景技术
当前,计算机已经成为现代生活必不可少的工具,它可以帮助用户找到感兴趣的 信息,这在当今大量信息在Web上不断积累的因特网时代尤其明显。虽然计算机在进行诸 如计算、存储或搜索之类的信息处理时速度很快,但其无法理解信息,这成为智能信息处理 的主要障碍。为了解决这个问题,最近用于智能信息处理的语义相关研究变得非常流行。例 如,在 T.Berners-Lee 等题为 “The Semantic Web”(Scientific American,2001 年 5 月, 第 28-37 页)、Nigel Shabolt 等题为“The Semantic Web Revisited,,(IEEE Intelligent Systems 21 (3),第 96-101 页,2006 年 5 月、6 月)以及 E. Hyvonen (编者)的题为“Semantic Web Kick-Off in Finland-Vision, Technologies, Research, and Applications,,(HIIT Publications, 2002-001, Helsinki Institute for Information Technology (HUT), Helsinki,Finland,第304页)的论文中都描述了的相关技术。它们的主要用途是帮助计 算机理解信息的内容和含义。基于某些算术逻辑,例如描述逻辑和框架逻辑,根据人工智能 (AI)传统规律的知识表示以及现在流行的Web信息处理技术,诸如万维网联盟(W3C)之类 的标准制订组织正在积极制订XML (可扩展标记语言)、RDF (资源描述框架)和OWL (Web本 体语言)等标准并且正在推广语义技术采用的规则语言,例如Web规则语言和规则标记语 言。而且,很多研发商、企业和相关从业者也已经开始建立和采用相关工具集、产品,甚至实 际应用来使得基于语义的智能信息利用成为可能。但是,为了使用计算机的强大计算能力 和语义相关标准向Web用户提供不同的智能信息利用服务,领域知识在其中扮演非常关键 的角色。因此,领域知识的建立成为一个急需解决的重要问题。同时,由于Web的普及,全世 界被联系的更加紧密,怎样在使用各种不同语言的人们之间建立无缝的、顺畅的交流通道, 因此建立的领域知识同样也需要包含各种语言的版本,并且在这些多语言版本之间建立有 准确的对应关系。而如何建立存在对应关系的多语言的领域知识,则又是领域知识建立问 题中的一个难题。本体(Ontology)是一种用于形式化表示领域知识的文档。本体中定义了一个领 域中的概念/对象以及概念/对象之间的关系。本体中定义的概念/对象之间的关系包含 各种各样的关系,比如“属于”,“位于”等等。而在实际应用中最普遍的概念关系是“属于” 或者“是....的子概念”这类包含关系,比如概念“个人计算机”是概念“计算机”的一个子 概念。只定义有这种包含关系的轻量级本体称为层次结构(Hierarchy),层次结构在实际应 用中常常体现为分类体系或者目录结构等等。在已有的论文及专利中,有一些涉及到层次结构的抽取方法,但是绝大多数都只 是从单语言的数据源中抽取单语言的层次结构。而对于多语言的层次结构抽取问题,已有工作不是很多。所谓多语言的层次结构指层次结构中的概念/对象拥有多语言的描述或者定义。下面介绍几篇现有的多语言层次结构相关的论文及专利。H. -C. Yang、D. -ff. Chen、C. _H. Lee 在论文"A multilingual hierarchy mapping method based on GHSOM” (发表于ICICIC,08会议论文集)(下称“参考文献1”)中介绍 了一种建立多语言层次结构的方法收集一组多语言的平行文档(parallel documents,即 同一个文档有不同的语言版本),并且手工将这些文档的平行关系(即哪些文档实际上是 同一个文档的不同语言版本)标记出来。然后对这个文档集的每一个单语言子集进行层次 结构抽取,抽取出来的即为多个单语言的层次结构。最后根据之前标注的文档的平行关系, 为这些单语言的层次结构之间建立对应关系。J. Daude、L. Padro、G. Rigau 在论文"Mapping Multilingual Hierarchies Using Relaxation Labeling” (发表于EMNLP/VLC,99会议论文集)(下称“参考文献2”)中介绍 了一种对已抽取出来的单语言层次结构之间建立对应关系的方法。他们利用的是一个外部 的多语言词典,基于语言分析技术来判断不同语言的概念/对象名称之间的对应关系,从 而建立层次结构之间的对应关系。题为"Multilingual terminology extraction system,,的欧洲专禾丨J EP0887748B1 (下称“参考文献3”)介绍了一种从多语言文档中抽取相对应的多语言概念术 语的方法。该方法需要将术语的某个语言的表示作为输入,然后将文档表示成一个词语组 成的网络,通过分析多语言文档对应的词语网络之间的相似性关系,来得到术语的另外一 种语言的表示。P. Resnik>N. A.的ifei:“The Web as a parallel corpus"(M^i1 Computational Linguistic的2003年第3期)(下称“参考文献4”)没有涉及到层次结构或者知识的抽 取,但他们介绍了一种自动建立多语言文档之间的平行关系的方法。他们使用Web上的网 页作为文档集合,利用不同网页的Html结构之间的相似性,来识别出不同语言网页之间的 平行关系。在上面提及的相关解决方案中,参考文献1的方法需要人工建立文档之间的平行 关系,这种方法效率很低,需要花费大量时间和人力,且扩展性很差,对于大规模多语言层 次结构的建立不具有适用性。参考文献2的方法将层次结构的抽取与多语言之间的对应区 分为两个完全独立的过程,在进行多语言对应时缺少抽取时的上下文环境,仅仅借助外部 的多语言词典,难以得到较高的准确率。参考文献3的方法适用的前提条件是用于抽取概 念术语的多语言的文档必须已经确定为是同一文档的多语言版本,并且需要给定至少一个 用某种语言表示的术语作为驱动,因此该方法无法适用于当多语言文档还未确定是否存在 平行关系的场合,以及无法用于抽取新概念术语,另外,这种方法没有提及到概念之间关系 的抽取,无法用于建立层次结构。参考文献4的方法虽然可以被借鉴来确定用于抽取层次 结构的多语言文档之间是否具有平行关系,但该方法只能判断文档之间的对应关系,不能 确定文档内部元素之间的对应关系,于是不能直接应用于多语言层次结构的抽取与对应, 因为层次结构中的概念对象很可能是与文档的某一部分相对应,而不是与整篇文档相对 应。综上,现有方法对于多语言层次结构抽取仍然存在不足,集中体现在他们不能实 现抽取过程以及多语言对应的完全自动化,不具有足够的运行效率以及柔性和可扩展性, 尤其当面对新的知识领域或者新的语言时,他们大多不能快速响应,而需要做大量的准备工作,比如进行文档标注或者建立词典等。

发明内容
本发明旨在解决上述多语言层次结构抽取方法中存在的诸多问题。在本发明中, 提出了一种从多语言网站中全自动地抽取多语言的层次结构的方法及其系统。该方法从网 站中的各个单语言子网站分别抽出单语言的层次结构,并自动识别出网站中各个单语言子 网站之间内在的平行对应关系,然后利用它们直接导出各个单语言层次结构之间的对应关 系,从而生成一个多语言的层次结构。根据本发明第一方面,提供了一种从多语言网站中抽取多语言的对象层次结构的 方法,包括输入一多语言网站中的网页;按不同语言将所述网站拆分成多个子网站,每个 子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对 象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及 根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确 定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结 构。根据本发明第二方面,提供了一种从多语言网站中抽取多语言的对象层次结构的 系统,包括输入装置,用于输入一多语言网站中的网页;单语言子网站拆分装置,用于按 不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;单语言对象 层次结构抽取装置,用于抽取对应于每个子网站的单语言对象层次结构,并记录对象与相 应网页之间的对应关系;平行关系确定装置,用于确定不同子网站中的不同语言网页之间 的平行关系;以及多语言对象层次结构生成装置,用于根据抽取出的每个子网站的单语言 对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关 系,来生成对应于所述多语言网站的多语言对象层次结构。本专利所提出的多语言层次结构抽取方法是一种全自动化的方法,不需要人工标 注文档,并且运行参数与领域以及语言无关。相对于已有方法,本发明大大提高了抽取效率 以及可扩展性。另外,由于本发明的系统和方法利用了多语言网站内在的多语言平行对应 关系,因此使得结果的准确性能够得到保证。从下面结合附图的详细描述中,可以看出本发明的其他特征和优点。注意,本发明 的范围并不限于图中所示的示例或者任何具体的实施例。


结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中类似 的参考标注指示类似的部分,其中图1是示出根据本发明的多语言对象层次结构抽取系统100的结构框图;图2是用于说明图1所示系统100的工作过程的流程图;图3是具体示出图1所示系统100中的平行关系确定装置和平行关系补遗装置的 内部结构示例的框图;以及图4是用于举例说明根据本发明的多语言对象层次结构生成过程的示意图。
具体实施例方式图1是示出根据本发明的多语言对象层次结构抽取系统100的结构框图。在图1 中,系统100被示为包括多语言对象层次结构抽取部件和存储部件。多语言对象层次结构 抽取部件作为处理部件,被用于实现本发明所提出的多语言对象层次结构的抽取过程。该 部件从多语言网站抽取出对象层次结构,该对象层次结构中的对象名称以及对象相关文档 (网页)可以具有多语言版本。如图所示,多语言对象层次结构抽取部件例如可以包括输入 装置101、网页块集合生成装置102 (可选)、单语言子网站拆分装置103、单语言对象层次结 构抽取装置104、平行关系确定装置105、平行关系补遗装置106 (可选)以及多语言对象层 次结构生成装置107。存储部件与处理部分配合使用,以用于存储各种处理结果。如图所示, 存储部件可以包括多语言网站网页存储器108、单语言子网站存储器109、单语言对象层次 结构存储器110、多语言子网站平行关系存储器111和多语言对象层次结构存储器112。图2是用于说明图1所示系统100的工作过程的流程图。下面将结合图1和图2 来具体说明本发明的原理以及工作过程。如图2所示,该过程200开始于步骤201,在该步骤中,输入装置101从多语言网站 网页存储器108输入一多语言网站中的所有网页。多语言网站网页存储器108中存储有从 因特网抓取的一个或多个多语言网站的所有网页,并记录网页ID、网页内容、网页链接等内 容。在步骤202中,网页块集合生成装置102可以对所输入的每个网页进行预处理,以为每 个网页生成一网页块集合。网页块具有空间尺寸和位置信息,并形成了网页块之间的空间 布局关系,包括嵌套、相邻等关系。优选地,网页内部网页块之间的平行关系也可以在抽取 多语言对象层次结构的过程中被用作参考,以进一步提高结果的准确性。接下来,在步骤203中,单语言子网站拆分装置103可以按不同语言将输入的多语 言网站中的网页拆分成多个单语言子网站,即为网站中的所有网页加上语言标签,从而将 不同语言的网页区分开来。各个单语言子网站随后可以被存储在单语言子网站存储器109 中。如图1所示,在单语言子网站存储器109中,除了存储如多语言网站网页存储器108中 的网页ID、网页内容、网页链接等内容之外,还包括为不同语言网页加注的语言ID。然后, 在步骤204中,单语言对象层次结构抽取装置104抽取各个子网站的单语言对象层次结构, 并记录对象与相应网页(或网页块)之间对应关系。单语言对象层次结构抽取装置104的 处理结果可以被存储在单语言对象层次结构存储器110中。在步骤205中,平行关系确定 装置105确定不同语言子网站之间的平行关系,这种平行关系可以包括网页之间和/或网 页块之间的平行关系。关于不同语言子网站之间的平行关系的确定方法可以有很多种,例 如基于Web目录结构、基于网页DOM结构信息、基于网页块集合结构拓扑等等。关于平行关 系的确定方法,将在下文中具体描述。在平行关系确定装置105确定出不同语言子网站之间的平行关系之后,在步骤 206中,可选地,平行关系补遗装置106可以进一步通过分析网页间的链接关系或已提取出 的单语言层次结构对已确定的平行关系进行补遗。关于平行关系补遗的具体方法,也将在 下文中具体描述。由平行关系确定装置105和平行关系补遗装置106所确定的不同语言网 页和/或网页块之间的平行关系可以被存储在多语言子网站平行关系存储器111中。在步骤207中,多语言对象层次结构生成装置107根据存储在单语言对象层次结 构存储器110中的各个单语言层次结构、对象与相应网页(网页块)之间的对应关系以及存储在多语言子网站平行关系存储器ill中的不同语言网页和/或网页块之间的平行关系 来生成多语言对象层次结构,该多语言对象层次结构上的每个对象可以包含不同的语言版本。生成的多语言对象层次结构被存储到多语言对象层次结构存储器112中。然后,过程 200结束。下面将参考图3来描述平行关系确定和补遗过程的示例。这里作为实施例给出的 各种平行关系确定方法以及补遗方法仅仅作为示例提供,而不应被视为对本发明的范围的 限制。首先关注平行关系确定装置105的内部结构。在图3中,作为示例,平行关系确定 装置105被示为包括目录结构分析单元301、DOM结构分析单元302、网页块集合分析单元 303以及第一协调单元304。目录结构分析单元301、DOM结构分析单元302和网页块集合 分析单元303被分别用于实现通过网站Web目录结构分析、网页DOM结构分析以及网页块 集合结构分析来确定不同语言网页(网页块)之间平行关系的过程。值得注意的是,无论 网站Web目录结构分析、网页DOM结构分析或者网页块集合结构分析都可被单独用来确定 平行关系,而不一定如图3所示出的那样结合使用。图3所示出的三种分析方法结合使用 的示例仅仅是出于提高结果准确性方面的考量,而不应被看作对本发明的范围的限制。第 一协调单元304用于协调目录结构分析单元301、D0M结构分析单元302和网页块集合分析 单元303各自确定的平行关系结果,以解决三者结果之间产生的冲突。例如,第一协调单元 304可以为每个分析单元分配一个权重值,并根据权重值来决定结果的取舍。权重值的确定 可以采用基于训练样本的机器学习方法来获取。目录结构分析单元301是通过网站Web目录结构分析来确定平行关系的部件。例 如,目录结构分析可以通过网页的URL来推断网站作者对于多语言网页之间平行关系的考 虑。其中URL的模式对于多语言平行关系的判定具有很高的信息量。比如在Symantec网 立占中,http://www. Symantec, com/norton 与 http://www. Symantec, com/zh/cn/norton 以 及http://www. Symantec, corn/ja/jp/norton就是一组平行的网页,分别是同一内容的英 文、中文以及日文版本,可以观察到Symantec网站用来标识平行关系的URL模式为http:// www. Symantec, com/(语言)/(地区)/(内容)。URL模式可以通过对一个单语言子网站中 所有网页的URL进行相似性分析,来获取每个单语言网站中URL的模板,然后通过比较各个 单语言子网站的URL模板来发现用来标识平行关系的URL模式。除了 Web目录结构之外,网页内部结构分析也可被用于确定网页或网页块的平行 关系。例如,DOM结构分析单元302和网页块集合分析单元303可以分别通过分析网页的 DOM结构相似性以及网页内网页块集合的相似性来确定具有平行关系的网页或网页块。首 先,DOM结构分析单元302可以通过分析网页的DOM结构相似性来确定有平行关系的网页。 DOM结构相似性的指标可以包括HTML结点标签序列的相似性和结点样式的相似性。另外, 如前所述,网页块集合生成装置102可以为每一个网页生成一个网页块的集合,网页块具 有空间尺寸和位置信息,并形成了网页块之间的空间布局关系,包括嵌套、相邻等关系。网 页块集合分析单元303可以通过分析两个网页间的网页块集合的相似性,来确定这两个网 页是否具有平行关系。网页块集合的相似性的指标包括网页块拓扑结构(仅考虑抽象的空 间关系)的相似性和网页块空间尺寸和位置信息的相似性。利用网页块集合相似性除了可 以获取网页之间的平行关系,还可以将网页块之间的平行关系同时确立下来。
继续参考图3,分别由目录结构分析单元30UDOM结构分析单元302和网页块集合 分析单元303所确定的第一、第二和第三平行关系结果可以被提供到第一协调单元304以 进行平行关系结果的协调。例如,如前所述,第一协调单元304可以根据预先确定的针对不 同分析方法的权重值来对各个平行关系结果进行取舍。协调后的平行关系结果可以作为最 终结果被直接提供到多语言对象层次结构生成装置107以用于多语言对象层次结构的生 成,或者也可以作为中间结果被提供到平行关系补遗装置106以对已经确定的平行关系进行补遗。所谓补遗是指通过链接结构分析或子网站单语言层次结构分析等手段对已确定的 平行关系进行补充,以避免遗漏掉可能的具有平行关系的网页。在图3中,作为示例,平行关系补遗装置106可以包括链接结构补遗单元305、单语 言层次结构补遗单元306和第二协调单元307。类似于平行关系确定装置105,图3中给出 的配置也仅仅是作为示例提供,而不应被视为对本发明的范围的限制。同样地,链接结构补 遗单元305和单语言层次结构补遗单元306可以单独适用,也可以结合适用。第二协调单 元307可以根据预先确定的针对不同补遗方法的权重在多个补遗结果中进行协调,以确定 最终经补遗后的平行关系。显而易见,在平行关系补遗阶段所适用的权重与在平行关系确 定阶段所适用的权重之间相互独立。链接结构补遗单元305可以通过分析网页之间的链接关系来获取单语言子网站 内的网页之间的结构信息,然后通过比较不同单语言子网站的网页间结构之间的相似性, 来判定网页之间的平行性。例如,可以选用导航路径(Navigation Path)来代表网页之间 的结构信息,在各个单语言子网站完成导航路径的生成后,通过比较不同单语言子网站的 导航路径的相似性来判断具有平行关系的网页。例如,平行性判定规则可以确定为对于 子网站1中网页p,如果在与ρ相关的所有导航路径中,沿路径指向ρ的网页为P1,...,Pffl, 由P沿路径指向的网页为Cl,...,cn;对于子网站2中网页ρ',如果在与ρ'相关的所有 导航路径中,沿路径指向P'的网页为P/ ,...,Pk',由P沿路径指向的网页为(V,..., cr';如果 m == k,且(Pi,Pi' ),i = 1,. . .,m 均为平行网页,且对于{Ci},i = 1,. . .,n 和lc/ },j = 1,. . .,r两个集合之间的平行网页对总数q如果大于某个设定的阈值t (t 与η和r的最小值相关),那么(ρ,ρ')也被判定为一对平行网页。另外,单语言层次结构补遗单元306还可以利用单语言对象层次结构抽取装置 104已经从各个单语言子网站抽取出来的单语言层次结构来判定网页或者网页块之间的平 行关系。例如,假设对于语言1的网页或网页块P对应层次结构中的对象o,o的父亲对象对 应的网页或网页块为P1,. . .,Pm,它的儿子对象对应的网页或网页块为C1,. . .,cn ;对于语言 2的网页或网页块ρ'对应层次结构中的对象ο' , ο'的父亲对象为p/ , . . . , Pk',它的 儿子对象为c/ ,...,Cr';如果ρ与ρ'同为网页或者同为网页块,以及m==k,且(Pi, Pi' ),i = 1,...,m 均为平行关系对,且对于{Ci},i = l,...,n和{c/ },j = l,...,r 两个集合之间的平行关系对总数q如果大于某个设定的阈值t (t与η和r的最小值相关), 那么可以将(P,P')也视为一对平行关系对。当单语言子网站之间的平行关系已经确立之后,多语言对象层次结构生成装置 107就可以直接通过参考存储在单语言对象层次结构存储器110中的单语言层次结构中对 象与网页或网页块的对应关系,来得到单语言层次结构之间的平行关系,从而最终得到一 个多语言的对象层次结构。图4展示了这个过程的一个示例。如图4所示,通过参考中、英文子网站之间的平行关系、它们各自对应的单语言层次结构、以及对象与相应网页(网页块)A和B之间的对应关系,可以得到具有多语言(例如中文+英文)版本的对象层次结构。以上参考附图详细描述了根据本发明的多语言层次结构抽取方法和系统的具体 实施例。利用本发明所提供的方法,不需要对文档进行人工标注,并且运行参数与领域以及 语言无关。因此,相对于已有方法,本发明可以大大提高抽取效率以及可扩展性。另外,由 于本发明的系统和方法利用了多语言网站内在的多语言平行对应关系,因此使得结果的准 确性也能够得到保证。虽然上面虽然已经描述了根据本发明的具体实施例,但是,本发明并不限于图中 示出的特定配置和处理。另外,为了简明起见,这里省略对已知方法技术的详细描述。在上 述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所 描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神之后,作出各种改变、 修改和添加,或者改变步骤之间的顺序。本发明的元素可以实现为硬件、软件、固件或者它们的组合,并且可以用在它们的 系统、子系统、部件或者子部件中。当以软件方式实现时,本发明的元素是被用于执行所需 任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携 带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输 信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦 除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由 诸如因特网、内联网等的计算机网络被下载。本发明可以以其他的具体形式实现,而不脱离其精神和本质特征。例如,特定实施 例中所描述的算法可以被修改,而系统体系结构并不脱离本发明的基本精神。因此,当前的 实施例在所有方面都被看作是示例性的而非限定性的,本发明的范围由所附权利要求而非 上述描述定义,并且,落入权利要求的含义和等同物的范围内的全部改变从而都被包括在 本发明的范围之中。
权利要求
一种从多语言网站中抽取多语言的对象层次结构的方法,包括输入一多语言网站中的网页;按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构。
2.如权利要求1所述的方法,还包括 为每个网页生成一网页块集合。
3.如权利要求2所述的方法,还包括记录对象与相应网页块之间的对应关系;以及 确定不同语言网页中的网页块之间的平行关系,其中,所述网页块之间的平行关系以及所述对象与相应网页块之间的对应关系在生成 所述多语言对象层次结构的过程中也被用作参考。
4.如权利要求1所述的方法,其中所述不同语言网页之间的平行关系是根据所述网站 的Web目录结构来确定的。
5.如权利要求1所述的方法,其中所述不同语言网页之间的平行关系是通过比较不同 语言网页的DOM结构的相似性来确定的。
6.如权利要求2所述的方法,其中所述不同语言网页之间的平行关系是通过比较不同 语言网页的网页块集合的相似性来确定的。
7.如权利要求2所述的方法,其中所述确定不同语言网页之间的平行关系的步骤包括根据所述网站的Web目录结构来确定第一平行关系结果; 根据不同语言网页的DOM结构的相似性来确定第二平行关系结果; 根据不同语言网页的网页块集合的相似性来确定第三平行关系结果;以及 根据预先确定的对应于不同分析方法的权重值在所述第一、第二和第三平行关系结果 之间进行协调,以综合确定不同语言网页之间的平行关系。
8.如权利要求4-7中的任意一个所述的方法,还包括通过分析网页之间的链接结构,对已确定的不同语言网页之间的平行关系进行补遗。
9.如权利要求4-7中的任意一个所述的方法,还包括通过分析抽取出的所述对应于每个子网站的单语言对象层次结构,对已确定的不同语 言网页之间的平行关系进行补遗。
10.如权利要求4-7中的任意一个所述的方法,还包括通过分析网页之间的链接结构,对已确定的不同语言网页之间的平行关系进行补遗, 以得到第一补遗后平行关系结果;通过分析抽取出的所述对应于每个子网站的单语言对象层次结构,对已确定的不同语 言网页之间的平行关系进行补遗,以得到第二补遗后平行关系结果;根据预先确定的对应于不同补遗方法的权重值在所述第一和第二补遗后平行关系结 果之间进行协调,以最终确定不同语言网页之间的平行关系。
11.一种从多语言网站中抽取多语言的对象层次结构的系统,包括输入装置,用于输入一多语言网站中的网页;单语言子网站拆分装置,用于按不同语言将所述网站拆分成多个子网站,每个子网站 中的网页具有相同语言;单语言对象层次结构抽取装置,用于抽取对应于每个子网站的单语言对象层次结构, 并记录对象与相应网页之间的对应关系;平行关系确定装置,用于确定不同子网站中的不同语言网页之间的平行关系;以及多语言对象层次结构生成装置,用于根据抽取出的每个子网站的单语言对象层次结 构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对 应于所述多语言网站的多语言对象层次结构。
12.如权利要求11所述的系统,还包括网页块集合生成装置,用于为每个网页生成一网页块集合。
13.如权利要求12所述的系统,其中所述单语言对象层次结构抽取装置还记录对象与 相应网页块之间的对应关系,所述平行关系确定装置还确定不同语言网页中的网页块之间 的平行关系,并且所述网页块之间的平行关系以及所述对象与相应网页块之间的对应关系 也被提供到所述多语言对象层次结构生成装置,以在生成所述多语言对象层次结构的过程 中被用作参考。
14.如权利要求11所述的系统,其中所述网页平行关系确定装置包含目录结构分析单元,用于分析所述网站的Web目录结构,以确定所述不同语言网页之 间的平行关系。
15.如权利要求11所述的系统,其中所述网页平行关系确定装置包含DOM结构分析单元,用于比较不同语言网页的DOM结构的相似性,以确定所述不同语言 网页之间的平行关系。
16.如权利要求12所述的系统,其中所述网页平行关系确定装置包含网页块集合分析单元,用于比较不同语言网页的网页块集合的相似性,以确定所述不 同语言网页之间的平行关系。
17.如权利要求12所述的系统,其中所述网页平行关系确定装置包含目录结构分析单元,用于分析所述网站的Web目录结构来确定第一平行关系结果;DOM结构分析单元,用于比较不同语言网页的DOM结构的相似性来确定第二平行关系 结果;网页块集合分析单元,用于比较不同语言网页的网页块集合的相似性来确定第三平行 关系结果;以及第一协调单元,用于根据预先确定的分别对应于所述目录结构分析单元、所述DOM结 构分析单元和所述网页块集合分析单元的权重值在所述第一、第二和第三平行关系结果之 间进行协调,以综合确定不同语言网页之间的平行关系。
18.如权利要求14-17中的任意一个所述的系统,还包括平行关系补遗装置,用于对已确定的不同语言网页之间的平行关系进行补遗。
19.如权利要求18所述的系统,其中所述平行关系补遗装置包括链接结构补遗单元,用于通过分析网页之间的链接结构对已确定的不同语言网页之间 的平行关系进行补遗。
20.如权利要求18所述的系统,其中所述平行关系补遗装置包括单语言层次结构补遗单元,用于通过分析抽取出的对应于每个子网站的单语言对象层 次结构对已确定的不同语言网页之间的平行关系进行补遗。
21.如权利要求18所述的系统,其中所述平行关系补遗装置包括链接结构补遗单元,用于通过分析网页之间的链接结构对已确定的不同语言网页之间 的平行关系进行补遗,以得到第一补遗后平行关系结果;单语言层次结构补遗单元,用于通过分析抽取出的对应于每个子网站的单语言对象层 次结构对已确定的不同语言网页之间的平行关系进行补遗,以得到第二补遗后平行关系结 果;以及第二协调单元,用于根据预先确定的分别对应于所述链接结构补遗单元和所述单语言 层次结构补遗单元的权重值在所述第一和第二补遗后平行关系结果之间进行协调,以最终 确定不同语言网页之间的平行关系。
全文摘要
本发明提出了从多语言网站构建多语言的对象层次结构的方法和系统。本发明的方法包括输入一多语言网站中的所有网页;按不同语言将网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于该多语言网站的多语言对象层次结构。相对于现有技术,本发明可以大大提高多语言层次结构抽取效率、结果准确性以及可扩展性。
文档编号G06F17/30GK101840402SQ20091011901
公开日2010年9月22日 申请日期2009年3月18日 优先权日2009年3月18日
发明者李建强, 赵彧 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1