一种网页信息抽取的方法和系统的制作方法

文档序号:6426368阅读:139来源:国知局
专利名称:一种网页信息抽取的方法和系统的制作方法
技术领域
本申请涉及网络技术领域,特别是涉及ー种网页信息抽取的方法和系统。
背景技术
随着互联网的快速发展,互联网已经成为最重要的信息发布平台。然而,面对互联网信息爆炸式的增长,如何快速、有效的获取用户需要的信息,成为ー个亟待解决的问题。传统的搜索引擎可以帮助人们通过捜索关键字来获取网页页面,但是它只给出了相关页面的链接,用户仍需要人工浏览网页去寻找感兴趣的信息。另ー方面,由于无法定制精确的查询,大量的搜索结果都不是用户想要的,无法提供精确、专业化的捜索結果。ー种理想的做法是互联网作为ー个信息源能够像数据库一祥被查询。于是,网页信息抽取应运而生。网页信息抽取可以从不同的信息源中获取感兴趣的网页信息,并将用户感兴趣的信息抽取出来存放到数据库中,使得用户可以利用数据库的信息进行信息查询、捜索、数据挖掘或者数 据分析。网页信息抽取的目标是将网页文本化呈现的信息抽取出来,并将其表示为结构化的数据。这样做的目的是将难以处理的文本信息转换为容易处理、分析的结构化数据。网页是由文档对象模型规范(DOM, Document Object Model)和超文本标记语言(HTML, Hyper Text Mark-up Language)定义的一类文档,是ー种半结构化的文档,有价值的信息通常存储在后台的数据库中,通过固定的页面模板呈现给用户。网页实际是ー个文件,展现在用户面前的通常是通过浏览器解释后的网页内容。如果我们通过选择菜单中的“查看源文件”,就可以通过记事本看到网页的实际内容。可以看到,网页实际上是一个文本文件,它通过各式各样的标记对页面上的文字、图片、表格、声音等元素进行描述(例如标题、字体、顔色、大小等)。这些标记将网页要显示的文本内容分隔开来。标记为文档引入了结构信息,根据标记可以将ー个文档表示为ー棵树的结构,称为DOM结构。通过定位待抽取内容在DOM结构的位置,即可实现对网页信息的抽取。网页信息抽取的一般流程是从样本页面上获取待抽取内容的位置信息,之后利用位置信息,针对采用相同页面模板的网页数据集合,实现内容抽取。定位信息的准确与否,直接决定了网页信息抽取的质量。由于网页更新频率快,DOM结构复杂多变,很容易引起位置信息的变化,导致定位失败,或者导致抽取出错误的信息。网页信息抽取系统一直致カ于寻找准确、鲁棒(鲁棒是Robust的音译,有健壮、強壮、坚定等意思)的页面内容定位解决方案。现有技术中,存在一种自动生成XPATH(XPATH是ー门在XML文档中查找信息的语言,XPath使用路径表达式来选取XML文档中的节点或者节点集)方法进行网页信息抽取。自动生成XPATH方法为用户在页面中选取抽取的内容,程序记录抽取内容在DOM结构中的位置,后台自动生成一条从DOM的根节点层层向下直至目标节点的、只包含标签名称信息与偏移信息的XPATH路径,此后应用该XPATH获取待抽取页面集合中的信息。自动生成的XPATH通常仅仅记录标签名称与偏移的信息,定位信息过于简单,无法应对网页结构的不停变换。而网页内容更新,XPATH路径上的元素发生变化之后,就会引发定位不到内容或者定位到非抽取内容的问题。同吋,由于XPATH记录的信息过于简单,不能利用XPATH来解决重复结构识别的问题,需要添加额外的算法来实现重复结构的识别与抽取。在实现本申请的过程中,发明人发现现有技术中至少存在如下问题网页信息抽取通常使用半自动化的信息抽取方法,通过分析页面结构定位抽取的信息,由于网页信息是一类动态变化、实时更新的数据,在页面内容更新、网页结构变化后,容易出现定位信息失效导致的抽取失败或者抽取结果不准确的问题。另一方面,现有技术不能很好地解决重复结构识别的问题。自动生成XPATH方法不能利用XPATH来解决重复结构识别的问题,需要添加额外的算法来实现重复结构的识别与抽取。

发明内容
为解决上述技术问题,本申请实施例提供一种网页信息抽取的方法和系统,在页面内容更新、网页结构变化后仍能够准确的定位信息,获得准确的抽取结果,鲁棒性好。技术方案如下 本申请实施例提供一种网页信息抽取的方法,该方法包括分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置;将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点,从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合;分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合;从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点,利用所述抽取节点获取抽取信息。优选的,上述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点最邻近的的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表;将路径列表中的路径作为路径集合。优选的,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点为依照可靠性判断规则,计算候选抽取节点集合中候选抽取节点对应的路径的得分,选出得分最高的路径对应的节点作为最终的抽取节点。优选的,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果经过判断,Bi不是根节点,则根据可靠性判断规则计算并判断扣分情况,如果扣分没有超过设定阈值,则将Bi节点作为当前节点,继续递归寻找下一个节点,直至下一个节点是根节点,并将此路径添加至路径列表;如果扣分超过阈值,则停止对当前路径的寻找;把路径列表中的扣分最少的前N条路径保存作为路径集合。
优选的,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括从目标节点出发,将目标节点设置为当前节点;遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点;如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表;依据可靠性判断规则对路径列表中找到的所有路径进行扣分,判断路径总扣分是否超过阈值,如果未超过阈值,保存此路径结果;把扣分最少的前N条路径保存作为路径集合。优选的,所述将扣分最少的前N条路径保存作为路径集合,N为预先设定的整数。优选的,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的节点为从所述候选抽取节点集合中,选出得分最高路径对应的节点作为最终的抽取节点。优选的,所述可靠性判断规则为相对位置信息规则和/或节点总数规则和/或偏移位置信息规则。优选的,所述预先获取节点相对位置信息为遍历DOM结构,获取节点的文字、样式信息;利用所述文字、样式信息获取各个节点的最邻近的相对位置信息。优选的,获取从目标节点至根节点的路径作为路径集合后,所述方法进一步包括利用获取的所述路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径。优选的,所述利用获取的路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径具体包括利用节点的路径信息计算兄弟节点间的路径相似度;利用路径相似度,获取所有具有重复结构的兄弟节点,记录具有重复结构兄弟节点的偏移息;筛选出所有具有重复结构的兄弟节点拥有的等价路径,作为抽取时使用的路径集

ロ O优选的,利用所述路径集合获取待抽取页面的抽取节点集合具体包括利用路径集合获取待抽取页面的候选抽取节点集合,如果路径指向重复结构,则利用所述具有重复结构的兄弟节点的偏移信息,对具有重复结构的多条路径进行抽取,获取待抽取页面信息对应的节点作为候选抽取节点集合优选的,所述利用节点的路径信息计算兄弟节点间的路径相似度具体为
SimCAB)=な….£成 .;
公U」£其中,sim(A,B)代表节点A,B的相似程度;path (Α Π B)表示A、B节点等价路径的集合;path (A U B)表示A、B节点所有路径的集合;score (X)表示取路径X的扣分。优选的,所述方法进ー步包括将最终抽取节点对应路径占路径集合的权重与设定阈值进行比较,判断抽取是否成功,如果得到的结果大于设定阈值,则判断抽取失败;如果得到的结果小于或等于设定阈值,则判断抽取成功。本申请实施例还公开了一种网页信息抽取系统,所述系统包括样本页面待抽取信息位置获取单元,用于分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置;路径集合获取单元,用于将与所述待抽取信息在样本页面的DOM结构中的位置对应的节点作为目标节点,从目标节点出发,遍历预先获取的相对位置信息,获取ー个节点并判断其是否为根节点,如果否,继续递归寻找下ー个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合;候选抽取节点集合获取单元,用于分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合;抽取信息获取单元,用于从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最終的抽取节点,利用所述抽取节点获取抽取信息。优选的,上述系统还包括节点位置信息获取子単元,用于遍历DOM结构,获取节点的文字、样式信息,利用所述文字、样式信息获取各个节点的最邻近的相对位置信息;优选的,上述系统进一歩包括重复结构识别单元,用于利用获取的所述路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径。优选的,上述重复结构识别单元具体包括路径相似度计算子単元,用于利用节点的路径信息计算兄弟节点间的路径相似度;重复兄弟节点获取子单元,利用路径相似度,获取所有具有重复结构的兄弟节占.偏移信息记录子单元,用于记录具有重复结构兄弟节点的偏移信息;等价路径获取子单元,用于筛选出所有具有重复结构的兄弟节点拥有的等价路径,作为抽取时使用的路径集合。优选的,上述系统进一步包括抽取结果判断单元将最终抽取节点对应路径占路径集合的权重与设定阈值进行比较,判断抽取是否成功。本申请采用多路径定位技术,利用对DOM结构和文本内容的分析,自动发现规律, 生成大量带权重的、没有严格顺序的路径,并通过多条路径定位抽取内容,并根据路径的权重,选举获得最后的抽取结果。由于大量的路径包含丰富的页面信息,在保证数据准确性以及不增加交互成本的前提下,解决了页面内容更新、网页结构变化后定位信息失效导致的抽取失败或者抽取结果不准确的问题。另一方面,依据多条路径的丰富信息,通过计算路径集合的总体相似程度,就能完成对重复结构的判断,很好的解决了重复结构识别与抽取的问题。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本申请实施例方法流程图;图2为本申请实施例一方法流程示意图;图3为本申请实施例一个DOM结构的示意图;图4为本申请实施例一路径选取图;图5为本申请实施例获得候选抽取节点集合的示意图;图6为本申请实施例二的方法示意图;图7为本申请实施例二路径选取图;图8是本申请实施例二方法流程意图;图9为本申请实施例三路径选取图;图10为本申请实施例的系统示意图。
具体实施例方式本申请公开了一种网页信息抽取方法。为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
网页是ー种半结构化的文档,有价值的信息通常存储在后台的数据库中,通过固定的页面模板呈现给用户。网页信息抽取的一般流程是从样本页面上获取待抽取内容的位置信息,之后利用位置信息,针对采用相同页面模板的网页数据集合,实现内容抽取。定位信息的准确与否,直接决定了网页信息抽取的质量。现有技术中,存在一种自动生成XPATH方法进行网页信息抽取。自动生成XPATH方法为用户在页面中选取抽取的内容,程序记录抽取内容在DOM结构中的位置,后台自动生成一条从DOM的根节点层层向下直至目标节点的、只包含标签名称信息与偏移信息的XPATH路径,此后应用该XPATH获取待抽取页面集合中的信息。自动生成的XPATH通常仅仅记录标签名称与偏移的信息,定位信息过于简单,无法应对网页结构的不停变换。而网页内容更新,XPATH路径上的元素发生变化之后,就会引发定位不到内容或者定位到非抽取内容的问题。同吋,由于XPATH记录的信息过于简单,不能利用XPATH来解决重复结构识别的问题,需要添加额外的算法来实现重复结构的识别与抽取。基于此,本申请提供了一种网页信息抽取方法,在本申请提供的技术方案中,在获取样本页面的路径集合时,采用逆向定位法获取了从目标节点到根节点的多条路径。再利用多条路径定位法,根据获取的多条路径组成的路径集合去定位待抽取页面的信息。这样,·由于获取了多条路径去定位待抽取页面的信息,在页面不大幅度重构的前提下,即使网页信息发生变化,结构发生改变,也能够较准确的定位到待抽取内容,鲁棒性好。图I为本申请实施例方法流程图,下面结合附图对本申请ー种网页信息抽取方法进行说明。一种网页信息抽取方法,包括以下步骤S101,分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置;S102,将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点,从所述目标节点出发,遍历预先获取的相对位置信息,获取ー个节点并判断其是否为根节点,如果否,继续递归寻找下ー个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合;S103,分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合;S104,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最終的抽取节点,利用所述抽取节点获取抽取信息。实施例一在本申请提供的技术方案中,首先我们需要获得待抽取信息在样本页面中的位置信息,即目标节点的位置信息,从而利用目标节点的位置信息获取从目标节点到根节点的多条路径,这里采用的是逆向定位法。样本页面一般由用户提供,是与待抽取页面使用相同页面模板的网页。ー种可能的实现方式是,用户根据需要抽取的信息,输入网页地址,下载网页页面作为样本页面。样本页面可能是从不同站点下载得到的,这时,相应地,待抽取页面是与样本页面对应的具有相同页面模板的网页集合。当然,也可以通过其他方式获取样本页面,本申请对此不做限制。现有技术中,用户在样本页面中选取抽取的信息,程序记录抽取信息在DOM结构中的位置,后台自动生成一条从根节点到目标节点的层层向下的路径。一旦其中的一个节点发生变化,则会引发定位不到内容的问题。而在本申请提供的技术方案中,是利用最邻近的相对位置信息,获取了多条路径,并利用多条路径去从待抽取页面的根节点出发寻找目标节点,即待抽取内容。参见图2,图2为本申请实施例一方法流程示意图,下面结合附图进行说明。S201,从样本页面中选取待抽取信息。待抽取信息为用户感兴趣的信息,对应网页信息抽取,是用户希望通过网页信息抽取获得的那一类信息。待抽取信息一般由用户来定义或提供。在本申请提供的实施例中,可以由用户通过交互界面在样本页面中选取待抽取信息。这时,用户可以通过划选或框选的方式在样本页面中标注出待抽取信息。假设用户在样本页面中标注的待抽取信息为“历 史和起源”,用户可以使用划选或框选的方式把待抽取信息选取出来。S202,分析样本页面的DOM结构,构造DOM树,获取待抽取信息在DOM结构中的位置,得到目标节点的位置信息。DOM(Document Object Model),中文名称为文档对象模型,DOM的设计是以对象管理组织(OMG)的规约为基础的,以面向对象方式描述文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。DOM将整个网页页面映射为一个由层次节点组成的文件。所有的DOM结构都有且只有一个根节点,是一个树状的结构,每个HTML标签代表树中的一个节点。表I是DOM结构的简单示例。表I
权利要求
1.一种网页信息抽取方法,其特征在于,所述方法包括 分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置; 将与所述待抽取信息在所述DOM结构中的位置对应的节点作为目标节点,从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合; 分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合; 从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点,利用所述抽取节点获取抽取信息。
2.根据权利要求I所述的方法,其特征在于,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括 从目标节点出发,将目标节点设置为当前节点; 遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点; 如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表; 将路径列表中的路径作为路径集合。
3.根据权利2所述的方法,其特征在于,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点为 依照可靠性判断规则,计算候选抽取节点集合中候选抽取节点对应的路径的得分,选出得分最高的路径对应的节点作为最终的抽取节点。
4.根据权利要求I所述的方法,其特征在于,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括 从目标节点出发,将目标节点设置为当前节点; 遍历预先获取的当前节点的最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点; 如果经过判断,Bi为根节点,则将此路径添加至路径列表; 如果经过判断,Bi不是根节点,则根据可靠性判断规则计算并判断扣分情况,如果扣分没有超过设定阈值,则将Bi节点作为当前节点,继续递归寻找下一个节点,直至下一个节点是根节点,并将此路径添加至路径列表;如果扣分超过阈值,则停止对当前路径的寻找;把路径列表中的扣分最少的如N条路径保存作为路径集合。
5.根据权利要求I所述的方法,其特征在于,所述从所述目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合具体包括 从目标节点出发,将目标节点设置为当前节点; 遍历预先获取的当前节点最邻近的相对位置信息,从中选取一个相对位置i对应的节点Bi,判断Bi是否为根节点; 如果经过判断,Bi为根节点,则将此路径添加至路径列表;如果否,将Bi作为当前节点,继续递归寻找下一个节点,直至找到根节点,并将此路径添加到路径列表; 依据可靠性判断规则对路径列表中找到的所有路径进行扣分,判断路径总扣分是否超过阈值,如果未超过阈值,保存此路径结果; 把扣分最少的如N条路径保存作为路径集合。
6.根据权利要求4或5所述的方法,其特征在于,所述将扣分最少的前N条路径保存作为路径集合,N为预先设定的整数。
7.根据权利要求4或5所述的方法,其特征在于,从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点为 从所述候选抽取节点集合中,选出得分最高路径对应的节点作为最终的抽取节点。
8.根据权利要求3至5任意一项所述的方法,其特征在于 所述可靠性判断规则为相对位置信息规则和/或节点总数规则和/或偏移位置信息规则。
9.根据权利要求I所述的方法,其特征在于,所述预先获取节点相对位置信息为 遍历DOM结构,获取节点的文字、样式信息; 利用所述文字、样式信息获取各个节点的最邻近的相对位置信息。
10.根据权利要求I所述的方法,其特征在于,获取从目标节点至根节点的路径作为路径集合后,所述方法进一步包括 利用获取的所述路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径。
11.根据权利要求10所述的方法,其特征在于,所述利用获取的路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径具体包括 利用节点的路径信息计算兄弟节点间的路径相似度; 利用路径相似度,获取所有具有重复结构的兄弟节点,记录具有重复结构兄弟节点的偏移息; 筛选出所有具有重复结构的兄弟节点拥有的等价路径,作为抽取时使用的路径集合。
12.根据权利要求11所述的方法,其特征在于,利用所述路径集合获取待抽取页面的抽取节点集合具体包括 利用路径集合获取待抽取页面的候选抽取节点集合,如果路径指向重复结构,则利用所述具有重复结构的兄弟节点的偏移信息,对具有重复结构的多条路径进行抽取,获取待抽取页面信息对应的节点作为候选抽取节点集合
13.根据权利要求11所述的方法,其特征在于,所述利用节点的路径信息计算兄弟节点间的路径相似度具体为
14.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 将最终抽取节点对应路径占路径集合的权重与设定阈值进行比较,判断抽取是否成功,如果得到的结果大于设定阈值,则判断抽取失败;如果得到的结果小于或等于设定阈值,则判断抽取成功。
15.一种网页信息抽取系统,其特征在于,所述系统包括 样本页面待抽取信息位置获取单元,用于分析样本页面的DOM结构,获取待抽取信息在所述DOM结构中的位置; 路径集合获取单元,用于将与所述待抽取信息在样本页面的DOM结构中的位置对应的节点作为目标节点,从目标节点出发,遍历预先获取的相对位置信息,获取一个节点并判断其是否为根节点,如果否,继续递归寻找下一个节点,直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的候选路径作为路径集合; 候选抽取节点集合获取单元,用于分析待抽取页面的DOM结构,利用所述路径集合中的路径从根节点出发,定位所述待抽取信息在所述待抽取页面的DOM结构中的位置,获取与所述待抽取信息在所述待抽取页面的DOM结构中的位置对应的节点作为候选抽取节点集合; 抽取信息获取单元,用于从所述候选抽取节点集合中,选出鲁棒性最高的节点作为最终的抽取节点,利用所述抽取节点获取抽取信息。
16.根据权利要求15所述的系统,其特征在于,所述系统还包括 节点位置信息获取子单元,用于遍历DOM结构,获取节点的文字、样式信息,利用所述文字、样式信息获取各个节点的最邻近的相对位置信息。
17.根据权利要求15所述的系统,其特征在于,所述系统进一步包括 重复结构识别单元,用于利用获取的所述路径集合中的节点路径信息计算节点间的路径相似度,识别具有重复结构的路径。
18.根据权利要求17所述的系统,其特征在于,所述重复结构识别单元具体包括 路径相似度计算子单元,用于利用节点的路径信息计算兄弟节点间的路径相似度; 重复兄弟节点获取子单元,利用路径相似度,获取所有具有重复结构的兄弟节点; 偏移信息记录子单元,用于记录具有重复结构兄弟节点的偏移信息; 等价路径获取子单元,用于筛选出所有具有重复结构的兄弟节点拥有的等价路径,作为抽取时使用的路径集合。
19.根据权利要求15所述的系统,其特征在于,所述系统进一步包括抽取结果判断单元将最终抽取节点对应路径占路径集合的权重与设定阈值进行比较,判断抽取是否成功。
全文摘要
本申请公开了一种网页信息抽取方法,包括分析样本页面的DOM结构,获取抽取信息在所述DOM结构中的位置;将抽取信息在样本页面中的位置对应的节点作为目标节点,从目标节点出发,遍历预先获取的相对位置信息,判断其是否为根节点,如果否,继续递归寻找下一个节点直至找到根节点,形成候选路径,将由此获取的从目标节点到根节点的路径作为路径集合;分析待抽取页面的DOM结构,利用路径集合中的路径从根节点出发,定位待抽取页面的信息,获取待抽取页面信息对应的节点作为候选抽取节点集合;从候选抽取节点集合中选出鲁棒性最高的节点作为最终的抽取节点,利用抽取节点获取抽取信息。本申请采用多路径定位技术,鲁棒性好、准确度高。
文档编号G06F17/30GK102831121SQ20111016111
公开日2012年12月19日 申请日期2011年6月15日 优先权日2011年6月15日
发明者蔡波洋, 强琦 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1