网页信息提取方法和装置与流程

文档序号:16881248发布日期:2019-02-15 22:10阅读:201来源:国知局
本发明涉及互联网技术,尤其涉及一种网页信息提取方法和装置。
背景技术
::随着互联网技术的快速发展,能够访问的网页数量呈指数级增长。网页中的信息,分为结构化、半结构化和非结构化三种,其中结构化信息对人们最为有用,例如:商户网页中的地址电话信息,商品页面中的商品名称和价格,小说网页中的作者,更新时间,字数等信息。利用算法抽取出网页的结构化信息,能够降低用户在海量数据中筛选信息的成本,因此,结构化信息抽取在搜索引擎,地理信息系统,数据挖掘以及情报分析系统中都有着重要的作用。图1为网页中结构化信息的一个例子。如图所示,百科网页的表格中包含关于主题词条“煎饼馃子”的结构化信息。传统的结构化信息抽取方法一般基于页面模版,模版可以由人工配置,也可以由算法生成。人工配置的模版准确性高,但只能抽取特定网页的结构化信息;算法生成的模版准确率稍差,能够抽取的网页比人工配置更多,但算法需要大量的人工标注集合进行训练,才能生成较好的模版。如果网页的排版发生变化,无论是人工还是算法生成的模版,都面临着失效的风险,稳定性较差。为此,需要一种改进的网页信息提取方案。技术实现要素:为了解决如上至少一个问题,本发明提出了一种无监督的网页结构化信息抽取方案,能够通过使用自学习模型,在不依赖任何人工标注数据的情况下从网页块中找到结构化信息的“键-值”对,从而适应网页排版的变化,与传统模板配置方案相比,在性能和稳定性具有显著提升。根据本发明的一个方面,提出了一种网页信息提取方法,包括:拆分目标网页块中的文本以获取粗分类的键-值对;利用自学习模型对所述粗分类的键-值对进行修正;以及从经修正的键-值对中获取所述网页的目标提取信息。由此,通过两轮调整提取准确分类的键-值对信息。优选地,拆分目标网页块中的文本以获取粗分类的键-值对可以包括:将目标网页块中的所有文本节点按顺序拆分为文本片段;以及基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。所述粗分类规则可以包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。由此,能够通过相对简单但设置灵活的规则套用,来获取总体准确性较高的粗分类结果。进一步地,利用自学习模型对所述粗分类的键-值对进行修正可以包括:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征则可包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。优选地,利用自学习模型对所述粗分类的键-值对进行修正可以包括:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习可以包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。针对所述粗分类的键-值对中的每个文本片段,可以根据下式求取其是键或值的概率:其中,fi为第i个修正特征,p(k)为文本片段为“键”的概率,p(v)为文本片段为“值”的概率,p(k|f1,f2...fn)和p(v|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率p(v)和p(k)表示“键”和“值”在粗分类中的占比,并且,将r大于1的文本片段设为“键”,小于1的设为“值”。优选地,本发明的网页信息提取方法还可以包括:从所述网页的源代码中选取用于提取键-值对的目标网页块。由此能够选取重要的网页块进行信息提取,从而提升网页整体的处理效率。从网页的代码中选取用于提取键-值对的目标网页块包括如下至少一项:选取网页中包含表格结构的网页块作为所述目标网页块;选取网页中包含两列结构的网页块作为所述目标网页块;以及选取网页中包含键关键词的网页块作为所述目标网页块。优选地,可以将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。从经修正的键-值对中获取所述网页的目标提取信息包括:至少基于多个目标网页块所包含的所述经修正的键-值对,从多个目标网页块中确定最终目标网页块;以及使用最终目标网页块所包含的经修正的键-值对作为所述网页的目标提取信息。由此,能够最终选取重要网页块所包含的结构化信息。至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块包括:基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。由此,能够基于内容和位置两者更为准确地选定目标结构化网页块。基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块包括:使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。优选地,网页信息提取方法还可以包括:基于所述目标提取信息,选择经修正的键值作为初始键关键值。由此实现对关键值的快速自动获取。根据本发明另一个方面,提出了一种网页信息提取装置,包括:粗分类单元,用于拆分目标网页块中的文本以获取粗分类的键-值对;自学习修正单元,利用自学习模型对所述粗分类的键-值对进行修正;以及信息提取单元,用于从经修正的键-值对中获取所述网页的目标提取信息。优选地,粗分类单元还可以包括文本拆分单元,用于将目标网页块中的所有文本节点按顺序拆分为文本片段。相应地,粗分类单元可以基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。在一个实施例中,粗分类规则包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。优选地,自学习修正单元可以进一步用于:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。自学习修正单元可以进一步用于:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。优选地,利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习可以包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。自学习修正单元可以针对粗分类的键-值对中的每个文本片段,根据下式求取其是键或值的概率:其中,fi为第i个修正特征,p(k)为文本片段为“键”的概率,p(v)为文本片段为“值”的概率,p(k|f1,f2...fn)和p(v|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率p(v)和p(k)表示“键”和“值”在粗分类中的占比,并且,将r大于1的文本片段设为“键”,小于1的设为“值”。在一个实施例中,提取装置还可以包括:网页块选取单元,用于从所述网页的源代码中选取用于提取键-值对的目标网页块。在另一个实施例中,提取装置还可以包括:最终网页块确定单元,用于至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块。由此,本发明的网页信息提取方法还可以优选地包括对要进行“键-值”对分析的网页块本身的选取和确定。优选地,网页块选取单元可以选取如下至少一项作为所述目标网页块:网页中包含表格结构的网页块;网页中包含两列结构的网页块;以及网页中包含键关键词的网页块。进一步地,网页块选取单元可以将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。最终网页块确定单元可以基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。进一步地,最终网页块确定单元可以用于使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。优选地,网页信息提取装置还可以包括键关键值挖掘单元,用于基于所述目标提取信息,迭代选择经修正的键值作为初始键关键值。根据本发明的再一个方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任一项所述的网页信息提取方法。根据本发明的又一个方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的网页信息提取方法。本发明的网页信息提取方案通过第一轮的粗分类和基于粗分类的第二轮的自学习修正,能够准确地从网页块中提取结构化的“键-值”对。进一步地,本发明的方案可以首先选取需要进行键-值对提取的候选网页块,并且能够基于网页块位置和键-值对信息确定出最终的结构化网页。由此,能够实现针对网页结构化信息的无监督提取。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1为网页中结构化信息的一个例子。图2示出了根据本发明一个实施例的网页信息提取方法的流程示意图。图3示出了文本片段提取的一个例子。图4示出了粗分类的一个例子。图5示出了构建特征树计算特征条件概率的例子。图6示出了利用自学习模型对粗分类进行修正的例子。图7示出了根据本发明另一个实施例的网页信息提取方法的流程示意图。图8a-8c示出了分别符合一种候选网页块选取标准的例子。图9示出了根据本发明一个实施例的网页信息提取装置的结构示意图。图10示出了根据本发明另一个实施例的网页信息提取装置的结构示意图。图11示出了根据本发明一个实施例可用于实现上述网页信息提取方法的计算设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。为了解决如上至少一个问题,本发明提出了一种无监督的网页结构化信息抽取方案,能够通过使用自学习模型,在不依赖任何人工标注数据的情况下从网页块中找到结构化信息的“键-值”对。进一步地,本发明的网页信息抽取方案可以在首先根据网页的结构特征以及关键字找到可能包含结构化信息的候选网页块,并且在针对候选网页块进行上述“键-值”对结构化信息提取之后,根据各个网页块在页面中的位置,以及包含“键-值”对的丰富程度,筛选出网页的主要结构化信息。由此,使得本发明的技术方案能够适应网页排版的变化,与传统模板配置方案相比,在性能和稳定性上具有显著提升。图2示出了根据本发明一个实施例的网页信息提取方法的流程示意图。在网页块中,可以根据文本结构和关键词等特征将块内文本片段快速粗分为键和值两类,接着,再利用自学习概率建模,对之前分类结果进行一轮修正,从而保证键与键,值与值之间的样式尽可能一致,提高准确率。在步骤s210,拆分目标网页块中的文本以获取粗分类的键-值对。在步骤s220,利用自学习模型对所述粗分类的键-值对进行修正。在步骤s230,从经修正的键-值对中获取所述网页的目标提取信息。在此,网页块可以指代网页中各个分开的区块,通常对应于dom树中的各节点及其子节点,是网页源代码,例如网页html代码的一部分。“键-值”对则可指代结构化信息的基本单位,键代表属性名称,值代表属性值。例如,“作者:张三”可以看作是一个“键-值”对,“作者”是键,即,属性名称;“张三”是值,即属性值。步骤s210可以包括将目标网页块中的所有文本节点按顺序拆分为文本片段;以及基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。具体地,可以获取网页块对应的html代码,并从中提取所有的文本。图3示出了文本片段提取的一个例子。首先获取图左侧所示的网页块源代码,即,html代码,将网页块中的所有文本节点按顺序拆分为片段,如果文本中包含分隔符,则分隔符前后分别构成片段,由此得到图右侧所示的文本片段。将网页块拆分为文本片段后,需要对每个文本片段进行“键”和“值”的分类。本发明的网页信息提取方案采取两轮的自学习算法:首先对文本片段进行一轮粗分类,给每个文本片段赋予一个初始的“键”或“值”类型,随后,用粗分类的结果对网页块的“键”“值”分布进行概率建模,并根据概率建模的结果,对文本片段的类型进行一轮修正,由于该算法具有从数据中自我学习的特点,在此将其称为“自学习算法”或“自学习模型”。在进行粗分类时,可以采用相对简单明了的粗分类规则来对文本片段进行初步分类。上述粗分类规则可以在充分考虑网页编写人员的常规编写和排版习惯下做出。在一个实施例中,粗分类规则可以包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。在常规的网页编写和文字表达习惯中,通常会采用例如“片名:加勒比海盗”这类冒号前对应于属性名,冒号后对应于属性值的表达方式。在更为结构化的网页中,经常采用两列结构来进行键-值对的表达。在此,两列结构指的是html中,一个元素节点只包含两个文本节点的结构。另外,可以预先准备或挖掘一份可能作为键的关键词列表,例如“作者,下载地址,日期,电话”等,并依此方便对相应文本片段具有键身份的确定。基于上述粗分类规则,通过能够以相对较高的准确率对网页块中的大多数文本片段进行正确分类。上述整体上的高准确率也是后续利用粗分类结果进行自学习的基础。但由于粗分类的规则较为机械化,因此对于某些不符合常规的编写格式,可能发生分类错误。图4示出了粗分类的一个例子。如图4所示,由于“加勒比海盗”由于位于冒号之前,在此例中被错误地分成了“键”。针对粗分类结果,可以利用自学习模型对其进行修正。在一个实施例中,步骤s220可以包括通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正。修正特征可以包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。在此,网页样式特征例如可以包括字体颜色和字体粗细特征,树结构特征可以包括html结构特征等。可以根据粗分类中被分类为键和值的文本片段自身针对修正特征的占比,来反推出每个文本片段是“键”还是“值”的概率。在一个实施例中,步骤s220可以包括:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。进一步地,利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。具体地,利用粗分类的结果,建立起网页样式特征、关键词特征、树结构特征和/或历史分类特征与“键-值”分类之间的概率模型。即,利用粗分类结果,对“键-值”的概率分布进行自学习。在建立概率模型后,可以使用后验概率加权对粗分类结果进行调整,保证键与键,值与值之间的样式尽可能一致。首先,定义文本片段的“键-值”分类与修正特征的关系。fi为第i个特征,p(k)为片段为“键”的概率,p(v)为片段为“值”的概率,p(k|f1,f2...fn)和p(v|f1,f2...fn)为特征f1至fn出现时,片段为“键”或“值”的概率,由此建立概率关系如下:在上式中,r>1意味着文本片段为“键”的概率更大,r<1时意味着文本片段为“值”的概率更大。根据r的取值,可以对片段的“键-值”分类进行修正。可以为每个特征fi构建一棵特征树,统计粗分类的“键”和“值”在特征树中的概率。图5示出了构建特征树计算特征条件概率的例子。如图5所示,字体颜色、字体粗细和html结构等表示不同的修正特征,特征树种各节点旁括号中的两个数字则分布对应于粗分类的“键”和“值”在特征树中的概率,通过特征树的概率加权,可以得到上式中的p(fi|k),p(fi|v)。另外,通过“键”和“值”在粗分类中的占比,可以得到上式中的先验概率p(v)和p(k)。应用以上概率模型,计算每个文本片段的r值,将大于1的设为“键”,小于1的设为“值”,等于1的保持粗分类结果不变。由此,通过自学习模型将粗分类结果进行修正。图6示出了利用自学习模型对粗分类进行修正的例子。如图6所示,由于文字片段“加勒比海盗”的r值小于1,因此被修正为“值”。经过结果修正后,可以将键片段和它之后的连续的值片段合并为一个“键-值”对,一个网页块可能有多个“键-值”对,例如:“片名-加勒比海盗:惊涛怪浪”,“上映时间-2011年”。如上已经结合图2-6描述了根据本发明的网页信息提取方法。在其他实施例中,本发明的网页信息提取方法还可以优选地包括对要进行“键-值”对分析的网页块本身的选取和确定。在一个实施例中,本发明的网页信息提取方法还可以包括从所述网页的源代码中选取用于提取键-值对的目标网页块。在此,选取的目标网页块可以是多个网页块,这些网页块可以作为最终用于信息提取的网页块的候选网页块。在另一个实施例中,本发明的网页信息提取方法还可以包括在进行“键-值”对分类和提取之后,从候选的目标网页块中确定最终目标网页块。图7示出了根据本发明另一个实施例的网页信息提取方法的流程示意图。如图7所示,步骤s710包括选取候选网页块;步骤s720包括抽取网页块内部“键-值”对;以及步骤s730包括输出最终结构化信息。步骤s720可以包括如上结合图2-6详述的针对目标网页块进行的“键-值”对粗分类以及自学习模型的修正。因此,随后着重描述步骤s710和s730。虽然可以将网页包含的所有网页块都作为目标网页块进行“键-值”对抽取,但是在一个实施例中,优选通过对网页块进行初筛,从html网页中找到结构化信息可能存在的位置,并仅将这些位置作为需要进行候选“键-值”对抽取操作的候选网页块。候选网页块的抽取可以通过分析网页html代码实现。在一个实施例中,从网页的代码中选取用于提取键-值对的目标网页块可以包括如下至少一项:选取网页中包含表格结构的网页块作为所述目标网页块;选取网页中包含两列结构的网页块作为所述目标网页块;以及选取网页中包含键关键词的网页块作为所述目标网页块。进一步地,可以将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。可以至少基于上述三类标准来选取候选的目标网页块。图8a-8c示出了分别符合一种候选网页块选取标准的例子。具体地,可以抽选符合一定规则的包含表格结构的网页块作为所述目标网页块。在一个实施例中,可以将所有table元素都看作是候选网页块。图8a示出了结构化信息位于table元素中的例子。如图8a所示,该页面中的结构化信息全部位于table元素中。还可以选择包含大量两列结构的元素作为候选网页块。如上所述,两列结构指的是html中,一个元素节点只包含两个文本节点。网页中的“键-值”对经常以这种形式出现。如果一个元素的子节点中,含有超过一定数量的两列结构,那么这个元素就可被选为候选网页块。图8b示出了结构化信息位于多个两列结构中的例子。如图8b所示,每个li元素中都只包含两个文本节点,符合两列结构的特征。另外,可以选择包含大量可能构成“键”的文本的网页块作为候选网页块。通过键的挖掘(如下将详述)、获取等,可以得到一份可能作为键的关键词列表,例如“作者,下载地址,日期,电话”等,于是将包含大量键关键词的网页元素作为候选网页块。图8c示出了结构化信息符合键关键词的例子。如图8c所示,网页没有明显的两列结构或表格结构,但是包含了作者、出版社、定价等大量可能成为“键”的文本,故作为候选网页块。由此,能够准确的获取包括网页主要结构化内容的候选网页块。另一方面,基于上述方法从一个网页中获取的候选网页块可能会有多个,即,页面中可能包含多组结构化信息。这是就需要找到最重要的一组,例如:对于公司介绍页,希望提取的是公司的地址电话信息,而非页面底部的版权信息。所以,在步骤s730,可以对多个候选网页块进行筛选(例如,进行重要程度打分),以从中选出真正包含想要提取的结构化信息的最终目标网页块。可以基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。更具体地,可以使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。在一个具体示例中,可以根据各候选网页块中抽出的键值对,以及候选网页块的位置,对网页块进行重要性程度打分,打分使用以下特征:块内“键-值”对的数量,块与页面标题的距离,块与页面导航栏的距离,块在页面中的水平相对位置等。经过特征归一化以及线性加权,得到网页块的重要程度分数。“键-值”对数量多,靠近页面标题或导航栏,在页面左侧的候选网页块会获得较高的分数。于是,可以将重要性分数最高的一个候选网页块作为最终的结构化信息块,也可以将重要性分数大于预定阈值的候选网页块作为最终的结构化信息块。在上述本发明的网页信息提取方案中,需要获取键关键值来进行例如候选网页块的选取以及针对文本片段的键、值分类判断。键关键值例如可以通过获取已有的键关键值列表或通过人工编撰获得。在一个优选地实施例中,本发明的信息提取方法还包括基于目标提取信息,选择经修正的键值作为初始键关键值。具体地,本发明的网页信息提取方法所使用的键关键词表可以采用迭代方式由该方法自行挖掘。首先可以令键关键词表为空,在一批网页上运行结构化信息抽取算法,此时算法仅依靠网页的结构特征获取“键-值”对。之后,收集抽取结果中所有的“键”,经过人工清洗后构成键关键词表。通过进一步利用该词表能够提升算法的准确率和召回率。如上结合图2-8描述了根据本发明的网页信息提取方法及其优选实施例。如下将结合图9-10描述根据本发明的网页信息提取装置及其优选实施例。图9示出了根据本发明一个实施例的网页信息提取装置的结构示意图。如图9所示,网页信息提取装置900可以包括粗分类单元910、自学习修正单元920和信息提取单元930。粗分类单元910可用于拆分目标网页块中的文本以获取粗分类的键-值对。自学习修正单元920则可利用自学习模型对所述粗分类的键-值对进行修正。信息提取单元930可用于从经修正的键-值对中获取所述网页的目标提取信息。优选地,粗分类单元910还可以包括文本拆分单元,用于将目标网页块中的所有文本节点按顺序拆分为文本片段。相应地,粗分类单元910可以基于粗分类规则将所述文本片段划分为所述粗分类的键-值对。在一个实施例中,粗分类规则包括如下至少一项:文本片段是否在冒号前;文本片段是否包括键关键词;以及文本片段在两列结构中的位置。优选地,自学习修正单元920可以进一步用于:通过针对修正特征的自学习模型对所述粗分类的键-值对进行修正,所述修正特征包括如下至少一项:网页样式特征、键关键词特征、树结构特征和/或历史分类特征。作为替换或者附加,自学习修正单元920可以进一步用于:建立修正特征与键-值对分类之间的概率模型;以及利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习。优选地,利用所述粗分类的键-值对,对所述概率模型的概率分布进行自学习可以包括:通过键和值在粗分类中的占比,得到键和值的先验概率;通过键和值针对每个修正特征的频率,得到键和值针对该修正特征的后验概率;以及基于所述先验概率和所述后验概率确定是否要对所述粗分类的键-值对进行修正。自学习修正单元920可以针对粗分类的键-值对中的每个文本片段,根据下式求取其是键或值的概率:其中,fi为第i个修正特征,p(k)为文本片段为“键”的概率,p(v)为文本片段为“值”的概率,p(k|f1,f2...fn)和p(v|f1,f2...fn)为特征f1至fn出现时,文本片段为“键”或“值”的概率,先验概率p(v)和p(k)表示“键”和“值”在粗分类中的占比,并且,将r大于1的文本片段设为“键”,小于1的设为“值”。在一个实施例中,提取装置还可以包括:网页块选取单元,用于从所述网页的源代码中选取用于提取键-值对的目标网页块。在另一个实施例中,提取装置还可以包括:最终网页块确定单元,用于至少基于多个目标网页块所包含的所述经修正的键-值对,从所述多个目标网页块中确定最终目标网页块。由此,本发明的网页信息提取方法还可以优选地包括对要进行“键-值”对分析的网页块本身的选取和确定。图10示出了根据本发明另一个实施例的网页信息提取装置的结构示意图。如图所示,网页信息提取装置1000可以包括网页块选取单元1010,用于选取候选网页块;键-值对抽取单元1020,用于抽取网页块内部“键-值”对;以及最终网页块确定单元1030,用于输出最终结构化信息块。键-值对抽取单元1020可以包括如上结合图9详述的针对目标网页块进行的“键-值”对粗分类以及自学习模型的修正的各个单元。因此,随后着重描述网页块选取单元1010和最终网页块确定单元1030。优选地,网页块选取单元1010可以选取如下至少一项作为所述目标网页块:网页中包含表格结构的网页块;网页中包含两列结构的网页块;以及网页中包含键关键词的网页块。进一步地,网页块选取单元1010可以将包含表格结构、两列结构和/或键关键词大于各自预定阈值的网页块作为所述目标网页块。最终网页块确定单元1030可以基于每个目标网页块所包含的所述经修正的键-值对以及每个目标网页块在所述网页中的位置,确定最终目标网页块。进一步地,最终网页块确定单元可以用于使用每个目标网页块所包含的所述经修正的键-值对的数量,并且使用目标网页块与页面标题的距离、目标网页块与页面导航栏的距离以及目标网页块在页面中的水平相对位置中的至少一项,选出最为重要的目标网页块作为所述最终目标网页块。无论针对图9还是图10,网页信息提取装置还可以包括键关键值挖掘单元,用于基于所述目标提取信息,迭代选择经修正的键值作为初始键关键值。图11示出了根据本发明一个实施例可用于实现上述网页信息提取方法的计算设备的结构示意图。参见图11,计算设备1100包括存储器1110和处理器1120。处理器1120可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1120可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中,处理器1120可以使用定制的电路实现,例如特定用途集成电路(asic,applicationspecificintegratedcircuit)或者现场可编程逻辑门阵列(fpga,fieldprogrammablegatearrays)。存储器1110可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器1120或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1110可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1110可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、minsd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。存储器1110上存储有可执行代码,当可执行代码被处理器1120处理时,可以使处理器1120执行上文述及的网页信息提取方法。上文中已经参考附图详细描述了根据本发明的网页信息提取方案。该方案使用自学习算法对网页块中的“键-值”进行分类。进一步地,通过两列结构,表格结构,以及关键词可以选取要进行“键-值”对提取的候选网页块。另外,可以利用与网页其它元素之间的位置关系,进行结构化网页块的重要程度打分,从而确定真正用于提取信息的网页块。本方案的准确率和召回率高,只需遍历两次html(解析网页html遍历一次,候选块确定和键值抽取遍历一次),模型简单,运行效率高。另外,本方案采用自学习方法进行概率建模,不需要任何人工标注,能够较好处理新出现的网页,从而实现无监督的网页结构化信息抽取。此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
:的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本
技术领域
:的其它普通技术人员能理解本文披露的各实施例。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1