网页页面信息的提取方法和装置制造方法

文档序号:6640255阅读:247来源:国知局
网页页面信息的提取方法和装置制造方法
【专利摘要】本发明公开了一种网页页面信息的提取方法和装置。其中,网页页面信息的提取方法包括:获取多个待提取网页页面的超文本标记语言HTML代码;根据HTML代码对多个待提取网页页面进行聚类,得到多个归属类别;提取每个归属类别中的目标块元素,其中,目标块元素为同一归属类别中的不同待提取网页页面共有的块元素;提取目标块元素中的文本,得到目标块元素的文本集合;计算文本集合的指标值,其中,指标值用于表示文本集合中的文本的差异程度;提取指标值大于第一预设阈值的文本集合中的文本,得到网页页面信息。通过本发明,解决了现有技术中网页信息提取准确度低问题,进而达到了提高网页信息提取准确性的效果。
【专利说明】网页页面信息的提取方法和装置

【技术领域】
[0001] 本发明涉及数据处理领域,具体而言,涉及一种网页页面信息的提取方法和装置。

【背景技术】
[0002] 采集网页信息是大数据分析的重要数据来源。目前采集网页信息主要有两种方 案,一种是使用基于规则的方法,使用正则表达式、Xpath或Css选择器提取页面元素,另一 种是基于统计的方法,通过机器学习人工标注的数据得到训练模型,根据模型进行信息提 取。
[0003] 基于规则的方法通过分析HTML(HyperTextMark-upLanguage,超文本标记语言) 代码,对待提取信息的左右边界进行分析,通过正则表达式或其它手段提取信息,或者通过 为页面建立DOM(DocumentObjectModel,文件对象模型)树,通过XPath或Css选择器选 取网页元素,进而选取包含待提取信息的元素,从而实现信息提取。
[0004] 基于规则的提取方法,提取准确,但是适用性差,往往只能针对一类页面进行信息 提取,页面如果有变化会导致提取错误。
[0005] 基于统计的方法,通过机器学习的方法,对人工标注的准确结果进行训练,得到训 练模型,通过训练模型进行信息识别和提取。
[0006] 基于统计方法适用性好,可以用于各种网页页面,但是此种方法资源消耗大,对人 工标注的依赖性强,信息提取的质量与人工标注的质量相关性强。准确度不能完全保障, 基于训练的方法不是针对特定页面的信息提取,对新的页面可能会导致提取不全或提取失 败。
[0007] 针对现有技术中网页信息提取准确度低的问题,目前尚未提出有效的解决方案。


【发明内容】

[0008] 本发明的主要目的在于提供一种网页页面信息的提取方法和装置,以解决现有技 术中网页信息提取准确度低的问题。
[0009] 为了实现上述目的,根据本发明实施例的一个方面,提供了一种网页页面信息的 提取方法。
[0010] 根据本发明的网页页面信息的提取方法包括:获取多个待提取网页页面的超文本 标记语言HTML代码;根据所述HTML代码对多个所述待提取网页页面进行聚类,得到多个归 属类别;提取每个所述归属类别中的目标块元素,其中,所述目标块元素为同一所述归属类 别中的不同所述待提取网页页面共有的块元素;提取所述目标块元素中的文本,得到所述 目标块元素的文本集合;计算所述文本集合的指标值,其中,所述指标值用于表示所述文本 集合中的文本的差异程度;以及提取所述指标值大于第一预设阈值的所述文本集合中的文 本,得到所述网页页面信息。
[0011] 进一步地,计算所述文本集合的指标值包括:记录所述文本集合中的每个不相同 的文本的出现次数;根据每个所述不相同的文本的出现次数,确定所述文本集合中全部文 本的总出现次数;根据每个所述不相同的文本的出现次数和所述总出现次数,计算每个所 述不相同的文本在所述文本集合中的出现频率;以及根据每个所述不相同的文本在所述文 本集合中的所述出现频率,确定所述文本集合的指标值。
[0012] 进一步地,根据每个所述不相同的文本在所述文本集合中的所述出现频率,确定 所述文本集合的指标值包括:按照公式& = 一计算所述 /=1 文本集合的指标值,其中,Esrt为所述文本集合的指标值,m为所述文本集合中包含所述不相 同的文本的个数,PUexti)为每个所述不相同的文本在所述文本集合中的出现频率。
[0013] 进一步地,在提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到 所述网页页面信息之后,所述提取方法还包括:记录所述文本的类别属性。
[0014] 进一步地,通过以下方式确定第一待提取网页页面和第二待提取页面的归属类 另IJ,其中,所述第一待提取网页页面和所述第二待提取页面为多个所述待提取页面中的任 意两个待提取网页页面:根据所述第一待提取网页页面的HTML代码建立第一树形结构,并 根据所述第二待提取网页页面的HTML代码建立第二树形结构;提取所述第一树形结构中 包含预设属性的块元素,得到第一块元素,以及提取所述第二树形结构中包含预设属性的 块元素,得到第二块元素;根据所述第一块元素和所述第二块元素,计算所述第一待提取网 页页面和所述第二待提取网页页面的相似度平均值;比较所述相似度平均值和第二预设阈 值的大小;以及在比较出所述相似度平均值大于所述第二预设阈值的情况下,确定所述第 一待提取网页页面和所述第二待提取页面为相同归属类别,或在比较出所述相似度平均值 小于或等于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取 页面分别为不同的归属类别。
[0015] 为了实现上述目的,根据本发明实施例的另一方面,提供了一种网页页面信息的 提取装置。
[0016] 根据本发明的网页页面信息的提取装置包括:获取单元,用于获取多个待提取网 页页面的超文本标记语言HTML代码;聚类单元,用于根据所述HTML代码对多个所述待提取 网页页面进行聚类,得到多个归属类别;第一提取单元,用于提取每个所述归属类别中的目 标块元素,其中,所述目标块元素为同一所述归属类别中的不同所述待提取网页页面共有 的块元素;第二提取单元,用于提取所述目标块元素中的文本,得到所述目标块元素的文本 集合;第一计算单元,用于计算所述文本集合的指标值,其中,所述指标值用于表示所述文 本集合中的文本的差异程度;以及第三提取单元,用于提取所述指标值大于第一预设阈值 的所述文本集合中的文本,得到所述网页页面信息。
[0017] 进一步地,所述第一计算单元包括:记录模块,用于记录所述文本集合中的每个不 相同的文本的出现次数;第一确定模块,用于根据每个所述不相同的文本的出现次数,确定 所述文本集合中全部文本的总出现次数;计算模块,用于根据每个所述不相同的文本的出 现次数和所述总出现次数,计算每个所述不相同的文本在所述文本集合中的出现频率;以 及第二确定模块,用于根据每个所述不相同的文本在所述文本集合中的所述出现频率,确 定所述文本集合的指标值。
[0018] 进一步地,所述第二确定模块包括:计算子模块,用于按照公式 m 心=-Σ 计算所述文本集合的指标值,其中,Eset为所述文 /=1 本集合的指标值,m为所述文本集合中包含所述不相同的文本的个数,PUexti)为每个所述 不相同的文本在所述文本集合中的出现频率。
[0019] 进一步地,所述提取装置还包括:记录单元,用于在提取所述指标值大于第一预设 阈值的所述文本集合中的文本,得到所述网页页面信息之后,记录所述文本的类别属性。
[0020] 进一步地,所述提取装置还包括:建立单元,用于根据第一待提取网页页面的 HTML代码建立第一树形结构,并根据第二待提取网页页面的HTML代码建立第二树形结构, 其中,所述第一待提取网页页面和所述第二待提取页面为多个所述待提取页面中的任意两 个待提取网页页面:第四提取单元,用于提取所述第一树形结构中包含预设属性的块元素, 得到第一块元素,以及提取所述第二树形结构中包含预设属性的块元素,得到第二块元素; 第二计算单元,用于根据所述第一块元素和所述第二块元素,计算所述第一待提取网页页 面和所述第二待提取网页页面的相似度平均值;比较单元,用于比较所述相似度平均值和 第二预设阈值的大小;以及处理单元,用于在比较出所述相似度平均值大于所述第二预设 阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面为相同归属类别,或 在比较出所述相似度平均值小于或等于所述第二预设阈值的情况下,确定所述第一待提取 网页页面和所述第二待提取页面分别为不同的归属类别。
[0021] 根据发明实施例,采用获取多个待提取网页页面的HTML代码;根据所述HTML代码 对多个所述待提取网页页面进行聚类,得到多个归属类别;提取每个所述归属类别中的目 标块元素,其中,所述目标块元素为同一所述归属类别中的不同所述待提取网页页面共有 的块元素;提取所述目标块元素中的文本内容,得到所述目标块元素的文本集合;计算所 述文本集合的指标值,其中,所述指标值用于表示所述文本集合中的文本的差异程度;以及 提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信息。通 过获取多个待提取网页页面的HTML代码,可以实现对多个待提取网页页面归属类别的划 分,进而获取同一归属类别下的不同待提取网页页面中共同包含的块元素,可以实现对相 同块元素中文本内容的提取,然后可以根据获取到的文本内容的差异程度与预设阈值的比 较结果,确定该文本内容是否为待提取网页页面中的需要提取的信息,解决了现有技术中 网页信息提取准确度低问题,进而达到了提高网页信息提取准确性的效果。

【专利附图】

【附图说明】
[0022] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1是根据本发明实施例的网页页面信息的提取方法的流程图;以及
[0024] 图2是根据本发明实施例的网页页面信息的提取装置的示意图。

【具体实施方式】
[0025] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0026]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0027] 实施例1
[0028] 根据本发明实施例,提供了一种可以用于实施本申请装置实施例的方法实施例, 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系 统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处 的顺序执行所示出或描述的步骤。
[0029] 根据本发明实施例,提供了一种网页页面信息的提取方法。图1是根据本发明实 施例的网页页面信息的提取方法的流程图,如图1所示,该方法包括如下的步骤S102至步 骤Sl12 :
[0030]S102:获取多个待提取网页页面的超文本标记语言HTML代码。具体地,可以同时 获取多个待提取网页页面的HTML代码,也可以依次一个一个的获取每个待提取网页页面 的HTML代码。
[0031]S104:根据HTML代码对多个待提取网页页面进行聚类,得到多个归属类别,也就 是,根据获取到的每个待提取网页页面的HTML代码,对多个待提取网页页面进行分类,将 多个待提取网页页面中相似的待提取网页页面归为一个类别。需要说明的是,一个待提取 网页页面只能有一个归属类别。
[0032]S106:提取每个归属类别中的目标块元素,其中,目标块元素为同一归属类别中的 不同待提取网页页面共有的块元素。具体地,目标块元素可以为一个,也可以为多个。在本 发明实施例中,目标块元素的具体数量是根据同一归属类别中不同待提取页面共有的块元 素的数量确定的。共有的块元素是指该块元素在同一归属类别中不同待提取页面中的标签 名称、属性都相同的块元素,此处的属性为class属性或者id属性。例如:网页页面1、网 页页面2和网页页面3同属于归属类别A,网页页面1、网页页面2和网页页面3中每个网 页页面中共同包含的块元素有3个,分别是div[class= "menu"]、div[id="title" ]和 p[class= "content"],那么归属类别A中的目标块元素则为3个。
[0033]S108:提取目标块元素中的文本,得到目标块元素的文本集合。具体地,同一目标 块元素中包含多个文本,多个文本的集合即为该目标块元素的文本集合。如果目标块元素 为多个,那么提取每个目标块元素中的文本,得到每个目标块元素的文本集合。继续采用上 述举例说明,对于目标块元素div[id= "title"],得到的文本集合为{ "标题1","标题 2","标题 3"}。
[0034] S110:计算文本集合的指标值,其中,指标值用于表示文本集合中的文本的差异程 度,即,计算目标块元素中文本差异程度,差异程度越大,说明该目标块元素中的文本中的 内容差别越大。
[0035] S112:提取指标值大于第一预设阈值的文本集合中的文本,得到网页页面信息,也 就是只有指标值大于第一预设值的文本集合中的文本,才是需要在待提取网页页面中提取 的信息。具体地,第一预设值可以根据需求设置。
[0036] 在本发明实施例中,通过获取多个待提取网页页面的HTML代码,可以实现对多个 待提取网页页面归属类别的划分,进而获取同一归属类别下的不同待提取网页页面中共同 包含的块元素,可以实现对相同块元素中文本内容的提取,然后可以根据获取到的文本内 容的差异程度与预设阈值的比较结果,确定该文本内容是否为待提取网页页面中的需要提 取的信息,解决了现有技术中网页信息提取准确度低问题,进而达到了提高网页信息提取 准确性的效果。
[0037] 需要说明的是,如果目标块元素的数量为多个,需要分别计算每个目标块元素的 文本集合的指标值,并且将计算出的每个指标值分别与第一预设阈值进行比较,将指标值 大于第一预设阈值的文本集合中的文本进行提取。
[0038] 具体地,文本集合的指标值可以通过步骤1-1至步骤1-4计算得出,步骤1-1至步 骤1-4具体如下:
[0039] 步骤1-1 :记录文本集合中的每个不相同的文本的出现次数。由于文本集合中包 括多个文本,所以多个文本可能存在内容相同的文本,在本发明实施例中,只统计相互之间 内容不相同的文本在该文本集合中的出现次数。
[0040] 步骤1-2 :根据每个不相同的文本的出现次数,确定文本集合中全部文本的总出 现次数,具体地,该文本集合中全部文本的总出现次数等于所有不相同的文本的出现次数 之和。
[0041] 步骤1-3 :根据每个不相同的文本的出现次数和总出现次数,计算每个不相同的 文本在文本集合中的出现频率。例如,在该文本集合中有个与该文本集合中其他文本不同 的文本A,文本A在该文本集合中的出现次数为3次,该文本集合中全部文本的总出现次数 为30次,那么对于文本A而言,在上述文本集合中的出现频率为1/10。
[0042] 步骤1-4 :根据每个不相同的文本在文本集合中的出现频率,确定文本集合的指 标值。
[0043] 如果目标块元素为多个,那么每个目标块元素的文本集合的指标值都可以通过重 复执行步骤1-1至步骤1-4计算得出。
[0044] 具体地,在本发明实施例中,根据每个不相同的文本在文本集合中的出现频率,确 定文本集合的指标值包括:按照公式& 计算文本集 /'-I 合的指标值,其中,Esrt为文本集合的指标值,m为文本集合中包含不相同的文本的个数,p(texti)为每个不相同的文本在文本集合中的出现频率。在本发明实施例中,计算文本集 合Esrt中将每个不相同的文本的出现频率与该不相同的文本的出现频率的对数相乘,将得 到的所有结果求和,再取负数,就是该文本集合的指标值。
[0045] 优选地,在提取指标值大于第一预设阈值的文本集合中的文本,得到网页页面信 息之后,本发明实施例所提供的网页页面信息的提取方法还包括记录文本的类别属性。具 体地,类别属性可以是标题、内容等。本发明实施例也就是,记录提取的文本内容是标题还 是内容等。
[0046]在本发明实施例中,通过记录提取的文本的类别属性,方便在后续进行大数据分 析时,用户可以快速的筛选出所需的信息,达到了提高用户满意度的效果。例如,用户想筛 选提取到的网页信息中,内容为标题的信息,那么用户只需选择类别属性为标题,即可快速 的筛选出符合其要求的网页信息。
[0047]本发明实施例还提供了一种确定待提取页面的归属类别的具体方式,以第一待提 取网页页面和第二待提取页面为多个待提取页面中的任意两个待提取网页页面为例,来说 明确定第一待提取网页页面和第二待提取页面归属类别的方式,具体地,可以通过步骤2-1 至步骤2-5来确定第一待提取网页页面和第二待提取页面的归属类别:
[0048] 步骤2-1:根据第一待提取网页页面的HTML代码建立第一树形结构,并根据第二 待提取网页页面的HTML代码建立第二树形结构。
[0049] 步骤2-2:提取第一树形结构中包含预设属性的块元素,得到第一块元素,以及提 取第二树形结构中包含预设属性的块元素,得到第二块元素。具体地,预设属性为class属 性或者id属性,本步骤也就是只提取第一待提取页面的HTML代码中包含class属性或者 id属性的块元素,并只提取第二待提取页面的HTML代码中包含class属性或者id属性的 块元素。
[0050] 步骤2-3:根据第一块元素和第二块元素,计算第一待提取网页页面和第二待提 取网页页面的相似度平均值。在本发明实施例中,可以按照公式V= 1/2(S1+S2)计算第一 待提取网页页面和第二待提取网页页面的相似度平均值,其中,V为相似度平均值,Sl为第 一待提取网页页面和第二待提取网页页面的第一相似度,S2为第一待提取网页页面和第二 m 待提取网页页面的第二相似度。具体地,可以按照公式M 计算第一相似度S1,其 0Α:=1 中,Kp为第一待提取网页页面和第二待提取网页页面中相同的块元素,ρ依次取1至m,m为 相同块元素的个数,Vikp为相同块元素Kp在第一待提取网页页面中的出现频次,Ktlk为第一 待提取网页页面中的第一块元素,Nl为第一待提取网页页面中第一块元素的个数,匕。s为 m Σ 第一块元素Ktlk在第一待提取网页页面中的出现频次;按照公式= --计算第二相似 Σ气 U=I 度S2,其中,V2kp为相同块元素Kp在第二待提取网页页面中的出现频次,Klk为第二待提取 网页页面中的第二块元素,N2为第二待提取网页页面中第二块元素的个数,匕u为第二块 元素Klk在第二待提取网页页面中的出现频次。
[0051] 步骤2-4 :比较相似度平均值和第二预设阈值的大小。具体地,第二预设阈值也可 以根据需求设置。
[0052] 步骤2-5 :在比较出相似度平均值大于第二预设阈值的情况下,确定第一待提取 网页页面和第二待提取页面为相同归属类别,或在比较出相似度平均值小于或等于第二预 设阈值的情况下,确定第一待提取网页页面和第二待提取页面分别为不同的归属类别,本 步骤也就是,在判断出相似度平均值大于第二预设阈值的情况下,第一待提取网页页面和 第二待提取页面属于同一归属类别;在判断出相似度平均值小于或等于第二预设阈值的情 况下,第一待提取网页页面和第二待提取页面分别属于不同的归属类别。
[0053] 在本发明实施例中,可以将多个待提取页面中的任意两个网页页面分别当做第一 待提取网页页面和第二待提取网页页面,并重复执行步骤2-1至步骤2-5,直至确定出每个 待提取页面的归属类别。需要说明的是,如果网页页面A和网页页面B属于同一归属类别, 网页页面A和网页页面D也属于同一归属类别,那么网页页面A、网页页面B和网页页面D 均属于同一归属类别。当两个以上待提取网页页面属于同一归属类别后,对于其他需要确 定归属类别的待提取网页页面,只要将该待提取网页页面与上述归属类别中的一个待提取 网页页面计算相似度平均值,并将得到的相似度平均值与第二预设阈值进行比较,即可确 定该待提取网页页面是否属于上述归属类别。
[0054] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列 的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为 依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知 悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明 所必须的。
[0055] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施 例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多 情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有 技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质(如R0M/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计 算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0056] 实施例2
[0057] 根据本发明实施例,还提供了一种用于实施上述网页页面信息的提取方法的网页 页面信息的提取装置,该提取装置主要用于执行本发明实施例上述内容所提供的提取方 法,以下对本发明实施例所提供的网页页面信息的提取装置做具体介绍:
[0058] 图2是根据本发明实施例的网页页面信息的提取装置的示意图,如图2所示,该装 置主要包括获取单元10、聚类单元20、第一提取单元30、第二提取单元40、第一计算单元50 和第三提取单元60,其中:
[0059] 获取单元10用于获取多个待提取网页页面的超文本标记语言HTML代码。具体 地,可以同时获取多个待提取网页页面的HTML代码,也可以依次一个一个的获取每个待提 取网页页面的HTML代码。
[0060] 聚类单元20用于根据HTML代码对多个待提取网页页面进行聚类,得到多个归属 类别,也就是,根据获取到的每个待提取网页页面的HTML代码,对多个待提取网页页面进 行分类,将多个待提取网页页面中相似的待提取网页页面归为一个类别。需要说明的是,一 个待提取网页页面只能有一个归属类别。
[0061] 第一提取单元30用于提取每个归属类别中的目标块元素,其中,目标块元素为同 一归属类别中的不同待提取网页页面共有的块元素。具体地,目标块元素可以为一个,也可 以为多个。在本发明实施例中,目标块元素的具体数量是根据同一归属类别中不同待提取 页面共有的块元素的数量确定的。共有的块元素是指该块元素在同一归属类别中不同待提 取页面中的标签名称、属性都相同的块元素,此处的属性为class属性或者id属性。例如: 网页页面1、网页页面2和网页页面3同属于归属类别A,网页页面1、网页页面2和网页页 面3中每个网页页面中共同包含的块元素有3个,分别是div[class= "menu"]、div[id= "title"]和p[claSS = "content"],那么归属类别A中的目标块元素则为3个。
[0062] 第二提取单元40用于提取目标块元素中的文本,得到目标块元素的文本集合。具 体地,同一目标块元素中包含多个文本,多个文本的集合即为该目标块元素的文本集合。如 果目标块元素为多个,那么提取每个目标块元素中的文本,得到每个目标块元素的文本集 合。继续采用上述举例说明,对于目标块元素虹钭1(1=1^16"],得到的文本集合为{"标 题1","标题2","标题3"}。
[0063] 第一计算单元50用于计算文本集合的指标值,其中,指标值用于表示文本集合中 的文本的差异程度,即,计算目标块元素中文本差异程度,差异程度越大,说明该目标块元 素中的文本中的内容差别越大。
[0064] 第三提取单元60用于提取指标值大于第一预设阈值的文本集合中的文本,得到 网页页面信息,也就是只有指标值大于第一预设值的文本集合中的文本,才是需要在待提 取网页页面中提取的信息。具体地,第一预设值可以根据需求设置。
[0065] 在本发明实施例中,通过获取多个待提取网页页面的HTML代码,可以实现对多个 待提取网页页面归属类别的划分,进而获取同一归属类别下的不同待提取网页页面中共同 包含的块元素,可以实现对相同块元素中文本内容的提取,然后可以根据获取到的文本内 容的差异程度与预设阈值的比较结果,确定该文本内容是否为待提取网页页面中的需要提 取的信息,解决了现有技术中网页信息提取准确度低问题,进而达到了提高网页信息提取 准确性的效果。
[0066] 需要说明的是,如果目标块元素的数量为多个,需要分别计算每个目标块元素的 文本集合的指标值,并且将计算出的每个指标值分别与第一预设阈值进行比较,将指标值 大于第一预设阈值的文本集合中的文本进行提取。
[0067]具体地,第一计算单元50包括记录模块、第一确定模块、计算模块和第二确定模 块,其中:
[0068] 记录模块用于记录文本集合中的每个不相同的文本的出现次数。由于文本集合中 包括多个文本,所以多个文本可能存在内容相同的文本,在本发明实施例中,只统计相互之 间内容不相同的文本在该文本集合中的出现次数。
[0069]第一确定模块用于根据每个不相同的文本的出现次数,确定文本集合中全部文本 的总出现次数,具体地,该文本集合中全部文本的总出现次数等于所有不相同的文本的出 现次数之和。
[0070]计算模块用于根据每个不相同的文本的出现次数和总出现次数,计算每个不相同 的文本在文本集合中的出现频率。例如,在该文本集合中有个与该文本集合中其他文本不 同的文本A,文本A在该文本集合中的出现次数为3次,该文本集合中全部文本的总出现次 数为30次,那么对于文本A而言,在上述文本集合中的出现频率为1/10。
[0071] 第二确定模块用于根据每个不相同的文本在文本集合中的出现频率,确定文本集 合的指标值。
[0072] 如果目标块元素为多个,那么每个目标块元素的文本集合的指标值都可以通过重 复调用记录模块、第一确定模块、计算模块和第二确定模块计算得出。
[0073] 具体地,第二确定模块包括计算子模块,计算子模块用于按照公式 心=一Σ 计算文本集合的指标值,其中,Eset为文本集合的 /=1 指标值,m为文本集合中包含不相同的文本的个数,PUexti)为每个不相同的文本在文本集 合中的出现频率。在本发明实施例中,计算文本集合Esrt中将每个不相同的文本的出现频 率与该不相同的文本的出现频率的对数相乘,将得到的所有结果求和,再取负数,就是该文 本集合的指标值。
[0074] 优选地,本发明实施例所提供的网页页面信息的提取装置还包括记录单元,记录 单元用于在提取指标值大于第一预设阈值的文本集合中的文本,得到网页页面信息之后, 记录文本的类别属性。具体地,类别属性可以是标题、内容等。本发明实施例也就是,记录 提取的文本内容是标题还是内容等。
[0075] 在本发明实施例中,通过记录提取的文本的类别属性,方便在后续进行大数据分 析时,用户可以快速的筛选出所需的信息,达到了提高用户满意度的效果。例如,用户想筛 选提取到的网页信息中,内容为标题的信息,那么用户只需选择类别属性为标题,即可快速 的筛选出符合其要求的网页信息。
[0076] 优选地,本发明实施例还提供了一种确定待提取页面的归属类别的具体方式,可 以通过网页页面信息的提取装置所包括的建立单元、第四提取单元、第二计算单元、比较单 元和处理单元来执行,其中 :
[0077] 建立单元用于根据第一待提取网页页面的HTML代码建立第一树形结构,并根据 第二待提取网页页面的HTML代码建立第二树形结构,其中,第一待提取网页页面和第二待 提取页面为多个待提取页面中的任意两个待提取网页页面。
[0078] 第四提取单元用于提取第一树形结构中包含预设属性的块元素,得到第一块元 素,以及提取第二树形结构中包含预设属性的块元素,得到第二块元素。具体地,预设属性 为class属性或者id属性,本单元也就是只提取第一待提取页面的HTML代码中包含class 属性或者id属性的块元素,并只提取第二待提取页面的HTML代码中包含class属性或者 id属性的块元素。
[0079] 第二计算单元用于根据第一块元素和第二块元素,计算第一待提取网页页面和第 二待提取网页页面的相似度平均值。在本发明实施例中,可以按照公式V= 1/2(S1+S2)计 算第一待提取网页页面和第二待提取网页页面的相似度平均值,其中,V为相似度平均值, Sl为第一待提取网页页面和第二待提取网页页面的第一相似度,S2为第一待提取网页页 τη Σ^/> 面和第二待提取网页页面的第二相似度。具体地,可以按照公式μ^计算第一相似 Σ^μ OAr=I 度S1,其中,Kp为第一待提取网页页面和第二待提取网页页面中相同的块元素,P依次取1 至m,m为相同块元素的个数,Vikp为相同块元素Kp在第一待提取网页页面中的出现频次, Ktlk为第一待提取网页页面中的第一块元素,Nl为第一待提取网页页面中第一块元素的个 m 数,匕M为第一块元素Ktlk在第一待提取网页页面中的出现频次;按照公式= ^--计 Σ气 Izt=I 算第二相似度S2,其中,V2kp为相同块元素Kp在第二待提取网页页面中的出现频次,Klk为第 二待提取网页页面中的第二块元素,N2为第二待提取网页页面中第二块元素的个数,匕,t 为第二块元素Klk在第二待提取网页页面中的出现频次。
[0080] 比较单元用于比较相似度平均值和第二预设阈值的大小。具体地,第二预设阈值 也可以根据需求设置。
[0081] 处理单元用于在比较出相似度平均值大于第二预设阈值的情况下,确定第一待提 取网页页面和第二待提取页面为相同归属类别,或在比较出相似度平均值小于或等于第二 预设阈值的情况下,确定第一待提取网页页面和第二待提取页面分别为不同的归属类别, 本单元也就是,在判断出相似度平均值大于第二预设阈值的情况下,第一待提取网页页面 和第二待提取页面属于同一归属类别;在判断出相似度平均值小于或等于第二预设阈值的 情况下,第一待提取网页页面和第二待提取页面分别属于不同的归属类别。
[0082] 在本发明实施例中,可以将多个待提取页面中的任意两个网页页面分别当做第一 待提取网页页面和第二待提取网页页面,并重复调用建立单元、第四提取单元、第二计算单 元、比较单元和处理单元,直至确定出每个待提取页面的归属类别。需要说明的是,如果网 页页面A和网页页面B属于同一归属类别,网页页面A和网页页面D也属于同一归属类别, 那么网页页面A、网页页面B和网页页面D均属于同一归属类别。当两个以上待提取网页页 面属于同一归属类别后,对于其他需要确定归属类别的待提取网页页面,只要将该待提取 网页页面与上述归属类别中的一个待提取网页页面计算相似度平均值,并将得到的相似度 平均值与第二预设阈值进行比较,即可确定该待提取网页页面是否属于上述归属类别。 [0083] 从以上的描述中,可以看出,本发明解决了现有技术中网页信息提取准确度低问 题,达到了提高网页信息提取准确性的效果。
[0084] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0085] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有 详述的部分,可以参见其他实施例的相关描述。
[0086] 在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方 式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一 种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者 可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之 间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连 接,可以是电性或其它的形式。
[0087]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0088] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0089]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式 体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机 设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部 或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存 取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代 码的介质。
[0090]以上所述仅是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
【权利要求】
1. 一种网页页面信息的提取方法,其特征在于,包括: 获取多个待提取网页页面的超文本标记语言HTML代码; 根据所述HTML代码对多个所述待提取网页页面进行聚类,得到多个归属类别; 提取每个所述归属类别中的目标块元素,其中,所述目标块元素为同一所述归属类别 中的不同所述待提取网页页面共有的块元素; 提取所述目标块元素中的文本,得到所述目标块元素的文本集合; 计算所述文本集合的指标值,其中,所述指标值用于表示所述文本集合中的文本的差 异程度;以及 提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信 肩、。
2. 根据权利要求1所述的提取方法,其特征在于,计算所述文本集合的指标值包括: 记录所述文本集合中的每个不相同的文本的出现次数; 根据每个所述不相同的文本的出现次数,确定所述文本集合中全部文本的总出现次 数; 根据每个所述不相同的文本的出现次数和所述总出现次数,计算每个所述不相同的文 本在所述文本集合中的出现频率;以及 根据每个所述不相同的文本在所述文本集合中的所述出现频率,确定所述文本集合的 指标值。
3. 根据权利要求2所述的提取方法,其特征在于,根据每个所述不相同的文本在所述 文本集合中的所述出现频率,确定所述文本集合的指标值包括:
中,ESrt为所述文本集合的指标值,m为所述文本集合中包含所述不相同的文本的个数,pUexti)为每个所述不相同的文本在所述文本集合中的出现频率。
4. 根据权利要求1所述的提取方法,其特征在于,在提取所述指标值大于第一预设阈 值的所述文本集合中的文本,得到所述网页页面信息之后,所述提取方法还包括: 记录所述文本的类别属性。
5. 根据权利要求1所述的提取方法,其特征在于,通过以下方式确定第一待提取网页 页面和第二待提取页面的归属类别,其中,所述第一待提取网页页面和所述第二待提取页 面为多个所述待提取页面中的任意两个待提取网页页面: 根据所述第一待提取网页页面的HTML代码建立第一树形结构,并根据所述第二待提 取网页页面的HTML代码建立第二树形结构; 提取所述第一树形结构中包含预设属性的块元素,得到第一块元素,以及提取所述第 二树形结构中包含预设属性的块元素,得到第二块元素; 根据所述第一块元素和所述第二块元素,计算所述第一待提取网页页面和所述第二待 提取网页页面的相似度平均值; 比较所述相似度平均值和第二预设阈值的大小;以及 在比较出所述相似度平均值大于所述第二预设阈值的情况下,确定所述第一待提取网 页页面和所述第二待提取页面为相同归属类别,或在比较出所述相似度平均值小于或等于 所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面分别为 不同的归属类别。
6. -种网页页面信息的提取装置,其特征在于,包括: 获取单元,用于获取多个待提取网页页面的超文本标记语言HTML代码; 聚类单元,用于根据所述HTML代码对多个所述待提取网页页面进行聚类,得到多个归 属类别; 第一提取单元,用于提取每个所述归属类别中的目标块元素,其中,所述目标块元素为 同一所述归属类别中的不同所述待提取网页页面共有的块元素; 第二提取单元,用于提取所述目标块元素中的文本,得到所述目标块元素的文本集 合; 第一计算单元,用于计算所述文本集合的指标值,其中,所述指标值用于表示所述文本 集合中的文本的差异程度;以及 第三提取单元,用于提取所述指标值大于第一预设阈值的所述文本集合中的文本,得 到所述网页页面信息。
7. 根据权利要求6所述的提取装置,其特征在于,所述第一计算单元包括: 记录模块,用于记录所述文本集合中的每个不相同的文本的出现次数; 第一确定模块,用于根据每个所述不相同的文本的出现次数,确定所述文本集合中全 部文本的总出现次数; 计算模块,用于根据每个所述不相同的文本的出现次数和所述总出现次数,计算每个 所述不相同的文本在所述文本集合中的出现频率;以及 第二确定模块,用于根据每个所述不相同的文本在所述文本集合中的所述出现频率, 确定所述文本集合的指标值。
8. 根据权利要求7所述的提取装置,其特征在于,所述第二确定模块包括:
合的指标值,其中,ESrt为所述文本集合的指标值,m为所述文本集合中包含所述不相同的文 本的个数,pUexti)为每个所述不相同的文本在所述文本集合中的出现频率。
9. 根据权利要求6所述的提取装置,其特征在于,所述提取装置还包括: 记录单元,用于在提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到 所述网页页面信息之后,记录所述文本的类别属性。
10. 根据权利要求6所述的提取装置,其特征在于,所述提取装置还包括: 建立单元,用于根据第一待提取网页页面的HTML代码建立第一树形结构,并根据第二 待提取网页页面的HTML代码建立第二树形结构,其中,所述第一待提取网页页面和所述第 二待提取页面为多个所述待提取页面中的任意两个待提取网页页面: 第四提取单元,用于提取所述第一树形结构中包含预设属性的块元素,得到第一块元 素,以及提取所述第二树形结构中包含预设属性的块元素,得到第二块元素; 第二计算单元,用于根据所述第一块元素和所述第二块元素,计算所述第一待提取网 页页面和所述第二待提取网页页面的相似度平均值; 比较单元,用于比较所述相似度平均值和第二预设阈值的大小;以及 处理单元,用于在比较出所述相似度平均值大于所述第二预设阈值的情况下,确定所 述第一待提取网页页面和所述第二待提取页面为相同归属类别,或在比较出所述相似度平 均值小于或等于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待 提取页面分别为不同的归属类别。
【文档编号】G06F17/30GK104484451SQ201410830367
【公开日】2015年4月1日 申请日期:2014年12月25日 优先权日:2014年12月25日
【发明者】侯明午 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1