一种网页正文提取方法及装置的制造方法

文档序号:8299154阅读:536来源:国知局
一种网页正文提取方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,特别涉及一种网页正文提取方法及装置。
【背景技术】
[0002]随着网页信息资源快速的发展,每天都会产生很多网页。网页中可以包括正文信息和一些广告信息。如何从网页中提取出正文,变得十分重要。
[0003]现有技术中,通过网页中标签之间的嵌套关系先从HTML(Hyper Text Mark-upLanguage,超文本标记语言文件)网页中解析出DOM(Document Object Model,文件对象模型)树,然后遍历所有DOM树,依据正文信息在DOM树中的分布规律确定正文的位置。
[0004]通过上述描述可见,现有技术中提取网页正文的方法需要遍历所有DOM树,提取网页正文的速度较慢。

【发明内容】

[0005]有鉴于此,本发明提供了一种网页正文提取方法及装置,能够提高提取网页正文的速度。
[0006]本发明提供了一种网页正文提取方法,包括:
[0007]提取待提取网页的所有语义块;
[0008]将所述待提取网页均匀分割成多个区域块;
[0009]对所有区域块进行预设个数次随机抽样;
[0010]确定被抽中的区域块所在的语义块;
[0011]计算出每个语义块的抽样分布概率;
[0012]确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
[0013]进一步地,所述提取待提取网页的所有语义块,包括:
[0014]S1:对所述待提取网页的HTML源码建立文件对象模型DOM树;
[0015]S2:根据所述DOM树获得所述待提取网页的所有语义块。
[0016]进一步地,所述S2,包括:
[0017]Sll:对所述DOM树进行页面分块,提取出所有的页面块;
[0018]S12:根据所述页面块,检测出页面块之间的所有分割条;
[0019]S13:根据所述分割条对所述页面块进行合并,得到合并后的页面块;
[0020]S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤 Sll0
[0021]进一步地,在所述SI之前,还包括:
[0022]对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
[0023]进一步地,还包括:记录每个语义块的坐标值和每个区域块的坐标值;
[0024]所述确定被抽中的区域块所在的语义块,包括:
[0025]根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
[0026]另一方面,本发明提供了一种网页正文提取装置,包括:
[0027]提取单元,用于提取待提取网页的所有语义块;
[0028]分割单元,用于将所述待提取网页均匀分割成多个区域块;
[0029]抽样单元,用于对所有区域块进行预设个数次随机抽样;
[0030]语义块确定单元,用于确定被抽中的区域块所在的语义块;
[0031]计算单元,用于计算出每个语义块的抽样分布概率;
[0032]正文确定单元,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
[0033]进一步地,所述提取单元,包括:
[0034]建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树;
[0035]提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
[0036]进一步地,所述提取子单元,包括:
[0037]页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块;
[0038]检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条;
[0039]合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块;
[0040]判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
[0041]进一步地,还包括:
[0042]纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
[0043]进一步地,还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值;
[0044]所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
[0045]本发明提供了一种网页正文提取方法及装置,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
【附图说明】
[0046]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0047]图1是本发明一实施例提供的一种网页正文提取方法的流程图;
[0048]图2是本发明一实施例提供的一种网页正文提取装置的示意图。
【具体实施方式】
[0049]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]如图1所示,本发明实施例提供了一种网页正文提取方法,该方法可以包括以下步骤:
[0051]步骤101:提取待提取网页的所有语义块;
[0052]步骤102:将所述待提取网页均匀分割成多个区域块;
[0053]步骤103:对所有区域块进行预设个数次随机抽样;
[0054]步骤104:确定被抽中的区域块所在的语义块;
[0055]步骤105:计算出每个语义块的抽样分布概率;
[0056]步骤106:确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
[0057]通过本发明实施例提供的一种网页正文提取方法,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
[0058]为了能够更加准确的提取出待提取网页的所有语义块,所述提取待提取网页的所有语义块,包括:
[0059]S1:对所述待提取网页的HTML源码建立DOM树;
[0060]S2:根据所述DOM树获得所述待提取网页的所有语义块。
[0061]在一种可能的实现方式中,所述S2,包括:
[0062]Sll:对所述DOM树进行页面分块,提取出所有的页面块;
[0063]S12:根据所述页面块,检测出页面块之间的所有分割条;
[0064]S13:根据所述分割条对所述页面块进行合并,得到合并后的页面块;
[0065]S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤 Sllo
[0066]在该实现方式中,为了使得每个语义块中内容的相关性较高,需要保证每个输出的语义块的内容相关度较高。在输出语义块之前对每个合并后的页面块进行内容相关度的判断,当页面块的内容相关度大于等于预设值时,该页面块满足要求,确定该页面块为语义块;如果有合并后的页面块的内容相关度小于预设值,则继续对这类语义块进行页面分块,直到所有的页面块的内容相关度都大于等于预设值。另外,分割条包括横向和纵向的分割条。
[0067]由于HTML在编写过程中存在不规范现象,为了能够获得准确的DOM树,需要对待提取网页进行网页纠错,使待提取网页规范。在所述Si之前,还包括:
[0068]对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
[0069]举例来说,所述对所述待提取网页进行网页纠错,包括:对所述待提取网页进行HTML标签补全、错误标签去除、脚本、代码注释去除。
[0070]为了能够准确的确定被抽中的区域块所在的语义块。该方法还包括:记录每个语义块的坐标值和每个区域块的坐标值;
[0071]所述确定被抽中的区域块所在的语义块,包括:
[0072]根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
[0073]举例来说,待提取网页对应的多个区域块和语义块均为矩形,每个区域块和每个语义块均可以通过一条对角线上的两个顶点来确定。
[0074]另外,在步骤102中,可以根据预设的精确度将所述待提取网页均匀分割成多个区域块,从网页的横向和纵向对所述待提取网页进行分割。其中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1