一种网页正文提取方法及装置的制造方法_2

文档序号:8299154阅读:来源:国知局
,为了提高每个语义块的抽样分布概率的准确度,区域块的大小越小越好。
[0075]本发明实施例提供了一种网页正文提取方法,该方法可以包括图中未示出的以下步骤:
[0076]步骤Al:提取待提取网页的所有4个语义块,分别是第一语义块、第二语义块、第三语义块、第四语义块;
[0077]步骤A2:将所述待提取网页均匀分割成多个区域块;
[0078]步骤A3:对所有区域块进行100次随机抽样;
[0079]步骤A4:确定被抽中的区域块所在的语义块;
[0080]步骤A5:计算出每个语义块的抽样分布概率;
[0081]举例来说,100次抽样中有70个区域块位于第一语义块中,则计算出第一语义块的抽样分布概率为0.7ο
[0082]步骤A6:确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
[0083]举例来说,预设概率为0.6,其中,第一语义块的抽样分布概率为0.7,大于预设概率0.6,则确定第一语义块为网页正文所在的语义块。
[0084]本发明实施例还提供了一种网页正文提取装置,参见图2,该装置包括:
[0085]提取单元201,用于提取待提取网页的所有语义块;
[0086]分割单元202,用于将所述待提取网页均匀分割成多个区域块;
[0087]抽样单元203,用于对所有区域块进行预设个数次随机抽样;
[0088]语义块确定单元204,用于确定被抽中的区域块所在的语义块;
[0089]计算单元205,用于计算出每个语义块的抽样分布概率;
[0090]正文确定单元206,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
[0091]为了能够更加准确的提取出待提取网页的所有语义块,所述提取单元201,包括:
[0092]建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树;
[0093]提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
[0094]在一种可能的实现方式中,所述提取子单元,包括:
[0095]页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块;
[0096]检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条;
[0097]合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块;
[0098]判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
[0099]由于HTML在编写过程中存在不规范现象,为了能够获得准确的DOM树,需要对待提取网页进行网页纠错,使待提取网页规范。该装置还包括:
[0100]纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
[0101]为了能够准确的确定被抽中的区域块所在的语义块。该装置还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值;
[0102]所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
[0103]上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
[0104]本发明实施例提供的一种网页正文提取方法及装置,具有如下有益效果:
[0105]1、通过本发明实施例提供的一种网页正文提取方法及装置,提取待提取网页的所有语义块,将所述待提取网页均匀分割成多个区域块,对区域块进行随机抽样,确定被抽中的区域块所在的语义块,计算出每个语义块的抽样分布概率,通过每个语义块的抽样分布概率来表征每个语义块的面积大小,当语义块的抽样分布概率大时,说明该语义块的面积较大,该语义块为网页正文所在的语义块的概率也大,当语义块的抽样分布概率大于等于预设概率时,则确定该语义块为网页正文所在的语义块,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,能够提高提取网页正文的速度。
[0106]2、通过本发明实施例提供的一种网页正文提取方法及装置,能够精确抽取网页正文信息,这种方法只需进行简单的随机抽样计算即可,无需对待提取网页的DOM树进行遍历,降低了提取网页正文的复杂度。
[0107]需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
[0108]本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
[0109]最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
【主权项】
1.一种网页正文提取方法,其特征在于,包括: 提取待提取网页的所有语义块; 将所述待提取网页均匀分割成多个区域块; 对所有区域块进行预设个数次随机抽样; 确定被抽中的区域块所在的语义块; 计算出每个语义块的抽样分布概率; 确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
2.根据权利要求1所述的方法,其特征在于,所述提取待提取网页的所有语义块,包括: 51:对所述待提取网页的HTML源码建立文件对象模型DOM树; 52:根据所述DOM树获得所述待提取网页的所有语义块。
3.根据权利要求2所述的方法,其特征在于,所述S2,包括: 511:对所述DOM树进行页面分块,提取出所有的页面块; 512:根据所述页面块,检测出页面块之间的所有分割条; 513:根据所述分割条对所述页面块进行合并,得到合并后的页面块; S14:获取合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,如果是,则确定当前页面块为语义块,否则,建立当前页面块的DOM树,返回步骤Sllo
4.根据权利要求2所述的方法,其特征在于,在所述SI之前,还包括: 对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:记录每个语义块的坐标值和每个区域块的坐标值; 所述确定被抽中的区域块所在的语义块,包括: 根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
6.一种网页正文提取装置,其特征在于,包括: 提取单元,用于提取待提取网页的所有语义块; 分割单元,用于将所述待提取网页均匀分割成多个区域块; 抽样单元,用于对所有区域块进行预设个数次随机抽样; 语义块确定单元,用于确定被抽中的区域块所在的语义块; 计算单元,用于计算出每个语义块的抽样分布概率; 正文确定单元,用于确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。
7.根据权利要求6所述的装置,其特征在于,所述提取单元,包括: 建立子单元,用于对所述待提取网页的HTML源码建立文件对象模型DOM树; 提取子单元,用于根据所述建立子单元建立的所述DOM树获得所述待提取网页的所有语义块。
8.根据权利要求7所述的装置,其特征在于,所述提取子单元,包括: 页面块提取子单元,用于对所述建立子单元建立的所述DOM树进行页面分块,提取出所有的页面块,并对判断子单元建立的所述DOM数进行页面分块,提取出所有页面块; 检测子单元,用于根据所述页面块提取子单元提取出的所述页面块,检测出页面块之间的所有分割条; 合并子单元,用于根据检测子单元检测出的所述分割条对所述页面块进行合并,得到合并后的页面块; 判断子单元,用于获取所述合并子单元得到的合并后的页面块的内容相关度,判断当前页面块的内容相关度是否大于等于预设值,当判断结果为是时,确定当前页面块为语义块,当判断结果为是时,建立当前页面块的DOM树,通知所述页面块提取子单元。
9.根据权利要求7所述的装置,其特征在于,还包括: 纠错子单元,用于对所述待提取网页进行网页纠错,获得DOM树结构完整的待提取网页。
10.根据权利要求6-9任一所述的装置,其特征在于,还包括:记录单元,用于记录每个语义块的坐标值和每个区域块的坐标值; 所述语义块确定单元,用于根据所述每个语义块的坐标值和所述每个区域块的坐标值,确定被抽中的区域块所在的语义块。
【专利摘要】本发明提供了一种网页正文提取方法及装置,该方法包括:提取待提取网页的所有语义块;将所述待提取网页均匀分割成多个区域块;对所有区域块进行预设个数次随机抽样;确定被抽中的区域块所在的语义块;计算出每个语义块的抽样分布概率;确定抽样分布概率大于等于预设概率的语义块为网页正文所在的语义块。本发明提供了一种网页正文提取方法及装置,能够提高提取网页正文的速度。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104615728
【申请号】CN201510066697
【发明人】李克学, 范莹, 戴鸿君, 王传国, 刘永
【申请人】浪潮集团有限公司
【公开日】2015年5月13日
【申请日】2015年2月9日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1