一种提取网页正文内容的方法及系统的制作方法

文档序号:9304608阅读:271来源:国知局
一种提取网页正文内容的方法及系统的制作方法
【技术领域】
[0001]本发明涉及计算机应用和信息抽取领域,特别是一种提取网页正文内容的方法及系统。
【背景技术】
[0002]名词解释:
HTML:Hyper Text Markup Language,超文本标记语言;
PHP:Hypertext Preprocessor,超文本预处理语言;
SSI:Server Side Include,服务器端嵌入;
SHTML:使用SSI的HTML文件扩展名;
JS脚本:全称为javascript,是一种由Netscape的LiveScript发展而来的脚本语言,主要目的是为了解决服务器终端语言遗留的速度问题;
CSS样式:层叠样式表,一种用来表现HTML (标准通用标记语言的一个应用)或XML (标准通用标记语言的一个子集)等文件样式的计算机语言;
meta标签:在网页的HTML源代码中,位于头部,用来描述一个HTML网页文档的属性,例如作者、日期、关键词、网页描述等。
[0003]UL/L1:UL、LI是使用CSS布局页面时常用的元素。
[0004]随着互联网及其技术的迅猛发展,网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库,而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等,是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘,都会涉及到网页正文内容提取。对于分析、挖掘而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相关的部分剔除。但是,在目前的互联网环境下,HTML是当前WEB上数据存在的主要格式,而HTML着重于数据的表现,HTML标签不带有语义,缺乏对数据的描述。将一个HTML形式的信息转换成有利用价值的文本格式信息,方便后续的信息处理,是极为关键的技术问题。一个web网页中的内容除了包括与主题有关的正文信息以外,还存在一些与主题无关的导航链接、广告链接和版权声明等噪音信息,这些噪音增加了正文内容的自动抽取难度。
[0005]目前,关于网页正文提取从大方向上主要可分为基于包装器的方法、网页视觉特征分块的方法两类。一、基于包装器的方法:利用包装器提取网页正文是一种提出较早,也较为流行的方法,例如网页模板抽取方法。它的原理是通过构建包装器或网页模板规则,将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源,而构建它所需的信息模式识别知识的获取是一个费时费力的工作,在目前的互联网网页越来越多样化和可定制化的趋势下,使用模板解析网页正文往往不能适应新网页的正文抽取,需要人工干预,工作量大,代价很高,这种方法不通用。二、网页视觉特征分块方法:在视觉上,一个HTML网页的页面可以划分为若干个区域,同一个区域内包含相近的内容,我们把一个区域称为一个内容块,然后对内容块进行取舍抽取正文内容。这些内容块中,有的包含了正文内容,而有的则包含着噪音内容,例如广告等。但是这种方法,由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,该算法还需要保存大量的视觉信息,其处理性能随着页面的复杂度急剧下降,面对日益复杂的页面,处理效果往往不能令人满意。
[0006]总的来说,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取,工作量大,效率不高;要么算法复杂度过高,对复杂多变的网页,处理效果不理雄
V QjN O

【发明内容】

[0007]为了解决上述的技术问题,本发明的目的是提供一种提取网页正文内容的方法,本发明的目的是提供一种提取网页正文内容的系统。
[0008]本发明解决其技术问题所采用的技术方案是:
一种提取网页正文内容的方法,包括:
51、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;
52、按行比较待分析网页和预设对比网页的HTML源码的相同性;
53、根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行步骤S4 ;
54、对待分析网页的HTML源码进行正文内容抽取。
[0009]进一步,所述步骤S2,包括:
521、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
522、依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
523、根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
[0010]进一步,所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。
[0011]进一步,所述步骤S23,其具体为:
以待分析网页的HTML源码的行数为基准,根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,先遍历每一个不同行,再遍历每一个相同行,进而形成包含对比结果属性的数组。
[0012]进一步,所述步骤S3所述根据相同性对比结果,判断待分析网页是否为列表导航网页类型的步骤,其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后,判断剩余内容中的中文字数是否大于预设的最大中文字数阈值,若是,则判断待分析网页为内容类型页面,反之,判断待分析网页为列表导航网页类型。
[0013]进一步,所述步骤S4,包括:
541、根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
542、分别对每个文本信息块进行分析并抽取内容信息块;
543、依序合并内容信息块,并添加段落标记,形成正文内容。
[0014]进一步,所述步骤S42,其具体为:
对每个文本信息块,判断是否存在某一行的标点符号的数量大于1,或者含有段落标签、表格标签或图像标签,且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签,则将该行到文本信息块的尾部的内容作为内容信息块。
[0015]本发明解决其技术问题所采用的另一技术方案是:
一种提取网页正文内容的系统,包括:
加载模块,用于加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码; 行对比模块,用于按行比较待分析网页和预设对比网页的HTML源码的相同性;
判断模块,用于根据相同性对比结果,判断待分析网页是否为列表导航网页类型,若是,则结束,反之,执行抽取模块;
抽取模块,用于对待分析网页的HTML源码进行正文内容抽取。
[0016]进一步,所述行对比模块,包括:
第一子模块,用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息;
第二子模块,用于依次对比待分析网页和预设对比网页的HTML源码的每一行,并标记每行的对比结果属性为相同或不同;
第三子模块,用于根据每行的对比结果属性,对待分析网页的HTML源码进行遍历,形成包含对比结果属性的数组。
[0017]进一步,所述抽取模块,包括:
第四子模块,用于根据相同性对比结果,依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块,获得文本信息块数组;
第五子模块,用于分别对每个文本信息块进行分析并抽取内容信息块;
第六子模块,用于依序合并内容信息块,并添加段落标记,形成正文内容。
[0018]本发明的有益效果是:本发明的一种提取网页正文内容的方法,包括:S1、加载待分析网页的HTML源码,同时加载预设对比网页的HTML源码;S2、按行比较待分析网页和预设对比网页的HTML源码的相同性
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1