一种提取网页正文内容的方法及系统的制作方法

文档序号：9304608阅读：271来源：国知局

一种提取网页正文内容的方法及系统的制作方法
【技术领域】
[0001]本发明涉及计算机应用和信息抽取领域，特别是一种提取网页正文内容的方法及系统。
【背景技术】
[0002]名词解释:
HTML:Hyper Text Markup Language，超文本标记语言；
PHP:Hypertext Preprocessor，超文本预处理语言；
SSI:Server Side Include，服务器端嵌入;
SHTML:使用SSI的HTML文件扩展名；
JS脚本:全称为javascript，是一种由Netscape的LiveScript发展而来的脚本语言，主要目的是为了解决服务器终端语言遗留的速度问题；
CSS样式:层叠样式表，一种用来表现HTML (标准通用标记语言的一个应用)或XML (标准通用标记语言的一个子集)等文件样式的计算机语言；
meta标签:在网页的HTML源代码中，位于头部，用来描述一个HTML网页文档的属性，例如作者、日期、关键词、网页描述等。
[0003]UL/L1:UL、LI是使用CSS布局页面时常用的元素。
[0004]随着互联网及其技术的迅猛发展，网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库，而网页已经成为Internet上最重要的信息资源。很多基于互联网的信息处理工作例如信息搜索、数据挖掘、机器翻译等，是以纯文本格式的信息内容为基础数据开展的而一般做舆情分析、文本挖掘，都会涉及到网页正文内容提取。对于分析、挖掘而言，有价值的信息是正文部分，大多数情况下，为了便于分析，需要将网页中和正文不相关的部分剔除。但是，在目前的互联网环境下，HTML是当前WEB上数据存在的主要格式，而HTML着重于数据的表现，HTML标签不带有语义，缺乏对数据的描述。将一个HTML形式的信息转换成有利用价值的文本格式信息，方便后续的信息处理，是极为关键的技术问题。一个web网页中的内容除了包括与主题有关的正文信息以外，还存在一些与主题无关的导航链接、广告链接和版权声明等噪音信息，这些噪音增加了正文内容的自动抽取难度。
[0005]目前，关于网页正文提取从大方向上主要可分为基于包装器的方法、网页视觉特征分块的方法两类。一、基于包装器的方法:利用包装器提取网页正文是一种提出较早，也较为流行的方法，例如网页模板抽取方法。它的原理是通过构建包装器或网页模板规则，将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源，而构建它所需的信息模式识别知识的获取是一个费时费力的工作，在目前的互联网网页越来越多样化和可定制化的趋势下，使用模板解析网页正文往往不能适应新网页的正文抽取，需要人工干预，工作量大，代价很高，这种方法不通用。二、网页视觉特征分块方法:在视觉上，一个HTML网页的页面可以划分为若干个区域，同一个区域内包含相近的内容，我们把一个区域称为一个内容块，然后对内容块进行取舍抽取正文内容。这些内容块中，有的包含了正文内容，而有的则包含着噪音内容，例如广告等。但是这种方法，由于视觉特征的复杂性，很难有一个通用的规则集。除此之外，该算法还需要保存大量的视觉信息，其处理性能随着页面的复杂度急剧下降，面对日益复杂的页面，处理效果往往不能令人满意。
[0006]总的来说，现有的方法要么算法流程过于简单，只能针对特定标签的网页风格进行内容提取，工作量大，效率不高；要么算法复杂度过高，对复杂多变的网页，处理效果不理雄
V QjN O

【发明内容】

[0007]为了解决上述的技术问题，本发明的目的是提供一种提取网页正文内容的方法，本发明的目的是提供一种提取网页正文内容的系统。
[0008]本发明解决其技术问题所采用的技术方案是:
一种提取网页正文内容的方法，包括:
51、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；
52、按行比较待分析网页和预设对比网页的HTML源码的相同性；
53、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4 ；
54、对待分析网页的HTML源码进行正文内容抽取。
[0009]进一步，所述步骤S2，包括:
521、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；
522、依次对比待分析网页和预设对比网页的HTML源码的每一行，并标记每行的对比结果属性为相同或不同；
523、根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组。
[0010]进一步，所述步骤S21中所述与正文无关的信息包括JS脚本、CSS样式、meta标签、注释以及列表型标签。
[0011]进一步，所述步骤S23，其具体为:
以待分析网页的HTML源码的行数为基准，根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，先遍历每一个不同行，再遍历每一个相同行，进而形成包含对比结果属性的数组。
[0012]进一步，所述步骤S3所述根据相同性对比结果，判断待分析网页是否为列表导航网页类型的步骤，其具体为:
获取待分析网页的HTML源码的不同行的遍历内容并去除其中的超链接标签后，判断剩余内容中的中文字数是否大于预设的最大中文字数阈值，若是，则判断待分析网页为内容类型页面，反之，判断待分析网页为列表导航网页类型。
[0013]进一步，所述步骤S4，包括:
541、根据相同性对比结果，依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块，获得文本信息块数组；
542、分别对每个文本信息块进行分析并抽取内容信息块；
543、依序合并内容信息块，并添加段落标记，形成正文内容。
[0014]进一步，所述步骤S42，其具体为:
对每个文本信息块，判断是否存在某一行的标点符号的数量大于1，或者含有段落标签、表格标签或图像标签，且该行与其下一行的标点符号的总数量大于3、中文总字数大于10或其下一行含有段落标签或图像标签，则将该行到文本信息块的尾部的内容作为内容信息块。
[0015]本发明解决其技术问题所采用的另一技术方案是:
一种提取网页正文内容的系统，包括:
加载模块，用于加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；行对比模块，用于按行比较待分析网页和预设对比网页的HTML源码的相同性；
判断模块，用于根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行抽取模块；
抽取模块，用于对待分析网页的HTML源码进行正文内容抽取。
[0016]进一步，所述行对比模块，包括:
第一子模块，用于分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；
第二子模块，用于依次对比待分析网页和预设对比网页的HTML源码的每一行，并标记每行的对比结果属性为相同或不同；
第三子模块，用于根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组。
[0017]进一步，所述抽取模块，包括:
第四子模块，用于根据相同性对比结果，依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块，获得文本信息块数组；
第五子模块，用于分别对每个文本信息块进行分析并抽取内容信息块；
第六子模块，用于依序合并内容信息块，并添加段落标记，形成正文内容。
[0018]本发明的有益效果是:本发明的一种提取网页正文内容的方法，包括:S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴远辉;
技术所有人：广州市万隆证券咨询顾问有限公司;
我是此专利的发明人

上一篇：一种图片排序方法及移动终端的制作方法
上一篇：一种照片分类方法及终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。