一种Web文本的自动提取方法与流程

文档序号:15385724发布日期:2018-09-08 00:32阅读:1261来源:国知局

本发明涉及数据采集技术,具体涉及一种web文本的自动提取方法。



背景技术:

随着网络资源的不断丰富和网络信息量的不断膨胀,人们对网络的依赖性越来越强,却也给服务对象从浩如烟海的互联网资源中快速找到自己所需的特定资源带来了不便;信息自古就有无限的价值,随着时代的不断发展,人类不知不觉已经来到了信息时代,各行各业都充斥了无数的信息,而信息的价值就在于数据的流通,如果数据能够及时的流通和传递起来,才能发挥信息真正的不可比拟的价值;在市场经济条件下,采集数据已经成为重要的工具和手段。

如何从海量信息中收集有价值的数据并进行分析研究,形成企业各种决策的依据,是数据采集人员及市场研究人员所面临的一个问题;要从大量的数据中迅速的找到并获得自己所需要的信息和服务,变得越来越困难,服务对象在查询信息时往往会迷失他们的目标或者是得到一些比较偏颇的结果;数据必须经过汇总、整合、分析才能产生价值,零散的信息只能是新闻性的,无法体现真正的商业价值;对于企业以及信息分析人员来说,一方面要在大量的信息中过滤出有效的价值点,同时又要降低获取相应信息的成本,使信息的实际使用价值大于收集、分析信息等过程所产生的成本,使信息为企业的决策带来增值价值。

因此,针对上述问题,本发明提出了一种新技术方案。



技术实现要素:

本发明的目的是提供一种可实现将网页内容转化成关于web页面内容的纯文本文件,过滤网页的格式控制符,能有效地对资源整理和信息重组的web文本的自动提取方法。

本发明是通过以下技术方案来实现的:

一种web文本的自动提取方法,包括以下步骤:

用户在输入栏输入网址,通过获取网页模块和网页处理模块的作用从internet中下载相应的web页面,并且按照web页面的名字,保存在当前路径下html文件夹中,以供网页分析时使用;

提取文本信息模块在当前路径下html文件夹中的所有html文件遍历一遍,并且将html文件中的文本信息提取出来,进行第一次过滤,将第一次过滤后的web文本保存在指定文件中,最后将文件夹的文件用关键字进行匹配,将最终的结果存放在achieve.txt中保存。

进一步地,所述获取网页模块的操作流程包括以下步骤:

用户在输入栏输入网址后,将网页以文件的序号进行存储,然后获取文件个数,将文件个数改为字符号,修改网页名字,读取网页,再生成txt文件。

进一步地,所述网页处理模块的操作流程包括以下步骤:

获取网页模块将网页生成txt文件后,扫描文件夹中的文件数量,并逐个把文件的名字记录下来,再逐个对文件进行网页提取,过滤掉其中的html语言标记,最后将提取后的信息写入文本。

进一步地,网页的获取使用c++中自带的网络编程类。

进一步地,文件夹中文件的遍历采用mfc中自带的filefinder类实现对文件的遍历和文件的删除。

本发明的有益效果是:本发明提出的方案,能将web内容挖掘工作简化为文本挖掘,实现web文本的自动提取,有效地提高了对资源整理和资源重组的工作效率,,解决了数据采集人员及市场研究人员所面临的一个问题,对自动数据采集的发展做出了一定贡献。

附图说明

图1为实例1的流得程图。

具体实施方式

下面结合实施例对本发明做进一步地说明。

一种web文本的自动提取方法,包括以下步骤:

用户在输入栏输入网址,通过获取网页模块和网页处理模块的作用从internet中下载相应的web页面,并且按照web页面的名字,保存在当前路径下html文件夹中,以供网页分析时使用;

提取文本信息模块在当前路径下html文件夹中的所有html文件遍历一遍,并且将html文件中的文本信息提取出来,进行第一次过滤,将第一次过滤后的web文本保存在指定文件中,最后将文件夹的文件用关键字进行匹配,将最终的结果存放在achieve.txt中保存。

获取网页模块的操作流程包括以下步骤:用户在输入栏输入网址后,将网页以文件的序号进行存储,然后获取文件个数,将文件个数改为字符号,修改网页名字,读取网页,再生成txt文件。

网页处理模块的操作流程包括以下步骤:获取网页模块将网页生成txt文件后,扫描文件夹中的文件数量,并逐个把文件的名字记录下来,再逐个对文件进行网页提取,过滤掉其中的html语言标记,最后将提取后的信息写入文本。

网页的获取使用c++中自带的网络编程类。

文件夹中文件的遍历采用mfc中自带的filefinder类实现对文件的遍历和文件的删除。

实施例1

通过上面的分析,如图1所示可得到抽取网页文本的流程:

step1预处理:定义2个文件指针,输出文件名改为“input.txt”,通过函数提供文件名称,定义用于保存字符串下标的变量i,j;

step2将<>之间的内容保存到字符串之中;

step3设定script和style的标志;

step4调用kmp算法;

step5infile+=in_name;//将文件名赋值给类中的文件名

step6如果k=0,表明目前没有超链接;

step7判断能否打开输入文件,如果不能打开就退出程序,否则就继续下列操作;

step8判断能否打开输出文件,如果不能打开就退出程序,否则就继续下列操作;

step9去除网页中的<>,把<>之间的内容放在count中;

step10当s与“/style”匹配时将tag_style标志设为真;

step11当s与“/style”匹配时将tag标志设为真;

step12if(p.match(s,”&lt;script”)ii(p.match(s,”&lt;script”)))tag=ture;elsetag=false;if(p.match(s,”&lt;style”)ii(p.match(s,”&lt;style”)))tag=ture;elsetag=false;if(p.match(s,”<href”)&&k<10)将字符填入超链接数组;

step13过滤掉空格,将符合条件的字符写入文件;

step14message_out=“提取成功”。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1