网络文本信息集成方法和装置的制作方法

文档序号:6334634阅读:297来源:国知局
专利名称:网络文本信息集成方法和装置的制作方法
技术领域
本发明涉及网络信息采集技术,尤其涉及一种网络文本信息集成方法和装置。
背景技术
随着农村信息化建设的快速发展,为农民用户提供农业信息服务的网站也在全国 大力开展和建设,全国大部分省市区都有自己的农业信息网站。但是由于我国地域广阔, 拥有九亿农民人口,农业信息量巨大,因此,各个地方农业网站搜集的都是本地区的农业信 息,包括新闻信息、农业科技信息、农业致富信息、农业行情分析、有关农民的政策法规等等 网络文本信息。发明人在实现本发明的过程中发现,现有技术至少存在以下缺陷现有的信息采 集系统大都是爬虫采集系统,通过超链接获得网页信息,它立足满足所有互联网用户的需 要。网页信息结构化提取的技术上在很多的网络爬虫产品中都有一定体现,但是技术上和 提取的方法上都有一定的局限性。导致在应用到实际的农业信息提取上就有一定的困难1.现有系统针对结构化的网页数据提取的技术都嵌入在程序内部,采用了固化的 采集的规则,提取出结构化的数据。这样的提取方式只能局限在惟一或者类似的网页。2.现有方法按照网页的布局方式设定查询半径进行结构化提取,但是大部分的信 息是无法通过此种提取方式得到。3.现有方法通过配置文件提取结构化信息。而这些配置文件只有对网页程序比较 熟悉的人才可以做到。所以此种方式的提取就大大降低了用户的范围。由此可见,在爬虫应用范围不断扩大,用户对网页结构化数据采集的要求越来越 高的形势下,当前的网络爬虫技术已经无法满足用户对结构化数据的智能采集的需求。

发明内容
本发明的目的在于提供一种网络文本信息集成方法和装置,以高效的实现农业网 络文本信息的采集和存储,解决现有技术采集网页的宽度和广度的问题。本发明一种网络文本信息集成方法,包括如下步骤参数输入步骤,获取网站的基 本信息,自动对基本信息进行分析;采集步骤,根据所述基本信息,遍历URL,自动获取网页 的页面信息;信息整理及存储步骤,根据预置规则,自动对获取的所述网页信息进行分析, 包括过滤、整理、分类和存储;发布步骤,将所述整理过的信息自动发布到Internet。上述信息集成方法,优选所述参数输入步骤中,所述网站基本信息包括网站的 URL、网站的字符集、文件的保存地址、是否为单条采集和是否为自动发布。上述信息集成方法,优选所述参数输入步骤中,所述自动对基本信息进行分析包 括依据基本信息,通过程序分析用户配置的参数,通过网站URL入口,基于爬虫,遍历页面 所有URL,通过程序对URL分析,将URL分为可访问的URL、重复的URL和废弃的URL。上述信息集成方法,优选所述采集步骤中,将所述可访问的URL通过循环程序,访 问URL对应的网页信息,获取网页HTML源代码信息。
上述信息集成方法,优选所述信息整理步骤中,将获取的所述网页HTML源代码信 息进行过滤,获取文本的信息。本发明一种网络文本信息集成装置,包括参数输入模块,用于获取网站的基本 信息,自动对基本信息进行分析;采集模块,用于根据所述基本信息,遍历URL,自动获取 网页的页面信息;信息整理及存储模块,用于根据预置规则,自动对获取的所述网页信息 进行分析,包括过滤、整理、分类和存储;发布模块,用于将所述整理过的信息自动发布到 Internet ο上述信息集成装置,优选所述参数输入模块中,所述网站基本信息包括网站的 URL、网站的字符集、文件的保存地址、是否为单条采集和是否为自动发布。上述信息集成装置,优选所述参数输入模块中,所述自动对基本信息进行分析为 依据基本信息,通过程序分析用户配置的参数,通过网站URL入口,基于爬虫程序,遍历页 面所有URL,通过程序对URL分析,将URL分为可访问的URL、重复的URL和废弃的URL。上述信息集成装置,优选所述采集模块中,将所述可访问的URL通过循环程序,访 问URL对应的网页信息,获取网页HTML源代码信息。上述信息集成装置,优选所述信息整理模块中,将获取的所述网页HTML源代码信 息进行过滤,获取文本的信息。相对于现有技术而言,本发明能够针对用户的需求,进行网页的多层次分析,提取 用户所关心的内容,进行存储和发布;进而,高效的实现农业网络文本信息的采集和存储, 解决现有技术采集网页的宽度和广度的问题。


图1为本发明网络文本信息集成方法的步骤流程图;图2为本发明网络文本信息集成方法实施例的步骤流程图;图3为本发明网络文本信息集成装置的结构示意图;图4为本发明网络文本信息集成装置实施例的结构示意图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。本发明的发明思想通过程序采集网页URL,实现网页信息的循环采集,并对采集 信息进行分析、整理、存储和发布。参照图1,图1是本发明网络文本信息集成方法的步骤流程图,包括参数输入步 骤S110,获取网站的基本信息,并自动对基本信息进行分析;采集步骤S120,根据所述基本 信息,遍历URL,自动获取网页的页面信息;信息整理及存储步骤S130,根据预置规则,自动 对获取的所述网页信息进行分析,包括过滤、整理、分类和存储;发布步骤S140,自动将所 述整理过的信息发布到Internet。方法实施例图2为本发明网络文本信息集成方法实施例的步骤流程图,如图2所示,本实施例 的文本信息集成方法主要包括以下步骤在实例中以某网站的中一个模块为例。
步骤S201、输入某网站的基本信息,包括网站的URL、网站的字符集、文件的保存 地址、是否为单条采集和是否为自动发布的等属性。通过程序分析用户配置的参数,通过网 站URL入口利用现有爬虫程序,遍历页面所有URL,通过程序对URL分析,将URL分为可访问 的URL、重复的URL、废弃的URL。该步骤管理采集网站的基本信息,通过用户输入的信息,自动为采集的网站开辟 一个单独的线程完成信息的采集、整理和存储。同时,根据用户输入的参数和规则的制定完 成数据的整理和发布。步骤S202、信息采集方式主要是页面采集,将步骤S201中获得的可访问的URL通 过循环程序,访问URL对应的网页信息;获得网页的HTML源代码信息。信息采集主要是根据用户输入的网站基本信息进行的。包括其一、根据输入的参数,自动判断采集单条数据和多条数据。其二、根据输入的网页URL(此URL也是系统采集某网页的入口),自动分析网站的 整体结构。分析网页的结构方法采用的是平行性分析方法,该方法更具有针对性,能够准确 得到用户想要的信息,过滤掉与其内容相悖的信息。此方法得到与入口的RUL同等目录的 所有URL连接地址;在依次遍历URL得到网页的源代码。步骤S203通过用户配置的html标签进行分析,将步骤S202中的采集到html 代码进行过滤,获得网站中农业文本的信息。然后对所有信息进行分类、整理,然后存 储到服务器中。以下是一个简单的网页文本结构<title>农业网络文本信息采集技 术〈/titleXdivclass = ” time” >2010-6_30</div><div class =”sourc”> 农业 </ divXdivclass = "author,,> 农业〈/divXdiv class =”content”> 发明内容为例 </div>根据以上的网页源码配置规则如下1、标题截取开始标签〈title〉,截取的结束标签〈/title〉。2、内容截取的开始标签class = ” content” >,截取的结束标签</div>。3、时间截取的开始标签<div class =”time”>,截取的结束标签</div>。4、来源截取的开始标签class = ” sourc” >,截取的结束标签</div>。5、作者=Class =” author”〉截取的开始标签,截取的结束标签</div>规则配置好之后通过分析程序得到的结果如下1、标题为农业网络文本信息采集技术。2、内容为发明内容为例。3、时间为2010-6-30。4、来源为农业。5、作者为农业。该步骤即为信息整理,是根据制定的规则处理网页源代码,从源代码中抽取出用 户需要的部分。包括标题、来源、时间、作者、内容。在整理的过程中系统会自动的判断内 容分页的问题。其中标题、来源、时间、作者这几个部分在系统抽取的过程中自动的过滤掉 网页原始的样式。内容则在抽取的过程中自动保留原始样式。整理后下一步则进入数据存 储阶段。需要说明的是,在进行该步骤之前,要制定信息整理的规则。该规则是信息整理的 关键,信息整理会根据制定的规则规范网页数据整理的工作。规则的制定共分为几个部分标题、时间、来源、作者、分页。以上几个部分是根据文本信息的基本结构设计,用户可以根 据需要采集不同的部分。规则制定模块摆脱了固化的采集模式,不需要采集一个网站扩展 一次程序。只需要用户配置一些网站的基本信息和规则信息即可。也就是说,在完成信息采集后,需要自动判断是否制定了信息整理的规则,如果已 经制定规则,再得到源代码就进入下一步信息整理。如果没有制定规则系统则遍历URL得 到源代码后结束。步骤S204、将S203整理好的数据,结合S201步骤中参数的输入对数据进行分类过 滤、整理、分析和存储。整理的同时程序会根据S201步骤中参数的输入自动判断是否需要 自动进入步骤S205步骤S205、通过web程序,将S204步骤整理过的信息发布到Internet。这样就可 以在一个网站查看到所有的新闻信息。例如以上的例子中已经完成了一条信息的采集,如 果将此信息手动发布到网络平台,则直接点击发布即可,方便用户使用。步骤S204和步骤S205完成数据存储和提出过程。信息存储采用数据库存储,利用 现有的数据库管理系统,将零散的信息结构化的管理起来。信息的发布就是将采集后的信 息发布到现有的网络平台。其中信息发布的方式有两种其一自动方式,其二是手动方式。 在数据存储时系统会根据第一步输入的参数自动判断信息发布的方式。本实施例扩展了普通爬虫程序,应用在农业网络文本信息集成系统中,实现了信 息采集、过滤、分类、储存、发布的整合,使农业信息更全面、更准确,更权威。另一方面,本发明还提供了一种网络文本信息集成装置,参照图3,该装置包括 参数输入模块30、采集模块32、信息整理及存储模块34和发布模块36。其中,参数输入模块30,用于获取网站的基本信息,并通过程序对基本信息进行 分析;采集模块32,用于根据所述基本信息,遍历URL,利用程序获取网页的页面信息;信 息整理及存储模块34,用于根据预置规则,利用程序,对获取的所述网页信息进行分析,包 括过滤、整理、分类和存储;发布模块36,用于通过web程序,将所述整理过的信息发布到 Internet ο图4为本发明网络文本信息集成装置实施例的结构示意图,如图4所示,本实施例 网络文本集成系统包括参数输入模块401、信息采集模块402、信息整理模块403、信息储 存模块404、信息发布模块405。具体实施中,参数输入模块401通过网络爬虫遍历所有的URL。信息采集模块402得到参数输入模块401输入的网址,通过程序访问相应的URL, 获得相应的网站信息,初始信息为HTML代码。信息整理模块403对信息采集模块402得到的HTML代码进行过滤,获得文本和文 本对应的图片等信息,并将信息分类、整合。信息储存模块404将信息整理模块403整合的网络文本信息进行网络存储,存储 方式为NAS。信息发布模块405将信息储存模块404中存储的整合过的农业网络文本信息通过 web程序发布至Ij Internet。本实施例通过,改进普通爬虫程序,应用在农业网络文本信息集成系统中,实现了 信息采集、过滤、分类、储存、发布的整合,使农业信息更全面、更准确,更权威。
以上对本发明所提供的一种网络文本信息集成方法和装置进行详细介绍,本文中 应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮 助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思 想,在具体实施方式
及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对 本发明的限制。
权利要求
一种网络文本信息集成方法,其特征在于,所述方法包括如下步骤参数输入步骤,获取网站的基本信息,自动对基本信息进行分析;采集步骤,根据所述基本信息,遍历URL,自动获取网页的页面信息;信息整理及存储步骤,根据预置规则,自动对获取的所述网页信息进行分析,包括过滤、整理、分类和存储;发布步骤,将所述整理过的信息自动发布到Internet。
2.根据权利要求1所述的信息集成方法,其特征在于,所述参数输入步骤中,所述网站基本信息包括网站的URL、网站的字符集、文件的保 存地址、是否为单条采集和是否为自动发布。
3.根据权利要求2所述的信息集成方法,其特征在于,所述参数输入步骤中,所述自动 对基本信息进行分析包括依据基本信息,通过程序分析用户配置的参数,通过网站URL入口,基于爬虫,遍历页 面所有URL,通过程序对URL分析,将URL分为可访问的URL、重复的URL和废弃的URL。
4.根据权利要求3所述的信息集成方法,其特征在于,所述采集步骤中,将所述可访问的URL通过循环程序,访问URL对应的网页信息,获取 网页HTML源代码信息。
5.根据权利要求4所述的信息集成方法,其特征在于,所述信息整理步骤中,将获取的所述网页HTML源代码信息进行过滤,获取文本的信肩、ο
6.一种网络文本信息集成装置,其特征在于,所述装置包括参数输入模块,用于获取网站的基本信息,自动对基本信息进行分析; 采集模块,用于根据所述基本信息,遍历URL,自动获取网页的页面信息; 信息整理及存储模块,用于根据预置规则,自动对获取的所述网页信息进行分析,包括 过滤、整理、分类和存储;发布模块,用于将所述整理过的信息自动发布到Internet。
7.根据权利要求6所述的信息集成装置,其特征在于,所述参数输入模块中,所述网站基本信息包括网站的URL、网站的字符集、文件的保 存地址、是否为单条采集和是否为自动发布。
8.根据权利要求7所述的信息集成装置,其特征在于,所述参数输入模块中,所述自动 对基本信息进行分析为依据基本信息,通过程序分析用户配置的参数,通过网站URL入口,基于爬虫程序,遍 历页面所有URL,通过程序对URL分析,将URL分为可访问的URL、重复的URL和废弃的URL。
9.根据权利要求8所述的信息集成装置,其特征在于,所述采集模块中,将所述可访问的URL通过循环程序,访问URL对应的网页信息,获取 网页HTML源代码信息。
10.根据权利要求9所述的信息集成装置,其特征在于,所述信息整理模块中,将获取的所述网页HTML源代码信息进行过滤,获取文本的信肩、ο全文摘要
本发明公开了一种网络文本信息集成方法和装置。该方法包括如下步骤获取网站的基本信息,并通过程序对基本信息进行分析;根据所述基本信息,遍历URL,利用程序获取网页的页面信息;根据预置规则,利用程序,对获取的所述网页信息进行整理和存储;通过web程序,将所述整理过的信息发布到Internet。本发明能够针对用户的需求,进行网页的多层次分析,提取用户所关心的内容,进行存储和发布;进而,高效的实现农业网络文本信息的采集和存储,解决现有技术采集网页的宽度和广度的问题。
文档编号G06F17/30GK101957866SQ20101052366
公开日2011年1月26日 申请日期2010年10月25日 优先权日2010年10月25日
发明者张树亮, 李桢, 臧金玉, 赵佳宁, 高万林 申请人:中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1