一种信息采集方法及装置的制造方法

文档序号:9708363阅读:615来源:国知局
一种信息采集方法及装置的制造方法
【技术领域】
[0001]本申请属于信息采集技术领域,具体地说,涉及一种信息采集方法及装置。
【背景技术】
[0002]政府采购(Government Procurement)是指国家各级政府为从事日常的政务活动或为了满足公共服务的目的,利用国家财政性资金和政府借款购买货物、工程和服务的行为。
[0003]政府采购信息通常以招投标公告和附件的非结构化文本、文件形式公开在网页等渠道中,这些文本或者文件一般都是由人工维护编写。而且政府采购信息的发布渠道来源非常多和杂,可能会在相关的各级省市区县地的政府网站、商业网站、其他机构等网站上发布。发布站点经常是综合站,甚至有些采购信息发布的栏目也会同时发布其他综合信息。同时,发布中会经常出现一则采购公告信息,该采购公告信息可能会在在多级政府站点上多次发布,且不同发布站点上发送的内容格式还可能存在差异。
[0004]上述政府采购信息更多的依赖于人工采集和整理后进行结构化恢复。但是,一方面,由于发布的公文由人工维护编写,经常会出现疏漏错误,公文格式没有统一的规范,公文有可能受限于发布网站的技术限制通常会直接用图片展现文件;另外一方面,由于发布的渠道多而杂。上述这两方面导致采集或者收集政府采购信息的过程繁琐,成本较高。

【发明内容】

[0005]本申请所要解决的技术问题是提供一种信息采集方法及装置,用于克服现有技术中的上述技术问题。
[0006]为了解决上述技术问题,本申请提供了一种信息采集方法,其包括:
[0007]获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
[0008]根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
[0009]优选地,在本发明的一实施例中,所述获取信息源网站,对所述信息源网站进行分析包括:
[0010]获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。
[0011]优选地,在本发明的一实施例中,所述信息采集规则包括:其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,迭代逐层获取到所述目标信息的最终url地址;所述采集链路用于控制迭代采集的次数;所述模拟http请求数据设置用于配置访问所述信息源网站的请求;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。
[0012]优选地,在本发明的一实施例中,所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用url pattern模式限制采集的范围,所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。
[0013]优选地,在本发明的一实施例中,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述任务设置于对不同的信息采集请求进行优先级排序。
[0014]优选地,在本发明的一实施例中,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口。
[0015]优选地,在本发明的一实施例中,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。
[0016]优选地,在本发明的一实施例中,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则。
[0017]为了解决上述技术问题,本申请提供了一种信息采集装置,其包括:
[0018]规则配置单元,用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
[0019]采集单元,用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
[0020]优选地,在本发明的一实施例中,还包括:调度模块,用于调度信息采集请求;抓取单元,用于从所述信息源网站的地址中抓取非结构化的目标信息;处理单元,用于对所述非结构信息进行结构化处理。
[0021]与现有的方案相比,本申请所获得的技术效果:首先,获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
【附图说明】
[0022]图1为本申请实施例一信息采集方法的流程示意图;
[0023]图2为本申请实施例二彳目息米集方法的流程不意图;
[0024]图3为本申请实施例三信息采集方法的流程示意图;
[0025]图4为本申请实施例四信息采集方法的流程示意图。
【具体实施方式】
[0026]以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
[0027]下述本申请实施例中,通过获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;其次,根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
[0028]图1为本申请实施例一信息采集方法的流程示意图;如图1所示,其可以包括:
[0029]S101、获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
[0030]本实施例中,步骤S101中,所述获取信息源网站,对所述信息源网站进行分析具体可以包括:
[0031]获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。
[0032]起始页面一般是指站点的主页,主页是一个网站的开始,一般主页的名称是固定的index, htm或index, html等。对于网页结构来说就是一个一个的页面之间用超级链接组合起来,一般一个站点有一个主页面,然后就分级别逐层向下,不断链接。目标信息可能存在于3级页面之下,因此,通常需要一个列表打开后还有一个列表页,如此3层才是最终的内容页。所谓迭代采集的次数是指一起始页面开始,打开几层次级页面才能最终发现目标?目息。
[0033]因此,所述信息采集规则包括其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,比如从主页到“招标”、“中标”等栏目,再从这些栏目的列表页面到公告内容明细页;所述采集链路用于控制迭代采集的次数,与采集区域及栏目设置操作和采集链路逻辑设置配合一起完成迭代逐层获取到所述目标信息的最终url地址。采集区域包括页面展现中哪部分区域是有效的url产生区域,根据这个区域中url获取再次迭代的url部分;所述模拟http请求数据设置用于配置访问所述信息源网站的请求,即实现模拟登录,该模拟登陆过程主要是用程序模拟在浏览器页面上填写用户名、密码等信息,完成登录过程的操作;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。
[0034]所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用url pattern模式限制采集的范围。网址模式匹配和排除主要方便简化设置复杂度,用url pattern模式限制范围,可以限制采集链路中任何一个环节的。比如可以限制url必须是http://www.XXX.com/id/1234这种模式的,或者url中不能包含test文本等。所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。附件包括网页中的图片、网页中的附件。附件处理设置会包括图片附件下载异步进行、下载验证、下载文件的保存方式等,避免和采集网页同时进行会比较慢,干扰正常流量,下载之后如zip, rar压缩文件的处理等。
[0035]本实施例中,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则,通过可视化的操作界面,实现方便快速地配置针对具体网站信息采集的规则配置过程。
[0036]S102、根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
[0037]本实施例中,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述时间设置包括间隔、周期、触发等。所述任务设置用于对不同的信息采集请求进行优先级排序。所述任务设置还用于重试、差异识别等设置。重试是指采集任务发生失败,重新提交采集任务。差异识别是指根据历史采集记录发现从同一站点采集的内容大小以及信息条数出现异常。
[0038]优选地,在本发明的一实施例中,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口以及流量设置。由于信息源网站可能有访问流量的限制,因此为了防止过多的访问信息源网站进行了流量设置,即当信息采集的流量超过预设的限额,则不再访问信息源网站。
[0039]由于较多网站需要验证当前访问者的用户身份后服务器才能正常使用,模拟登录的过程主要是用程序模拟在浏览器页面上填写用户名、密码等信
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1