一种信息采集方法及装置的制造方法_2

文档序号:9708363阅读:来源:国知局
息,完成登录过程的操作。主要通过模拟点击“登录”后与服务器交互的请求进行。一些网站的登录比较复杂,会进行多次请求才能完成登录。
[0040]代理ip设置可以达到通过变化代理ip确定更快访问网站的方式。
[0041 ] 特殊验证信息处理接口主要用于验证码的识别,短信或者语音验证等。
[0042]优选地,在本发明的一实施例中,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。使用预警监控来保证能够尽快发现由于采集规则不当引起的采集过程中出现的问题。当规则运行发生异常或者整体运行情况不符合规律时,预警监控设置的采集规则,有限提醒管理维护人员,尽快进行跟进和修改,避免问题的持续影响。在监控过程中,可以建立一存疑任务列表,经异常任务添加到该列表中。比如非法格式,数据内容为空,异常任务等,添加到存疑任务列表中,以便进行二次提取以及人工审核。
[0043]当检测到任务发送错误时(包括异常数据,任务中断等情况),自动把异常任务添加到存疑任务列表,然后根据机器使用情况,在合适的时间把异常任务重新添加到主要任务队列中。
[0044]对于发生错误的任务,根据错误类型、错误次数,会按照设定规则进行后续多种处理,包括自动重试、更改参数重试、添加到存疑任务列表人工接入、忽略等等。
[0045]图2为本发明实施例二信息采集方法流程图;如图2所示,其包括:
[0046]S201、获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
[0047]本实施例中,信息采集规则可以包括上述实施例一中的站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置、网址模式匹配和排除规则和附件处理规则。在此不再赘述。
[0048]S202、根据定制的采集规则以及采集执行参数设置,调度信息采集请求;
[0049]当完成不同任务的时间、性能开销存在较大差异时,资源利用会存在空闲等等,任务本身在采集规则定义时可实现自然拆分,在执行任务的流程中,通过调度发送任务相关信息给具体执行者(worker),执行者本身是通用的进程/线程,根据要求完成后反馈调度,重新获取新任务。调度可以根据某个类型子任务的待完成数量情况自动调整分配优先级。
[0050]S203、从所述信息源网站的地址中抓取非结构化的目标信息;
[0051]本实施例中,抓取是根据上述采集规则来对信息源网站完成网站解析、获取到发布有目标信息的最终url。
[0052]S204、对抓取到的非结构化的目标信息进行结构化处理。
[0053]本实施例中,结构化处理包括从最终url页面中提取目标信息,比如如果是政府采购信息的话,包括:常规的“标题”、“发布时间”、“正文”,以及其他能够比较方便直接提取的信息。
[0054]图3为本发明实施例三信息采集装置的结构示意图;如图3所示,其包括:规则配置单元301以及采集单元302 ;其中:
[0055]规则配置单元301用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;
[0056]采集单元302用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。
[0057]图4为本发明实施例四信息采集装置的结构示意图;如图4所示,其包括上述规则配置单元301以及采集单元302,还包括调度模块304、抓取单元305以及处理单元306 ;所述调度模块304用于调度信息采集请求;所述抓取单元305用于从所述信息源网站的地址中抓取非结构化的目标信息;所述处理单元306用于对所述非结构信息进行结构化处理。
[0058]调度模块304、抓取单元305可以进行分布式部署。
[0059]本申请的实施例所提供的装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的单元以及模块划分方式仅是众多划分方式中的一种,如果划分为其他单元或模块或不划分块,只要信息对象的具有上述功能,都应该在本申请的保护范围之内。
[0060]需要说明的是,上述实施例中的目标信息可以是政府采购信息,信息源网站可以是发布有政府采购信息的所有政府网站。
[0061 ] 本技术领域普通技术人员在上述实施例的启发下,无须创造性劳动也可以将上述本发明的技术方案应用到其他信息的采集,详细不再赘述。
[0062]本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0063]本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0064]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0065]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0066]尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
【主权项】
1.一种信息采集方法,其特征在于,包括: 获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则; 根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。2.根据权利要求1所述的方法,其特征在于,所述获取信息源网站,对所述信息源网站进行分析包括: 获取所述信息源网站的起始页面、网页结构以及包含有所述目标信息的最终url地址以及访问所述最终URL地址所需迭代采集的次数。3.根据权利要求1所述的方法,其特征在于,所述信息采集规则包括:其中的一种或任意组合:站点结构设置、采集区域及栏目设置、采集链路逻辑设置、模拟http请求数据设置、具体信息采集设置;所述站点结构设置用于设置站点采集的起始页面或起始页面规则;所述采集区域及栏目设置以及采集链路逻辑设置用于分析网页结构,迭代逐层获取到所述目标信息的最终url地址;所述采集链路用于控制迭代采集的次数;所述模拟http请求数据设置用于配置访问所述信息源网站的请求;所述具体信息采集设置用于针对需要的信息项定制的页面获取逻辑,获取初步结构化的目标信息。4.根据权利要求1所述的方法,其特征在于,所述采集规则还包括网址模式匹配和排除规则和附件处理规则,所述网址模式匹配和排除规则用于使用url pattern模式限制采集的范围,所述附件处理设置用于针对需要信息源网站中目标信息包括的附件的采集设置。5.根据权利要求1所述的方法,其特征在于,所述采集执行参数设置包括时间设置和任务设置,所述时间设置用于控制所述信息采集规则在匹配的时间进行运行,所述任务设置于对不同的信息采集请求进行优先级排序。6.根据权利要求5所述的方法,其特征在于,所述采集执行参数设置还包括:模拟登录设置、代理ip设置、特殊验证信息处理接口。7.根据权利要求1所述的方法,其特征在于,还包括:设计监控规则,根据所述监控规则对所述信息采集规则进行监控,以确定每一条所述信息采集规则的异常。8.根据权利要求1所述的方法,其特征在于,所述根据对所述信息源网站的分析结果定制对应的信息采集规则包括:通过图形化配置页面定制对应的信息采集规则。9.一种信息采集装置,其特征在于,包括: 规则配置单元,用于获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则; 采集单元,用于根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理。10.根据权利要求9所述的采集装置,其特征在于,还包括:调度模块,用于调度信息采集请求;抓取单元,用于从所述信息源网站的地址中抓取非结构化的目标信息;处理单元,用于对所述非结构信息进行结构化处理。
【专利摘要】本申请公开了一种信息采集方法及装置,用于克服现有技术中的上述技术问题。方法包括:获取信息源网站,对所述信息源网站进行分析,根据对所述信息源网站的分析结果定制对应的信息采集规则;根据定制的采集规则以及采集执行参数设置,调度信息采集请求,以从所述信息源网站的地址中抓取非结构化的目标信息并进行结构化处理,从而避免了现有技术中注入政府采购信息更多的依赖于人工采集和整理后进行结构化恢复导致采集或者收集政府采购信息的过程繁琐,成本较高等问题。
【IPC分类】G06F17/30
【公开号】CN105468664
【申请号】CN201510239833
【发明人】万如意, 黄伟聪, 顾正嘉
【申请人】北京众标网络科技有限公司
【公开日】2016年4月6日
【申请日】2015年5月12日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1