一种通用采集系统的构建方法

文档序号:9579404阅读:239来源:国知局
一种通用采集系统的构建方法
【技术领域】
[0001]本发明涉及数据采集技术领域,具体地说是一种实用性强、通用采集系统的构建方法。
【背景技术】
[0002]互联网数据的采集,是结合内部数据与互联网数据产生价值的基础和前提。由于网页语法的灵活性,不同的网站的网页结构差别很大,即使是同一个网页也可能使用不同的模板。对不同的网站进行数据采集时,由于采集的位置及数据展现方式的不同,很难进行自动化的通用采集,定制化的通用采集是必须的。
[0003]在对网页进行处理和抽取的过程中通常会将网页形成D0M树。D0M实际上是以面向对象方式描述的文档模型。D0M定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把D0M认为是页面上数据和结构的一个树形表示。
[0004]HtmlUnit是一款常用的Java语言的页面分析工具,可以下载网页,解析网页形成D0M树,并且可以定位到网页上的任意节点的内容。Xpath即XML路径语言,它是一种用来确定XML文档中的位置的语言。Xpath基于XML的树状结构,提供在数据结构中寻找节点的能力。Xpath中可以配置选择的节点的路径,通过节点的属性进行筛选。配置Xpath,可以对网页中的数据进行任意的抽取。
[0005]Quartz是一个Java编写的开源作业调度框架,能够对数百个甚至上千个作业进行调度。对Quartz进行简单配置就能实现定时任务的开发。
[0006]基于此,现提供一种通用采集系统的构建方法。

【发明内容】

[0007]本发明的技术任务是针对以上不足之处,提供一种实用性强、通用采集系统的构建方法。
[0008]一种通用采集系统的构建方法,包括以下四个步骤:入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置,各采集配置步骤之间为顺序进行,即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。
[0009]所述四个步骤中,前后的采集配置步骤之间通过操作同一个数据库中的表,实现串联关系,且当前一个采集步骤结束之前,后一个采集步骤不能结束。
[0010]所述入口地址配置方式包括以下三种:根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。
[0011]所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数,然后根据这些参数拼接形成入口地址;
根据链接块位置配置入口地址集合是指配置网页地址、链接块的Xpath路径,下载网页后根据Xpath抽取出入口地址;
根据前置任务配置入口地址集合是指配置前置任务的任务名称、子步骤名称,从前置任务的某个子步骤的输出结果中获取入口地址。
[0012]所述翻页地址采集配置方式包括以下两种:根据Xpath发现下一页,根据参数规则发现下一页。
[0013]所述根据Xpath发现下一页即为配置下一页的Xpath的路径,其具体过程为:根据入口网页内容和下一页的Xpath路径抽取出下一页的地址;
根据参数规则发现下一页的具体过程为:获取参数名称、参数变化量,根据入口地址,从中抽取出变化的参数名称及值,进行改变;当不存在参数名称时,则默认选择url中的最后一个数字进行改变。
[0014]所述翻页地址采集配置过程中,根据日期进行过滤和根据页面个数进行翻页过滤。
[0015]所述详情页地址采集配置是根据Xpath进行抽取,且在进行详情页采集的过程中,根据标题进行过滤和根据条数进行过滤。
[0016]所述字段抽取配置方式包括以下三种:根据标签进行匹配,根据正则表达式进行匹配和根据xpath进行匹配。
[0017]所述根据标签进行匹配是指配置所抽取内容的前标签、后标签,将前后标签中间的内容抽取出来;
根据正则表达式进行匹配是指配置正则表达式、组号,根据正则表达式匹配网页内容,将对应的组号中的内容抽取出来;
根据xpath进行匹配是指配置xpath路径、是否取出HTML,如果包含HTML,则将xpath中的所有内容抽取出来,否则仅仅取出节点的文字内容。
[0018]本发明的一种通用采集系统的构建方法,具有以下优点:
该发明的一种通用采集系统的构建方法,通用的网站配置采集系统,节约数据采集所需要的人力成本,同时降低数据采集的技术门槛;设计了多线程并发机制,任务之间通过数据库进行交互协作,能够进行简单的分布式采集;实现了对大多数的网站的配置采集和分布式采集,简化了网站采集的繁琐的开发工作;设计了多个支持模块,包括定时器、爬虫代理、网页D0M树生成、网页清洗等,使得整个采集体统能够灵活配置,达到通用的效果,实用性强,适用范围广泛,易于推广。
【附图说明】
[0019]附图1为本发明的采集步骤之间的协作示意图。
[0020]附图2为每个采集步骤的执行流程图。
[0021]附图3为通用采集系统功能架构设计图。
【具体实施方式】
[0022]下面结合附图和具体实施例对本发明作进一步说明。
[0023]本发明的提供一种通用采集系统的构建方法,互联网上的信息组织方式主要分为两种:导航式和搜索式、导航式的网页,通过导航栏不断进入下一级导航,然后进入最终的页面。当数据量较大时,会把同一类的数据进行列表展示。因此,综合两种方式,该采集系统把一个采集任务分成四个步骤::入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置,各采集配置步骤之间为顺序进行,即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。
[0024]当然并不是所有的采集任务都完全具备这四个步骤,也有的网站的入口地址可能是多级导航后才获取。当缺少其中的一个步骤时,该步骤会复制前一个步骤的输出结果作为该任务的输出。当采集任务需要多于这四个步骤时,可以将该采集任务拆分成多个子采集任务,然后配置子采集任务之间的前后关系。
[0025]所述入口地址配置方式包括以下三种:根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。
[0026]所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数,然后根据这些参数拼接形成入口地址;
根据链接块位置配置入口地址集合是指配置网页地址、链接块的Xpath路径,下载网页后根据Xpath抽取出入口地址;
根据前置任务配置入口地址集合是指配置前置任务的任务名称、子步骤名称,从前置任务的某个子步骤的输出结果中获取入口地址。
[0027]所述翻页地址采集配置方式包括以下两种:根据Xpath发现下一页,根据参数规则发现下一页。
[002
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1