一种通用采集系统的构建方法

文档序号：9579404阅读：239来源：国知局

一种通用采集系统的构建方法
【技术领域】
[0001]本发明涉及数据采集技术领域，具体地说是一种实用性强、通用采集系统的构建方法。
【背景技术】
[0002]互联网数据的采集，是结合内部数据与互联网数据产生价值的基础和前提。由于网页语法的灵活性，不同的网站的网页结构差别很大，即使是同一个网页也可能使用不同的模板。对不同的网站进行数据采集时，由于采集的位置及数据展现方式的不同，很难进行自动化的通用采集，定制化的通用采集是必须的。
[0003]在对网页进行处理和抽取的过程中通常会将网页形成D0M树。D0M实际上是以面向对象方式描述的文档模型。D0M定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把D0M认为是页面上数据和结构的一个树形表示。
[0004]HtmlUnit是一款常用的Java语言的页面分析工具，可以下载网页，解析网页形成D0M树，并且可以定位到网页上的任意节点的内容。Xpath即XML路径语言，它是一种用来确定XML文档中的位置的语言。Xpath基于XML的树状结构，提供在数据结构中寻找节点的能力。Xpath中可以配置选择的节点的路径，通过节点的属性进行筛选。配置Xpath，可以对网页中的数据进行任意的抽取。
[0005]Quartz是一个Java编写的开源作业调度框架，能够对数百个甚至上千个作业进行调度。对Quartz进行简单配置就能实现定时任务的开发。
[0006]基于此，现提供一种通用采集系统的构建方法。

【发明内容】

[0007]本发明的技术任务是针对以上不足之处，提供一种实用性强、通用采集系统的构建方法。
[0008]一种通用采集系统的构建方法，包括以下四个步骤:入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。
[0009]所述四个步骤中，前后的采集配置步骤之间通过操作同一个数据库中的表，实现串联关系，且当前一个采集步骤结束之前，后一个采集步骤不能结束。
[0010]所述入口地址配置方式包括以下三种:根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。
[0011]所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数，然后根据这些参数拼接形成入口地址；
根据链接块位置配置入口地址集合是指配置网页地址、链接块的Xpath路径，下载网页后根据Xpath抽取出入口地址；
根据前置任务配置入口地址集合是指配置前置任务的任务名称、子步骤名称，从前置任务的某个子步骤的输出结果中获取入口地址。
[0012]所述翻页地址采集配置方式包括以下两种:根据Xpath发现下一页，根据参数规则发现下一页。
[0013]所述根据Xpath发现下一页即为配置下一页的Xpath的路径，其具体过程为:根据入口网页内容和下一页的Xpath路径抽取出下一页的地址；
根据参数规则发现下一页的具体过程为:获取参数名称、参数变化量，根据入口地址，从中抽取出变化的参数名称及值，进行改变；当不存在参数名称时，则默认选择url中的最后一个数字进行改变。
[0014]所述翻页地址采集配置过程中，根据日期进行过滤和根据页面个数进行翻页过滤。
[0015]所述详情页地址采集配置是根据Xpath进行抽取，且在进行详情页采集的过程中，根据标题进行过滤和根据条数进行过滤。
[0016]所述字段抽取配置方式包括以下三种:根据标签进行匹配，根据正则表达式进行匹配和根据xpath进行匹配。
[0017]所述根据标签进行匹配是指配置所抽取内容的前标签、后标签，将前后标签中间的内容抽取出来；
根据正则表达式进行匹配是指配置正则表达式、组号，根据正则表达式匹配网页内容，将对应的组号中的内容抽取出来；
根据xpath进行匹配是指配置xpath路径、是否取出HTML，如果包含HTML，则将xpath中的所有内容抽取出来，否则仅仅取出节点的文字内容。
[0018]本发明的一种通用采集系统的构建方法，具有以下优点:
该发明的一种通用采集系统的构建方法，通用的网站配置采集系统，节约数据采集所需要的人力成本，同时降低数据采集的技术门槛；设计了多线程并发机制，任务之间通过数据库进行交互协作，能够进行简单的分布式采集；实现了对大多数的网站的配置采集和分布式采集，简化了网站采集的繁琐的开发工作；设计了多个支持模块，包括定时器、爬虫代理、网页D0M树生成、网页清洗等，使得整个采集体统能够灵活配置，达到通用的效果，实用性强，适用范围广泛，易于推广。
【附图说明】
[0019]附图1为本发明的采集步骤之间的协作示意图。
[0020]附图2为每个采集步骤的执行流程图。
[0021]附图3为通用采集系统功能架构设计图。
【具体实施方式】
[0022]下面结合附图和具体实施例对本发明作进一步说明。
[0023]本发明的提供一种通用采集系统的构建方法，互联网上的信息组织方式主要分为两种:导航式和搜索式、导航式的网页，通过导航栏不断进入下一级导航，然后进入最终的页面。当数据量较大时，会把同一类的数据进行列表展示。因此，综合两种方式，该采集系统把一个采集任务分成四个步骤::入口地址采集配置、翻页地址采集配置、详情页地址采集配置和字段抽取配置，各采集配置步骤之间为顺序进行，即前一个采集配置步骤的输出作为后一个采集配置步骤的输入。
[0024]当然并不是所有的采集任务都完全具备这四个步骤，也有的网站的入口地址可能是多级导航后才获取。当缺少其中的一个步骤时，该步骤会复制前一个步骤的输出结果作为该任务的输出。当采集任务需要多于这四个步骤时，可以将该采集任务拆分成多个子采集任务，然后配置子采集任务之间的前后关系。
[0025]所述入口地址配置方式包括以下三种:根据搜索词语配置入口地址集合、根据链接块位置配置入口地址集合、根据前置任务配置入口地址集合。
[0026]所述根据搜索词语配置入口地址集合是指配置包括地址前缀、地址后缀、搜索词集合、搜索词编码方式的参数，然后根据这些参数拼接形成入口地址；
根据链接块位置配置入口地址集合是指配置网页地址、链接块的Xpath路径，下载网页后根据Xpath抽取出入口地址；
根据前置任务配置入口地址集合是指配置前置任务的任务名称、子步骤名称，从前置任务的某个子步骤的输出结果中获取入口地址。
[0027]所述翻页地址采集配置方式包括以下两种:根据Xpath发现下一页，根据参数规则发现下一页。
[002

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛立花;王传超;
技术所有人：浪潮软件集团有限公司;
我是此专利的发明人

上一篇：选择热度多媒体的方法及终端的制作方法
上一篇：一种信息推荐方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。