定时多任务网页数据抓取系统及方法

文档序号:6625285阅读:1109来源:国知局
定时多任务网页数据抓取系统及方法
【专利摘要】本发明涉及计算机及互联网领域中的数据采集技术,一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的问题。在本发明中,系统启动时开启定时器计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。本发明适用于多网站数据同时抓取。
【专利说明】定时多任务网页数据抓取系统及方法

【技术领域】
[0001]本发明涉及计算机及互联网领域中的数据采集技术,具体涉及一种定时多任务网页数据抓取系统及方法。

【背景技术】
[0002]网页数据抓取是指将非结构化的信息从网站中抓取出来保存到结构化的数据库中的技术。目前对于网络数据抓取技术都是采用即时抓取即时使用,即:服务器抓取到数据并经过解析处理后立刻给用户响应。
[0003]上述方式对于抓取数据量小、网速快的情况下能带给用户一种及时性的体验。但对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况。


【发明内容】

[0004]本发明所要解决的技术问题是:提出一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的问题。
[0005]本发明解决上述技术问题所采用的技术方案是:
[0006]定时多任务网页数据抓取系统,包括:
[0007]定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;
[0008]数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
[0009]本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
[0010]具体的,所述待抓取网站的信息包括:待抓取网站的名称、内容。
[0011]具体的,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
[0012]具体的,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
[0013]此外,本发明的另一目的,还在于提出一种定时多任务网页数据抓取方法,其包括以下步骤:
[0014]a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器;
[0015]b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务;
[0016]c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
[0017]d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
[0018]具体的,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。
[0019]具体的,步骤c中,所述待抓取网站的信息包括:待抓取网站的名称、内容。
[0020]具体的,步骤c中,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
[0021]具体的,步骤c中,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
[0022]本发明的有益效果是:可以将数据抓取任务通过定时器设置到服务器空闲时,可以避开服务器抓取数据所浪费的时间;同时采用多线程技术增加服务器资源的利用率,将数据提前抓取到本地服务器的数据库中,待用户需要数据时,直接从本地服务器的数据库中查询,提高服务器的响应时间,提升用户体验。

【专利附图】

【附图说明】
[0023]图1为本发明中的定时多任务网页数据抓取方法流程图。

【具体实施方式】
[0024]本发明旨在提出一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况的问题,本发明的技术核心在于:将数据抓取任务通过定时器设置到服务器空闲时,并同时对于待抓取数据的每个网站开启与之对应的单独线程。
[0025]在具体实施上,本发明中的定时多任务网页数据抓取系统包括:
[0026]定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;这里所述的“配置的抓取网页数据的执行时间”来源于系统在启动时加载配置文件中的定时器配置;
[0027]数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;即开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
[0028]本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
[0029]下面结合附图对本发明的技术方案作进一步的描述:
[0030]如图1所示,本发明中的定时多任务网页数据抓取方法包括:
[0031]服务器启动定时多任务网页数据抓取系统,系统启动过程中加载配置文件中的定时器配置(该配置包含网页数据抓取的执行时间),同时启动定时器。当定时器执行到网页数据抓取模块指定的时间时,定时器开启线程并在该线程中触发数据抓取模块。此时抓取模块初始化抓取数据的基本信息:待抓取的网站名称、内容等。完成后系统根据不同的网站名称开启对应的线程并在线程中启动数据抓取、解析、匹配本地数据库中的数据、保存到本地数据库功能。一个网站的数据抓取并处理完毕后,该线程执行结束,当被开启的所有线程执行结束后,数据抓取功能模块执行完成。系统接着等待下一次定时器触发操作。
【权利要求】
1.定时多任务网页数据抓取系统,其特征在于,包括: 定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务; 数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; 本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
2.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,所述待抓取网站的信息包括:待抓取网站的名称、内容。
3.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
4.如权利要求1-3任意一项所述的定时多任务网页数据抓取系统,其特征在于,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
5.定时多任务网页数据抓取方法,其特征在于,包括以下步骤: a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器; b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务; c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据; d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
6.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。
7.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,所述待抓取网站的信息包括:待抓取网站的名称、内容。
8.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
9.如权利要求5-8任意一项所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
【文档编号】G06F17/30GK104166729SQ201410433207
【公开日】2014年11月26日 申请日期:2014年8月28日 优先权日:2014年8月28日
【发明者】冉茂强 申请人:四川长虹电器股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1