一种数据抓取方法及系统与流程

文档序号:23706180发布日期:2021-01-23 13:26阅读:71来源:国知局
一种数据抓取方法及系统与流程

[0001]
本发明涉及计算机及互联网技术领域,具体而言,涉及一种数据抓取方法及系统。


背景技术:

[0002]
随着社交网络、移动互联网的大规模发展,人们能更方便的通过手机获取资讯、发表言论、沟通交流。特别是在社交网络繁荣之后,每个网民都可以创造信息,使得网络中的信息量出现爆发式的增长,这其中的文本信息有多种来源:微博、新闻、论坛、博客、问答、评论等,可以统称为舆情数据。品牌广告主、政府部门都希望了解网民的舆论,对于品牌广告主,他们希望从这些信息中获取用户对品牌的态度,以及用户的兴趣偏好,而且希望及时的获取到网络中对本品牌的负面信息,从而做出快速的处理。为了对海量的文本进行深入精细的分析,需要快速全面的抓取信息,并且能覆盖多种来源。
[0003]
现有技术中,数据抓取平台上设置了一个专门接收并分发各数据抓取请求的管理结点,所有的数据抓取请求只能通过这一个管理结点而下发给各个抓取结点,一旦管理结点无法正常运行,那么所有的数据抓取请求便无法下发给各个抓取结点,导致数据抓取无法进行,进而发送终端无法接收到需要抓取的数据或者数据抓取不完整,导致发送终端无法接收到准确完整的数据,网络中的数据量大,导致抓取数据的精确度和数据抓取效率低下。


技术实现要素:

[0004]
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种数据抓取方法及系统,可对数据进行准确抓取,保证数据抓取精确度,提高数据抓取效率。
[0005]
本发明的实施例是这样实现的:
[0006]
第一方面,本发明实施例提供一种数据抓取方法,包括以下步骤:
[0007]
获取并发送数据抓取请求;
[0008]
根据数据抓取请求生成并发送数据抓取规则;
[0009]
根据数据抓取规则建立数据抓取任务;
[0010]
根据数据抓取任务设定一个或多个数据抓取节点;
[0011]
将数据抓取任务下发到各个数据抓取节点,通过数据抓取节点抓取数据,并将抓取的数据发送至终端。
[0012]
当业务终端需要获取互联网中的数据时,首先发送一个数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至后续进行处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,根据数据抓取请求生成并发送一个数据抓取规则,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,根据数据抓取规则建立好数据抓取任务后,根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的
抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。
[0013]
本方法根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0014]
基于第一方面,在本发明的一些实施例中,上述根据数据抓取请求生成并发送数据抓取规则的方法包括以下步骤:
[0015]
提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符;
[0016]
根据数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则。
[0017]
基于第一方面,在本发明的一些实施例中,上述数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则的方法包括以下步骤:
[0018]
根据数据总量和数据类型生成并发送第一数据抓取规则;
[0019]
根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则。
[0020]
基于第一方面,在本发明的一些实施例中,该数据抓取方法还包括以下步骤:
[0021]
a1、通过数据抓取节点抓取数据;
[0022]
a2、判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,则进入步骤a3;如果否,则进入步骤a4;
[0023]
a3、将抓取的数据发送至终端;
[0024]
a4、将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据,并进入步骤a1。
[0025]
基于第一方面,在本发明的一些实施例中,该数据抓取方法还包括以下步骤:
[0026]
判断抓取的数据是否包含重复数据,如果是,则删除重复数据,以得到目标数据,并将目标数据发送至终端;如果否,则将抓取的数据发送至终端。
[0027]
第二方面,本发明实施例提供一种数据抓取系统,包括请求获取模块、规则生成模块、任务建立模块、节点设定模块以及数据抓取模块,其中:
[0028]
请求获取模块,用于获取并发送数据抓取请求;
[0029]
规则生成模块,用于根据数据抓取请求生成并发送数据抓取规则;
[0030]
任务建立模块,用于根据数据抓取规则建立数据抓取任务;
[0031]
节点设定模块,用于根据数据抓取任务设定一个或多个数据抓取节点;
[0032]
数据抓取模块,用于将数据抓取任务下发到各个数据抓取节点,通过数据抓取节点抓取数据,并将抓取的数据发送至终端。
[0033]
当业务终端需要获取互联网中的数据时,首先发送一个数据抓取请求,通过请求获取模块获取数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至规则生成模块进行后续处理,上述数据抓取请求包含数据总量、请求发送终端的位
置数据、数据类型以及统一资源定位符等信息,规则生成模块根据数据抓取请求生成并发送一个数据抓取规则给任务建立模块,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,通过任务建立模块根据数据抓取规则建立好数据抓取任务后,将数据抓取任务发送给节点设定模块,节点设定模块根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,通过数据抓取模块将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。
[0034]
本系统根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0035]
基于第二方面,在本发明的一些实施例中,上述规则生成模块包括数据子模块和规则子模块,其中:
[0036]
数据子模块,用于提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符;
[0037]
规则子模块,用于根据数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则。
[0038]
基于第二方面,在本发明的一些实施例中,上述规则子模块包括第一规则单元和第二规则单元,其中:
[0039]
第一规则单元,用于根据数据总量和数据类型生成并发送第一数据抓取规则;
[0040]
第二规则单元,用于根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则。
[0041]
基于第二方面,在本发明的一些实施例中,该数据抓取系统还包括抓取模块、判断模块、发送模块以及对比模块,其中:
[0042]
抓取模块,用于通过数据抓取节点抓取数据;
[0043]
判断模块,用于判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,则发送模块工作;如果否,则对比模块工作;
[0044]
发送模块,用于将抓取的数据发送至终端;
[0045]
对比模块,用于将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据,抓取模块工作。
[0046]
基于第二方面,在本发明的一些实施例中,该数据抓取系统还包括重复判断模块,用于判断抓取的数据是否包含重复数据,如果是,则删除重复数据,以得到目标数据,并将目标数据发送至终端;如果否,则将抓取的数据发送至终端。
[0047]
本发明实施例至少具有如下优点或有益效果:
[0048]
本发明实施例提供一种数据抓取方法,首先获取业务终端的数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至后续进行处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,根据数据抓取请求生成并发送一个数据抓取规则,以便后续根据该数据抓取规则建立数据抓
取任务,进而进行合理高效的数据抓取,根据数据抓取规则建立好数据抓取任务后,根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。本方法根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0049]
本发明实施例提供一种数据抓取系统,通过请求获取模块获取数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至规则生成模块进行后续处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,规则生成模块根据数据抓取请求生成并发送一个数据抓取规则给任务建立模块,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,通过任务建立模块根据数据抓取规则建立好数据抓取任务后,将数据抓取任务发送给节点设定模块,节点设定模块根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,通过数据抓取模块将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。本系统根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
附图说明
[0050]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0051]
图1为本发明实施例一种数据抓取方法的流程图;
[0052]
图2为本发明实施例一种数据抓取方法中判断数据是否漏抓的流程图;
[0053]
图3为本发明实施例一种数据抓取系统的原理框图。
[0054]
图标:100、请求获取模块;200、规则生成模块;210、数据子模块;220、规则子模块;221、第一规则单元;222、第二规则单元;300、任务建立模块;400、节点设定模块;500、数据抓取模块;600、抓取模块;700、判断模块;800、发送模块;900、对比模块;1000、重复判断模块。
具体实施方式
[0055]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0056]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0057]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0058]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0059]
在本发明实施例的描述中,“多个”代表至少2个。
[0060]
实施例
[0061]
如图1所示,第一方面,本发明实施例提供一种数据抓取方法,包括以下步骤:
[0062]
s1、获取并发送数据抓取请求;
[0063]
s2、根据数据抓取请求生成并发送数据抓取规则;
[0064]
s3、根据数据抓取规则建立数据抓取任务;
[0065]
s4、根据数据抓取任务设定一个或多个数据抓取节点;
[0066]
s5、将数据抓取任务下发到各个数据抓取节点,通过数据抓取节点抓取数据,并将抓取的数据发送至终端。
[0067]
当业务终端需要获取互联网中的数据时,首先发送一个数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至后续进行处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,根据数据抓取请求生成并发送一个数据抓取规则,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,根据数据抓取规则建立好数据抓取任务后,根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。
[0068]
本方法根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0069]
基于第一方面,在本发明的一些实施例中,上述根据数据抓取请求生成并发送数据抓取规则的方法包括以下步骤:
[0070]
提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符;
[0071]
根据数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则。
[0072]
在生成数据抓取规则时,首先,当接收到数据抓取请求后,提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及每个单独数据的统一资源定位符等数据,提取到上述数据后,根据上述数据生成并发送一个数据抓取规则,该数据抓取规则包含数据抓取方式、抓取数据内容、数据发送方式以及数据发送方式等信息。
[0073]
基于第一方面,在本发明的一些实施例中,上述数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则的方法包括以下步骤:
[0074]
根据数据总量和数据类型生成并发送第一数据抓取规则;
[0075]
根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则。
[0076]
数据抓取规则包含以第一数据抓取规则和第二数据抓取规则,第二数据抓取规则为最终数据抓取规则,首先,根据数据总量和数据类型生成并发送第一数据抓取规则,该第一数据抓取规则是指将数据总量进行合理划分为多个任务,并按照数据类型进行优先级划分排序;第一数据抓取规则设定完成后,根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则,该第二抓取规则是指根据数据任务个数和数据抓取优先级以及每个数据的统一资源定位符生成的包含数据抓取方式、数据抓取内容以及采用合理的数据发送方式根据请求发送终端的位置数据抓取和发送数据的规则。
[0077]
基于第一方面,如图2所示,在本发明的一些实施例中,该数据抓取方法还包括以下步骤:
[0078]
a1、通过数据抓取节点抓取数据;
[0079]
a2、判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,则进入步骤a3;如果否,则进入步骤a4;
[0080]
a3、将抓取的数据发送至终端;
[0081]
a4、将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据,并进入步骤a1。
[0082]
在对数据进行抓取后,为了保证抓取数据的完整性,通过数据抓取节点抓取数据后,对抓取的数据进行完整性判断,判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,将抓取的数据发送至终端;如果抓取不完整,则将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据,重新通过数据抓取节点对待抓取数据进行抓取。
[0083]
基于第一方面,在本发明的一些实施例中,该数据抓取方法还包括以下步骤:
[0084]
判断抓取的数据是否包含重复数据,如果是,则删除重复数据,以得到目标数据,并将目标数据发送至终端;如果否,则将抓取的数据发送至终端。
[0085]
在抓取数据时,可能会出现抓取重复的情况,这就导致抓取数据的多余性,也不方便后续用户终端查看数据。因此在数据抓取完成后,判断抓取的数据是否包含重复数据,如
果是,则删除重复数据只留下一个相同数据,即为目标数据,并将目标数据发送至终端;如果没有重复数据,则将抓取的数据发送至终端。
[0086]
第二方面,如图3所示,本发明实施例提供一种数据抓取系统,包括请求获取模块100、规则生成模块200、任务建立模块300、节点设定模块400以及数据抓取模块500,其中:
[0087]
请求获取模块100,用于获取并发送数据抓取请求;
[0088]
规则生成模块200,用于根据数据抓取请求生成并发送数据抓取规则;
[0089]
任务建立模块300,用于根据数据抓取规则建立数据抓取任务;
[0090]
节点设定模块400,用于根据数据抓取任务设定一个或多个数据抓取节点;
[0091]
数据抓取模块500,用于将数据抓取任务下发到各个数据抓取节点,通过数据抓取节点抓取数据,并将抓取的数据发送至终端。
[0092]
当业务终端需要获取互联网中的数据时,首先发送一个数据抓取请求,通过请求获取模块100获取数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至规则生成模块200进行后续处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,规则生成模块200根据数据抓取请求生成并发送一个数据抓取规则给任务建立模块300,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,通过任务建立模块300根据数据抓取规则建立好数据抓取任务后,将数据抓取任务发送给节点设定模块400,节点设定模块400根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,通过数据抓取模块500将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。
[0093]
本系统根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0094]
基于第二方面,在本发明的一些实施例中,上述规则生成模块200包括数据子模块210和规则子模块220,其中:
[0095]
数据子模块210,用于提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符;
[0096]
规则子模块220,用于根据数据总量、请求发送终端的位置数据、一个或多个数据类型以及统一资源定位符生成并发送数据抓取规则。
[0097]
在生成数据抓取规则时,首先,当接收到请求获取模块100发送的数据抓取请求后,通过数据子模块210提取数据抓取请求中的数据总量、请求发送终端的位置数据、一个或多个数据类型以及每个单独数据的统一资源定位符等数据,提取到上述数据后,然后通过规则子模块220根据上述数据生成并发送一个数据抓取规则,该数据抓取规则包含数据抓取方式、抓取数据内容、数据发送方式以及数据发送方式等信息。
[0098]
基于第二方面,在本发明的一些实施例中,上述规则子模块220包括第一规则单元221和第二规则单元222,其中:
[0099]
第一规则单元221,用于根据数据总量和数据类型生成并发送第一数据抓取规则;
[0100]
第二规则单元222,用于根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则。
[0101]
数据抓取规则包含以第一数据抓取规则和第二数据抓取规则,第二数据抓取规则为最数据抓取规则,首先,通过第一规则单元221根据数据总量和数据类型生成并发送第一数据抓取规则,该第一数据抓取规则是指将数据总量进行合理划分为多个任务,并按照数据类型进行优先级划分排序;第一数据抓取规则设定完成后,通过第二规则单元222根据第一数据抓取规则、统一资源定位符和请求发送终端的位置数据生成并发送第二抓取规则,该第二抓取规则是指根据数据任务个数和数据抓取优先级以及每个数据的统一资源定位符生成的包含数据抓取方式、数据抓取内容以及采用合理的数据发送方式根据请求发送终端的位置数据抓取和发送数据的规则。
[0102]
基于第二方面,在本发明的一些实施例中,该数据抓取系统还包括抓取模块600、判断模块700、发送模块800以及对比模块900,其中:
[0103]
抓取模块600,用于通过数据抓取节点抓取数据;
[0104]
判断模块700,用于判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,则发送模块800工作;如果否,则对比模块900工作;
[0105]
发送模块800,用于将抓取的数据发送至终端;
[0106]
对比模块900,用于将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据,抓取模块600工作。
[0107]
在对数据进行抓取后,为了保证抓取数据的完整性,通过数据抓取节点抓取数据后,通过判断模块700对抓取的数据进行完整性判断,判断抓取的数据是否包含数据抓取任务中的全部数据,如果是,发送模块800工作,将抓取的数据发送至终端;如果抓取不完整,则对比模块900工作,将抓取的数据与数据抓取任务中的数据进行对比,将数据抓取任务中的未抓取的数据进行标记,以得到并发送待抓取数据至抓取模块600,通过抓取模块600重新通过数据抓取节点对待抓取数据进行抓取。
[0108]
基于第二方面,在本发明的一些实施例中,该数据抓取系统还包括重复判断模块1000,用于判断抓取的数据是否包含重复数据,如果是,则删除重复数据,以得到目标数据,并将目标数据发送至终端;如果否,则将抓取的数据发送至终端。
[0109]
在抓取数据时,可能会出现抓取重复的情况,这就导致抓取数据的多余性,也不方便后续用户终端查看数据。因此在数据抓取完成后,通过重复判断模块1000判断抓取的数据是否包含重复数据,如果是,则删除重复数据只留下一个相同数据,即为目标数据,并将目标数据发送至终端;如果没有重复数据,则将抓取的数据发送至终端。
[0110]
综上,本发明的实施例提供一种数据抓取方法及系统,当业务终端需要获取互联网中的数据时,首先发送一个数据抓取请求,当获取到业务终端发送的数据抓取请求后,将数据抓取请求发送至后续进行处理,上述数据抓取请求包含数据总量、请求发送终端的位置数据、数据类型以及统一资源定位符等信息,根据数据抓取请求生成并发送一个数据抓取规则,以便后续根据该数据抓取规则建立数据抓取任务,进而进行合理高效的数据抓取,根据数据抓取规则建立好数据抓取任务后,根据数据抓取任务设定一个或多个数据抓取节点,当数据抓取任务量小时,可以设定一个抓取节点进行数据抓取,当数据抓取任务量大时,可以设定多个数据抓取节点,以便对数据进行快速的抓取,同时也避免因一个节点运行
异常导致无法抓取数据或数据抓取不完整的情况,进而保证数据抓取的效率,当抓取节点设定完成后,将数据抓取任务下发到各个数据抓取节点,通过各个数据抓取节点抓取数据,并将抓取的数据发送至业务终端。本发明根据不同的数据抓取任务设定相应的数据抓取节点,进而保证对数据的准确抓取,保证数据抓取的精确度,同时通过多个数据抓取节点抓取数据,提高数据抓取效率。
[0111]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0112]
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1