一种网络数据定向分页式采集方法

文档序号:9667373阅读:157来源:国知局
一种网络数据定向分页式采集方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体地说是一种实用性强、网络数据定向分页式采集方法。
【背景技术】
[0002]传统的数据采集方法是在采集程序中通过获取网页上的特定组件元素,再创建该元素的实例化对象,通过模拟对该对象的操作(如点击事件、键入回车等),从而访问目标页面来获取数据信息的。
[0003]现如今网页上包含的信息量日愈增大,种类繁多且结构复杂,即便是提供同一类相关信息的网页其呈现方式也是大相径庭。如果用传统方式在众多页面组件元素中层层分离出控制访问提交的对象元素,则较为繁琐。程序开发人员会消耗较多的精力去分析页面构成,建立准确的定位方法,同时还需要消耗更多的系统资源用以创建组件元素的实例化对象。而信息含量越是大的网站往往都是分模块多人开发出来的,其页面组成虽然相似,但由于开发人员水平不同在细节处理上往往就会有不同的方式。这样的话编写提取特定组件元素的定位方法也就增加了采集程序出错的可能性,并且定位过程中也会根据需要实例化出中间组件用来执行逻辑判断,更加重了系统负担。
[0004]随着近年来互联网和信息行业的蓬勃发展,数据这一概念已经渗透到每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。大数据的概念已经渗透到各行各业的专家学者心中,也引起了大众的广泛关注。虽然大数据的应用分析在统计学、经济学、物理学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,但是在当今这个信息爆炸的时代,各个行业通过对大数据的分析与运用来拉动生产力高速增长的需求都变得极为迫切。而与此同时,大量分布式的公开信息充斥在网络上,政府数据的进一步对外开放、淘宝等电子商务平台的快速发展、线上税务办理的展开等方面都生成了海量的信息数据。这些数据无论是从分布程度上还是数据量上都与前些年有了质的提升,犹如一把双刃剑,蕴含了更多的价值却加重了采集获取数据的难度,如何更快速高效的获取这些数据就显得更为关键。对数据采集方法的优化关系到对网上公开数据的利用效率,也就成为了程序开发人员的一种责任。因而网络数据定向分页式采集方法作为一种科学合理且易于复用的采集方法就显得更有意义。
[0005]若能对传统采集网络数据的方法进行优化,使用定向分页式采集方法,略过分析复杂页面构成剥离特定组件的过程与实例化的定位方法,既能使程序开发人员节约精力和时间又能令采集程序低耗加速运行。从而使大量的数据采集工作变得有迹可循,尽可能的以模式化的方式执行,暗合了程序开发工厂化的模型。这样就减轻了数据采集的压力,能够将重心向后续的数据分析服务方面倾斜,从而更有效地推动大数据技术的运用。
[0006]基于此,现提供一种网络数据定向分页式采集方法。

【发明内容】

[0007]本发明的技术任务是针对以上不足之处,提供一种实用性强、网络数据定向分页式米集方法。
[0008]—种网络数据定向分页式采集方法,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。
[0009]所述的分页参数通过正整数赋值的方式指定访问页码数。
[0010]所述方法的具体实现过程为:
获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址
URL ;
截取分页参数;
拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数;
验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息;
数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。
[0011]所述截取分页参数的实现方式包括以下两种:
一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称;
二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称。
[0012]本发明的一种网络数据定向分页式采集方法,具有以下优点:
该发明的一种网络数据定向分页式采集方法,简化了互联网页面列表上的信息的获取方式,提高了采集速度,同时也令开发人员有更多的精力去处理对所采数据的分析与数据服务的创新,有利于大数据技术的进一步发展;是对大数据应用分析领域的数据采集方法的优化,是对网络爬虫技术的提速,通过科学合理且易于复用的采集方式进行数据获取,提高了对互联网公开数据信息的利用效率。有利于大数据程序开发人员简化开发模式,在数据获取方面节省精力,降低开发成本,同时也为后续的数据分析服务提供便利,实用性强,适用范围广泛,易于推广。
【附图说明】
[0013]附图1为本发明的实现流程图。
【具体实施方式】
[0014]下面结合附图和具体实施例对本发明作进一步说明。
[0015]本发明的提供一种网络数据定向分页式采集方法,如附图1所示,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。
[0016]所述的分页参数通过正整数赋值的方式指定访问页码数。
[0017]所述方法的具体实现过程为:
获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址
URL ;
截取分页参数;
拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数;
验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息;
数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。
[0018]所述截取分页参数的实现方式包括以下两种:
一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称;
二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称,即以关键字检索,如:page、pNum、hidden等。
[0019]网络数据分页式采集方法主要分为两大部分,一是目标页面指定访问地址的获取,二是在数据采集程序中的运用。具体分以下几个步骤进行:
第一:通过在浏览器中访问目标页面和查看页面源代码,获取默认访问地址与分页参数。
[0020]第二:将经由指定URL访问的页面信息与经由在浏览器中跳转操作获取的页面信息进行比对,以确认指定URL的正确性。
[0021]第三:在采集程序中加以利用,略去获取特定访问组件元素的剥离过程与实例化操作,直接循环访问目标页面信息,提高采集效率。
[0022]上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述【具体实施方式】,任何符合本发明的一种网络数据定向分页式采集方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
【主权项】
1.一种网络数据定向分页式采集方法,其特征在于,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。2.根据权利要求1所述的一种网络数据定向分页式采集方法,其特征在于,所述的分页参数通过正整数赋值的方式指定访问页码数。3.根据权利要求2所述的一种网络数据定向分页式采集方法,其特征在于,所述方法的具体实现过程为: 获取默认URL:通过搜索引擎访问目标信息列表页,获取目标页面的默认访问地址URL ; 截取分页参数; 拼接指定URL:以目标页面默认URL拼接以正整数赋值的分页参数,正整数的值即为指定页面的页数; 验证指定URL:在浏览器地址栏中输入拼接好的目标页面指定URL并访问,已验证能否获取到响应的数据信息; 数据采集:利用拼接指定URL的方式,从信息列表第一页至总页数循环访问全网数据,逐页采集数据信息。4.根据权利要求3所述的一种网络数据定向分页式采集方法,其特征在于,所述截取分页参数的实现方式包括以下两种: 一、在浏览器中进行页面跳转操作,通过抓包软件,截获跳转过程中的传参,找出与分页相关的参数名称; 二、在浏览器中进入开发者模式或者右键查看页面源代码,从中搜索出与分页相关的参数名称。
【专利摘要】本发明公开了一种网络数据定向分页式采集方法,其实现步骤为:截取分页参数拼接出指定页面的访问地址URL,并利用该访问地址直接发送请求以获取目标页面返回的响应数据。该一种网络数据定向分页式采集方法与现有技术相比,通过科学合理且易于复用的采集方式进行数据获取,提高了对互联网公开数据信息的利用效率。有利于大数据程序开发人员简化开发模式,在数据获取方面节省精力,降低开发成本,同时也为后续的数据分析服务提供便利,实用性强,适用范围广泛,易于推广。
【IPC分类】G06F17/30
【公开号】CN105426424
【申请号】CN201510738972
【发明人】邢荣, 崔乐乐, 左少标
【申请人】浪潮软件集团有限公司
【公开日】2016年3月23日
【申请日】2015年11月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1