一种基于数据服务的开放接口实现方法

文档序号:8342846阅读:256来源:国知局
一种基于数据服务的开放接口实现方法
【技术领域】
[0001]本发明涉及互联网数据处理技术领域,具体地说是一种基于数据服务的开放接口实现方法。
【背景技术】
[0002]当今已经是数据大爆炸的时代,各个行业面临着以下部分问题:
I)集中管理互联网数据,从无规则、无行业分类的互联网获取到针对性的行业价值的信息。
[0003]2)主流的Nutch等很难原生的满足多任务,并且定制采集和加工数据的需求,同时还需要解决大型互联网公司的反爬机制。
[0004]3)采集到的互联网数据如何自动收割和语义化存储,并与内部数据做共享与整口 ο
[0005]4)海量数据的存储,快速读写与容灾。
[0006]5)集群管理维护难,原有系统没有一个从硬件到软件到服务状态的整体监控和管理系统。
[0007]6)数据分享,通过文件方式、数据库等重型方式分享数据。

【发明内容】

[0008]本发明的技术任务是提供一种基于数据服务的开放接口实现方法。
[0009]本发明的技术任务是按以下方式实现的,该方法采用oGather模块、oReapCln模块和oRest模块;
将oRest模块定义为oAPI前端:负责将数据分享给用户J^oGather模块和oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
[0010]所述的基于数据服务的开放接口实现方法的平台搭建步骤如下:
第一步,搭建分布式存储系统,并预留OAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里;
第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境;
第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序;
第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
[0011]所述的基于数据服务的开放接口实现方法的步骤如下:
步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求; 步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况;
步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集;
步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割;
步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户,是否有相应的数据权限;
步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库;
步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
[0012]本发明的一种基于数据服务的开放接口实现方法和现有技术相比,解决了互联网非结构数据的采集、采集数据的整理与汇总、以及面向大众的数据开放接口等难题;通过实现该方法的互联网行业数据采集,能看到大众背后的行为;通过叠加政府企业内部组织数据以融合数据,透过数据分析出市场与趋势;通过数据开放接口,分享成果、降低社会协助壁垒。
【附图说明】
[0013]附图1为一种基于数据服务的开放接口实现方法的oAPI前端oRest系统核心流程图。
[0014]附图2为一种基于数据服务的开放接口实现方法的oAPI后台系统核心流程图。
【具体实施方式】
[0015]实施例1:
该方法采用oGather模块、oReapCln模块和oRest模块;
将oRest模块定义为oAPI前端:负责将数据分享给用户J^oGather模块和oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
[0016]所述的基于数据服务的开放接口实现方法的平台搭建步骤如下:
第一步,搭建分布式存储系统,并预留oAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里;
第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境;
第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序;
第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
[0017]所述的基于数据服务的开放接口实现方法的步骤如下:
步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求;
步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况;
步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集;
步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割;
步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户,是否有相应的数据权限;
步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库;
步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
[0018]名词解释:
oGather模块:主从式数据采集模块; oReapCln模块:数据异步收割与清洗模块; oRest模块:数据REST接口服务模块;
oAP1:是基于主从式大数据采集,并以互联网开放接口方式将数据提供给第三方和大众用户的方法。
[0019]MapReduce是一种编程模型,用于大规模数据集的并行运算。
[0020]Nutch是一个开源Java实现的搜索引擎,包括全文搜索和Web爬虫。
[0021]oAuth协议:是Open Authorizat1n的简写,OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。同时,任何第三方都可以使用OAUTH认证服务,任何服务提供商都可以实现自身的OAUTH认证服务,因而OAUTH是开放的。
[0022]oAdapter:定义为将一个类的接口变换成客户端所期待的一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够在一起工作。
[0023]oNoSQL模块:提供内存数据库模块。
[0024]通过上面【具体实施方式】,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
【主权项】
1.一种基于数据服务的开放接口实现方法,其特征在于,该方法采用oGather模块、oReapCln模块和oRest模块; 将oRest模块定义为oAPI前端:负责将数据分享给用户J^oGather模块和oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
2.根据权利要求1所述的一种基于数据服务的开放接口实现方法,其特征在于,所述的基于数据服务的开放接口实现方法的平台搭建步骤如下: 第一步,搭建分布式存储系统,并预留oAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里; 第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境; 第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序; 第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
3.根据权利要求1所述的一种基于数据服务的开放接口实现方法,其特征在于,所述的基于数据服务的开放接口实现方法的步骤如下: 步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求; 步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群; 步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况; 步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集; 步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割; 步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户,是否有相应的数据权限; 步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库; 步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
【专利摘要】本发明公开了一种基于数据服务的开放接口实现方法,该方法采用oGather模块、oReapCln模块和oRest模块;将oRest模块定义为oAPI前端:负责将数据分享给用户;将oGather模块和oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。本发明和现有技术相比,解决了互联网非结构数据的采集、采集数据的整理与汇总、以及面向大众的数据开放接口等难题;不但能看到大众背后的行为,而且能通过数据开放接口,分享成果、降低社会协助壁垒。
【IPC分类】H04L29-08
【公开号】CN104660715
【申请号】CN201510113609
【发明人】王诗华, 王传超, 马现珍
【申请人】浪潮集团有限公司
【公开日】2015年5月27日
【申请日】2015年3月16日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1