一种大数据的电商交易方法及电商交易系统的制作方法

文档序号:9376715阅读:358来源:国知局
一种大数据的电商交易方法及电商交易系统的制作方法
【专利说明】一种大数据的电商交易方法及电商交易系统
[0001]
技术领域
[0002]本发明涉及数据采集、存储领域,具体地说是一种大数据的电商交易方法及电商交易系统。
【背景技术】
[0003]当今已经是数据大爆炸的时代,在数据采集等方面,各个行业都面临着以下难题:一、难以从无规则、无行业分类的互联网获取到针对性的行业价值的信息;二、主流的Nutch等很难原生的满足多任务,并且定制采集和加工数据的需求,同时还需要解决大型互联网公司的反爬机制;三、采集到的互联网数据如何自动收割和语义化存储,并与内部数据做共享与整合;四、海量数据的存储,快速读写与容灾;五、集群管理维护难:原有系统没有一个从硬件到软件到服务状态的整体监控和管理系统;六、数据分享:通过文件方式、数据库等重型方式分享数据。

【发明内容】

[0004]本发明的技术任务是针对上述现有技术的不足,提供一种大数据的电商交易方法。
[0005]本发明进一步的技术任务是提供一种用于实现上述方法的电商交易系统。
[0006]本发明的技术任务是按以下方式实现的:一种大数据的电商交易方法,其特点是基于“主从式大数据采集,以互联网开放接口方式分享”,将客户定义的采集需求智能的匹配采集源和数据元素;将定义好的需求主题进行多任务化为任务集合,集合中任意一个任务可再按维度细化成子任务,按照主从心跳模式由调度节点分配给执行节点执行采集;对于执行完采集的节点,调度节点主动进行收割,采取分布式存储,并与行业内部组织数据进行整合分析,同时,将采集到的互联网数据结合权限方式以轻量级方式分享给用户。
[0007]作为优选,上述方法包括以下步骤:
a、根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模板和采割方法,以便按需提供实现数据和内容的交付;
b、确定任务模板,将模板分解为多个采集任务(如按电商平台分),并将每个任务分配给调度监控集群;
C、调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迀移到正常执行节点;
d、按独立网址维护采集周期,进行采集;
e、在执行完成采集以后,执行节点主动心跳状态,进行异构收割,并按照一定的规则进行数据预处理,进行收割库归档,以备后续数据分析; f、第三方用户发送获取数据服务请求,首先进行权限认证,验证是否为合法用户,是否有相应的数据权限;
g、将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest接口程序和接口依赖的内存库;
h、以oNoSQL数据调度转换模块提供内存数据库和分布式nosql数据库的转换和调度。
[0008]步骤c中,调度节点与执行节点优选通过MapReduce计算模型实现。
[0009]—种大数据的电商交易系统,包括适配模块、主从式数据采集模块(oGather )、数据收割模块(oReap)、数据清洗与整理(oClean)模块、调度与监控模块(oMonitor)、数据存储与处理模块(oDataHouse)、权限认证模块、请求适配与结果汇总模块(oAdapter)、数据调度转换模块(oNoSQL),其中:
适配模块、主从式数据采集(oGather)模块、数据收割模块(oReap)、数据清洗与整理模块(oClean)、调度与监控模块(oMonitor)、数据存储与处理模块(oDataHouse)构成米集与整理系统(ga-Reap):负责数据采集、存储、清洗以及整理的过程;
权限认证模块、请求适配与结果汇总模块(oAdapter)、数据调度转换模块(oNoSQL)构成服务接口系统(oRest):负责将数据分享给用户。
[0010]作为优选,主从式数据采集模块(oGather)用于根据配置参数自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模型和采割方法,以便按需提供实现数据和内容的交付。
[0011]适配模块用于将接收到模板分解为多个采集任务并将每个任务分配给调度监控集群。
[0012]调度监控集群中的调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迀移到正常执行节点。
[0013]调度监控集群中的执行节点按独立网址维护采集周期,并纳入主从式数据采集模块进行米集。
[0014]在执行完成采集以后,执行节点主动心跳状态,数据收割模块(oReap)负责异构收害J,数据清洗与整理模块(oClean)按照一定的规则进行数据预处理,数据存储与处理模块(oDataHouse)进行收割库归档,以备后续数据分析。
[0015]与现有技术相比,本发明的大数据的电商交易方法及电商交易系统具有以下有益效果:
(I)分享模式:通用数据之间的传递主要是通过硬件(物理)介质,而且是一对一的方式,本发明方法可以通过结合权限的API接口,做到发布一次到处分享;通过API SDK可以快速进行二次开放定制。
[0016](2)结构化的互联网数据:通用网页内容都离散的,而且获取到的数据内容丰富度较低。而本发明方法可以实现分布式数据采集和处理清洗功能,提供丰富的数据内容。
【附图说明】
[0017]附图1是本发明大数据的电商交易系统中采集与整理系统(ga-Reap)的流程图; 附图2是本发明大数据的电商交易系统中服务接口系统(oRest)的流程图。
【具体实施方式】
[0018]参照说明书附图以具体实施例对本发明的大数据的电商交易方法作以下详细地说明。
[0019]实施例:
由于各个行业的网站规则不一,用户采集的主题需求不统一等难点,对采集造成了一些困难。因此给客户端提供了各个行业的采集模板口径,采集模块等均部署在云服务器上。
[0020]分以下四步搭建该平台:
第一步,搭建分布式存储系统,并预留采集与整理系统(ga-Reap)与存储系统的接口,让采集后的数据直接存储到该系统里。
[0021]第二步,搭建采集与整理系统(ga-Reap)的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境。
[0022]第三步,搭建采集与整理系统(ga-Reap)。在相应规划的机
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1