一种数据处理方法和设备与流程

文档序号:12363990阅读:143来源:国知局
一种数据处理方法和设备与流程

本申请实施例涉及通信技术领域,特别涉及一种数据处理方法和设备。



背景技术:

传统的数据建模方式,是将数据从源系统中抽出,再经过手工编写SQL(Structured Query Language,结构化查询语言)将抽出的数据整合成为数据仓库标准的维表结构,之后整个数据仓库的建模就完成了,后续根据互联网业务模式,一般会有以下两类需求:

一、将数据仓库标准的维表通过手工编写SQL的方式整合成为业务大宽表;

二、将多个数据仓库标准的维表通过手工编写SQL的方式整合成为算法模型需要的输入样本集。

可见在现有技术中,不管是哪种需求,都是需要手工根据需求来整合的,这样导致计算结果不可通用复用,效率低下,且人工维护成本比较高。



技术实现要素:

针对现有技术中的缺陷,本申请提出了一种数据处理方法,包括:

获取原始的数据;

将获取的原始的数据进行分类;

当接收到待处理业务时,根据所述待处理业务的需要从分类后的数据中提取需要的数据。

可选的,所述原始的数据包括:新增的数据,更新的数据,特定领域的 数据;

所述获取原始的数据,包括:

定时从预设的多个数据库中获取新增的数据;

定时从预设的多个数据库中获取更新的数据;

定时基于关键词获取预定领域的数据。

可选的,在所述将获取的原始的数据进行分类,之前还包括:

将获取的原始的数据存储在操作数据源ODS中,并对所述ODS中原有的数据与获取的原始的数据进行整合。

可选的,所述将获取的原始的数据进行分类,包括:

根据预设的分类规则和分类需要设置分类配置参数;

整合所有的分类配置参数生成分类整合模板数据;

基于所述分类整合模板数据和多源数据整合框架生成SQL代码;

通过所述SQL代码从所述ODS中获取原始的数据,以及将获取的原始的数据按照对象进行分类;

将分类后的数据存储在数据仓库DW中,并对所述DW中原有的数据与获取的分类后的数据进行整合;

其中所述对象包括:时间,地点,事件,人物,关系。

可选的,当接收到待处理业务时,根据所述待处理业务的需要从分类后的数据中提取需要的数据,具体包括:

当接收到待处理业务后,基于预设的规则分析所述待处理业务的需要以确定处理所述待处理业务所需要的数据;

基于确定的数据从分类后的数据中提取的数据,存储在数据集市DM中。

本申请还提出了一种数据处理设备,包括:

获取模块,用于获取原始的数据,

分类模块,用于将获取的原始的数据进行分类;

提取模块,用于当接收到待处理业务时,根据所述待处理业务的需要从分类后的数据中提取需要的数据。

可选的,所述原始的数据包括:新增的数据,更新的数据,特定领域的数据;

所述获取模块,具体用于:

定时从预设的多个数据库中获取新增的数据;

定时从预设的多个数据库中获取更新的数据;

定时基于关键词获取预定领域的数据。

可选的,该设备还包括:

整合模块,用于将获取的原始的数据存储在操作数据源ODS中,并对所述ODS中原有的数据与获取的原始的数据进行整合。

可选的,所述分类模块,具体用于:

根据预设的分类规则和分类需要设置分类配置参数;

整合所有的分类配置参数生成分类整合模板数据;

基于所述分类整合模板数据和多源数据整合框架生成SQL代码;

通过所述SQL代码从所述ODS中获取原始的数据,以及将获取的原始的数据按照对象进行分类;

将分类后的数据存储在数据仓库DW中,并对所述DW中原有的数据与获取的分类后的数据进行整合;

其中所述对象包括:时间,地点,事件,人物,关系。

可选的,提取模块,具体用于:

当接收到待处理业务后,基于预设的规则分析所述待处理业务的需要以确定处理所述待处理业务所需要的数据;

基于确定的数据从分类后的数据中提取的数据,存储在数据集市DM中。

与现有技术相比,本申请中通过将获取的原始的数据进行分类;以便当接收到待处理业务时,根据待处理业务的需要从分类后的数据中提取需要的数据,实现了数据处理的自动化,无需进行人工处理,使得计算结果是可以通用复用的,提高了效率。

附图说明

图1为本申请实施例提出的一种数据处理方法的流程示意图;

图2为本申请实施例提出的一种数据处理方法的示意图;

图3为本申请实施例提出的一种数据处理设备的结构示意图。

具体实施方式

如背景技术所述,针对现有技术中的缺陷,本申请中提出了一种数据处理方法,如图1所示,包括以下步骤:

步骤101、获取原始的数据。

具体的,原始的数据可以是各种数据,具体可以基于需要进行选择,而基于需要就可以从各数据库中获取原始的数据,例如可以如图2所示,可以从以下数据库中进行获取:旅馆住宿订房记录数据库,铁路买票乘车记录数据库,民航预定乘机记录数据库,人口普查记录数据库,违法犯罪记录数据库,等等,具体的可以基于需要进行设置,还可以基于需要从其他数据库中获取原始的数据。

随着时间的变化,不断会有新的数据产生,而旧有的数据也会不断的进行更新更新,另外,基于某些需要还可能需要特定的领域的数据,因此原始的数据可以包括:新增的数据,更新的数据,特定领域的数据;因此具体的获取过程可以包括:

定时从预设的多个数据库中获取新增的数据;

定时从预设的多个数据库中获取更新的数据;

定时基于关键词获取预定领域的数据。

其中预设的多个数据库就可以包括上述的多个数据库,还可以基于需要从其他的数据库中进行获取,例如若需要查询某人(例如为A)的网络购物情况,则需要查询网络购物记录数据库,来得到淘宝上该用户A的账户记录,从而得知在淘宝上的网络购物情况,至于其他的网站的购物记录,例如天猫等与此类似。

而在获取了原始的数据之后,需要处理该原始的数据,具体的,可以将将获取的原始的数据存储在ODS(Operational Data Store,操作数据源)中,并对ODS中原有的数据与获取的原始的数据进行整合。例如,获取的原始数据中包含有数据1,数据2,数据3,而ODS中原有的数据中存在数据3,两个数据3是重复的,就可以任删一个,例如可以保留ODS中原有的数据3,而删除获取的原始的数据中的数据3,以此在保证数据完整全面的同时,避免重复多余的数据出现。

步骤102、将获取的原始的数据进行分类。

具体的,在步骤101中,只是获取了数据,而数据有很多,为此本申请中对获取的数据进行分类,具体的过程包括:根据预设的分类规则和分类需要设置分类配置参数;整合所有的分类配置参数生成分类整合模板数据;基于所述分类整合模板数据和多源数据整合框架生成SQL代码;通过所述SQL代码从所述ODS中获取原始的数据,以及将获取的原始的数据按照对象进行分类;将分类后的数据存储在数据仓库DW中,并对所述DW中原有的数据与获取的分类后的数据进行整合;其中所述对象包括:时间,地点,事件,人物,关系;以便后续在需要的时候能快捷地进行提取,具体的分类过程可以如下:

基于预设的分类规则和分类需要设置分类配置参数,分类规则中包含有分类的各个步骤,例如步骤可以有:提取原始数据,对原始数据进行扫描以确定各原始数据的多维度特征,基于分类需要选取特定的特征来对各原始数据进行分类整合,对应的,每个步骤配置对应的分类配置参数,而所有的分类配置参数整合起来就是一套分类的流程,也即对应分类整合模板数据,后续可以通过分类整合模板数据输入多源数据整合框架(用于生成SQL代码),来生成对应的SQL代码,从而可以使得后续若是面对同样的分类需要,就可以直接利用生成的SQL代码来进行分类,而若是要满足不同的需要,则只需要对应的调整分类配置参数就能适应不同的需要。

而当原始数据是存储在ODS中时,利用SQL代码从ODS中获取原始的数据并进行分类;

将获取的原始的数据按照对象进行分类;其中对象包括:时间,地点,事件,人物,关系;按照对象进行分类可以更好的展示各种维度的事件,以此可以更好地满足需要,后续将分类后的数据存储在DW(Data Warehouse,数据仓库)中,并对DW中原有的数据与获取的分类后的数据进行整合。

具体的分类过程如图2所示,利用SQL代码获取原始的数据,并将获取的原始的数据基于时间,地点,事件,人物,关系进行分类,例如基于时间划分可以将其中涉及到时间的数据,按照时间的先后顺序进行排列,并设定时间区间,以便对时间进行分类,例如时间存在2012.03.06,2015.05.04,2013.03.05,2014.06.03,2013.02.04,可以设定时间区间为1年,因此可以将这几个时间进行划分,具体的,分为区间1(2012.03.06),区间2(2013.02.04,2013.03.05),区间3(2013.03.05),区间4(2015.05.04);而其他的例如地点,可以分为国家,省份,市,县等进行划分,或者按照经纬度进行划分,而事件,则可以基于需要分为交易,转账,犯罪,旅行等等进行划分,人物则可以基于与人有关的身份证,姓名,手机号,邮箱等进行划分,具体的,例如 存在3个人,分别为A、B、C,则可以设置分类A中包括身份证,姓名,手机号,邮箱,至于B、C与此类似,在此不再进行赘叙,而关系则可以包括:人际关系,例如好友,同学,老乡等等,还可以是同车司机,结伙作案等等,而原始的数据之间的联系还是存在的,只是将数据进行了分类,例如原始的数据为用户1在时间1与用户2进行了交易,用户1卖给用户2货物1,其中分类后,时间为时间1,人物为用户1和用户2,关系是交易,具体的用户1卖给用户2货物1,在分类后,数据被分为了3部分,不过在分类后都可以从任一部分找到其他的部分。

步骤103、当接收到待处理业务时,根据待处理业务的需要从分类后的当接收到待处理业务时,根据待处理业务的需要从分类后的数据中提取需要的数据。

其中,具体的提取数据的操作,具体包括:

当接收到待处理业务后,基于预设的规则分析待处理业务的需要以确定处理待处理业务所需要的数据;基于确定的数据从分类后的数据中提取的数据,存储在数据集市DM(Data Malt,数据集市)中。

具体的,例如需要对商家A在淘宝上2014年的业绩进行评估来给出评分,首先可以基于预设的规则分析该业务的需要的数据,例如需要商家A中所卖的各种商品,各商品的价格,商家A在2014年的各种商品的销售额,每卖出去的商品是否有评价,有评价的比例,评价中的好中差的评分的数量和比例,评分中有图片的数量和比例,为此,就可以从分类后的数据中获取相应的数据,例如人物的数据就包括各买家的账号,手机号以及其他,关系为与商家A的交易,具体的交易数据,买家对商家A卖出去的商品的评价,时间则为2014年1月1日到2014年12月1日,以此获取前述数据来共同对商家A在淘宝上2014年的业绩进行评估。

为了对本申请进行进一步的说明,本申请还公开了一种数据处理设备,如图3所示,包括:

获取模块301,用于获取原始的数据,

分类模块302,用于将获取的原始的数据进行分类;

提取模块303,用于当接收到待处理业务时,根据所述待处理业务的需要从分类后的数据中提取需要的数据。

可选的,所述原始的数据包括:新增的数据,更新的数据,特定领域的数据;

所述获取模块301,具体用于:

定时从预设的多个数据库中获取新增的数据;

定时从预设的多个数据库中获取更新的数据;

定时基于关键词获取预定领域的数据。

可选的,该数据处理设备还包括:

整合模块,用于将获取的原始的数据存储在操作数据源ODS中,并对所述ODS中原有的数据与获取的原始的数据进行整合。

可选的,所述分类模块302,具体用于:

根据预设的分类规则和分类需要设置分类配置参数;

整合所有的分类配置参数生成分类整合模板数据;

基于所述分类整合模板数据和多源数据整合框架生成SQL代码;

通过所述SQL代码从所述ODS中获取原始的数据,以及将获取的原始的数据按照对象进行分类;

将分类后的数据存储在数据仓库DW中,并对所述DW中原有的数据与获取的分类后的数据进行整合;

其中所述对象包括:时间,地点,事件,人物,关系。

可选的,提取模块303,具体用于:

当接收到待处理业务后,基于预设的规则分析所述待处理业务的需要以确定处理所述待处理业务所需要的数据;

基于确定的数据从分类后的数据中提取的数据,存储在数据集市DM中。

与现有技术相比,本申请中通过将获取的原始的数据进行分类;以便当接收到待处理业务时,根据待处理业务的需要从分类后的数据中提取需要的数据,实现了数据处理的自动化,无需进行人工处理,使得计算结果是可以通用复用的,提高了效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1