一种实现数据处理的方法及装置的制造方法

文档序号:9547247阅读:186来源:国知局
一种实现数据处理的方法及装置的制造方法
【技术领域】
[0001]本申请涉及大数据领域,尤指一种实现数据处理的方法及装置。
【背景技术】
[0002]当前针对电信数据进行数据存储时,将各个互联网数据中心(IDC)机房的原始数据转换为数据库数据信息,将数据库数据信息写入到数据集群中进行存储,图1为现有的数据处理系统的结构框图,如图1所示,为了避免数据库数据信息直接写入数据集群造成数据积压,需要将原始数据汇聚到省汇聚服务器后,通过省汇聚服务器将汇聚的原始数据转换为数据库数据信息传输到数据集群中,数据处理工作效率低;目前,提高数据处理工作效率主要通过增加硬件设备提升数据处理能力来实现,成本较大。另外,数据集群对数据库数据信息按照磁盘阵列(RAID)方式进行数据备份,存在数据冗余(只能利用百分之70左右),浪费了大量的数据集群的存储资源。

【发明内容】

[0003]为了解决上述问题,本发明提供一种实现数据处理的方法及装置,能够提高数据处理的工作效率和降低数据冗余。
[0004]为了达到本发明的目的,本申请提供一种实现数据处理的方法,包括:
[0005]分别上传各个互联网数据中心IDC机房的原始数据文件到数据集群;
[0006]将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
[0007]将各IDC机房的转换数据文件分别写入数据集群。
[0008]进一步地,上传原始数据文件具体包括:以预设时长为周期,分别上传各个互联网数据中心IDC机房的原始数据文件到所述数据集群的缓存;
[0009]所述预设时长根据分析需求的最小数据量级进行确定。
[0010]进一步地,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
[0011]进一步地,将各IDC机房的转换数据文件分别写入数据集群具体包括:通过预先为各IDC机房分别建立的一个或一组应用程序编程接口 API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
[0012]进一步地,该方法还包括:
[0013]将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
[0014]另一方面,本申请还提供一种实现数据处理的装置,包括:上传单元、格式转换单元和写入单元;其中,
[0015]上传单元,用于分别上传各个IDC机房的原始数据文件到数据集群;
[0016]格式转换单元,用于将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
[0017]写入单元,用于将各IDC机房的转换数据文件分别写入数据集群。
[0018]进一步地,上传单元具体用于,
[0019]以预设时长为周期,分别上传各个IDC机房的原始数据文件至所述数据集群的缓存;
[0020]所述预设时长根据分析需求的最小数据量级进行确定。
[0021]进一步地,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议IP、和/或上网时间及时长。
[0022]进一步地,写入单元具体用于,通过预先为各IDC机房分别建立的一个或一组应用程序编程接口 API函数作为文件写入函数,将各IDC机房的所述转换数据文件分别写入所述数据集群。
[0023]进一步地,该装置还包括分区备份单元,用于将所述数据集群区分为两个或两个以上分区区域后,将所述转换数据文件在各个分区区域分别进行备份。
[0024]与现有技术相比,本发明提供的技术方案,包括:分别上传各个IDC机房的原始数据文件到数据集群;将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;将各IDC机房的转换数据文件分别写入数据集群。本发明通过直接将原始数据文件上传到数据集群,按照分析数据进行格式转换后再进行写入,避免了以数据库数据信息进行数据存储过程中原始数据汇聚和转换为数据库数据信息的并发压力,提高了数据处理的工作效率。
【附图说明】
[0025]附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0026]图1为现有的数据处理系统的结构框图;
[0027]图2为本发明实现数据处理的方法的流程图;
[0028]图3为本发明实现数据处理的装置的结构框图;
[0029]图4为本发明实施例实现数据处理的系统的结构框图。
【具体实施方式】
[0030]为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0031]图2为本发明实现数据处理的方法的流程图,如图2所示,包括:
[0032]步骤200、分别上传各个互联网数据中心(IDC)机房的原始数据文件到数据集群;
[0033]本步骤中,上传原始数据文件具体包括:以预设时长为周期,分别上传各个IDC机房的原始数据文件到数据集群的缓存;
[0034]预设时长根据分析需求的最小数据量级进行确定。
[0035]步骤201、将上传至数据集群的各个IDC机房的原始数据文件按照分析需分别求进行格式转换获得各IDC机房相应的转换数据文件;
[0036]优选的,分析需求包括:分析所需的协议、和/或访问网址、和/或访问端口、和/或外网网络之间互连的协议(IP)、和/或上网时间及时长。
[0037]需要说明的是,这里的协议可以是ICMP协议、TCP/IP、UDP协议等其中的一种或几种。
[0038]步骤202、将各IDC机房的转换数据文件分别写入数据集群。具体包括:
[0039]通过预先为各IDC机房分别建立的一个或一组应用程序编程接口(API)函数作为文件写入函数,将各IDC机房的转换数据文件分别写入数据集群。
[0040]需要说明的是,对格式转换完成的转换数据文件可以按照一定的数据块大小进行分割后存储,数据块大小和分割方法为本领域技术人员的惯用技术手段,在此不再赘述。
[0041]本发明方法还包括:
[0042]将数据集群区分为两个或两个以上分区区域后,将转换数据文件在各个分区区域分别进行备份。
[0043]需要说明的是,采用分区区域进行转换数据文件的备份可以实现对数据集群存储资源的高效利用,一般的可以达到100%的利用,因此,通过备份在保证信息安全的前提下0,提高了存储资源的利用率。
[0044]本发明通过直接将原始数据文件上传到数据集群,按照分析数据进行格式转换后再进行写入,避免了以数据库数据信息进行数据
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1