一种大数据处理方法

文档序号:9708374阅读:654来源:国知局
一种大数据处理方法
【技术领域】
[0001 ]本发明涉及大数据领域,具体涉及一种大数据处理方法。
【背景技术】
[0002]近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
[0003]大数据处理的目的,是为了让用户能够及时、有效地获取所需的大数据资源。在互联网的云计算、分布式计算等场景下有大量的需求,然而现有技术还缺乏有效的大数据处理方法。

【发明内容】

[0004]本发明的目的在于提供一种大数据处理方法,可以使用户能够及时、有效地获得所需的大数据资源;并能够进行有效的数据分析和处理。
[0005]本发明的目的主要通过以下技术方案实现:
[0006]—种大数据处理方法,其特征在于,包括以下步骤:
[0007]步骤1:接收用户输入的资源请求信息;
[0008]步骤2:根据所述资源请求信息,从云端获得与所述资源请求信息相关的大数据资源;
[0009]步骤3:用户从云端下载所获得的大数据资源;
[0010]步骤4:对下载的所述大数据资源进行分类;
[0011 ]步骤5:对分类后的大数据资源进行存储。
[0012]可选地,所述步骤2包括以下步骤:
[0013]步骤2.1:由计算管理节点从云端获取所述资源请求信息;
[0014]步骤2.2:所述计算管理节点指定多个分布式计算节点根据所述资源请求信息进行分布式计算,使得每个分布式计算节点各自生成一个局部计算结果;
[0015]步骤2.3:所述计算管理节点将每个分布式计算节点的局部计算结果进行整合,获得一个全局计算结果,并将所述全局计算结果发送至云端。
[0016]可选地,所述步骤2.3包括以下步骤:
[0017]步骤2.3.1:所述计算管理节点依据所述多个分布式计算节点的综合评分值K,对每个分布式计算节点的各自的局部计算结果进行排序,并将排序结果合并后去除重复数据和噪声数据,得到全局计算结果;
[0018]其中,对于每个分布式计算节点,设其综合评分值为K,信任度评分值为K1,计算能力评分值为
[0019]其中,A、B都是正整数,K1、K2都大于零;
[0020]步骤2.3.2:所述计算管理节点按照固定的时间间隔,以增量数据的方式将所述全局计算结果发送至云端。
[0021]可选地,所述步骤3包括以下步骤:
[0022]步骤3.1:数据转发服务器将从云端获得的所述全局计算结果分为若干个独立的数据块,并记录每个数据块的容量,同时将所述数据块依次按时间顺序存储到一个数据存储节点集合中,所述数据存储节点集合包括Μ个独立的数据存储节点,即:数据存储节点1、数据存储节点2、……、数据存储节点Ν、……、数据存储节点Μ;
[0023]步骤3.2:所述数据转发服务器将当前数据块存储到数据存储节点Ν后,数据存储节点Ν向数据转发服务器返回其剩余容量信息,当数据存储节点Ν的剩余容量信息小于下一个数据块的容量时,转发服务器开始向数据存储节点Ν+1存储数据块;依次类推,直到全局计算结果全部存储完成后结束;其中,NSM,且Μ、Ν都为正整数;
[0024]步骤3.3:用户从云端的数据转发服务器将下载所述全局计算结果,所述全局计算结果即为所获得的大数据资源。
[0025]可选地,,所述步骤4包括以下步骤:
[0026]步骤4.1:对下载的所述大数据资源的属性进行随机采样,得到多个大类数据集;
[0027]步骤4.2:对每个大类数据集的属性进行随机采样,得到多个小类数据集;
[0028]步骤4.3:对每个大类数据集进行聚类分析,得到多个大类聚类结果及相应的大类标签;
[0029]步骤4.4:对每个小类数据集进行聚类分析,得到多个小类聚类结果及相应的小类标签;
[0030]步骤4.5:输出所述大类聚类结果及大类标签、小类聚类结果及小类标签,完成所述大数据资源的分类。
[0031 ]本发明的有益效果在于:通过对大数据资源的分布式存储与处理计算,提高了大数据处理的计算效率,成本低,数据存储连续性好,安全性高。
【具体实施方式】
[0032]下面结合实施例对本发明作进一步的详细说明,但本发明的实施方式不限于此。
[0033]一种大数据处理方法,其特征在于,包括以下步骤:
[0034]步骤1:接收用户输入的资源请求信息;
[0035]步骤2:根据所述资源请求信息,从云端获得与所述资源请求信息相关的大数据资源;
[0036]步骤3:用户从云端下载所获得的大数据资源;
[0037]步骤4:对下载的所述大数据资源进行分类;
[0038]步骤5:对分类后的大数据资源进行存储。
[0039]可选地,所述步骤2包括以下步骤:
[0040]步骤2.1:由计算管理节点从云端获取所述资源请求信息;
[0041 ]步骤2.2:所述计算管理节点指定多个分布式计算节点根据所述资源请求信息进行分布式计算,使得每个分布式计算节点各自生成一个局部计算结果;
[0042]步骤2.3:所述计算管理节点将每个分布式计算节点的局部计算结果进行整合,获得一个全局计算结果,并将所述全局计算结果发送至云端。
[0043]可选地,所述步骤2.3包括以下步骤:
[0044]步骤2.3.1:所述计算管理节点依据所述多个分布式计算节点的综合评分值K,对每个分布式计算节点的各自的局部计算结果进行排序,并将排序结果合并后去除重复数据和噪声数据,得到全局计算结果;
[0045]其中,对于每个分布式计算节点,设其综合评分值为K,信任度评分值为K
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1