一种大数据的汇集存储方法与系统与流程

文档序号:11919303阅读:来源:国知局

技术特征:

1.一种大数据的汇集存储方法,其特征在于:包括:

数据采集:实时采集多个数据源的多维原始数据;

数据汇集:汇集与其建立通信通道的数据采集的数据,并把汇集到的数据发送至数据清洗模块;

数据清洗:对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值和异常值;

所述的缺省值的替换包括:在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;

所述的异常值的替换包括:默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值,对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;

数据存储:将数据清洗得到的对象流进行存储;所述的数据存储包括以下子步骤:

S1:接收对象流;

S2:将对象流中的对象进行通过内容比较的方式进行分段,得到多个数据片段,并建立对数据片段到对象的反相引用,或者上传数据片段并将所述指纹值更新至所述指纹值数据库,包括以下子步骤:

S21:获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;

S22:计算比较组对应的指纹值;

S23:按照步骤S22计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;

S24:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:

(1)如果能够对应:

则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回步骤S22,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;

(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:

(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回步骤S21;

(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后返回步骤S21;

S3:当完成整个对象的分段,则结束。

2.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:还包括:数据分析,用于对数据处理得到的数据按照模型进行分析;

所述的数据存储还用于对数据分析得到的数据进行存储。

3.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S21所述的获取比较组之前,还包括一个判断步骤:如果对象的最后一位大于m+X,则进入步骤S21;否则:

S01:直接计算m位~对象最后一位的指纹值;

S02:按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;

S03:调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。

4.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:在步骤S1和步骤S2之间还包括一个对象头/尾判断步骤,用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入步骤S2。

5.根据权利要求1所述的一种大数据的汇集存储方法,其特征在于:所述的比较组限制有最大值Y,步骤S24中当在能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的子步骤。

6.一种大数据的汇集存储系统,其特征在于:包括:

数据采集器:用于实时采集多个数据源的多维数据;

数据汇集器:用于汇集与其建立通信通道的所述的数据采集器的数据,并把汇集到的数据发送至数据清洗模块;

数据清洗模块:用于对数据汇集得到的数据进行数据清洗,所述的数据清洗包括定位并替换数据中的缺省值替换单元和异常值替换单元;

所述的缺省值替换单元用于在每个缺省值附近使用K近邻算法,计算附近K个样本在范围为N的数据集中分别出现的次数,用出现频率最大的数据作为正常值替换掉缺省值;

所述的异常值替换单元包括默认数据服从正态分布,根据拉依达准则法,确定包含原始数据的数据集的数学期望μ和标准方差σ,对于各个数据的偏差大于标准偏差的,认为是异常值;对于异常值,使用K近邻算法,计算附近K个近邻样本在范围为N的数据集中分别出现的次数,用出现频率最大的电池数据作为正常值替换掉异常值;

数据存储模块:将数据清洗模块得到的对象流进行存储;所述的数据存储模块包括:

比较组获取单元:用于获取比较组,所述的比较组为对象的第m位至m+X位;其中,m为比较组的初始位,m的初始值为0,X为固定步长;

比较组指纹值计算单元:用于计算比较组对应的指纹值;

映射关系对应表生成单元:用于对比较组指纹值计算单元计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;

判断与处理单元:用于调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:

(1)如果能够对应:则将缓存中的指纹值进行更新,将比较组更新为m~m+X+p*n位,同时返回比较组获取单元,其中p为m未更新的情况下的能够对应的总次数,n为每次能够对应后增加的增加步长;

(2)如果不能够对应,则进一步判断缓存中是否存在指纹值:

(2-1)如果缓存中存在指纹值,则建立所述指纹值对应的数据片段到所述对象的反向引用,同时清空缓存,将比较组的初始位m更新为m+X+(p-1)*n+1,完成后返回比较组获取单元;(2-2)如果缓存中不存在指纹值,则上传所述对象的前X位的数据片段,并将对应的指纹值更新至所述指纹值数据库,将比较组的初始位m更新为m+X+1,完成后比较组获取单元;

结束判断单元:用于判断是否完成整个对象的分段,如果是则结束。

7.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:还包括:数据分析模块,用于对数据处理得到的数据按照模型进行分析;所述的数据存储模块还用于对数据分析得到的数据进行存储。

8.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的数据存储模块还包括一个长度判断与数据处理单元:如果对象的最后一位大于m+X,则进入比较组获取单元;否则:直接计算m位~对象最后一位的指纹值;按照计算得到的指纹值生成反映所述指纹值与对应的存储位置的映射关系对应表;调用指纹值数据库,判断所述指纹值数据库中是否存在所述指纹值:如果是,则建立所述指纹值对应的数据片段到所述对象的反向引用;如果否,则上传所述指纹值对应的数据片段,并将所述指纹值更新至所述指纹值数据库。

9.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的数据存储模块还包括一个对象头/尾判断单元:用于判断对象头/尾是否与为指纹值数据库中常用的数据头/尾,如果是则快速获取指纹值并建立所述指纹值对应的数据片段到所述对象的反向引用,并去掉常用的数据头/尾后进入比较组获取单元。

10.根据权利要求6所述的一种大数据的汇集存储系统,其特征在于:所述的比较组限制有最大值Y,当能够对应,同时满足X+p*n小于等于Y而X+(p+1)*n大于Y时,则直接进入不能够对应并且缓存中存在指纹值的情况。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1