一种大数据分析系统及方法与流程

文档序号:12177230阅读:来源:国知局

技术特征:

1.一种大数据分析系统,其特征在于,包括:数据检索模块,数据滤出模块,数据聚类模块,和,信息提取模块。

2.根据权利要求1所述大数据分析系统,其特征在于,所述数据检索模块,用于数据检索,将数据集中的数据属性和属性值划分开来,构建双层索引结构。

3.根据权利要求1所述大数据分析系统,其特征在于,所述据检索模块,首先为数据集中数据的属性建立上层索引;

其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。

4.根据权利要求1所述大数据分析系统,其特征在于,所述数据滤出模块,用于数据检索后的数据滤出;所述数据滤出,采取以下均模型的变换形式:假设待变换项目i的评分向量为Ii={r1i,r2i,r3i,…,rmi}经均模型变换,向量Ii转换为均模型表示形式:

Ii′={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…};

其中,t0为均模型第0层的唯一元素,(t10,t11)为第1层的两个元素,(t20,t21,t22,t23)为第2层的四个元素;以此类推,将项目评分向量转换为指定层数的均模型。

5.根据权利要求1所述大数据分析系统,其特征在于,所述数据聚类模块,用于数据滤出后的数据聚类分析;

所述数据聚类分析,采用预测强度的分析方法;所述预测强度方法如下:

(1)将待聚类原始数据随机分成训练集和测试集;

(2)取聚类数为k,对上述两个子集进行聚类,聚类结果记为I型聚类;

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类;

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例;

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

6.一种大数据分析方法,其特征在于,包括:数据检索的步骤,数据滤出的步骤,数据聚类的步骤,和,信息提取的步骤。

7.根据权利要求6所述大数据分析方法,其特征在于,所述数据检索的步骤,用于数据检索,将数据集中的数据属性和属性值划分开来,构建双层索引结构。

8.根据权利要求6所述大数据分析方法,其特征在于,所述据检索的步骤,首先为数据集中数据的属性建立上层索引;

其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。

9.根据权利要求6所述大数据分析方法,其特征在于,所述数据滤出的步骤,用于数据检索后的数据滤出;所述数据滤出,采取以下均模型的变换形式:假设待变换项目i的评分向量为Ii={r1i,r2i,r3i,…,rmi}经均模型变换,向量Ii转换为均模型表示形式:

I′i={t0,(t10,t11),(t20,t21,t22,t23),(t30,t31,…),…};

其中,t0为均模型第0层的唯一元素,(t10,t11)为第1层的两个元素,(t20,t21,t22,t23)为第2层的四个元素;以此类推,将项目评分向量转换为指定层数的均模型。

10.根据权利要求6所述大数据分析方法,其特征在于,所述数据聚类的步骤,用于数据滤出后的数据聚类分析;

所述数据聚类分析,采用预测强度的分析方法;所述预测强度方法如下:

(1)将待聚类原始数据随机分成训练集和测试集;

(2)取聚类数为k,对上述两个子集进行聚类,聚类结果记为I型聚类;

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类;

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例;

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1