一种大数据分析系统及方法与流程

文档序号：12177230阅读：来源：国知局

技术特征：

1.一种大数据分析系统，其特征在于，包括：数据检索模块，数据滤出模块，数据聚类模块，和，信息提取模块。

2.根据权利要求1所述大数据分析系统，其特征在于，所述数据检索模块，用于数据检索，将数据集中的数据属性和属性值划分开来，构建双层索引结构。

3.根据权利要求1所述大数据分析系统，其特征在于，所述据检索模块，首先为数据集中数据的属性建立上层索引；

其次对上层属性所对应的数据值建立索引，如果是数值型数据就构建B+树索引结构，如果是字符型数据就构建倒排索引。

4.根据权利要求1所述大数据分析系统，其特征在于，所述数据滤出模块，用于数据检索后的数据滤出；所述数据滤出，采取以下均模型的变换形式：假设待变换项目i的评分向量为I_i＝{r_1i，r_2i，r_3i，…，r_mi}经均模型变换，向量Ii转换为均模型表示形式：

I_i′＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}；

其中，t₀为均模型第0层的唯一元素，(t₁₀,t₁₁)为第1层的两个元素，(t₂₀,t₂₁,t₂₂,t₂₃)为第2层的四个元素；以此类推，将项目评分向量转换为指定层数的均模型。

5.根据权利要求1所述大数据分析系统，其特征在于，所述数据聚类模块，用于数据滤出后的数据聚类分析；

所述数据聚类分析，采用预测强度的分析方法；所述预测强度方法如下:

(1)将待聚类原始数据随机分成训练集和测试集；

(2)取聚类数为k，对上述两个子集进行聚类,聚类结果记为I型聚类；

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类；

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例；

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

6.一种大数据分析方法，其特征在于，包括：数据检索的步骤，数据滤出的步骤，数据聚类的步骤，和，信息提取的步骤。

7.根据权利要求6所述大数据分析方法，其特征在于，所述数据检索的步骤，用于数据检索，将数据集中的数据属性和属性值划分开来，构建双层索引结构。

8.根据权利要求6所述大数据分析方法，其特征在于，所述据检索的步骤，首先为数据集中数据的属性建立上层索引；

其次对上层属性所对应的数据值建立索引，如果是数值型数据就构建B+树索引结构，如果是字符型数据就构建倒排索引。

9.根据权利要求6所述大数据分析方法，其特征在于，所述数据滤出的步骤，用于数据检索后的数据滤出；所述数据滤出，采取以下均模型的变换形式：假设待变换项目i的评分向量为I_i＝{r_1i，r_2i，r_3i，…，r_mi}经均模型变换，向量Ii转换为均模型表示形式：

I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}；

10.根据权利要求6所述大数据分析方法，其特征在于，所述数据聚类的步骤，用于数据滤出后的数据聚类分析；