基于大数据的列数据处理方法、设备及介质与流程

文档序号：19418600发布日期：2019-12-14 01:11阅读：来源：国知局

技术特征：

1.一种基于大数据的列数据处理方法，其特征在于，包括：

获取待处理的列数据集合，并根据所述列数据集合中各列数据的数据属性对各所述列数据进行分类处理，得到至少两个初始列数据集合；

对各所述初始列数据集合进行无监督聚类处理，得到与各所述初始列数据集合分别对应的至少两个无监督聚类簇；

根据至少两个所述无监督聚类簇生成多个列数据对，并确定各所述列数据对中的两个列数据间的列名相似度以及列备注相似度；

根据所述列名相似度以及所述列备注相似度，确定与各所述列数据对匹配的相似度。

2.根据权利要求1所述的方法，其特征在于，根据所述列数据集合中各列数据的数据属性对各所述列数据进行分类处理，包括：

获取所述列数据集合中各列数据的元信息，所述元信息中包括列数据的列类型；

根据各所述列数据的数据类型，对各所述列数据进行分类处理。

3.根据权利要求2所述的方法，其特征在于，所述列类型包括下述至少一项：字符型、数值型以及时间型。

4.根据权利要求1所述的方法，其特征在于，生成与所述无监督聚类簇对应的多个列数据对，包括：

将至少两个所述无监督聚类簇进行两两组合，得到所述多个列数据对。

5.根据权利要求1所述的方法，其特征在于，确定所述列数据对中的两个列数据间的列名相似度，包括：

获取与所述列数据对中的两个列数据对应的第一列名以及第二列名；

计算所述第一列名与所述第二列名间的列名编辑距离；

计算第一列名词向量表与第二列名词向量表间的列名语义距离；

根据所述列名编辑距离以及所述列名语义距离，确定所述列数据对中的两个列数据间的列名相似度。

6.根据权利要求1所述的方法，其特征在于，确定所述列数据对中的两个列数据间的列备注相似度，包括：

获取与所述列数据对中的两个列数据对应的第一列备注以及第二列备注；

计算所述第一列备注与所述第二列备注间的列备注编辑距离；

计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；

根据所述列备注编辑距离以及所述列备注语义距离，确定所述列数据对中的两个列数据间的列备注相似度。

7.根据权利6所述的方法，其特征在于，在获取与所述列数据对中的两个列数据对应的第一列备注以及第二列备注之后，还包括：

在确定所述第一列备注或者所述第二列备注为空时，确定所述列数据对中的两个列数据间的列备注相似度为0。

8.一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

获取待处理的列数据集合，并根据所述列数据集合中各列数据的数据属性对各所述列数据进行分类处理，得到至少两个初始列数据集合；

对各所述初始列数据集合进行无监督聚类处理，得到与各所述初始列数据集合分别对应的至少两个无监督聚类簇；

根据至少两个所述无监督聚类簇生成多个列数据对，并确定各所述列数据对中的两个列数据间的列名相似度以及列备注相似度；

根据所述列名相似度以及所述列备注相似度，确定与各所述列数据对匹配的相似度。

9.根据权利要求8所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式对各所述列数据进行分类处理：

获取所述列数据集合中各列数据的元信息，所述元信息中包括列数据的列类型；

根据各所述列数据的数据类型，对各所述列数据进行分类处理。

10.根据权利要求9所述的计算机设备，其特征在于，所述列类型包括下述至少一项：字符型、数值型以及时间型。

11.根据权利要求8所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式生成与所述无监督聚类簇对应的多个列数据对：

将至少两个所述无监督聚类簇进行两两组合，得到所述多个列数据对。

12.根据权利要求8所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式确定所述列数据对中的两个列数据间的列名相似度：

获取与所述列数据对中的两个列数据对应的第一列名以及第二列名；

计算所述第一列名与所述第二列名间的列名编辑距离；

计算第一列名词向量表与第二列名词向量表间的列名语义距离；

根据所述列名编辑距离以及所述列名语义距离，确定所述列数据对中的两个列数据间的列名相似度。

13.根据权利要求8所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式确定所述列数据对中的两个列数据间的列备注相似度：

获取与所述列数据对中的两个列数据对应的第一列备注以及第二列备注；

计算所述第一列备注与所述第二列备注间的列备注编辑距离；

计算第一列备注词向量表与第二列备注词向量表间的列备注语义距离；

根据所述列备注编辑距离以及所述列备注语义距离，确定所述列数据对中的两个列数据间的列备注相似度。

14.根据权利要求13所述的计算机设备，其特征在于，所述处理器在确定所述第一列备注或者所述第二列备注为空时，确定所述列数据对中的两个列数据间的列备注相似度为0。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于大数据的列数据处理方法。

技术总结
本发明实施例公开了一种基于大数据的列数据处理方法、设备及介质。其中，方法包括：获取待处理的列数据集合，并根据列数据集合中各列数据的数据属性对各列数据进行分类处理，得到至少两个初始列数据集合；对各初始列数据集合进行无监督聚类处理，得到与各初始列数据集合分别对应的至少两个无监督聚类簇；生成与各无监督聚类簇分别对应的多个列数据对，并确定各列数据对中的两个列数据间的列名相似度以及列备注相似度；根据列名相似度以及列备注相似度，确定与各列数据对匹配的相似度。本发明实施例的方案可以得到列数据对准确率较高的相似度结果并且可以减少计算量。

技术研发人员：李光跃
受保护的技术使用者：星环信息科技(上海)有限公司
技术研发日：2019.09.11
技术公布日：2019.12.13

完整全部详细技术资料下载

当前第2页1 2