数据整合方法及装置的制造方法

文档序号:9432645阅读:329来源:国知局
数据整合方法及装置的制造方法
【技术领域】
[0001] 本发明设及大数据处理领域,尤其设及一种数据整合方法及装置。
【背景技术】 W02] 企业的数据分析主要包括数据收集值ataCollection)、数据整合值ata 化ration)和数据分析值ataAnal^ics)运S个阶段。其中,数据收集即企业将各种业 务所产生的数据做收集、建模和存储;数据整合即企业对其收集到的各种数据源做筛选、清 洗、去重和多数据源集成,最后根据业务数据分析需求将结果表现为一个新的数据源用于 下游分析,运里,新的数据可W来自于一个数据源(如单一数据表),也可W来自于多个数 据源(如多个不同的数据表);数据分析即企业对其整合出的新的数据做相应的业务分析 报表W及预测评估。由此可见,数据整合为数据分析的关键阶段,整合质量对于后续的数据 分析非常重要。
[0003] 然而,在当前的软件应用中对于数据整合缺乏通用、统一的系统和标准,其采 用不同的软件来实现数据整合的各个步骤,例如采用IBMDataStage做E化、采用SAS 化ta如ality做数据清洗、采用Symantec做去重处理。每一种软件无论来自同一公司还是 不同公司,其实现都有自己独特的数据结构、算法设计和使用接口。对使用者来说每做一种 数据处理都需要学习新的应用软件和使用新的应用环境。运不仅增加了用户和企业的负 担,降低了数据处理的效率,同时也无法满足大数据规模的需求。换言之,当前的数据整合 方案使得在用户使用方面和大数据扩展性能方面都会有很大的瓶颈。

【发明内容】

[0004] 巧术间颗
[0005] 有鉴于此,本发明要解决的技术问题是,如何提高数据整合的效率和质量。
[0006] 解决方案
[0007] 为了解决上述技术问题,根据本发明的一个方面,提供了一种数据整合方法,用于 将数据整合的过程抽象为数据处理流水线,该数据处理流水线可W通过所述数据整合方法 所包括的W下步骤实现:从数据集合中选择出需要进行数据整合处理的各待处理数据元; 对所选择出的所述各待处理数据元进行配对处理,W确定所述各待处理数据元之间的匹配 关系;将所选择出的所述各待处理数据元作为数据关系图中的各顶点;根据所述各待处理 数据元之间的匹配关系生成用于连接所述各顶点的边,W得到所述数据关系图;W及根据 所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
[0008] 对于上述数据整合方法,在一种可能的实现方式中,从数据集合中选择出需要进 行数据整合处理的各待处理数据元,包括:按照设定的筛选规则从所述数据集合中筛选出 多个初始数据元;按照设定的分区规则对筛选出的所述多个初始数据元进行分区;从各数 据区中,选择出包括多个初始数据元的数据区,其中,所选择出的数据区中的初始数据元为 需要进行数据整合处理的所述各待处理数据元。
[0009] 对于上述数据整合方法,在一种可能的实现方式中,将所选择出的所述各待处理 数据元作为数据关系图中的各顶点,包括:根据所选择出的所述各待处理数据元的匹配项, 生成所述数据关系图中的所述各顶点;根据所述各待处理数据元之间的匹配关系生成用于 连接所述各顶点的边,包括:根据所选择出的所述各待处理数据元中每两个数据元之间的 匹配关系,生成用于连接所述各顶点的边。
[0010] 对于上述数据整合方法,在一种可能的实现方式中,根据所述数据关系图和全局 决策,从所述各顶点中确定出待修改数据元包括:根据所述数据关系图中所述各顶点的匹 配项和所述全局决策,确定对应的待修改数据元,并将所确定的待修改数据元的匹配项修 改为正确项。
[0011] 对于上述数据整合方法,在一种可能的实现方式中,在生成所述数据关系图之后 还包括:根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进 行去重处理。
[0012] 为了解决上述技术问题,根据本发明的又一方面,提供了一种数据整合装置,用于 将数据整合的过程抽象为数据处理流水线,所述装置包括:选择模块,用于从数据集合中选 择出需要进行数据整合处理的各待处理数据元;配对模块,与所述选择模块连接,用于对 所选择出的所述各待处理数据元进行配对处理,W确定所述各待处理数据元之间的匹配关 系;图生成模块,与所述选择模块和所述配对模块均连接,用于将所选择出的所述各待处理 数据元作为数据关系图中的各顶点,并根据所述各待处理数据元之间的匹配关系生成用于 连接所述各顶点的边,W得到所述数据关系图;W及决策模块,与所述图生成模块连接,用 于根据所述数据关系图和全局决策,从所述各顶点中确定出待修改数据元。
[0013] 对于上述数据整合装置,在一种可能的实现方式中,所述选择模块包括:筛选单 元,用于按照设定的筛选规则从所述数据集合中筛选出多个初始数据元;分区单元,与所述 筛选单元连接,用于按照设定的分区规则对筛选出的所述多个初始数据元进行分区;选择 单元,与所述分区单元连接,用于从各数据区中,选择出包括多个初始数据元的数据区,其 中,所选择出的数据区中的初始数据元为需要进行数据整合处理的所述各待处理数据元。
[0014] 对于上述数据整合装置,在一种可能的实现方式中,所述图生成模块包括:顶点生 成单元,用于根据所选择出的所述各待处理数据元的匹配项,生成所述数据关系图中的所 述各顶点;边生成单元,与所述顶点生成单元连接,用于根据所选择出的所述各待处理数据 元中每两个数据元之间的匹配关系,生成用于连接所述各顶点的边。
[0015] 对于上述数据整合装置,在一种可能的实现方式中,所述决策模块具体配置为,根 据所述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元,所 述数据整合装置还包括:修改模块,与所述决策模块连接,用于将所确定的待修改数据元的 匹配项修改为正确项。
[0016] 对于上述数据整合装置,在一种可能的实现方式中,还包括:去重模块,与所述图 生成模块连接,用于根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述 数据集合进行去重处理。
[0017] 有益效果
[0018] 通过将数据集合中的数据元W数据关系图的形式表示出来,并对所生成的数据关 系图来进行数据挖掘分析,能够统一在多重数据规则的情况下数据修改决策的效率和质 量。
[0019] 并且,在本发明提出的数据整合框架上,可W实现各种数据整合应用,运样整个框 架可W提供统一的软件接口,大大提高了算法实现的重用性。
[0020] 另外,由于统一的框架使得算法很容易对各步骤并行化并向上扩展,使得基于本 整合框架的应用数据规模很容易用大数据计算框架实现(如ApacheSpark)从而达到应付 大数据的能力。
[0021] 根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得 清楚。
【附图说明】
[0022] 包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的 示例性实施例、特征和方面,并且用于解释本发明的原理。
[0023] 图1示出根据本发明一实施例的数据整合方法的流程图;
[0024] 图2a示出根据本发明另一实施例的数据整合方法的流程图;
[0025] 图化示出根据本发明一实施例的数据整合方法的应用的流程图;
[0026] 图3示例性示出了根据本发明一实施例的数据整合方法所生成的数据关系图;
[0027] 图4示出根据本发明一实施例的数据整合装置的框图;
[002引图5示出根据本发明另一实施例的数据整合装置的框图;
[0029] 图6示出根据本发明又一实施例的数据整
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1