数据整合方法及装置的制造方法_3

文档序号:9432645阅读:来源:国知局
文字、字符 等)并不同,因此到运里其实已经探测出了可能出错的数据元,在接下来的流水线步骤中 会尝试修改数据元W达到一定的数据质量。但在真实的用户场景中用户可根据其业务的需 求来决定需要用特殊算法还是业务专家来决定,在运种情况下步骤S150会是一个专业应 用程序的集成。
[0060] 在生成数据关系图之后,进行全局决策、即步骤S150。即对最后生成的数据关系 图做图的挖掘和分析并最后生成一个整体的修改决策。运一步骤将整体决策化olistic decision)问题转化为了一个关系图的挖掘和分析问题,从而得到一个最优的解。运个步骤 只是做决策,真正的数据修改操作会在下面将说明的步骤S152中执行。
[0061] 在一种可能的实现方式中,图1中示出的步骤S150可W包括:步骤S151、根据所 述数据关系图中所述各顶点的匹配项和所述全局决策,确定对应的待修改数据元;W及步 骤S152、将所确定的待修改数据元的匹配项修改为正确项。其中,步骤S151中所使用的全 局决策可W为用户自定义的全局算法化olisticAlgorithm),例如可W是少数服从多数决 策(MajorityVoting)或者最少修改决策(Minimality化anges),在少数服从多数的修改 处理决策的情况下,所述正确项为在所述各顶点的所有匹配项中占多数的匹配项;在最少 修改的修改处理决策的情况下,所述正确项为修改量较多的匹配项。
[0062] 具体地,从图3中我们需要对图顶点做一个赋值决策,来使得所有的图顶点值一 样。运里,运个决策是一个二选一的选择、即城口县或者丰都县。一个简单的算法是采取少 数同意多数的准则(MajorityVoting),由于有3个数据元的匹配项为"城口县",只有1个 数据元的匹配项为"丰都县",因此可W将"城口县"作为正确项,将各顶点中匹配项与正确 项不同的顶点也就是编号为3的数据元的匹配项修改为正确项。目P,将表3-2中的子表2 中编号为3的数据元的区县值"丰都县"修改为"城口县",如表5所示。
[006引表5 :修改后的数据结果 [0064]
阳0化]到运里实际上已经实现了对业务需求设计的数据整合流水线,在整个例子运行中 修改了一个数据元(表1中编号为7的数据元),因此可W再一次对修改后的数据运行一次 流水线、即在步骤S150之后返回执行步骤S110,运样做的目的是为了保证每一次的修改不 会对其它业务规则产生影响。在真实应用场景运行中每一个业务流水线会对数据迭代很多 次,一直到所有的数据都达到了符合业务规则的需求为止。
[0066] 需要说明的是,步骤S152是根据全局决策对元数据做出修改的处理。如果最后没 有需要修改的数据,即代表并无错误,数据通过了所有业务规则,那么数据整合完毕进入下 一个数据分析阶段。如果数据有做修改,那么数据会再次进入整个处理流水线、即返回至步 骤S110直到最后无任何可修改的数据为止(如图2a所示)。运个重复的操作使得数据质 量在多重业务规则的束约下达到最优性和一致性。
[0067] 在一种可能的实现方式中,如图化所示,本发明的数据整合方法还可W包括步骤 S160、根据所述数据关系图中匹配项相同的顶点确定重复数据元,并对所述数据集合进行 去重处理。在去重处理时,可W根据顶点对应的重复数据元的编号选择从数据集合中删除 重复数据元,只留下一个独特的数据元。去重步骤可W作为本发明的数据整合方法的一个 应用,并不必须包括在数据处理流水线内。
[0068] W上对如表1示出的数据集合中重庆市的数据做一业务质量规则处理为例,详细 说明了本发明的数据处理的流水线。本发明所抽象的数据处理流水将各种不同的数据整合 问题用一套统一的流水线设计来解决,并通过多次迭代让数据质量达到期望的标准。本发 明将数据整合方法抽象为一个包括5个步骤的通用处理流水线,每个步骤都代表数据整合 的一个问题,并且根据业务规则用户可W针对每一个步骤选择默认算法或者自定义算法, 对于简单的数据处理问题,如业务规则简单或者数据规模小,用户也可W选择跳过一些步 骤。例如,可W不进行数据修改的分析,直接进行去重处理,即省略步骤S150而在步骤S140 之后进行步骤S160,或者在数据量较少的情况下,也可W将步骤S150和步骤S160都省略。
[0069] 现有的数据整合场景基本都是基于相应的业务规则来实现的。不同的业务需求所 解决问题的手法不同,在当前零散的数据应用方案中并没有一个整合的系统或者框架来对 各种业务规则做整体的决策。运种缺乏整体决策的软件构架使得用户不能完全的控制整个 数据整合的质量。
[0070] 而本发明设计了一个全新的数据整合框架,在有很多业务需求的情况下将最后的 数据修改或去重问题(也即整体决策问题)转化为了一个图的数据挖掘问题,首先将数据 处理流水线中所发现的有问题的数据元转换为数据关系图的顶点和边,然后通过对数据关 系图的分析和挖掘得到最理想的处理结果。当然,在数据集合包括多个数据源的情况下,数 据关系图可能来自于多条数据处理流水线。其优点有:
[0071] 1.目前所出现的数据整合应用都可W在本数据整合框架上实现,运样整个框架提 供了一个统一的软件接口,并大大提高了算法实现的重用性;
[0072] 2.统一的数据整合框架使得其算法实现很容易对各个步骤并行化W及向上扩展, 使得基于本整合框架的应用数据规模很容易用大数据计算框架实现(如ApacheSpark)从 而达到应付大数据的能力;
[0073] 3.通过将数据整合的修改决策问题转换为一个图的挖掘分析问题,该框架提供了 整体决策的解决方案。
[0074] 图4示出根据本发明一实施例的数据整合装置的流程图,本发明的数据整合装置 用于将数据整合的过程抽象为数据处理流水线。如图4所示,该数据整合装置主要包括:选 择模块410、配对模块420、图生成模块430和决策模块440。其中,选择模块410用于从数 据集合中选择出需要进行数据整合处理的各待处理数据元;配对模块420与所述选择模块 410连接,用于对所选择出的所述各待处理数据元进行配对处理,W确定所述各待处理数据 元之间的匹配关系;图生成模块430与所述选择模块410和所述配对模块420均连接,用于 将所选择出的所述各待处理数据元作为数据关系图中的各顶点,并根据所述各待处理数据 元之间的匹配关系生成用于连接所述各顶点的边,W得到所述数据关系图;决策模块440 与所述图生成模块430连接,用于根据所述数据关系图和全局决策,从所述各顶点中确定 出待修改数据元。 阳0巧]选择模块410、配对模块420、图生成模块430和决策模块440的具体实现方式和 所能取得的有益效果可W参见图1W及对步骤S110至步骤S150的相关描述。
[0076] 在一种可能的实现方式中,如图5所示,所述选择模块410可W包括:筛选单元 411、分区单元412和选择单元413。其中,筛选单元411用于按照设定的筛选规则从所述 数据集合中筛选出多个初始数据元,所述筛选规则为用户自定义规则,可W为从所述数据 集合中筛选出具有某种相同特征、例如至少一个第一关键字相同的数据元;分区单元412 与所述筛选单元411连接,用于按照设定的分区规则对筛选出的所述多个初始数据元进行 分区,与所述筛选规则类似,所述分区规则也是用户自定义规则,可W为将具有某种相同特 征、例如至少一个第二关键字相同的初始元数据划分到同一个数据区;选择单元413与所 述分区单元412连接,用于从各数据区中,选择出包括多个数据元的数据区,其中,所选择 出的数据区中的数据元为需要进行数据整合处理的各待处理数据元。
[0077] 筛选单元411、分区单元412和选择单元413的具体实现
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1