一种基于消除重复记录的数据清洗平台设计方法

文档序号:9217239阅读:210来源:国知局
一种基于消除重复记录的数据清洗平台设计方法
【技术领域】
[0001]本发明涉及数据清洗技术领域,具体地说是实用性强、基于消除重复记录的数据清洗平台设计方法。
【背景技术】
[0002]随着信息技术的快速发展,各个领域都在每时每刻以惊人的速度产生出各式各样的规模巨大的数据信息,人类也在工作生活的方方面面接触到越来越多的数据信息。然而,人类对数据信息理解的匮乏与数据爆炸的趋势显得并不对称,人类在努力将数据信息转化为有利信息知识的同时,也面临着大数据之中夹杂的“脏数据”的挑战,对原始数据源的清洗,将其转化为可被理解利用的目标数据源,成为了人类理解数据过程中尤为重要的一步。
[0003]“脏数据”会对建立的数据仓库系统造成不良影响,扭曲从数据中获得的信息,影响数据仓库的运行效果,进一步影响数据挖掘效能,最终影响决策管理。因此,为了使数据仓库系统中的记录更准确、一致,消除重复数据就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在数据仓库构建过程中占据重要位置。
[0004]数据清洗:如填充缺失数据、消除噪声数据等,主要是通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求或应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。
[0005]基于此,现提供一种可解决上述问题、基于消除重复记录的数据清洗平台设计方法。该方法通过设计独立的运行消除重复数据组件,从而使得清洗平台具有独立的操作语义和元数据描述,包括了数据清洗流程中的所有操作方式,如数据检验、数据转换、数据处理、流程控制等等。从而降低整个数据清洗的成本,提高数据清洗的工作效率,而且能消除简单的重复劳动过程,提高生产率。

【发明内容】

[0006]本发明的技术任务是针对以上不足之处,提供一种实用性强、基于消除重复记录的数据清洗平台设计方法。
[0007]—种基于消除重复记录的数据清洗平台设计方法,其具体实现过程为:
创建消除重复记录组件元数据类,
创建消除重复记录组件元数据界面类;
创建消除重复记录组件元数据控制类;
元数据类内聚元数据界面类、元数据控制类,负责对两个类进行初始化;
配置元数据类的基本信息,该基本信息包括名称、XML标签和类型编号;
将元数据类、元数据界面类和元数据控制类放入一个文件夹中,同时将该文件夹放置在设计器的文件夹中;
修改设计器的配置文件,增加相关组件模型的信息,该信息包括类名、包名、图标文件路径; 从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;
监控端接收数据后,将其分配至一个执行引擎中运行;
执行引擎反馈执行结果。
[0008]所述元数据类实现核心方法,方法的实现思路为:
首先获取输入数据行的字段名和值;
然后生成Object列表,并遍历输入数据的数据项;
将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较:如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中;
遍历完后,最后将列表中的数据作为输出数据。
[0009]所述元数据界面类继承自BaseStepDialog类,实现了 showDialog方法,负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。
[0010]所述元数据控制类,继承自BaseStepMgr类,实现了 BaseStepMgr中的方法,用以控制界面的调用和数据的输出。
[0011]本发明的一种基于消除重复记录的数据清洗平台设计方法,具有以下优点: 该发明的一种基于消除重复记录的数据清洗平台设计方法通过设计重复数据消除组件,使得整个数据清洗平台具有以下特点:开发效率高、运行可靠性高,开发成本低,灵活性高,可复用性高,良好的扩展性等。可以最大化的满足目前的数据清洗需求,同时减少了软件开发的难度,减少了开发人员的重复劳动;实用性强,适用范围广泛,易于推广。
【附图说明】
[0012]附图1为本发明的实现流程图。
【具体实施方式】
[0013]下面结合附图和具体实施例对本发明作进一步说明。
[0014]本发明的提供一种基于消除重复记录的数据清洗平台设计方法,本方法利用MDA技术,通过定义统一、准确、完整的模型,由相应的平台便可自动生成所需要的系统模块和代码,就可以在数据处理过程中将问题域、业务逻辑过程、具体实现相分离,完成数据处理过程,从而极大的降低工作人员的编码时间,使其将更多的精力用在功能需求的设计、数据模型的建立和数据清洗的逻辑流程设计上,这不仅能降低整个数据清洗的成本,提高数据清洗的工作效率,而且能消除简单的重复劳动过程,提高生产率。
[0015]基于消除重复记录的组件是组成设计器的基本业务单元,组件的功能直接反应了数据清洗的功能,而组件的创建也是很容易进行的。如附图1所示,该方法的具体实现过程为:
创建消除重复记录组件元数据类UniqueRowsMeta,该类继承自BaseStepMeta类。该类实现核心方法processRow,方法的实现思路为:首先获取输入数据行的字段名和值;然后生成Object列表,并遍历输入数据的数据项,将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较,如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中;遍历完后,最后将列表中的数据作为输出数据。
[0016]创建消除重复记录组件元数据界面类UniqueRowsDialog,该类继承自BaseStepDialog类。该类实现了核心的showDialog方法,showDialog负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。
[0017]创建消除重复记录组件元数据控制类UniqueRowsMgr,该类继承自BaseStepMgr类。该类主要实现了 BaseStepMgr中的方法,用以控制界面的调用和数据的输出。
[0018]UniqueRowsMeta 内聚了 UniqueRowsDialog类对象UniqueRowsMgr类对象,实现了init方法,负责对两个类进行初始化。
[0019]配置UniqueRowsMeta的基本信息,如名称、XML标签和类型编号等。
[0020]将UniqueRowsMeta 类、UniqueRowsDialog 类和 UniqueRowsMgr 类放入一个文件夹中,同时将该文件夹放置在设计器的plugin文件夹中。
[0021]修改设计器的配置文件,增加相关组件模型的信息,如类名、包名、图标文件路径。
[0022]从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新。
[0023]监控端接收数据后,将其分配至一个执行引擎中运行。
[0024]执行引擎反馈执行结果。
[0025]上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述【具体实施方式】,任何符合本发明的一种基于消除重复记录的数据清洗平台设计方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
【主权项】
1.一种基于消除重复记录的数据清洗平台设计方法,其特征在于其具体实现过程为: 创建消除重复记录组件元数据类, 创建消除重复记录组件元数据界面类; 创建消除重复记录组件元数据控制类; 元数据类内聚元数据界面类、元数据控制类,负责对两个类进行初始化; 配置元数据类的基本信息,该基本信息包括名称、XML标签和类型编号; 将元数据类、元数据界面类和元数据控制类放入一个文件夹中,同时将该文件夹放置在设计器的文件夹中; 修改设计器的配置文件,增加相关组件模型的信息,该信息包括类名、包名、图标文件路径; 从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新; 监控端接收数据后,将其分配至一个执行引擎中运行; 执行引擎反馈执行结果。2.根据权利要求1所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据类实现核心方法,方法的实现思路为: 首先获取输入数据行的字段名和值; 然后生成Object列表,并遍历输入数据的数据项; 将第一个数据项放入列表,再将剩下的数据项与列表中的数据项的值进行比较:如果数据项中字段的值与列表中数据项的值一样,则判断为重复数据,将不存储至列表中,否则就作为不重复的数据存入列表中; 遍历完后,最后将列表中的数据作为输出数据。3.根据权利要求2所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据界面类继承自BaseStepDialog类,实现了 showDialog方法,负责呈现模型组件的界面,是模型组件与用户进行数据交互的接口。4.根据权利要求2所述的一种基于消除重复记录的数据清洗平台设计方法,其特征在于:所述元数据控制类,继承自BaseStepMgr类,实现了 BaseStepMgr中的方法,用以控制界面的调用和数据的输出。
【专利摘要】本发明公开了一种基于消除重复记录的数据清洗平台设计方法,其具体实现过程为:创建消除重复记录组件元数据类、元数据界面类、元数据控制类;元数据类内聚元数据界面类、元数据控制类;配置元数据类的基本信息;将元数据类、元数据界面类和元数据控制类放入一个文件夹中;修改设计器的配置文件,增加相关组件模型的信息;从设计器组件中拖取去除重复记录组件模型,将需要处理的数据作为输入,组件在除去重复记录后,进行数据更新;监控端接收数据后,将其分配至一个执行引擎中运行;执行引擎反馈执行结果。该一种基于消除重复记录的数据清洗平台设计方法与现有技术相比,有效降低整个数据清洗的成本,提高数据清洗的工作效率。
【IPC分类】G06F17/30
【公开号】CN104933098
【申请号】CN201510281346
【发明人】武斌, 徐宏伟, 邹建军
【申请人】浪潮软件集团有限公司
【公开日】2015年9月23日
【申请日】2015年5月28日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1