一种基于数据归约模型的数据清洗方法

文档序号:8430844阅读:380来源:国知局
一种基于数据归约模型的数据清洗方法
【专利说明】一种基于数据归约模型的数据清洗方法
[0001]
技术领域
[0002]本发明涉及数据处理技术,具体的说就是一种基于数据归约模型的数据清洗方法。
【背景技术】
[0003]随着互联网时代的发展,现在已经进入了大数据时代,用户在互联网时代所产生的数据越来越多,各个大数据公司对数据的应用也已经越来越多,但是在数据的实际应用中还存在着大量的问题。目前来说,互联网上所产生的数据存在着大量的不完整性、含噪性、不一致性的特征,这样就无法更好的利用互联网数据进行相关的分析工作。
[0004]数据挖掘是指从存放在数据库、数据仓库或其他信息库的大量数据中挖掘有效知识的过程。数据挖掘从大量数据中提取出隐含的、有价值的和可理解的信息,以指导人们的活动。数据挖掘技术主要有关联规则,分类规则,聚类分析和序列模式等等。
[0005]数据清洗是指把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是不想要的,所以需要把这些无用的数据清洗掉。

【发明内容】

[0006]针对现有技术存在的不足之处,本发明提出了一种基于数据归约模型的数据清洗方法。
[0007]本发明所述一种基于数据归约模型的数据清洗方法,解决上述技术问题采用的技术方案如下:该数据清洗方法的主要步骤包括:采集数据、建立数据归约模块以及清洗数据,利用所述数据归约模块对采集的海量数据进行分类、清洗,以取得更少的数据得到更高的清洗处理精度,已达到合理有效利用数据的目的。
[0008]优选的,所述采集数据,通过互联网利用垂直搜索引擎技术,从网络采集结构化及非结构化的网络电商数据;搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
[0009]优选的,利用垂直搜索引擎技术搭建互联网数据采集程序,通过该互联网数据采集程序根据设定的商品分类采集互联网上的数据,数据采集完毕后统一存储在原始数据仓库中。
[0010]优选的,所述建立数据归约模块:通过编写程序,利用数据立方体聚集,数据压缩,数值归约,离散化技术,根据不同的数据集合建立不同的数据归约模型,利用数据归约模块对数据进行处理。
[0011]优选的,利用上述编写的程序对互联网采集完毕的数据进行清洗。
[0012]优选的,将清洗完毕的数据进行技术分析。
[0013]本发明的一种基于数据归约模型的数据清洗方法与现有技术相比具有的有益效果是:本发明运用数据归约模型,对互联网海量数据进行分类、清洗,解决数据的不完整性、含噪性、不一致性等问题,取得更少的数据,提高了数据清洗效率,得到更高的清洗处理精度,以达到有效利用数据的目的。
【附图说明】
[0014]附图1为所述基于数据归约模型的数据清洗方法的结构示意图。
【具体实施方式】
[0015]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参考附图,对本发明所述一种基于数据归约模型的数据清洗方法进一步详细说明。
[0016]本发明所述一种基于数据归约模型的数据清洗方法,运用数据归约模型,对海量数据进行分类、清洗以达到有效利用数据;其主要步骤包括:采集数据、建立数据归约模块以及清洗数据,利用所述数据归约模块对采集数据进行清洗,以取得更少的数据,提高清洗效率,得到更高的清洗处理精度。
[0017]实施例:
本实施例所述一种基于数据归约模型的数据清洗方法,进行采集数据,通过互联网利用垂直搜索引擎技术,从网络采集结构化及非结构化的网络电商数据;搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
[0018]所述建立数据归约模块的步骤:通过编写程序,利用数据立方体聚集,数据压缩,数值归约,离散化等技术,根据不同的数据集合建立不同的数据归约模型,利用数据归约模块对数据进行处理。
[0019]所述清洗数据的具体步骤,如附图1所示:
第一步,利用垂直搜索引擎技术搭建互联网数据采集程序,该互联网数据采集程序能根据设定的商品分类采集互联网上的数据,数据采集完毕后统一存储在原始数据仓库中;该原始数据仓库为整个系统的根本;
第二步,编写程序,利用数据立方体聚集,数据压缩,数值归约,离散化等技术,根据不同的数据集合建立不同的数据归约模型,利用数据归约模型对数据进行处理;
第三步,利用第二步中编写的程序对互联网采集完毕的数据进行清洗,以降低数据的不一致性、含噪性、不一致性等特性;
第四步,将清洗完毕的数据进行科学的技术分析。
[0020]上述【具体实施方式】仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述【具体实施方式】,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
【主权项】
1.一种基于数据归约模型的数据清洗方法,其特征在于,其主要步骤包括:采集数据、建立数据归约模块以及清洗数据,利用所述数据归约模块对采集的海量数据进行分类、清洗。
2.根据权利要求1所述一种基于数据归约模型的数据清洗方法,其特征在于,所述采集数据,通过互联网利用垂直搜索引擎技术,从网络采集结构化及非结构化的网络电商数据;搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
3.根据权利要求2所述一种基于数据归约模型的数据清洗方法,其特征在于,利用垂直搜索引擎技术搭建互联网数据采集程序,通过互联网数据采集程序根据设定的商品分类采集互联网上的数据,数据采集完毕后统一存储在原始数据仓库中。
4.根据权利要求1至3任一所述一种基于数据归约模型的数据清洗方法,其特征在于,所述建立数据归约模块:通过编写程序,利用数据立方体聚集,数据压缩,数值归约,离散化技术,根据不同的数据集合建立不同的数据归约模型,利用数据归约模块对数据进行处理。
5.根据权利要求4所述一种基于数据归约模型的数据清洗方法,其特征在于,利用上述编写的程序对互联网采集完毕的数据进行清洗。
6.根据权利要求5所述一种基于数据归约模型的数据清洗方法,其特征在于,将清洗完毕的数据进行技术分析。
【专利摘要】本发明公开一种基于数据归约模型的数据清洗方法,涉及数据处理技术,其主要步骤包括:采集数据、建立数据归约模块以及清洗数据,利用所述数据归约模块对采集的海量数据进行分类、清洗;运用数据归约模型,对互联网海量数据进行分类、清洗,解决数据的不完整性、含噪性、不一致性等问题,取得更少的数据得到更高的清洗处理精度,提高了数据清洗效率,达到有效利用数据的目的。
【IPC分类】G06F17-30
【公开号】CN104750813
【申请号】CN201510143215
【发明人】赵虎, 徐宏伟, 王传超
【申请人】浪潮集团有限公司
【公开日】2015年7月1日
【申请日】2015年3月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1