一种针对智慧能源终端数据的数据预处理方法与流程

文档序号:12271481阅读:294来源:国知局

本发明涉及数据挖掘技术领域,具体涉及一种针对智慧能源终端数据的数据预处理方法,主要针对“互联网+”智慧能源智能终端接入数据的预处理。



背景技术:

现实中数据大多数都是不完整,不一致的,无法直接进行数据挖掘,或直接影响挖掘结果。为了提高数据挖掘质量和数据挖掘效率,产生了数据预处理技术。统计发现,在整个数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右。对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。

现有技术中,从智慧能源智能终端采集的数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据处理算法的执行效率,甚至可能导致数据分析及计算结果的偏差。因此,在数据处理算法执行之前,必须对采集到的传感器数据进行预处理,从而改进数据的质量,提高数据处理过程的效率、精度和性能。



技术实现要素:

本发明的目的在于克服现有技术中的不足,提供了一种针对智慧能源终端数据的数据预处理方法,能对采集到的数据集进行清洗、变换和集成处理,使得数据挖掘效率大大提高,挖掘结果更加准确有效。

为解决上述技术问题,本发明提供了一种针对智慧能源终端数据的数据预处理方法,其特征是,包括以下步骤;

步骤一,加载从智慧能源终端采集的数据集;

步骤二,对数据集进行清洗处理:识别数据集中缺失值,根据缺失值的属性查找数据集中对应属性相邻时间区段的数值,利用相邻数值的平均值来填充缺失值;

步骤三,对数据集进行转换处理:遍历数据集的属性,找出所有的数值属性,然后将该数值属性的原始值用区间标签进行替换,实现定量数据向定性数据转化,从而将连续型数据离散化;

步骤四,对数据集进行集成处理:对数据集的所有属性进行冗余检测,然后对数值重复进行检测,得到目标数据集,存储到数据仓库中。

进一步的,加载数据集支持结构化和半结构化的txt文本数据和csv文本数据。

进一步的,利用判断树归纳方法来识别缺失值。

进一步的,数据清洗按照时刻、时、天、月、年的时间粒度。

与现有技术相比,本发明所达到的有益效果是:本发明提供方法能对采集到的数据集进行清洗、变换和集成处理,完成数据预处理工作,使得数据挖掘效率大大提高,挖掘结果更加准确有效。

附图说明

图1为本发明方法的流程框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

电力行业中,从智慧能源终端采集的数据集都存储在数据中心数据库中,为了保证数据定时实时的处理,在间隔的时间段内,对需要的信息数据进行定时抽取、清洗、转换和集成,将结果存储在数据仓库中,成为数据挖掘提供决策支持的数据集。

如图1所示,本发明的一种针对智慧能源终端数据的数据预处理方法,其特征是,包括以下步骤;

步骤一,加载从智慧能源终端采集的数据集;

从智慧能源终端采集的数据,通常数据结构包括结构化的和非结构化的,为了便于后续处理,数据集的存储结构通常采用txt文本形式或csv文本形式,为了提高适用范围,因此加载数据集需要支持结构化和半结构化的txt文本数据和csv文本数据。

步骤二,对数据集进行清洗处理:识别数据集中缺失值,根据缺失值的属性查找数据集中对应属性相邻时间区段的数值,利用相邻数值的平均值来填充缺失值;

电力行业采集数据通常按照时刻、时、天、月、年的不同时间粒度进行采集,对数据进行清洗、变换、集成和数据挖掘时,也按照此时间粒度进行,首先对数据集进行清洗处理,利用判断树归纳方法来识别数据集中的缺失值,根据缺失值的属性查找数据集中对应属性相邻时间区段(时刻、时、天、月或年)的数值,利用相邻数值的平均值来填充缺失值。

步骤三,对数据集进行数据转换,遍历数据集的属性,找出所有的数值属性,然后将该数值属性的原始值用区间标签进行替换,实现定量数据向定性数据转化,从而将连续型数据离散化;

首先遍历数据集的属性,找出所有的数值属性,例如,用电量,然后将该数值属性的原始值用区间标签,如0~10度,11~20度,进行替换,实现定量数据向定性数据转化,从而将连续型数据离散化。

步骤四,对数据集进行数据集成:对数据集的所有属性进行冗余检测,然后对数值重复进行检测,得到目标数据集,存储到数据仓库中,为数据挖掘提供数据支持。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1