一种用于电网运行设备的信息挖掘与数据质量的校验方法

文档序号:9929505阅读:209来源:国知局
一种用于电网运行设备的信息挖掘与数据质量的校验方法
【技术领域】
[0001]本发明涉及电网设备的信息管理领域,特别是涉及一种用于电网运行设备的信息挖掘与数据质量的校验方法。
【背景技术】
[0002]电网的生产管理,设备资产、运行及检修等相关的各类系统存有大量的静态与动态信息,而这些信息中的不准确性,不完整性,不及时性等一直是相当一部分地区的电网公司在信息管理上面临的一个老大难问题。随着智能电网的建设,大量的新设备,智能传感器的安装,海量数据的涌入,使得电网信息质量的问题更加严重与紧迫,不掌握完整,准确,及时,高质量的电网资产信息,电网的智能化运行,维护与管理就无从谈起。
[0003]现有技术包括以下缺陷或不足:
(1)数据分析报告的编写效率低下:目前由于业务的迫切需要,为了了解设备数据内部特征,提高数据准确性,多采取人工分析抽查、再编写报告的方法。具体包括:系统管理员查询和预处理数据,设备管理员或业务专家结合业务知识对数据进行手工分析,再把各个分析结果逐一“复制-粘贴”到报告中,这样不但效率较低,还会出现错位问题,以及数据、方法、结果三者更新不同步等问题。由于操作冗繁,一次分析也不能全面覆盖数据,报告的更新周期长,也较难长期坚持,因此无法对运行设备信息进行全面摸底,也无法根治顽固性数据质量问题;
(2)数据系统入口缺乏高级校验功能:目前数据管理系统中的输入界面集成了一些简单的规则,缺乏深入分析能力,很难集成复杂检验规则和专家经验;
(3)数据可视化图表展示能力有限:目前在数据质量管理中,报告和系统中应用的可视化图表较少,现有的方案主要是利用一些电子表格软件和信息系统中所带的基本图形功能,对多维数据中复杂的关联关系缺乏挖掘展示能力。

【发明内容】

[0004]本发明主要解决的技术问题是提供一种用于电网运行设备的信息挖掘与数据质量的校验方法,通过采用基于可重复研究和文学化编程的方法进行数据分析和数据质量校验,采用R语言及其扩展插件实现了数据处理和分析工作,可配置多种自定义校验组合规贝1J,以满足结合行业知识和历史问题的复杂校验逻辑配置需求,将机器学习模型算法应用到电网设备数据质量校验中,将数据可视化方法应用到电网设备数据质量校验中,实现了生产管理系统中运行设备数据质量的深度摸底、减轻手工校对的繁冗工作、全面提高资产数据质量、提高信息化管理的效率、进而减少在信息系统上数据质量相关的人工成本、也为基于资产数据的高级分析应用提供重要保障,在用于电网运行设备的信息挖掘与数据质量的校验方法的普及上有着广泛的市场前景。
[0005]为解决上述技术问题,本发明提供一种用于电网运行设备的信息挖掘与数据质量的校验方法,包括以下步骤: (1)编写文学源文件:
所述文学源文件包括rnw格式和Rmd格式,所述文学源文件均包括文档模板和程序;
(2)执行文学源文件:
运行工具执行文学源文件自动完成内置的程序,执行数据读取、预处理以及数据分析步骤,并把来自所述文档模块的报告文字和格式描述通过所述程序返回的计算结果转换为一种标记语言,同时把程序生成的可视化图表保存为指定格式的图片文件;
(3)生成指定格式的报告或演示文档:
运行相应的标记语言转换工具,自动插入图片并生成指定格式的报告或演示文档;
(4)数据校验:
采用机器学习模型进行电网设备数据质量校验,所述机器学习模型包括局部回归模型和局部异常因子模型,
所述局部回归模型采用等范围估计模型来预测设备的合理参数范围,再和实际数据进行对比,
所述局部异常因子模型采用等离群指数模型,计算每个数据样本的“离群指数”,离群指数越高的样本有数据质量问题的可能性越大;
(5)可视化校验:
采用数据可视化方法进行电网设备数据质量校验。
[0006]在本发明一个较佳实施例中,步骤(I)中的所述rnw格式的文学源文件采用Sweave和PdfLaTeX转换工具自动生成分析报告。
[0007]在本发明一个较佳实施例中,步骤(I)中的所述Rmd格式的文学源文件采用knitr和Pandoc转换工具自动生成分析报告。
[0008]在本发明一个较佳实施例中,步骤(I)中的所述文档模板包括文档格式和叙述性文字,所述叙述性文字的段落内部包括所述程序生成的数字和文本,以便于根据数据自动生成含有统计结果的文字段落,所述文档模块还包括为程序运行结果预留单独的段落,用于插入程序生成的表格和图表。
[0009]在本发明一个较佳实施例中,步骤(I)中的所述程序包括自动化数据的导入程序、清理程序、转换程序和分析程序,结合行业知识经验的设备数据质量校验方法,在分析过程中融入以往经验的数据检验规则,所述程序还调用机器学习及可视化扩展包来进行高级分析,所述文学源文件中的程序输出包括数字、文本、表格和图表。
[0010]在本发明一个较佳实施例中,步骤(2)中的所述标记语言为LaTeX或者Markdown。
[0011]在本发明一个较佳实施例中,步骤(3)中对于LaTeX格式的标记语言,调用PdfLaTeX转换工具,生成pdf格式文件。
[0012]在本发明一个较佳实施例中,步骤(3)中对于Markdown格式的标记语言,调用Pandoc转换工具,生成多种文件格式的报告,包括与Word通用的docx文件、pdf文件以及适用于浏览器的html文件。
[0013]在本发明一个较佳实施例中,步骤(2)与步骤(3)采用逐一处理方式或者分批处理方式。
[0014]在本发明一个较佳实施例中,步骤(5)中的所述数据可视化方法包括平行坐标系法。
[0015]本发明的有益效果是:本发明用于电网运行设备的信息挖掘与数据质量的校验方法通过采用文学化编程、机器学习技术、数据可视化,提高分析效率、节约人力成本、保证分析校验报告的客观性和可追溯性、便于可重复研究、提高异常数据的检验效率、分析方式直观易懂,在用于电网运行设备的信息挖掘与数据质量的校验方法的普及上有着广泛的市场前景。
【附图说明】
[0016]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的rnw格式的文学源文件的基于Sweave和LaTeX自动生成分析报告的流程图;
图2是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的Rmd格式的文学源文件基于knitr和Pandoc自动生成分析报告或演示文档的流程图;
图3是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用局部回归模型识别异常数据的示意图;
图4是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用局部异常因子模型识别异常数据的示意图;
图5是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用平行坐标系对多维电网设备数据进行可视化的示意图。
【具体实施方式】
[0017]下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0018]请参阅图1-图5,本发明实施例包括:
一种用于电网运行设备的信息挖掘与数据质量的校验方法,包括以下步骤:
(1)编写文学源文件:
所述文学源文件包括rnw格式和Rmd格式,所述文学源文件均包括文档模板和程序;
(2)执行文学源文件:
运行工具执行文学源文件自动完成内置的程序,执行数据读取、预处理以及数据分析步骤,并把来自所述文档模块的报告文字和格式描述通过所述程序返回的计算结果转换为一种标记语言,同时把程序生成的可视化图表保存为指定格式的图片文件;
(3)生成指定格式的报告或演示文档:
运行相应的标记语言转换工具,自动插入图片并生成指定格式的报告或演示文档;
(4)数据校验:
采用机器学习模型进行电网设备数据质量校验,所述机器学习模型包括局部回归模型和局部异常因子模型,
所述局部回归模型采用等范围估计模型来预测设备的合理参数范围,再和实际数据进行对比,
所述局部异常因子模型采用等离群指数模型,计算每个数据样本的“离群指数”,离群指数越高的样本有数据质量问题的可能性越大;
(5)可视化校验:
采用数据可视化方法进行电网设备数据质量校验。
[0019]优选地,步骤(I)中的所述rnw格式的文学源文件采用Sweave和pdf LaTeX转换工具自动生成分析报告。
[°02°]优选地,步骤(I)中的所述Rmd格式的文学源文件采用knitr和Pandoc转换工具自动生成分析报告。
[0021 ]优选地,步骤(I)中的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1