一种面向电厂故障智能化的非结构化数据清洗方法、介质和电子装置与流程

文档序号:33954553发布日期:2023-04-26 14:26阅读:50来源:国知局
一种面向电厂故障智能化的非结构化数据清洗方法、介质和电子装置与流程

本发明涉及数据处理,尤其涉及一种面向电厂故障智能化的非结构化数据清洗方法、介质和电子装置。


背景技术:

1、在处理场站数据的过程中,由于数据来源的不同,各场站、分公司对表格内容的命名方式不一致,即数据表头不同,导致难以对数据进行统一的规范化处理。处理数据量较大的缺陷表格数据不但耗费大量人力和时间,也难免出现差错。对于新数据中存在缺少表头、表头与历史表头不对应情况的缺陷数据如何进行结构化数据转换清洗成为亟待解决的问题。


技术实现思路

1、为了解决现有技术中的上述问题,本发明提供一种面向电厂故障智能化的非结构化数据清洗方法、介质和电子装置。

2、本发明第一方面,提供一种面向电厂故障智能化的非结构化数据清洗方法,包括以下步骤,

3、设置一标准表格,包括多个列表,所述列表由表头的标准名称和对应的表格内容组成;读取历史表格数据,将表头名称与所述标准名称相似的放入同一列表,构建相似词列表组合;对缺少表头的新表格进行处理,添加标准名称的表头;对表头与相似词列表组合中的表头名称都不对应的新表格,根据表格内容判断新表格是否属于标准表格中的列表,如是则将新表格的表头加入相似词列表。

4、进一步,所述对缺少表头的新表格进行处理,添加标准名称的表头具体包括,

5、s11、选取新表格中关于第一参数和第二参数的列,作为索引i和j;

6、s12、遍历历史表格,将新表格的列数与当前历史表格的列数进行对比,如果两者列数相同,则判断两者第i列类型是否一致,否则退出当前循环;若是,则继续判断两者第j列类型是否一致,如是,再判断两者第j列数据的相似度,否则退出当前循环;如果两者第i列数据相似度高于预设阈值,则新表格与当前历史表格的格式相同;

7、s13、将新表格的表头设置为与当前历史表格相同。

8、进一步,所述第一参数为时间,通过正则表达式匹配新表格中的各列,直到找到内容为时间的列。

9、进一步,所述第二参数为人名。

10、进一步的,所述判断两者第j列数据的相似度具体包括,

11、s121、提取新表格与当前历史表格的第j列内容,分别作为列表1和列表2;

12、s122、对列表1和列表2去重,删除各自列表中的重复数据;

13、s123、对去重后的两个列表进行向量化处理,得到向量v1和v2;

14、s124、计算v1和v2的余弦相似度。

15、进一步,所述根据表格内容判断新表格是否属于标准表格中的列表具体包括,

16、s21、将新表格以列分割,对每列进行以下操作;

17、s22、判断当前列是否为人名,是则将该列标记为人员;否则继续判断当前列是否为场站名,如是则将该列标记为场站,否则判断是否与故障参数相关;

18、s23、通过正则匹配,判断当前列的内容是否为日期,若是,则将该列表头加入相似词列表的故障发生时间词典中;否则判断当前列是否为故障名称,是则将该表头加入相似词列表中的故障名称词典中;否则继续判断该列是否为故障处理措施,是则将该表头加入相似词列表中的故障处理措施词典中,否则丢弃当前列;

19、s24、将新表格表头和内容加入历史数据中。

20、进一步,所述判断当前列是否为故障名称具体包括,

21、s231、将当前列读取为列表,去除列表中的重复项,对每行内容进行分词,对分词后的列表进行向量化处理;

22、s232、将所述标准表格中的故障名称列表去重,对列表中每一项进行分词,然后向量化处理;

23、s233、对步骤s231的结果和步骤s232的结果,计算两者余弦相似度,如果大于预设阈值,则将该列表头加入相似词列表中的故障名称词典中。

24、进一步的,所述判断当前列是否为故障处理措施具体包括,

25、s234、将所述标准表格中的故障处理措施列表去重,对列表中每一项进行分词,然后向量化处理;

26、s235、对步骤s231的结果和步骤s234的结果,计算两者余弦相似度,如果大于预设阈值,则将该列表头加入相似词列表中的故障处理措施词典中。

27、本发明第二方面,提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。

28、本发明第三方面,提供一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。

29、本发明利用算法对于新数据中存在缺少表头、表头与历史表头不对应情况的缺陷数据进行结构化数据自动转换清洗,使表格的表头和内容一致并规范化,且处理效率高,出错率低,为后续操作提供了洁净、统一的数据。



技术特征:

1.一种面向电厂故障智能化的非结构化数据清洗方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的非结构化数据清洗方法,其特征在于,所述对缺少表头的新表格进行处理,添加标准名称的表头具体包括,

3.根据权利要求2所述的非结构化数据清洗方法,其特征在于,所述第一参数为时间,通过正则表达式匹配新表格中的各列,直到找到内容为时间的列。

4.根据权利要求2所述的非结构化数据清洗方法,其特征在于,所述第二参数为人名。

5.根据权利要求2所述的非结构化数据清洗方法,其特征在于,所述判断两者第j列数据的相似度具体包括,

6.根据权利要求1所述的非结构化数据清洗方法,其特征在于,所述根据表格内容判断新表格是否属于标准表格中的列表具体包括,

7.根据权利要求6所述的非结构化数据清洗方法,其特征在于,所述判断当前列是否为故障名称具体包括,

8.根据权利要求6所述的非结构化数据清洗方法,其特征在于,所述判断当前列是否为故障处理措施具体包括,

9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至8任一项中所述的方法。


技术总结
本发明公开了一种面向电厂故障智能化的非结构化数据清洗方法、介质和电子装置,其中方法包括,设置一标准表格,包括多个列表,列表由表头的标准名称和对应的表格内容组成;读取历史表格数据,将表头名称与标准名称相似的放入同一列表,构建相似词列表组合;对缺少表头的新表格进行处理,添加标准名称的表头;对表头与相似词列表组合中的表头名称都不对应的新表格,根据表格内容判断新表格是否属于标准表格中的列表,如是则将新表格的表头加入相似词列表。本发明利用算法对于新数据中存在缺少表头、表头与历史表头不对应情况的缺陷数据进行结构化数据自动转换清洗,使表格的表头和内容一致并规范化,且处理效率高,出错率低,为后续操作提供了洁净、统一的数据。

技术研发人员:马骁,梁炜,王志洁,张荣达
受保护的技术使用者:国家电投集团河北电力有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1