结合知识图谱和语义分析的电力报告智能清洗处理方法与流程

文档序号:34905319发布日期:2023-07-27 14:00阅读:27来源:国知局
结合知识图谱和语义分析的电力报告智能清洗处理方法与流程

本发明涉及数据处理技术,尤其涉及一种结合知识图谱和语义分析的电力报告智能清洗处理方法。


背景技术:

1、随着电网企业数字化的转型,逐渐将以往的纸质电力报告转换为电子电力报告进行数据归纳。电力报告一般会包括多个维度的数据统计,例如居民用电数据、工业用电数据、园区用电数据等。电力报告为电网企业分析数据的重要依据。

2、由于电力报告的数量较多、数据较多的原因导致其数据量较大,在工作人员对电力报告进行分析时,往往需要阅读大量的电力报告,无法有效的结合需求快速获取到电力报告中的相关数据,因此,需要对电力报告进行有效数据的整理。现有技术中,往往是通过人为的方式对电力报告的数据进行提取和整理,然而,针对数据量较大的电力报告而言,其整理的工作量巨大,且由于不可避免的人为原因,还会导致一些数据整理错误。

3、因此,如何对电力报告进行智能清洗并对清洗的数据进行自动验证成为了急需解决的问题。


技术实现思路

1、本发明实施例提供一种结合知识图谱和语义分析的电力报告智能清洗处理方法,可以对电力报告进行智能清洗并对清洗的数据进行自动验证,还可以结合工作人员的需求实现对数据的自动分析,得到相应的分析数据。

2、本发明实施例的第一方面,提供一种结合知识图谱和语义分析的电力报告智能清洗处理方法,包括:

3、接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图谱,所述知识图谱中包括多个知识节点;

4、对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,将其他词语作为第二词语,结合所述语句中的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性;

5、根据用户对本次电力报告所配置的计算需求生成相对应的数据需求清单,基于所述数据需求清单选择具有相应分析属性的第一词语作为第三词语;

6、根据所述第三词语的分析属性确定与所述第三词语所对应的清洗验证策略,基于所述清洗验证策略、历史数据对第三词语进行正确性的验证,每个类型的分析属性具有预设的清洗验证策略;

7、若判断验证不通过则确定验证不通过所对应的验证存疑类型,根据所述第三词语的验证存疑类型确定与第三词语对应的清洗处理策略,所述验证存疑类型包括不合理存疑类型或待验证存疑类型;

8、在判断得到数据需求清单所对应的所有第三词语后,将所述第三词语输入至预设模型中计算得到数据清洗后的分析数据,基于所述分析数据和知识图谱得到相对应的处理数据。

9、可选地,在第一方面的一种可能实现方式中,所述接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图谱,所述知识图谱中包括多个知识节点,包括:

10、所述知识信息包括与分析数据所对应的第一知识信息,以及与处理数据所对应的第二知识信息,每个第一知识信息或第二知识信息具有相对应的知识节点;

11、根据用户对第一知识信息、第二知识信息配置的三元组关系对相应的知识节点进行连接,构建生成相对应的知识图谱。

12、可选地,在第一方面的一种可能实现方式中,所述对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,将其他词语作为第二词语,结合所述语句中的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性,包括:

13、对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,所述数据属性的词语至少包括阿拉伯数字、大写数字、繁体数字;

14、将所有分词中第一词语以外的其他词语作为第二词语,遍历所述第二词语与预设词语进行比对,若判断第二词语与预设词语相对应则基于所述预设词语确定其为待分析的第二词语;

15、根据每个第一词语与待分析的第二词语之间的位置关系,确定与相应第一词语所关联的待分析的第二词语,基于关联的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性;

16、若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第一转换模板,基于所述第一转换模板将第一词语进行转换,得到满足格式要求的第一词语。

17、可选地,在第一方面的一种可能实现方式中,所述根据每个第一词语与待分析的第二词语之间的位置关系,确定与相应第一词语所关联的第二词语,基于关联的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性,包括:

18、若判断一个语句中具有多个第一词语和预设的合并词,则判断相应的第一词语可以合并为一个第一词语,对可以合并的第一词语添加相对应的合并标签,以使后续对第一词语处理时基于所述合并标签对相应的第一词语合并处理;

19、若判断一个语句中具有一个第一词语或可以合并为一个第一词语的多个第一词语,则将相应语句中所有待分析的第二词语与相应的第一词语或合并后的第一词语相关联;

20、若判断一个语句中具有多个第一词语且多个词语无法合并为一个第一词语,则基于第一词语的位置对语句进行分段得到分段结果,根据所述分段结果确定每个第一词语所关联的第二词语;

21、所述分析属性为第二词语所包括的主语分析属性、趋势变化分析属性、概念分析属性中的任意一种或多种。

22、可选地,在第一方面的一种可能实现方式中,所述若判断一个语句中具有多个第一词语且多个词语无法合并为一个第一词语,则基于第一词语的位置对语句进行分段得到分段结果,根据所述分段结果确定每个第一词语所关联的第二词语,包括:

23、在语句中确定所有第一词语的位置,基于所述第一词语的位置对语句分段处理得到多个子段,确定每个第一词语前部、相邻的段作为关联段;

24、将关联段内的第二词语作为与相应第一词语所关联的第二词语。

25、可选地,在第一方面的一种可能实现方式中,所述若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第一转换模板,基于所述第一转换模板将第一词语进行转换,得到满足格式要求的第一词语,包括:

26、将第一词语的格式与预设格式比对,所述第一词语的格式为阿拉伯数字格式、大写数字格式或繁体数字格式,所述预设格式为阿拉伯数字格式;

27、若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第一转换模板,对第一词语进行分解得到相对应的数值字和位置字,基于位置字将数值字填充至第一转换模板内的相对空位处;

28、若判断第一转换模板存在未填充的空位,则对未填充的空位填充0;

29、若判断第一转换模板内所有的空位都被填充后,则将所有空位所组成的数字作为满足格式要求的第一词语。

30、可选地,在第一方面的一种可能实现方式中,所述若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第一转换模板,对第一词语进行分解得到相对应的数值字和位置字,基于位置字将数值字填充至第一转换模板内的相对空位处,包括:

31、根据第一词语的格式确定预设的第一转换模板,所述第一转换模板具有多个空位,对第一词语进行分解识别得到相对应的数值字和位置字,将每个数值字和其后部相邻的位置字作为一个数值组;

32、提取整个第一词语中最前面的位置字得到相对应的预设空位数量,每个位置字具有相对应的预设空位数量;

33、对第一转换模板中的预设空位数量的空位进行保留,按照所保留的空位由后至前依次对每个空位添加位置标签;

34、根据每个数值组中的位置字确定相应对应的位置标签和空位,将数值组中的数值字填充至所确定的空位内。

35、可选地,在第一方面的一种可能实现方式中,还包括:

36、若判断多个第一词语之间具有相对应的合并标签,则根据多个第一词语之间的所对应的合并词对多个第一词语进行计算得到计算后的第一词语,每个合并词具有预设的计算方式。

37、可选地,在第一方面的一种可能实现方式中,所述根据用户对本次电力报告所配置的计算需求生成相对应的数据需求清单,基于所述数据需求清单选择具有相应分析属性的第一词语作为第三词语,包括:

38、根据所有预设格式的第一词语、合并后的第一词语以及分别关联的第二词语,生成相对应的数据统计表;

39、根据用户对本次电力报告所配置的计算需求生成相对应的数据需求清单,提取所述数据需求清单内的第四词语;

40、将所述第四词语与数据统计表的第二词语比对,若第四词语与第二词语相对应,则将数据统计表内相应第二词语对应的第一词语作为第三词语。

41、可选地,在第一方面的一种可能实现方式中,所述根据所述第三词语的分析属性确定与所述第三词语所对应的清洗验证策略,基于所述清洗验证策略、历史数据对第三词语进行正确性的验证,每个类型的分析属性具有预设的清洗验证策略,包括:

42、确定所述第三词语所对应分析属性的第二词语,根据相应的第二词语确定相对应的清洗验证策略,每类主语分析属性或概念分析属性的第二词语具有预设的清洗验证策略;

43、将所述第三词语与清洗验证策略所包括的第一阈值区间进行比对,若第三词语的数值位于第一阈值区间内,则判断相应的第三词语满足清洗验证策略的正确性的验证;

44、根据所述第二词语的主语分析属性或概念分析属性确定相对应的历史数据,根据所述历史数据进行计算得到平均数值,对所述平均数值按照预设比例值进行区间化处理得到第二阈值区间;

45、若第三词语的数值位于第二阈值区间内,则判断相应的第三词语满足历史数据的正确性的验证。

46、可选地,在第一方面的一种可能实现方式中,所述若判断验证不通过则确定验证不通过所对应的验证存疑类型,根据所述第三词语的验证存疑类型确定与第三词语对应的清洗处理策略,所述验证存疑类型包括不合理存疑类型或待验证存疑类型,包括:

47、若判断第三词语的数值不位于第一阈值区间内,则确定第三词语所对应的验证存疑类型为不合理存疑类型;

48、若判断第三词语的数值不位于第二阈值区间内,则确定第三词语所对应的验证存疑类型为待验证存疑类型;

49、若第三词语为不合理存疑类型,则将相对应的第三词语标记为错误,并对第三词语、相对应的第二词语输出,以使用户对第三词语直接更新;

50、若第三词语为待验证存疑类型,则将相对应的第三词语标记为待验证,并对第三词语、相对应的第二词语输出,若判断用户输入肯定的验证信息则将相对应的第三词语作为最终的第三词语;

51、若判断用户输入否定的验证信息,则根据用户输入对相应的第三词语更新。

52、可选地,在第一方面的一种可能实现方式中,所述在判断得到数据需求清单所对应的所有第三词语后,将所述第三词语输入至预设模型中计算得到数据清洗后的分析数据,基于所述分析数据和知识图谱得到相对应的处理数据,包括:

53、在判断得到数据需求清单所对应的所有第三词语后,将所述第三词语输入至预设模型中计算得到数据清洗后的分析数据,所述分析数据中包括相对应的分词词语;

54、将所述分词词语输入至知识图谱内确定具有相应第一知识信息的知识节点,根据所确定的知识节点与其他具有第二知识信息的知识节点;

55、统计其他具有第二知识信息的知识节点的第二知识信息,得到相对应的处理数据并输出。

56、本发明实施例的第二方面,提供一种结合知识图谱和语义分析的电力报告智能清洗处理系统,包括:

57、构建模块,用于接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图谱,所述知识图谱中包括多个知识节点;

58、处理模块,用于对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,将其他词语作为第二词语,结合所述语句中的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性;

59、生成模块,用于根据用户对本次电力报告所配置的计算需求生成相对应的数据需求清单,基于所述数据需求清单选择具有相应分析属性的第一词语作为第三词语;

60、验证模块,用于根据所述第三词语的分析属性确定与所述第三词语所对应的清洗验证策略,基于所述清洗验证策略、历史数据对第三词语进行正确性的验证,每个类型的分析属性具有预设的清洗验证策略;

61、判断模块,用于若判断验证不通过则确定验证不通过所对应的验证存疑类型,根据所述第三词语的验证存疑类型确定与第三词语对应的清洗处理策略,所述验证存疑类型包括不合理存疑类型或待验证存疑类型;

62、计算模块,用于在判断得到数据需求清单所对应的所有第三词语后,将所述第三词语输入至预设模型中计算得到数据清洗后的分析数据,基于所述分析数据和知识图谱得到相对应的处理数据。

63、有益效果:

64、1、本方案可以对电力报告进行词语维度上的处理和分析,得到具备数据属性的第一词语以及其他类型的第二词语,并结合第一词语和第二词语的分析,得到第一词语的分析数据。在用户由计算需求时,可以生成数据需求清单,并结合清洗验证策略、历史数据对第三词语进行正确性的验证,同时在出现异常情况时,可以用工作人员进行交互,使得分析的数据是无误的。最后,本方案还会结合用户对电力报告智能清洗及处理所配置的知识信息形成知识图谱,利用知识图谱输出分析数据对应的处理结果。综上,本方案可以对电力报告进行智能清洗并对清洗的数据进行自动验证,还可以结合工作人员的需求实现对数据的自动分析,得到相应的分析数据。

65、 2、本方案在对电力报告进行词语维度上的处理和分析时,会结合词语的属性对词语进行分类,得到第一词语和第二词语,并结合第一词语与待分析的第二词语之间的位置关系,确定与相应第一词语所关联的待分析的第二词语,实现对电力报告中语句的分析及关联。同时,还会将第一词语的格式与预设格式比对,如果不对应,会进行格式的转换,在进行格式转换时,会利用第一转换模板进行转换,同时还会结合数值字和位置字实现数字的定位及补充,通过上述方式,可以将数据转换为所需格式,以进行后续的处理和判断。

66、 3、本方案在结合用户对本次电力报告所配置的计算需求进行计算时,会先结合清洗验证策略、历史数据对第三词语进行正确性的验证。在验证时,本方案设置了两个验证方式,一种是利用第一阈值区间来确定数据的合理性,另一种是结合历史数据来确定数据的存疑性。另外,还会结合验证结果与工作人员进行交互,对数据进行修正处理,使得数据是准确的。最后,本方案还会结合知识图谱对分析数据进行处理,得到相对应的处理结果,智能化的协助工作人员对电力报告进行清洗、分析和处理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1