一种电力数据标注归集方法、系统、设备及介质与流程

文档序号:34265516发布日期:2023-05-25 06:50阅读:66来源:国知局
一种电力数据标注归集方法、系统、设备及介质与流程

本发明属于电力系统数字化,特别涉及一种电力数据标注归集方法、系统、设备及介质。


背景技术:

1、数据标注是人工智能发展的基础环节,人工智能需要的大量数据一般都需要人工来标注;其中,数据标注的种类有很多,这取决于人工智能研究的方向和领域。具体示例性的,无人驾驶领域需要的是车辆和场景数据,语音识别领域需要将语音转文字数据;另外,教育、视频、医学等领域都有类似的标注工作。

2、电力系统是比较复杂的系统,其中的人工智能模型使用的大量数据几乎涵盖了各个方面(示例性的,如图片、录像、录音及文本等),电力业务数据标注十分复杂。进一步解释性的,目前数据标注的工作一般主要包括:拉框标注、3d点云标注、语义分割、打点标注、快判、普通话语音转写、方言转写、外语校对、ocr等流程。

3、随着新型电力系统的构建,能够获取海量数据,其作为训练样本可以为人工智能模型的训练精度提供有效支撑;然而,目前获取的海量数据并不能高效、准确分类,给后续的人工智能模型训练使用带来了很大阻碍(示例性的,如训练样本获取不精确,训练样本获取效率较低等);因此,基于获得的海量数据,对于已经标注好的数据如何分类和归集成为亟需解决的技术问题。


技术实现思路

1、本发明的目的在于提供一种电力数据标注归集方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明提供的技术方案中,能够获得的较准确的划分结果,基于获得的划分结果并采用编码的形式,可实现对标注集的归集分类,能够更有效支撑数据在人工智能模型训练中的使用。

2、为达到上述目的,本发明采用以下技术方案:

3、本发明第一方面提供的一种电力数据标注归集方法,包括以下步骤:

4、基于目标电网,获取待标注归集的电力数据;

5、基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;

6、其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码id,所述编码id用于编码标注。

7、本发明方法的进一步改进在于,预先获取的编码方式中,采用二进制编码方法。

8、本发明方法的进一步改进在于,所述预先获取的划分方式的获取步骤包括:

9、基于所述目标电网,获取预设数量的历史电力数据;

10、基于获取的所述历史电力数据进行划分,获得用于清晰程度划分的阈值、用于数据类型划分的数据类型种类、用于标注开展形式划分的标注开展形式种类、用于标注标签划分的标注标签种类和用于电力系统应用场景划分的电力系统应用场景种类。

11、本发明方法的进一步改进在于,

12、所述数据类型种类包括图片、视频、文字、音频和其他中的一种或多种;

13、所述标注开展形式种类包括拉框标注、3d点云标注、语义分割、打点标注、普通话转写、方言语音转写、外语校对、ocr识别、快判识别和其他中的一种或多种;

14、所述标注标签种类包括已做规范、已做不规范、未作、设备正常、设备异常、意图分类、序列指标和其他中的一种或多种;

15、所述电力系统应用场景种类包括安监、基建、设备、综合、营销、调度和其他中的一种或多种。

16、本发明方法的进一步改进在于,预先获取的编码方式包括:

17、基于清晰程度的划分结果中,清晰按照1编码,不清晰按照0编码;

18、基于数据类型的划分结果中,图片按照001编码,视频按照010编码,文字按照011编码,音频按照100编码,其他按照000编码;

19、基于标注开展形式的划分结果中,拉框标注按照0001编码,3d点云标注按照0010编码,语义分割按照0011编码,打点标注按照0100编码,普通话转写按照0101编码,方言语音转写按照0110编码,外语校对按照0111编码,ocr识别按照1000编码,快判识别按照1001编码,其他按照0000编码;

20、基于标注标签的划分结果中,已做规范按照001编码,已做不规范按照010编码,未作按照100编码,设备正常按照101编码,设备异常按照110编码,意图分类按照011按照,序列指标按照111按照,其他按照000编码;

21、基于电力系统应用场景的划分结果中,安监按照001编码,基建按照010编码,设备按照011编码,综合按照100编码,营销按照101编码,调度按照110编码,其他按照000编码。

22、本发明方法的进一步改进在于,所述编码id中,基于清晰程度的二进制编码、基于数据类型的二进制编码、基于标注开展形式的二进制编码、基于标注标签的二进制编码以及基于电力系统应用场景的二进制编码按照预设顺序排列。

23、本发明方法的进一步改进在于,在实现电力数据标注归集之后,还包括:

24、基于获得的电力数据标注归集结果,获取用于电力系统人工智能模型训练的训练样本。

25、本发明第二方面提供的一种电力数据标注归集系统,包括:

26、电力数据获取模块,用于基于目标电网,获取待标注归集的电力数据;

27、分类及编码标注模块,用于基于预先获取的划分方式及编码方式,对获取的所述电力数据进行分类以及编码标注,实现电力数据标注归集;

28、其中,所述预先获取的划分方式中,基于清晰程度、数据类型、标注开展形式、标注标签和电力系统应用场景中的一个或多个,对电力数据进行划分;所述编码方式中,基于预设的编码方法,获取电力数据的编码id,所述编码id用于编码标注。

29、本发明系统的进一步改进在于,所述分类及编码标注模块中,预先获取的编码方式中,采用二进制编码方法。

30、本发明系统的进一步改进在于,所述分类及编码标注模块中,预先获取的划分方式的获取步骤包括:

31、基于所述目标电网,获取预设数量的历史电力数据;

32、基于获取的所述历史电力数据进行划分,获得用于清晰程度划分的阈值、用于数据类型划分的数据类型种类、用于标注开展形式划分的标注开展形式种类、用于标注标签划分的标注标签种类和用于电力系统应用场景划分的电力系统应用场景种类。

33、本发明系统的进一步改进在于,

34、所述数据类型种类包括图片、视频、文字、音频和其他中的一种或多种;

35、所述标注开展形式种类包括拉框标注、3d点云标注、语义分割、打点标注、普通话转写、方言语音转写、外语校对、ocr识别、快判识别和其他中的一种或多种;

36、所述标注标签种类包括已做规范、已做不规范、未作、设备正常、设备异常、意图分类、序列指标和其他中的一种或多种;

37、所述电力系统应用场景种类包括安监、基建、设备、综合、营销、调度和其他中的一种或多种。

38、本发明系统的进一步改进在于,所述分类及编码标注模块中,预先获取的编码方式包括:

39、基于清晰程度的划分结果中,清晰按照1编码,不清晰按照0编码;

40、基于数据类型的划分结果中,图片按照001编码,视频按照010编码,文字按照011编码,音频按照100编码,其他按照000编码;

41、基于标注开展形式的划分结果中,拉框标注按照0001编码,3d点云标注按照0010编码,语义分割按照0011编码,打点标注按照0100编码,普通话转写按照0101编码,方言语音转写按照0110编码,外语校对按照0111编码,ocr识别按照1000编码,快判识别按照1001编码,其他按照0000编码;

42、基于标注标签的划分结果中,已做规范按照001编码,已做不规范按照010编码,未作按照100编码,设备正常按照101编码,设备异常按照110编码,意图分类按照011按照,序列指标按照111按照,其他按照000编码;

43、基于电力系统应用场景的划分结果中,安监按照001编码,基建按照010编码,设备按照011编码,综合按照100编码,营销按照101编码,调度按照110编码,其他按照000编码。

44、本发明系统的进一步改进在于,所述编码id中,基于清晰程度的二进制编码、基于数据类型的二进制编码、基于标注开展形式的二进制编码、基于标注标签的二进制编码以及基于电力系统应用场景的二进制编码按照预设顺序排列。

45、本发明系统的进一步改进在于,还包括:

46、训练样本获取模块,用于基于获得的电力数据标注归集结果,获取用于电力系统人工智能模型训练的训练样本。

47、本发明第三方面提供的一种电子设备,包括:

48、至少一个处理器;以及,

49、与所述至少一个处理器通信连接的存储器;其中,

50、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明任一项上述的电力数据标注归集方法。

51、本发明第四方面提供的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现本发明任一项上述的电力数据标注归集方法。

52、与现有技术相比,本发明具有以下有益效果:

53、针对海量的人工智能模型使用的辨识样本需要分类的需求,本发明具体提供了一种电力数据标注归集方法;本发明提供的技术方案中,基于电力系统对于人工智能技术的应用场景以及对于数据的需求进行分析,提炼获取了数据标注中基础数据特征以及数据标注工作的内容等,可获得较准确的划分结果;基于划分结果利用预设方法进行编码归类,实现了对标注集的归集分类,能够更有效支撑其在人工智能模型训练中的使用。

54、本发明中,具体提出了五级划分,即是否清晰为一级,数据形式为二级,相关的标注工作为三级,标签为四级,应用场景为五级;另外,在五级划分的基础上采用了二进制进行编码;通过对采集的电力数据按照五级划分打上二进制编码的形式进行归集,能够对数据实现有效分级;进一步解释性的,在解决电网某一场景辨识需求的时候,可以快速找到需要的样本,从而开展训练来对需要辨识的数据实现快速的辨识。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1