一种分布式光伏运营工单数据采集分析方法与流程

文档序号:35141537发布日期:2023-08-17 17:19阅读:35来源:国知局
一种分布式光伏运营工单数据采集分析方法与流程

本发明涉及数据处理,具体涉及一种分布式光伏运营工单数据采集分析方法。


背景技术:

1、随着智能电网建设的推进,其规划、运行和维护产生的数据量呈指数增长,这些海量的电力数据对生产、经营和安全运行起着重要作用。光伏运营工单数据是记录和管理光伏发电系统运维和维护过程中产生的相关工作任务和信息的数据。基于数据分析结果,可以进行故障诊断和趋势分析,找出系统的薄弱环节和常见故障模式,以制定相应的改进措施。当前大多数的工单数据并没有得到有效利用,由于其中大部分属于半结构化和非结构化的文本数据,很难被机器识别并利用,伴随各种新型光伏系统的并网,使电力运行的不确定性极大的提高,产生巨量的报修、投诉、查询、反馈、服务的工单数据。但由于人工和自动化设备报表存在一定误差,且实际运维情况存在复杂性,使得工单数据的标注类型与实际报表类型不符,造成工作效率的浪费和服务器调用负载,降低监测调整运维活动的效率。


技术实现思路

1、本发明提供一种分布式光伏运营工单数据采集分析方法,以解决复杂的光伏运营工单数据的实际类型与标注类型不符降低运维活动的效率的问题,所采用的技术方案具体如下:

2、本发明一个实施例提供一种分布式光伏运营工单数据采集分析方法,该方法包括以下步骤:

3、获取每条工单数据的核心词汇和其他词汇;

4、获取每条工单数据的预设工单类型,并根据预设工单类型获取工单数据对于不同工单类型的标注系数;根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重;

5、在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重;根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数;

6、根据每个工单类型的修正标注系数获取主要分类完成分布式光伏运营工单数据的分析。

7、优选的,所述获取每条工单数据的核心词汇和其他词汇的方法为:

8、对每条工单数据使用结巴分词,得到核心词、助词、数字以及补充词,其中补充词是所有词性中除了核心词、助词、数字外的所有词汇。

9、优选的,所述根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重的方法为:

10、将获取到的词汇中的助词记为无效词,除了助词之外的词汇统称为有效词,获取所有有效词的字符长度,根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重。

11、优选的,所述根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重的方法为:

12、

13、式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据中第k个工单类型中第c个核心词, 表示第i条工单数据中第k个工单类型中第c个核心词的字符长度,表示第i条工单数据中的无效词, 表示第i条工单数据中所有无效词的数量,表示第i条工单数据中的第j个无效词,表示第i条工单数据中的第j个无效词的字符长度,表示第i条工单数据中的核心词,表示第i条工单数据中所有核心词的数量,表示第i条工单数据的所有字符长度,表示第i条工单数据对第k个工单类型的第一系数权重。

14、优选的,所述在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重的方法为:

15、在工单数据中的词汇类型中有核心词、助词、数字、补充词、对于每一个核心词,若数字和补充词是为了描述该核心词存在的,那么数字和补充词作为核心词的描述词;根据核心词的描述词得到核心词的描述强度,根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重。

16、优选的,所述根据核心词的描述词得到核心词的描述强度的方法为:

17、对于核心词的任意两个描述词计算两者的义原相似度,将核心词的所有描述词都两两之间获取义原相似度,将核心词所有描述词两两之间的义原相似度的均值作为核心词的描述强度。

18、优选的,所述根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重的方法为:

19、对于每个核心词,获取核心词的所有描述词数量,将每个描述词的字符长度进行累加得到描述长度,令描述长度和核心词的描述强度相乘得到第一乘积,将工单数据中所有词汇的字符长度和工单数据中所有无效词的字符程度作差得到工单数据的有效长度,将第一乘积和有效长度的比值作为核心词的第二系数权重。

20、优选的,所述根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数的方法为:

21、

22、式中,表示第i条工单数据中第k个工单类型的核心词,表示第i条工单数据中第k个工单类型的核心词的数量,表示第i条工单数据对第k个工单类型的第一系数权重,表示第i条工单数据中第k个工单类型的第c个核心词的第二系数权重,表示第i条工单数据中第k个工单类型的标注系数,表示线性归一化函数,表示第i条工单数据中第k个工单类型的修正标注系数。

23、本发明的有益效果是:本发明针对现有光伏运营单位在采集数据的过程中存在人为和自动化的误差以及实际运维故障复杂使得报表工单的标注类型与实际类型存在误差的情况,通过分析数据中核心词自身对工单的类型影响获得第一类型系数权重,并结合修饰词与核心词的关系获得第二类型系数权重,得到工单类型系数,提取工单类型系数中的最大值作为工单的主要类型,构建分布式存储器,达到纠正工单类型、增加运维活动的监测效率。



技术特征:

1.一种分布式光伏运营工单数据采集分析方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述获取每条工单数据的核心词汇和其他词汇的方法为:

3.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据每条工单数据中每个工单类型的核心词的数量和字符长度获取工单数据对工单类型的第一系数权重的方法为:

4.根据权利要求3所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据每条工单数据中每个工单类型下对应的核心词数量与所有工单类型下对应的核心词数量的比值与每条工单数据中每个工单类型下对应的核心词的字符长度与有效词的字符长度的比值获取工单数据对工单类型的第一系数权重的方法为:

5.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述在每条工单数据中找到每个核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重的方法为:

6.根据权利要求5所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据核心词的描述词得到核心词的描述强度的方法为:

7.根据权利要求5所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据核心词的描述强度以及核心词的所有描述词的有效性获取核心词的第二系数权重的方法为:

8.根据权利要求1所述的一种分布式光伏运营工单数据采集分析方法,其特征在于,所述根据工单数据对工单类型的第一系数权重、核心词的第二系数权重,每一个工单类型的核心词数量以及每个工单类型的标注系数获取每个工单类型的修正标注系数的方法为:


技术总结
本发明涉及数据处理技术领域,提出了一种分布式光伏运营工单数据采集分析方法,包括:获取每条工单数据的核心词汇和其他词汇;并获取工单数据不同工单类型的标注系数;根据工单数据中每个工单类型的核心词特征获取工单数据对工单类型的第一系数权重;在工单数据中找到核心词的描述词,根据核心词的描述词之间的特征获取核心词的第二系数权重;根据第一系数权重、第二系数权重,核心词数量以及工单类型的标注系数获取工单类型的修正标注系数;根据每个工单类型的修正标注系数完成分布式光伏运营工单数据的分析。本发明可以纠正工单类型、并增加运维活动的监测效率。

技术研发人员:张佳祺,周信行,徐凌寒,曹苾玥,齐丹丹
受保护的技术使用者:广东电网有限责任公司广州供电局
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1