数据处理方法、装置及计算机可读存储介质与流程

文档序号:31539781发布日期:2022-09-16 23:33阅读:97来源:国知局
数据处理方法、装置及计算机可读存储介质与流程

1.本发明涉及数据处理领域,具体而言,涉及一种数据处理方法、装置及计算机可读存储介质。


背景技术:

2.居民用电需求具有多元化、个性化、快速化的特征,通过开展用户标签分层分类设计,可以有效提升电力公司服务水平,提升客户满意度。
3.通过相关技术中的标签构建方法构建的标签具有标签颗粒度大的问题,这会根据相关技术获取的标签不能反映动态指标,且标签覆盖维度不够全面。即,在相关技术中,存在缺少构建有效用户标签的方法的问题。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种数据处理方法、装置及计算机可读存储介质,以至少解决相关技术中,缺少构建有效用户标签的方法的技术问题。
6.根据本发明实施例的一个方面,提供了一种数据处理方法,其特征在于,包括:确定多层次标签体系,其中,所述多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,所述第一层级标签包括多种标签类型,所述第二层级标签包括所述多种标签类型中每种标签类型分别对应的多种数据类型,所述第三层级标签包括所述多种数据类型分别对应的多种数据主题,所述第四层级标签包括所述多种数据主题分别对应的数据等级;获取目标电力数据,其中,所述目标电力数据包括煤改电对象的电力数据,所述煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;基于所述多层次标签体系,确定所述目标电力数据的目标标签,其中,所述目标标签包括在所述第一层级标签中所包括的目标标签类型,在所述第二层级标签中所述目标标签类型包括的目标数据类型,在所述第三层级中所述目标数据类型所包括的目标数据主题,以及在所述第四层级中所述目标数据主题所包括的目标数据等级。
7.可选地,在所述目标对象的电力数据包括多个子电力数据的情况下,所述基于所述多层次标签体系,确定所述目标电力数据的目标标签,包括:分别针对所述多个子电力数据中的每个子电力数据,基于所述多层次标签体系获取每个子电力数据的目标标签;基于所述每个子电力数据的目标标签,确定所述目标电力数据的目标标签。
8.可选地,在所述目标对象的电力数据包括多个子电力数据的情况下,所述基于所述多层次标签体系,确定所述目标电力数据的目标标签,包括:分别对所述多个子电力数据进行预处理;基于预定关联字段对多个预处理的子电力数据进行整合,获取目标数据集;基于所述目标数据,确定所述目标电力数据的目标标签。
9.可选地,在所述目标对象的电力数据包括所述目标对象在预定时间段内的用电总量的情况下,所述基于所述多层次标签体系以及所述目标对象的电力数据,确定所述目标
电力数据的目标标签,包括:根据所述目标对象在所述预定时间段内的用电总量和预定用电等级阈值,获取所述目标对象在所述预定时间段内的用电量等级;确定所述用电量等级为与所述目标对象在预定时间段内的用电总量对应的四级标签,所述与所述目标对象在预定时间段内的用电总量对应的四级标签包括以下之一:高电量、一般电量、低电量、用电异常;基于所述用电量等级,以及所述多层次标签体系中与所述用电量等级对应的三级标签、二级标签和一级标签,确定所述目标电力数据的目标标签,所述与所述用电量等级对应的三级标签、二级标签和一级标签分别包括用电量水平、用电水平、统计标签。
10.可选地,还包括:获取多个预定对象在所述预定时间段内的用电总量,其中,所述多个预定对象包括以下至少之一:与所述目标对象在地理位置上相邻的对象、在所述目标对象所处区域中的多个对象中除所述目标对象外的其他对象;在所述多个预定对象为所述与所述目标对象在地理位置上相邻的多个对象的情况下,根据所述多个预定对象在所述预定时间段内的用电总量和所述目标对象在所述预定时间段内的用电总量的比对结果,对所述目标对象在所述预定时间段内的用电量等级进行修正;在所述多个预定对象为在所述目标对象所处区域中的多个对象中除所述目标对象外的其他对象的情况下,根据在所述目标对象所处区域中的多个对象在所述预定时间段内的用电总量的排序结果,对所述目标对象在所述预定时间段内的用电量等级进行修正。
11.可选地,在所述目标对象的电力数据包括所述目标对象在预定时间段内的行为数据,且所述行为数据包括投诉行为数据的情况下,所述基于所述多层次标签体系以及所述目标对象的电力数据,确定所述目标电力数据的目标标签,包括:根据所述投诉行为数据,获取与所述投诉行为数据对应的文本数据;提取所述文本数据中包含的投诉行为对象数据;根据所述文本数据中包含的投诉行为对象数据,确定所述目标对象在预定时间段内的投诉行为对象;确定所述投诉行为对象为与所述目标对象在预定时间段内的行为数据对应的四级标签,所述与所述目标对象在预定时间段内的行为数据对应的四级标签包括以下之一:停电、电能表异常、采集设备异常、电费退补、电器无法正常使用;基于所述投诉行为对象,以及所述多层次标签体系中与所述投诉行为对象对应的三级标签、二级标签和一级标签,确定所述目标电力数据的目标标签;所述与所述投诉行为对象对应的三级标签、二级标签和一级标签分别包括投诉主题、服务需求行为、挖掘标签。
12.可选地,在所述目标对象的电力数据包括所述目标对象在预定时间段内多个预定用电时刻的用电负荷分布的情况下,所述基于所述多层次标签体系以及所述目标对象的电力数据,确定所述目标电力数据的目标标签,包括:根据所述用电负荷分布,根据预定的用电负荷异常确定方法,获取所述目标对象在所述用电数据分布中发生用电负荷异常的次数;基于所述目标对象在所述用电数据分布中用电负荷异常的次数,确定用电负荷异常等级;确定所述用电负荷异常等级为与所述用电负荷分布对应的四级标签,所述与所述用电负荷分布对应的四级标签包括以下之一:高异常、较高异常、中等异常、一般异常、正常;基于所述用电负荷异常等级,以及所述多层次标签体系中与所述用电负荷异常等级对应的三级标签、二级标签和一级标签,确定所述目标电力数据的目标标签,所述与所述用电负荷异常等级对应的三级标签、二级标签和一级标签分别包括用电负荷异常、异常信息、挖掘标签。
13.可选地,在所述目标对象的电力数据包括所述目标对象在预定时间段内的用电数
据分布的情况下,所述基于所述多层次标签体系以及所述目标对象的电力数据,确定所述目标电力数据的目标标签,包括以下至少之一:根据预定的过流异常确定方法,获取所述目标对象在所述用电数据分布中发生过流异常的次数,根据所述发生过流异常的次数确定所述过流异常等级,确定所述过流异常等级为与所述用用电数据分布对应的四级标签,基于所述过流异常等级,以及所述多层次标签体系中与所述用电数据分布对应的三级标签、二级标签和一级标签,确定所述目标电力数据的目标标签;所述与所述用电数据分布对应的四级标签包括以下之一:不存在、存在一次、存在多次,与所述用电数据分布对应的三级标签、二级标签和一级标签包括过流异常、异常信息、挖掘标签;根据预定的电压异常确定方法,确定所述目标对象在所述用电数据分布中是否存在电压异常数据,根据是否存在电压异常数据确定电压异常等级,确定所述电压异常等级为与所述用电数据分布对应的四级标签;基于所述用电压异常等级,以及所述多层次标签体系中与所述用电数据分布对应的三级标签、二级标签和一级标签,确定所述目标电力数据的目标标签,所述与所述用电数据分布对应的四级标签包括以下之一:正常、异常,所述与所述用电数据分布对应的三级标签、二级标签和一级标签分别包括电压异常、异常信息、挖掘标签。
14.根据本发明实施例的另一个方面,还提供了一种数据处理装置,包括第一确定模块,用于确定多层次标签体系,其中,所述多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,所述第一层级标签包括多种标签类型,所述第二层级标签包括所述多种标签类型中每种标签类型分别对应的多种数据类型,所述第三层级标签包括所述多种数据类型分别对应的多种数据主题,所述第四层级标签包括所述多种数据主题分别对应的数据等级;获取模块,用于获取目标电力数据,其中,所述目标电力数据包括煤改电对象的电力数据,所述煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;第二确定模块,用于基于所述多层次标签体系,确定所述目标电力数据的目标标签,其中,所述目标标签包括在所述第一层级标签中所包括的目标标签类型,在所述第二层级标签中所述目标标签类型包括的目标数据类型,在所述第三层级中所述目标数据类型所包括的目标数据主题,以及在所述第四层级中所述目标数据主题所包括的目标数据等级。
15.根据本发明实施例的另一个方面,还提供了一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述数据处理方法。
16.在本发明实施例中,通过确定多层次标签体系,其中,多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,第一层级标签包括多种标签类型,第二层级标签包括多种标签类型中每种标签类型分别对应的多种数据类型,第三层级标签包括多种数据类型分别对应的多种数据主题,第四层级标签包括多种数据主题分别对应的数据等级;获取目标电力数据;基于多层次标签体系,确定目标电力数据的目标标签,其中,目标标签包括在第一层级标签中所包括的目标标签类型,在第二层级标签中目标标签类型包括的目标数据类型,在第三层级中目标数据类型所包括的目标数据主题,以及在第四层级中目标数据主题所包括的目标数据等级,进而解决了在相关技术中,缺少构建有效用户标签的方法技术问题。
附图说明
17.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
18.图1是根据本发明实施例的一种可选的数据处理方法的流程图;
19.图2是根据本发明实施例的一种可选的数据处理装置的框架图。
具体实施方式
20.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
21.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.实施例1
23.根据本发明实施例,提供了一种数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
24.图1是根据本发明实施例的数据处理方法,如图1所示,该方法包括如下步骤:
25.步骤s102,确定多层次标签体系,其中,多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,第一层级标签包括多种标签类型,第二层级标签包括多种标签类型中每种标签类型分别对应的多种数据类型,第三层级标签包括多种数据类型分别对应的多种数据主题,第四层级标签包括多种数据主题分别对应的数据等级。
26.步骤s104,获取目标电力数据,其中,目标电力数据包括煤改电对象的电力数据,煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;
27.步骤s106,基于多层次标签体系,确定目标电力数据的目标标签,其中,目标标签包括在第一层级标签中所包括的目标标签类型,在第二层级标签中目标标签类型包括的目标数据类型,在第三层级中目标数据类型所包括的目标数据主题,以及在第四层级中目标数据主题所包括的目标数据等级。
28.通过相关技术中的方法,获取的客户标签体系不适用于煤改电用户,直接使用相关技术中的标签构建方法会造成所提取标签不能够完全反映煤改电用户用电特征,具体的,通过相关技术中的用户标签构建方法获取的标签具有标签颗粒度较大和不够精细的特
点,在实际建设过程中,由于内容或数据的多样性,使得使用相关技术方法提取的标签不能反应动态指标,覆盖维度不够全面。在本可选实施方式中,通过确定多层次标签体系,其中,多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,第一层级标签包括多种标签类型,第二层级标签包括多种标签类型中每种标签类型分别对应的多种数据类型,第三层级标签包括多种数据类型分别对应的多种数据主题,第四层级标签包括多种数据主题分别对应的数据等级,获取目标电力数据,其中,目标电力数据包括煤改电对象的电力数据,煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;基于多层次标签体系,确定目标电力数据的目标标签,其中,目标标签包括在第一层级标签中所包括的目标标签类型,在第二层级标签中目标标签类型包括的目标数据类型,在第三层级中目标数据类型所包括的目标数据主题,以及在第四层级中目标数据主题所包括的目标数据等级。获取包括煤改电对象在内的多种对象的目标电力数据,根据目标电力数据和多层次标签体系获取目标电力数据的目标标签,该目标标签中包括多个层级的标签数据,由此,解决了在相关技术中,缺少构建有效用户标签的方法技术问题。
29.作为一种可选实施例,在目标对象的电力数据包括多个子电力数据的情况下,基于多层次标签体系,确定目标电力数据的目标标签,包括:分别针对多个子电力数据中的每个子电力数据,基于多层次标签体系获取每个子电力数据的目标标签;基于每个子电力数据的目标标签,确定目标电力数据的目标标签。针对多个子电力数据,分别获取每个子电力数据的目标标签,根据每个子电力数据的目标标签,确定目标电力数据的目标标签,由此获取的目标标签为多维度多层级的标签,可以满足实际应用中标签能够反应动态指标,且覆盖维度全面的要求。解决了在相关技术中,缺少构建有效用户标签的方法技术问题。
30.作为一种可选实施例,在目标对象的电力数据包括多个子电力数据的情况下,基于多层次标签体系,确定目标电力数据的目标标签,包括:分别对多个子电力数据进行预处理;基于预定关联字段对多个预处理的子电力数据进行整合,获取目标数据集;基于目标数据,确定目标电力数据的目标标签。由此,可以获取多维度多层级的标签,另外,通过对多个预处理的子电力数据进行整合,获取目标数据集;基于目标数据,确定目标电力数据的目标标签,提高了目标标签的生成效率。
31.在一个可选实施例中,在目标对象的电力数据包括目标对象在预定时间段内的用电总量的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括:根据目标对象在预定时间段内的用电总量和预定用电等级阈值,获取目标对象在预定时间段内的用电量等级;确定用电量等级为与目标对象在预定时间段内的用电总量对应的四级标签,与目标对象在预定时间段内的用电总量对应的四级标签包括以下之一:高电量、一般电量、低电量、用电异常(或低零电量);基于用电量等级,以及多层次标签体系中与用电量等级对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电量等级对应的三级标签、二级标签和一级标签分别包括用电量水平、用电水平、统计标签。由此,在目标对象的电力数据包括目标对象在预定时间段内的用电总量的情况下,可以获取针对用电总量的多维度多层标签。
32.在一个可选实施例中,还包括:获取多个预定对象在预定时间段内的用电总量,其中,多个预定对象包括以下至少之一:与目标对象在地理位置上相邻的对象、在目标对象所处区域中的多个对象中除目标对象外的其他对象;在多个预定对象为与目标对象在地理位
置上相邻的多个对象的情况下,根据多个预定对象在预定时间段内的用电总量和目标对象在预定时间段内的用电总量的比对结果,对目标对象在预定时间段内的用电量等级进行修正;在多个预定对象为在目标对象所处区域中的多个对象中除目标对象外的其他对象的情况下,根据在目标对象所处区域中的多个对象在预定时间段内的用电总量的排序结果,对目标对象在预定时间段内的用电量等级进行修正。通过修正,可以获取准确的用电量等级,提高了生成的目标标签的准确度,实现了对目标标签的动态更新。
33.在一个可选实施例中,在目标对象的电力数据包括目标对象在预定时间段内的行为数据,且行为数据包括投诉行为数据的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括:根据投诉行为数据,获取与投诉行为数据对应的文本数据;提取文本数据中包含的投诉行为对象数据;根据文本数据中包含的投诉行为对象数据,确定目标对象在预定时间段内的投诉行为对象;确定投诉行为对象为与目标对象在预定时间段内的行为数据对应的四级标签,与目标对象在预定时间段内的行为数据对应的四级标签包括以下之一:停电、电能表异常、采集设备异常、电费退补、电器无法正常使用;基于投诉行为对象,以及多层次标签体系中与投诉行为对象对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签;与投诉行为对象对应的三级标签、二级标签和一级标签分别包括投诉主题、服务需求行为、挖掘标签。由此,在目标对象的电力数据包括目标对象在预定时间段内的行为数据,且行为数据包括投诉行为数据的情况下,可以获取针对目标对象在预定时间段内的行为数据的多维度多层标签。
34.在一个可选实施例中,在目标对象的电力数据包括目标对象在预定时间段内多个预定用电时刻的用电负荷分布的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括:根据用电负荷分布,根据预定的用电负荷异常确定方法,获取所述目标对象在所述用电数据分布中发生用电负荷异常的次数;基于所述目标对象在所述用电数据分布中用电负荷异常的次数,确定用电负荷异常等级;确定用电负荷异常等级为与用电负荷分布对应的四级标签,与用电负荷分布对应的四级标签包括以下之一:高异常、较高异常、中等异常、一般异常、正常;基于用电负荷异常等级,以及多层次标签体系中与用电负荷异常等级对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电负荷异常等级对应的三级标签、二级标签和一级标签分别包括用电负荷异常、异常信息、挖掘标签。由此,在目标对象的电力数据包括目标对象在预定时间段内多个预定用电时刻的用电负荷分布的情况下,可以获取针对目标对象在在预定时间段内多个预定用电时刻的用电负荷分布的多维度多层标签。
35.在一个可选实施例中,在目标对象的电力数据包括目标对象在预定时间段内的用电数据分布的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括以下至少之一:根据预定的过流异常确定方法,获取目标对象在用电数据分布中发生过流异常的次数,根据发生过流异常的次数确定过流异常等级,确定过流异常等级为与用电数据分布对应的四级标签,基于过流异常等级,以及多层次标签体系中与用电数据分布对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签;与用电数据分布对应的四级标签包括以下之一:不存在、存在一次、存在多次,与用电数据分布对应的三级标签、二级标签和一级标签包括过流异常、异常信息、挖掘标签;根据预定的电压异常确定方法,确定目标对象在用电数据分布中是否存在电压异常数据,根据是否存在电
压异常数据确定电压异常等级,确定电压异常等级为与用电数据分布对应的四级标签;基于用电压异常等级,以及多层次标签体系中与用电数据分布对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电数据分布对应的四级标签包括以下之一:正常、异常,与用电数据分布对应的三级标签、二级标签和一级标签分别包括电压异常、异常信息、挖掘标签。由此,在目标对象的电力数据包括目标对象在预定时间段内的用电数据分布的情况下,可以获取针对目标对象在预定时间段内的用电数据分布的多维度多层标签。
36.根据上述实施例及可选实施例,本发明提供了一种可选实施方式,在本可选实施方式中,提供了一种数据处理方法,实现对用户标签的构建。在本可选实施方式中,以目标对象为煤改电用户为例进行说明。需要说明的是,煤改电用户相当于前述实施例中的煤改电对象,煤改电用户包括从燃煤获取能源改为使用电能的用户。
37.需要明白的是,居民用电需求具有多元化、个性化、快速化的特征,“互联网+供电服务”模式作为电力营销的重要手段,需要通过开展用户标签分类分层设计,从实用实效角度开展标签设计,挖掘客户需求,并融合不同的标签维度对客户提供用能分析和用电策略指导,进而有效提升电力公司服务水平,提升客户满意度。根据相关技术中的方法获取客户标签体系不适用于煤改电用户,直接使用相关技术中的标签构建方法会造成所提取标签不能够完全反映煤改电用户用电特征。具体的,相关技术中的用户标签构建方法获取的标签具有标签颗粒度较大和不够精细的特点,在实际建设过程中,由于内容或数据的多样性,使得使用相关技术方法提取的标签不能反应动态指标,覆盖维度不够全面,且标签体系指标阈值划分合理性也需要论证。即,相关技术中,缺少构建有效用户标签的方法。
38.鉴于此,本可选实施方式通过确定多层次标签体系,其中,多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,第一层级标签包括多种标签类型,第二层级标签包括多种标签类型中每种标签类型分别对应的多种数据类型,第三层级标签包括多种数据类型分别对应的多种数据主题,第四层级标签包括多种数据主题分别对应的数据等级;获取目标电力数据;基于多层次标签体系,确定目标电力数据的目标标签,其中,目标标签包括在第一层级标签中所包括的目标标签类型,在第二层级标签中目标标签类型包括的目标数据类型,在第三层级中目标数据类型所包括的目标数据主题,以及在第四层级中目标数据主题所包括的目标数据等级,进而解决了在相关技术中,缺少构建有效用户标签的方法技术问题。下面具体说明。
39.在本可选实施例中,通过获取目标对象的标签维度,形成标签分类层级框架;获取标签维度所涉及的电力数据,电力数据包括多个子电力数据;根据多个子电力数据生成目标对象的标签,其中,标签包括分别与多个子电力数据所对应的子标签。本发明解决了相关技术中,缺少构建有效用户标签的方的技术问题。下面具体说明。
40.在本可选实施例中,通过开展用户需求与公司服务业务分析,筛选出标签维度,形成标签分类层级框架;对数据进行预处理,采用直接提取、时间戳运算方法获得基础标签;把数据缩放、数据转化、统计分析等定量分析与定性分析结合提取谷电量占比水平等统计标签,利用百分位数作为最小标签颗粒度的区间阈值计算;采用孤立森林、one-class-svm、dbcsan聚类、k-means聚类、文本关键词提取与主题模型等方法提取用电负荷异常、电压异常、用电偏好、投诉主题等挖掘标签,解决现有煤改电用户标签构建中自动化、智能化程度
不够,以及用户标签生成时间过长的问题。
41.本可选实施方式提供的数据处理方法,包括下述步骤:
42.步骤s1,开展用户需求与公司服务业务两者之间的业务关系分析,并梳理电力数据已有的数据字段,筛选出重要的一级、二级分类维度,固定成标签。结合标签细分原理,对每个标签进行最小颗粒度的分解,标签细化至4级深度。
43.步骤s11,从用户需求和公司服务管理角度出发,开展用户多元、个性用电需求与公司多元化能效服务业务分析,挖掘两者之间的关系,借鉴已有行业的标签框架,使用对比分析法、经验分析、文献综述等方法筛选出满足煤改电用户重要的一级、二级分类维度,固定成标签,一级标签分类按照从标签生成的角度划分为基础标签、统计标签与挖掘标签,基础标签的二级标签包括基础信息,统计标签的二级标签分包括用电水平、用电分析等,挖掘标签的二级标签包括异常信息、服务需求行为、用电行为等。
44.步骤s12,基于一级、二级分类维度,采用数据分布、描述性统计等方法分析电量、收费、电流电压、基本信息等数据的分布情况,采用mece分析法一层一层往下,对每个标签进行最小颗粒度的分解,标签细化至4级深度,并确定最小颗粒度的划分指标与标准,形成完整地标签分类层级框架。例如,统计标签中的用电水平的谷电量占比水平标签,根据谷电量占比划分为a、b、c三类,a的占比标准是[占比》=a1,占比《a2),其中,a1和a2为预定占比阈值。
[0045]
步骤s2,数据预处理。将煤改电标签所涉及的用户信息、电量电费、电流、电压、负荷、峰谷电量、收费、投诉文本等数据,进行缺失、异常、转化等数据清洗,形成标签计算应用前所需的数据集;
[0046]
数据预处理对象包括非数值型数据和数值型数据,处理步骤一般包括:数据清洗、数据变换、数据描述和数据集成。
[0047]
步骤2具体包括下列步骤:
[0048]
步骤211、根据确定的标签维度,从已知的电量、收费等数据进行提取,根据数据质量分析,参考数据预处理步骤,对不同数值类型的数据制定数据治理规则;
[0049]
步骤212、根据步骤21制定的数据治理规则,对缺失、异常、多设备等数据问题进行清洗,融合形成涵盖电量、收费、电流、电压、投诉文本等多维度多种类型的数据集。
[0050]
在一个可选实施例中,通过如下方法对数据进行预处理:
[0051]
步骤s221,将已知的电量数据转为k
×
n格式的数据集,其中,k为每个用户乘以对应时间范围数量的总和,n为电量相关变量,同时从收费、电流电压、基本信息数据表提取出所需的字段,形成新的数据集;
[0052]
步骤s222,按照步骤s221的数据集,采用大数据技术分析数据分布趋势与质量问题,梳理数据存在的异常、缺失、重复性、多设备问题等,并编制数据质量报告;
[0053]
步骤s223,根据数据质量报告,结合数据预处理步骤,设定非数值类型、数值类型的缺失、异常、多设备等问题处理方法,并设定极值的界限阈值,制定成数据治理规则;
[0054]
按照步骤s223的数据治理规则,考虑到各系统数据的一致性,对数据进行处理。
[0055]
步骤s3,基于云边协同的煤改电用户监测数据分析评估平台编写邻里用电对比、区域用户用电水平排名等分析应用模块进行节能分析及用电策略分析,根据分析结果在已梳理出的标签中新增同区域用电量对标标签,进一步完善标签维度,并归纳出合理的用电
建议或标签说明。
[0056]
步骤s31:通过采集终端得到的用户数据,应用数据治理模块与节能分析及用电策略分析模块,进行邻里用电对比、区域用户用电水平排名、区域间用户用电行为分析、同类型同品牌设备采暖用电分析等,得到用户用电行为分析趋势、节能用电策略与碳排放排名;或者,通过脚本编写邻里用电对比、区域用户用电水平排名等分析应用模块,进行邻里用电对比等。
[0057]
步骤s32:按照步骤s31的分析结果,在原标签框架基础上,新增同区域用电量对标标签,并修正原有标签维度,不断完善已有的煤改电标签维度,并汇总合理的用电建议。
[0058]
步骤s4,标签提取,根据步骤s1提炼的标签维度,集成定性定量分析、数据挖掘技术得到谷电量占比等指标,利用孤立森林、one-class-svm等算法对电压、电流、负荷进行异常分类,采用k-means聚类分析算法对峰电量占比等指标进行用电偏好划分,使用dbscan自适应聚类构建用户细分模型,融合jieba分词、tf-idf(term frequency-inverse document frequency,词频-逆文本频率)关键词提取和lda(latent dirichlet allocation)主题模型构开展投诉主题分析,形成从用电、电流电压、负荷、投诉文本等多维度进行标签提取与构建,并利用百分位数进行谷电量占比水平等阈值计算,得到对应的最小颗粒度标签的各区间具体划分阈值;
[0059]
标签提取构建,根据步骤s1提炼的标签维度,集成定性定量分析、数据挖掘技术、k-means聚类分析和dbscan自适应聚类等方法,从用电、电流电压、收费等多维度进行标签提取与构建,并利用百分位数进行过阈值计算,得到最小颗粒度标签的具体划分标准;
[0060]
dbscan是一种基于密度的聚类方法,其基本假设是紧密程度决定了类目个数和位置。相同类别的样本之间的距离更近,不同类目的样本之间的距离更远。通过将紧密相连的样本划为一类,由此得到一个聚类的类别,通过将各组紧密相连的样本划到不同的类别,由此实现了最终聚类的效果。
[0061]
k-means算法是一种聚类算法,聚类是根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。主要步骤如下:
[0062]
(1)随机选择k个聚类的初始中心;
[0063]
(2)对任意一个样本点,求其到k个聚类中心的欧式距离,将样本点归类到距离最小的中心的聚类如此迭代n次;
[0064][0065]
其中,ρ表示点(x1,

,z1)与点(x2,

,z2)之间的欧式距离,x2表示点(x2,

,z2)中第一个变量对应的值,x1表示点(x1,

,z1)第一个变量对应的值,z2表示点(x2,

,z2)最后一个变量对应的值,z1表示点(x1,

,z1)最后一个变量对应的值。
[0066]
(3)每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);
[0067][0068]
其中,cj表示第j个类,|cj|表示类内样本数,x表示高维度样本。
[0069]
(4)对k个聚类中心,根据步骤(2)和步骤(3)进行迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不
同的颜色标注。
[0070]
one-class-svm算法是通过寻找一个超球体或超平面,并将样本中的正例圈出来,预测的过程是基于这个超平面做决策,在圈内的样本就认为是正样本
[0071]
假设产生的超球体参数为中心o和对应的超球体半径r》0,超球体体积v(r)被最小化,中心o是支持行了的线性组合;跟传统svm方法相似,可以要求所有训练数据点xi到中心的距离严格小于r。但是同时构造一个惩罚系数为c的松弛变量ζi,优化问题入下所示:
[0072][0073]
||x
i-o||≤r+ξi,i=1,2,3,

,m
[0074]
ξi≥0,i=1,2,

,m
[0075]
其中,m表示样本量。
[0076]
采用拉格朗日对偶求解之后,可以判断新的数据点z是否在内,如果z到中心的距离小于或者等于半径r,则不是异常点,如果在超球体以外,则是异常点。
[0077]
孤立森林算法主要针对的是连续型结构化数据中的异常点。使用前提是将异常点定义为容易被孤立的离群点,容易被孤立的离群点可以理解为分布稀疏,且距离高密度群体较远的点。需要明白的是,从统计学来看,在数据空间里,若一个区域内只有分布稀疏的点,表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。针对异常数据占总样本量比例小、异常点的特征值与正常点的差异大的数据,使用孤立森林算法能够较好的选出异常值。
[0078]
tf-idf是一种统计方法,以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。主要步骤包括:计算词频;计算逆文档频率;计算tf-idf。lda主题模型可以将一篇文中的主题以概率分布的形式来给出,从而通过去分析一些文档抽取出来它们的主题或分布以后,就可以根据主题或分布进行主题聚类或文本分类。
[0079]
步骤41:基于步骤s2的数据集,借助箱型图、数据分布等方法,从正常、持续低、突增等角度分析频率为15分钟的各时段电流数据,挖掘电流异常分布情况,并利用lof算法对个时间段的电流进行异常判断,统计异常发生的次数,根据统计次数进行过流异常分类,提出相应的建议。
[0080]
步骤42:基于步骤s2的电压数据集,根据电压异常判定条件获取正常样本与异常样本,正常样本作为训练集,取正常样本的前1000个(异常样本数据量)并与异常样本形成新的数据集,采用one-class-svm算法构建异常分类模型进行训练与验证,使用新的数据集对模型进行泛化性能测试检验模型的分类准确率,不断优化模型,得到最优模型,通过模型判定电压是否异常。
[0081]
步骤43:基于步骤s2的用电负荷数据,分析一段时间内不同时间段的负荷变化情况与分布特征,初步判定出现持续异常低或高的负荷特征,利用孤立森林算法对每个时段分别进行用电负荷异常分析与分类,统计汇总不同时间段内的异常次数,通过次数划分进行用电负荷异常分类;
[0082]
步骤44:利用趋势图开展尖峰平谷时段的电量变化趋势分析,利用k-means聚类算
法,对谷段电量占比、峰段电量占比、平段电量占比、用电量等指标进行用电偏好分类,归纳每类用电偏好的特征;
[0083]
步骤45:开展用户用电行为分析,挖掘用电规律,结合步骤s3的节能分析与用电策略分析结果,利用统计分析、数据转换、数据缩放等定量分析方法,结合定性分析方法,二次加工后进行基础标签与统计标签提取,基础标签包括基础信息中的用户编号、首次改造时间等,统计标签包括用电水平中的谷电量占比水平、单位面积采暖用电量水平、补贴电费等,用电分析中的用电量趋势等,并通过python编写代码百分位数计算模块,对谷电量占比水平、单位面积采暖用电量水平等指标进行最小颗粒度标签的区间阈值计算。
[0084]
百分位数可以表征一组n个观测值按数值大小排列的顺序。例如,处于p%位置的值称第p百分位数,数值相同的观测值的百分比相同。
[0085][0086]
其中,prj表示百分位数,j表示第j个用户,n表示用户总数,nj表示某一指标中比用户j的数值小于的用户数。某一指标相同数值的用户对应的百分数一致。
[0087]
步骤46:综合分析用户不同维度的用电行为数据,利用层次聚类r型聚类从众多特征中选择重要特征,作为用户细分的划分指标,融合dbscan自适应聚类和谱聚类构建用户细分模型,挖掘不同价值的客户,为客户贴上可洞察的标签。
[0088]
步骤47:使用jieba分词、停用词词典等对“煤改电”用电相关的投诉样本进行分词、去除停用词、去除无关内容等预处理,利用基于信息熵的专业词库构建方法,可得到一些具有明确客户诉求语义的长词组,通过tf-idf统计算法进行“煤改电”相关的关键词提取,基于lda主题模型推断出5个投诉主题分布,根据投诉主题特征提出建议。
[0089]
步骤48:依据前述标签提取方法,按照步骤s1的标签层级框架,形成基础标签、统计标签和挖掘标签3大类,并一一对应2级、3级、4级标签维度,形成分类分级、立体化的“煤改电”标签框架。
[0090]
步骤49:将所有步骤固化、自动化,融合形成完整的应用模块,能够自动且快速完成数据处理、分析与标签计算提取。
[0091]
实施例2
[0092]
根据本发明实施例,还提供了一种用于实施上述数据处理方法的装置。图2是根据本发明实施例的一种可选的数据处理装置的框架图,装置包括:第一确定模块202、获取模块204和第二确定模块206。下面具体说明。
[0093]
第一确定模块202,用于确定多层次标签体系,其中,所述多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,所述第一层级标签包括多种标签类型,所述第二层级标签包括所述多种标签类型中每种标签类型分别对应的多种数据类型,所述第三层级标签包括所述多种数据类型分别对应的多种数据主题,所述第四层级标签包括所述多种数据主题分别对应的数据等级;获取模块204,连接于上述第一确定模块202,用于获取目标电力数据,其中,所述目标电力数据包括煤改电对象的电力数据,所述煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;第二确定模块206,连接于上述获取模块204,用于基于所述多层次标签体系,确定所述目标电力数据的目标标签,其中,所述目标标签包括在所述第一层级标签中所包括的目标标签类型,在所述第二层级标签中
所述目标标签类型包括的目标数据类型,在所述第三层级中所述目标数据类型所包括的目标数据主题,以及在所述第四层级中所述目标数据主题所包括的目标数据等级。
[0094]
此处需要说明的是,上述第一确定模块202、获取模块204和第二确定模块206对应于实施例1中的步骤s102至步骤s106,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。
[0095]
本发明的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述非易失性存储介质可以用于保存上述实施例1所提供的数据处理方法所执行的程序代码。
[0096]
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
[0097]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:确定多层次标签体系,其中,多层次标签体系至少包括第一层级标签,第二层级标签,第三层级标签和第四层级标签,第一层级标签包括多种标签类型,第二层级标签包括多种标签类型中每种标签类型分别对应的多种数据类型,第三层级标签包括多种数据类型分别对应的多种数据主题,第四层级标签包括多种数据主题分别对应的数据等级;获取目标电力数据,其中,目标电力数据包括煤改电对象的电力数据,煤改电对象包括从燃煤获取能源改为从电力获取能源的对象;基于多层次标签体系,确定目标电力数据的目标标签,其中,目标标签包括在第一层级标签中所包括的目标标签类型,在第二层级标签中目标标签类型包括的目标数据类型,在第三层级中目标数据类型所包括的目标数据主题,以及在第四层级中目标数据主题所包括的目标数据等级。
[0098]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标电力数据包括多个子电力数据的情况下,基于多层次标签体系,确定目标电力数据的目标标签,包括:分别针对多个子电力数据中的每个子电力数据,基于多层次标签体系获取每个子电力数据的目标标签;基于每个子电力数据的目标标签,确定目标电力数据的目标标签。
[0099]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标电力数据包括多个子电力数据的情况下,基于多层次标签体系,确定目标电力数据的目标标签,包括:分别对多个子电力数据进行预处理;基于预定关联字段对多个预处理的子电力数据进行整合,获取目标数据集;基于目标数据,确定电力数据的目标标签。
[0100]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标电力数据包括目标对象在预定时间段内的用电总量的情况下,基于多层次标签体系以及目标电力数据,确定目标电力数据的目标标签,包括:根据目标对象在预定时间段内的用电总量和预定用电等级阈值,获取目标对象在预定时间段内的用电量等级;确定用电量等级为与目标对象在预定时间段内的用电总量对应的四级标签,与目标对象在预定时间段内的用电总量对应的四级标签包括以下之一:高电量、一般电量、低电量、用电异常;基于用电量等级,以及多层次标签体系中与用电量等级对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电量等级对应的三级标签、二级标签和一级标签分别包括用电量水平、用电水平、统计标签。
[0101]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:获取多个预定对象在预定时间段内的用电总量,其中,多个预定对象包括以下至少
之一:与目标对象在地理位置上相邻的对象、在目标对象所处区域中的多个对象中除目标对象外的其他对象;在多个预定对象为与目标对象在地理位置上相邻的多个对象的情况下,根据多个预定对象在预定时间段内的用电总量和目标对象在预定时间段内的用电总量的比对结果,对目标对象在预定时间段内的用电量等级进行修正;在多个预定对象为在目标对象所处区域中的多个对象中除目标对象外的其他对象的情况下,根据在目标对象所处区域中的多个对象在预定时间段内的用电总量的排序结果,对目标对象在预定时间段内的用电量等级进行修正。
[0102]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标电力数据包括目标对象在预定时间段内的行为数据,且行为数据包括投诉行为数据的情况下,基于多层次标签体系以及目标对象的目标电力数据,确定目标电力数据的目标标签,包括:根据投诉行为数据,获取与投诉行为数据对应的文本数据;提取文本数据中包含的投诉行为对象数据;根据文本数据中包含的投诉行为对象数据,确定目标对象在预定时间段内的投诉行为对象;确定投诉行为对象为与目标对象在预定时间段内的行为数据对应的四级标签,与目标对象在预定时间段内的行为数据对应的四级标签包括以下之一:停电、电能表异常、采集设备异常、电费退补、电器无法正常使用;基于投诉行为对象,以及多层次标签体系中与投诉行为对象对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签;与投诉行为对象对应的三级标签、二级标签和一级标签分别包括投诉主题、服务需求行为、挖掘标签。
[0103]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标对象的电力数据包括目标对象在预定时间段内多个预定用电时刻的用电负荷分布的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括:根据用电负荷分布,根据预定的用电负荷异常确定方法,获取目标对象在用电数据分布中发生用电负荷异常的次数;基于目标对象在用电数据分布中用电负荷异常的次数,确定用电负荷异常等级;确定用电负荷异常等级为与用电负荷分布对应的四级标签,与用电负荷分布对应的四级标签包括以下之一:高异常、较高异常、中等异常、一般异常、正常;基于用电负荷异常等级,以及多层次标签体系中与用电负荷异常等级对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电负荷异常等级对应的三级标签、二级标签和一级标签分别包括用电负荷异常、异常信息、挖掘标签。
[0104]
可选地,在本实施例中,非易失性存储介质被设置为存储用于执行以下步骤的程序代码:在目标对象的电力数据包括目标对象在预定时间段内的用电数据分布的情况下,基于多层次标签体系以及目标对象的电力数据,确定目标电力数据的目标标签,包括以下至少之一:根据预定的过流异常确定方法,获取目标对象在用电数据分布中发生过流异常的次数,根据发生过流异常的次数确定过流异常等级,确定过流异常等级为与用电数据分布对应的四级标签,基于过流异常等级,以及多层次标签体系中与用电数据分布对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签;与用电数据分布对应的四级标签包括以下之一:不存在、存在一次、存在多次,与用电数据分布对应的三级标签、二级标签和一级标签包括过流异常、异常信息、挖掘标签;根据预定的电压异常确定方法,确定目标对象在用电数据分布中是否存在电压异常数据,根据是否存在电压异常数据确定电压异常等级,确定电压异常等级为与用电数据分布对应的四级标签;基于用电压异常等级,以及
多层次标签体系中与用电数据分布对应的三级标签、二级标签和一级标签,确定目标电力数据的目标标签,与用电数据分布对应的四级标签包括以下之一:正常、异常,与用电数据分布对应的三级标签、二级标签和一级标签分别包括电压异常、异常信息、挖掘标签。
[0105]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0106]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0107]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0108]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0109]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0110]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0111]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1