一种基于电力营销数据的标签产出方法和装置与流程

文档序号：11230662阅读：429来源：国知局

本发明涉及一种标签产出技术，具体涉及一种基于电力营销数据的标签产出方法和装置。

背景技术：

随着国网公司信息化系统的大规模建设，使公司内部积累了海量、多样的数据资源，近年来，公司营销业务领域依托大数据技术已进行了多维度的业务应用探索。在大数据业务应用领域如何透过多层次、多维度的数据集，实现对于某一用户、某一设备或某一种运行状态的现实态势聚焦，如何确定描述这一对象的关键维度，以及各维度之间的关联关系；如何在时间序列的电力营销数据集合中找到分析逻辑，提取数据特征，对特征属性分类，成为电力营销业务应用领域亟待解决的问题。因此需要提供一种技术方案来满足不同类属数据集的功能聚合模型以及数据标签体系构建方法的需要。

技术实现要素：

为有效解决营销业务应用的技术瓶颈，本发明提供一种基于电力营销数据的标签产出方法和装置，实现了大规模数据提取、存储、标签计算、查询检索及可视化展示等，促进标签应用的快速生成，提升标签生产效率和查询检索速度，最终利用大数据技术实现基于电力营销数据的用户画像的生成。

为了实现上述发明目的，本发明采取如下技术方案：

本发明提供一种基于电力营销数据的标签产出方法，所述方法包括：

采集并存储电力营销数据，其中电力营销数据包括用户属性数据、用电行为数据、交易行为数据和履约能力数据；

清理电力营销数据中不符合要求的数据，其中所述不符合要求的数据包括不完整数据、异常数据和重复数据；

根据清理后的电力营销数据产出标签。

所述采集并存储电力营销数据包括：

采用数据贴源的方式从营销业务应用系统或用电信息采集系统中采集电力营销数据；

将采集的电力营销数据存储到电力营销数据库。

所述用户属性数据包括用户档案数据以及与用户绑定且不频繁发生变更的数据；

所述用电行为数据包括带有时间属性的用户用电量和用电负荷数据；

所述交易行为数据包括带有时间属性的用户缴费时间、缴费频度和缴费周期；

所述履约能力数据包括记录用户是否遵守合同约定，以及是否存在窃电、欠费、违约行为的数据。

所述电力营销数据库包括缓冲层、仓库层和展示层；

所述缓冲层用于将采集的电力营销数据通过数据采集工具kettle存储到hive数据库；

所述仓库层用于将采集的电力营销数据通过并行运算编程模型mapreduce处理后存储到hbase数据库；

所述展示层基于搜索引擎elasticsearch创建二级索引，实现对电力营销数据的检索。

所述不完整数据包括基础属性、维度信息和度量值缺失的数据，所述不完整数据包括文本类数据和度量值类数据；

清理电力营销数据中不符合要求的数据，具体包括：对于文本类数据的缺失，通过人工查证或关联历史明细数据的方式补充；对于度量值类数据的缺失，通过查询历史记录补充或基于实际业务含义和业务规则，通过推测方式补充。

所述异常数据包括由于业务系统性能不健全、没有校验规则或缺乏人工管理的原因而被直接写入用电信息采集系统数据库的用电行为数据。

在清理电力营销数据中不符合要求的数据之前，还包括：根据判断规则判断异常数据；

所述判断规则包括飞走判断规则、停走判断规则和倒走判断规则。

所述飞走判断规则是指电能表显示的用户日用电量与用户日可能最大用电量比值大于飞走判断规则阈值，表示为：

其中，dw为电能表显示的用户日用电量；dwmax为用户日可能最大用电量，且dwmax＝imax×u额×24，imax为最大电流，u额为额定电压；k为飞走判断规则阈值。

所述停走判断规则是指电能表两天内日正向有功总电能示值或电能表两天内日反向有功总电能示值的差值等于0，分别表示为：

pf(n)-pf(n-2)＝0

pr(n)-pr(n-2)＝0

其中，pf(n)表示电能表第n天的日正向有功总电能示值，pf(n-2)表示电能表第n-2天的日正向有功总电能示值；pr(n)表示电能表第n天的日反向有功总电能示值，pr(n-2)表示电能表第n-2天的日反向有功总电能示值。

所述倒走判断规则是指电能表当天日正向有功总电能示值小于电能表前一天日正向有功总电能示值，或电能表当天日反向有功总电能示值小于电能表前一天日反向有功总电能示值，分别表示为：

pf(n)-pf(n-1)＜0

pr(n)-pr(n-1)＜0。

所述重复数据包括由于业务系统性能不健全而被重复写入营销业务应用系统数据库或用电信息采集系统数据库的一条或至少两条完全相同用电数据。

所述根据清理后的电力营销数据产出标签包括：

对清理后的电力营销数据进行统计、分析和挖掘，之后通过转换和加工处理后得到标签，并将标签存储至hive数据库。

在根据清理后的电力营销数据产出标签之后，还包括：

从hive数据库中读取标签并对读取的标签进行整合，具体是将分散的标签通过并行运算编程模型mapreduce进行汇总，形成标签集合，最后将标签集合存储至hbase数据库；

从hbase数据库获取标签，并根据关键字建立不同标签之间的索引关系，并将索引关系存放到elasticsearch索引库；

从hbase数据库和elasticsearch索引库中分别读取标签和索引关系，并从redis数据库中读取历史缓存数据，以供用户查询。

所述根据清理后的电力营销数据产出标签之后包括：

利用标签提取用户特征，并基于大数据可视化工具绘制实体画像；

基于画像分类和时间维度实现群体画像绘制和实体画像演变；

基于标签分析用户，并基于可视化展示工具生成用户画像。

本发明还提供一种基于电力营销数据的标签产出装置，所述装置包括：

采集和存储模块，用于采集并存储电力营销数据，其中电力营销数据包括用户属性数据、用电行为数据、交易行为数据和履约能力数据；

清理模块，用于清理电力营销数据中不符合要求的数据，其中所述不符合要求的数据包括不完整数据、异常数据和重复数据；

产出模块，用于根据清理后的电力营销数据产出标签。

所述采集和存储模块具体用于：

采用数据贴源的方式从营销业务应用系统或用电信息采集系统中采集电力营销数据；

将采集的电力营销数据存储到电力营销数据库。

所述用户属性数据包括用户档案数据以及与用户绑定且不频繁发生变更的数据；

所述用电行为数据包括带有时间属性的用户用电量和用电负荷数据；

所述交易行为数据包括带有时间属性的用户缴费时间、缴费频度和缴费周期；

所述履约能力数据包括记录用户是否遵守合同约定，以及是否存在窃电、欠费、违约行为的数据。

所述电力营销数据库包括缓冲层、仓库层和展示层；

所述缓冲层用于将采集的电力营销数据通过数据采集工具kettle存储到hive数据库；

所述仓库层用于将采集的电力营销数据通过并行运算编程模型mapreduce处理后存储到hbase数据库；

所述展示层基于搜索引擎elasticsearch创建二级索引，实现对电力营销数据的检索。

所述不完整数据包括基础属性、维度信息和度量值缺失的数据，所述不完整数据包括文本类数据和度量值类数据；

所述异常数据包括由于业务系统性能不健全、没有校验规则或缺乏人工管理的原因而被直接写入用电信息采集系统数据库的用电行为数据。

所述装置还包括判断模块，所述判断模块用于根据判断规则判断异常数据；

所述判断规则包括飞走判断规则、停走判断规则和倒走判断规则。

所述飞走判断规则是指电能表显示的用户日用电量与用户日可能最大用电量比值大于飞走判断规则阈值，表示为：

其中，dw为电能表显示的用户日用电量；dwmax为用户日可能最大用电量，且dwmax＝imax×u额×24，imax为最大电流，u额为额定电压；k为飞走判断规则阈值。

所述停走判断规则是指电能表两天内日正向有功总电能示值或电能表两天内日反向有功总电能示值的差值等于0，分别表示为：

pf(n)-pf(n-2)＝0

pr(n)-pr(n-2)＝0

pf(n)-pf(n-1)＜0

pr(n)-pr(n-1)＜0。

所述重复数据包括由于业务系统性能不健全而被重复写入营销业务应用系统数据库或用电信息采集系统数据库的一条或至少两条完全相同用电数据。

所述产出模块具体用于：

对清理后的电力营销数据进行统计、分析和挖掘，之后通过转换和加工处理后得到标签，并将标签存储至hive数据库。

所述装置还包括存储模块，所述存储模块具体用于：

从hbase数据库获取标签，并根据关键字建立不同标签之间的索引关系，并将索引关系存放到elasticsearch索引库；

从hbase数据库和elasticsearch索引库中分别读取标签和索引关系，并从redis数据库中读取历史缓存数据，以供用户查询。

所述装置还包括生成模块，所述生成模块具体用于：

利用标签提取用户特征，并基于大数据可视化工具绘制实体画像；

基于画像分类和时间维度实现群体画像绘制和实体画像演变；

基于标签分析用户，并基于可视化展示工具生成用户画像。

与最接近的现有技术相比，本发明提供的技术方案具有以下有益效果：

本发明提供的基于电力营销数据的标签产出方法和装置，通过采集用户属性数据、用电行为数据、交易行为数据和履约能力数据等电力营销数据，并清理电力营销数据中不完整数据、异常数据和重复数据等的不符合要求的数据，最后根据清理后的电力营销数据产出标签，还可以进一步实现用户画像的生成；

本发明提供的基于电力营销数据的标签产出方法和装置，有效地实现了数据特征的提取，减少了数据规模，提高了数据价值密度，本发明提供的技术方案可广泛应用于公司管理效率的提升、电力用户服务的优化、政府部门的辅助决策、电力数据的交易共享；

本发明提供的技术方案通过电力营销数据可以全触点、全渠道多维度洞察用户特征，凭借智能化价值分布、权重分配、时间衰减等分析技术，立体化展现用户的360°画像，可防范潜在风险，并充分挖掘电力用户数据资产价值。

附图说明

图1是本发明实施例中电力营销数据的标签产出方法框图；

图2是本发明实施例中电力营销数据的标签产出方法流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

电力营销数据的用户画像以企业大数据为基础，用于解决如何通过将电力营销用户数据以标签的方式管理与应用的方法，在标签的生成、运行、运维、运营和共享各个环节制定标准化操作流程、数据标准和管理策略，以达到打通用户数据壁垒，充分发挥用户数据价值，实现用户数据增值、变现等一系列的效果。通过用户数据标签化，一方面，有利于挖掘用户数据的利用价值，深化用户标签数据的业务应用，增强用户数据的实用化，推进数据间的共享，进一步提升用户数据的业务支撑能力和数据的管理能力，为公司电网生产、经营管理和优质服务等多领域提供有效的数据服务和决策支持。另一方面，数据标签化是实现数据资产形成和价值增长的有效途径和方法论。

本发明提出了一种基于电力营销数据的标签产出方法，以用户为分析对象，从用户属性、用电行为、交易行为、履约能力等方面提取用户用电数据，形成用户数据标签，生成多级分类模式树，每一级都代表一种对用户的标签定义。

标签定义的方法是用定量的数据被定性分析的业务对象，换句话描述标签定义的方法可以分为三步，第一步，定量分析，整合已知数据，并根据数据间关系性的强弱进行分类；第二步，定性分析，根据定量分析得结果，把抽象的分类结果赋予具体形象的定义；第三步，标签产出，根据定性分析的结果，生成具体的标签。

以下结合流程图(图1)介绍本实施例提供的基于电力营销数据的标签产出方法具体过程：

s101：采集并存储包括用户属性数据、用电行为数据、交易行为数据和履约能力数据等电力营销数据；

具体的采集并存储电力营销数据包括以下步骤：

1)采用数据贴源的方式从营销业务应用系统或用电信息采集系统中采集电力营销数据；

2)将采集的电力营销数据存储到电力营销数据库。

用户属性数据、用电行为数据、交易行为数据和履约能力数据的具体含义如下：

1)用户属性数据包括用户档案数据以及与用户绑定且不频繁发生变更的数据；

2)用电行为数据包括带有时间属性的用户用电量和用电负荷数据；

3)交易行为数据包括带有时间属性的用户缴费时间、缴费频度和缴费周期；

4)履约能力数据包括记录用户是否遵守合同约定，以及是否存在窃电、欠费、违约行为的数据。

上述的电力营销数据库包括缓冲层、仓库层和展示层；下面分别介绍缓冲层、仓库层和展示层的用途如下：

其中，缓冲层用于将采集的电力营销数据通过数据采集工具kettle存储到hive数据库；仓库层用于将采集的电力营销数据通过并行运算编程模型mapreduce处理后存储到hbase数据库；展示层基于搜索引擎elasticsearch创建二级索引，实现对电力营销数据的检索。

s102：清理电力营销数据中不完整数据、异常数据和重复数据等的不符合要求的数据；

上述的不完整数据包括基础属性、维度信息和度量值缺失的数据，不完整数据包括文本类数据和度量值类数据；

清理电力营销数据中不符合要求的数据，具体包括：

对于文本类数据的缺失，通过人工查证或关联历史明细数据的方式补充；

对于度量值类数据的缺失，通过查询历史记录补充或基于实际业务含义和业务规则，通过推测方式补充。

上述的异常数据包括由于业务系统性能不健全、没有校验规则或缺乏人工管理的原因而被直接写入用电信息采集系统数据库的用电行为数据。

上述的重复数据包括由于业务系统性能不健全而被重复写入营销业务应用系统数据库或用电信息采集系统数据库的一条或至少两条完全相同用电数据。

根据飞走判断规则、停走判断规则和倒走判断规则等判断规则判断异常数据，下面分别对飞走判断规则、停走判断规则和倒走判断规则进行介绍：

其中，飞走判断规则是指电能表显示的用户日用电量与用户日可能最大用电量比值大于飞走判断规则阈值，用公式表示为：

其中，dw为电能表显示的用户日用电量；dwmax为用户日可能最大用电量，且dwmax＝imax×u额×24，imax为最大电流，u额为额定电压；k为飞走判断规则阈值。

其中，停走判断规则是指电能表两天内日正向有功总电能示值或电能表两天内日反向有功总电能示值的差值等于0，用公式分别表示为：

pf(n)-pf(n-2)＝0

pr(n)-pr(n-2)＝0

其中，倒走判断规则是指电能表当天日正向有功总电能示值小于电能表前一天日正向有功总电能示值，或电能表当天日反向有功总电能示值小于电能表前一天日反向有功总电能示值，用公式分别表示为：

pf(n)-pf(n-1)＜0

pr(n)-pr(n-1)＜0。

s103：根据清理后的电力营销数据产出标签，具体过程如下：

对清理后的电力营销数据进行统计、分析和挖掘，之后通过转换和加工处理后得到标签，并将标签存储至hive数据库。

在s103的根据清理后的电力营销数据产出标签之后，还需要执行如下操作：

从hbase数据库获取标签，并根据关键字建立不同标签之间的索引关系，并将索引关系存放到elasticsearch索引库；

从hbase数据库和elasticsearch索引库中分别读取标签和索引关系，并从redis数据库中读取历史缓存数据，以供用户查询。

在s103之后还可以进行如下操作：

先利用标签提取用户特征，并基于大数据可视化工具绘制实体画像；

然后，基于画像分类和时间维度实现群体画像绘制和实体画像演变；

最后，基于标签分析用户，并基于可视化展示工具生成用户画像。

如图2，存储于oracle数据库的电力营销数据通过数据采集工具kettle抽取关键字段数据并存储到hive数据库，根据规则清理数据后，经数据统计或分析挖掘算法计算生成基础标签、分析标签和预测标签，存储于hive数据库中，再通过并行运算编程模型mapreduce进行标签整合。分别将标签关系存放到mysql数据库中，用于查询标签结构体系；将单个用户标签数据存放到hbase数据库中，用于查询个体画像；通过搜索引擎elasticsearch进行多种标签的组合查询和存储，查询结果形成群体画像。建立统一对外查询接口，以api接口方式对外提供服务，通过用户编号可在hbase数据库查询个体画像，通过标签名称在搜索引擎elasticsearch查询群体画像，通过标签编号可在mysql数据库查询标签关系，查询结果存储于redis标签缓存库中，并定期更新。

基于同一发明构思，本发明实施例还提供了一种基于电力营销数据的标签产出装置，由于这些设备解决问题的原理与基于电力营销数据的标签产出方法相似，因此这些设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的基于电力营销数据的标签产出装置具体包括采集和存储模块、清理模块以及产出模块，以下分别介绍上述三个模块的功能：

采集和存储模块，具体用于采集并存储用户属性数据、用电行为数据、交易行为数据和履约能力数据等电力营销数据；

清理模块，具体用于清理电力营销数据中不完整数据、异常数据和重复数据等不符合要求的数据；

产出模块，具体用于根据清理后的电力营销数据产出标签。

上述的采集和存储模块首先采用数据贴源的方式从营销业务应用系统或用电信息采集系统中采集电力营销数据；然后将采集的电力营销数据存储到电力营销数据库。

上述的用户属性数据包括用户档案数据以及与用户绑定且不频繁发生变更的数据；上述的用电行为数据包括带有时间属性的用户用电量和用电负荷数据；上述的交易行为数据包括带有时间属性的用户缴费时间、缴费频度和缴费周期；上述的履约能力数据包括记录用户是否遵守合同约定，以及是否存在窃电、欠费、违约行为的数据。

上述的电力营销数据库包括缓冲层、仓库层和展示层，下面分别介绍缓冲层、仓库层和展示层的具体用于：

电力营销数据中不符合要求的数据包括不完整数据、异常数据和重复数据，下面分别对这三种数据的具体定义做出说明：

1)上述不完整数据包括基础属性、维度信息和度量值缺失的数据，不完整数据包括文本类数据和度量值类数据；

清理电力营销数据中不符合要求的数据，具体包括：

对于文本类数据的缺失，通过人工查证或关联历史明细数据的方式补充；

对于度量值类数据的缺失，通过查询历史记录补充或基于实际业务含义和业务规则，通过推测方式补充。

2)异常数据包括由于业务系统性能不健全、没有校验规则或缺乏人工管理的原因而被直接写入用电信息采集系统数据库的用电行为数据。

3)重复数据包括由于业务系统性能不健全而被重复写入营销业务应用系统数据库或用电信息采集系统数据库的一条或至少两条完全相同用电数据。

本发实施例提供的装置还包括判断模块，该判断模块用于根据判断规则判断异常数据，其中判断规则包括飞走判断规则、停走判断规则和倒走判断规则，下面分别介绍上述三种判断规则：

1)飞走判断规则是指电能表显示的用户日用电量与用户日可能最大用电量比值大于飞走判断规则阈值，表示为：

其中，dw为电能表显示的用户日用电量；dwmax为用户日可能最大用电量，且dwmax＝imax×u额×24，imax为最大电流，u额为额定电压；k为飞走判断规则阈值。

2)停走判断规则是指电能表两天内日正向有功总电能示值或电能表两天内日反向有功总电能示值的差值等于0，分别表示为：

pf(n)-pf(n-2)＝0

pr(n)-pr(n-2)＝0

3)倒走判断规则是指电能表当天日正向有功总电能示值小于电能表前一天日正向有功总电能示值，或电能表当天日反向有功总电能示值小于电能表前一天日反向有功总电能示值，分别表示为：

pf(n)-pf(n-1)＜0

pr(n)-pr(n-1)＜0。

上述的产出模块对清理后的电力营销数据进行统计、分析和挖掘，之后通过转换和加工处理后得到标签，并将标签存储至hive数据库。

本发明实施例提供的装置还包括存储模块，该存储模块先从hive数据库中读取标签并对读取的标签进行整合，具体是将分散的标签通过并行运算编程模型mapreduce进行汇总，形成标签集合，最后将标签集合存储至hbase数据库；接着从hbase数据库获取标签，并根据关键字建立不同标签之间的索引关系，并将索引关系存放到elasticsearch索引库；最后从hbase数据库和elasticsearch索引库中分别读取标签和索引关系，并从redis数据库中读取历史缓存数据，以供用户查询。

为了实现用户画像的构建，本发明实施例提供的标签产出装置还包括生成模块，该生成模块先利用标签提取用户特征，并基于大数据可视化工具绘制实体画像，然后基于画像分类和时间维度实现群体画像绘制和实体画像演变，最后基于标签分析用户，并基于可视化展示工具生成用户画像。

为了描述的方便，以上所述装置的各部分以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓春宇;涂莹;王晓蓉;颜拥;沈然;史梦洁;王新迎;刘鹏;刘凤魁;韩笑;季知祥;张国宾;杨硕;张玉天;丁麒;王庆娟;童钧;胡若云
技术所有人：中国电力科学研究院;国家电网公司;国网浙江省电力公司电力科学研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。